Анализ постов и подсайтов DTF по открытым данным
На DTF более 120000 постов, 309 подсайтов (из них 3 скрытых), половина всех постов содержит меньше одного абзаца текста, а самый большой лонг — 200000 символов. Правда ли, что DTF — это площадка для продвижения интересов Sony? Правда ли, что лонгов становится меньше? Мемы и щитпосты убивают DTF? Попробуем разобраться.
Оглавление
Введение
Этот пост — продолжение моего прошлого поста с анализом пользователей DTF по открытым данным.
Там я написал, как собирал данные и что я с ними сделал. Если кратко, то я использовал API и тот факт, что DTF использует инкрементальные идентификаторы.
Данные, которые я анализирую в этом посте — это копия базы данных постов на 20 июля. Все сделано на Python и PostgreSQL. Исходники можно найти тут:
Посты
122473
Но тут есть подвох. Не все посты из этих 122473 являются полноценными постами в нашем понимании. Разобьем их по типу.
- Тип 1 — это как раз и есть посты, которые мы обычно видим. Так что можно обновить цифру.
111621
- Тип 2 — это вакансии. Например, вот и вот.
- Тип 3 — это бизнес-посты и внутренняя информация. Например, сюда попадают правила общения на DTF, вопросы и ответы про размещение платных объявлений и аналитическая сводка для бизнес-партнеров по состоянию на ноябрь 2019.
- Тип 4 — хз. Либо не существует, либо у меня нет доступа ни к одному посту этого типа.
- Тип 5 — репосты. В API репосты выглядят так же, как и обычные посты, но у них автор заменен с настоящего на того, кто репостил. Если б не отдельный тип, то я бы задолбался отделять их от настоящих постов.
Можно построить график постов.
Количество постов растет экспоненциально. Возможно, в какой-то момент DTF достигнет сингулярности, и контент будет выходить быстрее, чем аудитория сможет с ним справиться.
Тут есть одна аномалия. DTF перезапустился в середине 2016 года, но по какой-то причине, у некоторых постов даты публикации уходят в 2014 и 2015 года. Таких постов мало, поэтому погрешностью можно пренебречь.
UPD: Комментарий от пользователя:
> у некоторых постов даты публикации уходят в 2014 и 2015 года
Эти посты были перенесены с VC
Построим график количества новых постов в неделю.
Все больше и больше постов появляется каждую неделю. В июне 2020 года есть огроменный пик. Это еще не сингулярность, просто в этом месяце пользователям стали доступны репосты (а некий Гоша сделал 5254 репоста). Дальше будем работать только с постами первого типа без репостов и вакансий.
Даже без репостов, начиная с апреля 2020-го, на DTF появляется больше 1500 постов в неделю (иногда больше 350 за день).
Здесь есть один аномальный пик — огромное количество новых постов в конце 2018 года. Это конкурс концептов для игр про продажу винила.
Насколько я помню, он успел всех изрядно подзадолбать и даже вызвал пару скандалов.
А еще на графике хорошо видно, что количество новых постов немного уменьшается в конце декабря перед каждым Новым Годом.
Еще один вопрос, который может возникнуть при взгляде на этот график — это какова среди них доля мемов. Мемов много, это один из самых быстронаполняемых подсайтов, но мемы дают лишь малую часть от общего количества постов.
Посмотрим долю разных подсайтов по их вкладу в общее количество постов за последние два года.
Важно: это не количество постов в подсайтах, а именно их доля от общего количества новых постов каждую неделю. Т.е. в подсайт Игры не стали писать меньше, просто раньше он давал 50% от всех постов, а теперь 10%. Количество в абсолютных цифрах мы еще рассмотрим далее.
Самое интересное, что можно заметить на этом графике — это блоги. Судя по графику, они появились в сентябре 2019-го, потом в 2020-м стали резко развиваться и сейчас дают 35% от всех новых постов.
Так выглядит топ подсайтов по количеству постов за все время (июль 2020).
Подсайты
309
97
3042
212
3
Да, на DTF есть три скрытых подсайта. Как я их нашел, можно прочитать у меня в блоге (не забудьте подписаться).
Посты в подсайтах
Рассмотрим количество постов в разных подсайтах в разное время. Тут стоит учесть факт, который я обнаружил в своем посте про анализ пользователей DTF
Получается, 27 мая 2018 на DTF была миграция базы данных и/или рефакторинг, чтобы и пользователи, и подсайты были в одном и том же пространстве идентификаторов.
Т.е. подсайты в своем текущем виде были созданы 27 мая 2018, поэтому нет особого смысла смотреть графики до этого времени. Будем отслеживать тренды с июня 2018 по июль 2020. Чтобы не плодить картинки, я буду объединять подсайты в группы, а некоторые вообще не буду делать, если там ничего интересного.
Игры, Индустрия игр и Gamedev
Посты в подсайтах, связанных с играми, выходят стабильно. Не было ни спада, ни роста. Иногда в «играх» есть выбросы — скорее всего, это какие-то важные релизы или другие инфоповоды. Например, самый большой пик на графике — это июнь 2020-го — выход The Last of Us 2. Пик в июне 2018-го — это E3 2018.
Подсайт «индустрия игр» появился позже остальных: 10 сентября 2018 года. На графике видно, что количество постов в «геймдеве» сразу уменьшилось, так как бизнес-темы ушли в новый подсайт. В «индустрии игр» есть посты и до сентября 2018 года — это, скорее всего, из-за того, что некоторые посты перенесли в новый подсайт после его создания.
Посмотрим отдельно, что из этого делает редакция, а что — пользователи (UGC, user generated content).
Редакция все меньше и меньше пишет в «Игры», зато пользователи — все больше.
То же самое и с Gamedev — большую часть контента создают пользователи.
В «индустрии», наоборот, большинство постов — у редакции.
В комментариях, возможно, будут шутки про то, что это из-за того, что редакция просто ворует посты у пользователей, отбирает у них авторство и добавляет плашку «Спасибо за наводку» или «Дополнено редакцией», поэтому я добавил графики для таких «украденных» или дополненных постов. Собственных постов редакции все еще больше, чем других.
Есть небольшой тренд на увеличение количества постов. Тренд долгосрочный, так что не сказал бы, что он связан с недавним изменением правил в подсайте.
Кино и сериалы
В «кино и сериалах» тоже есть тренд на снижение редакторских постов и рост пользовательских. Пик редакторских постов в июле 2019-го я объяснить не могу, там не было каких-то особых инфоповодов. Просто так получилось, что вышло много новостей за одну неделю.
Офтоп
Редакция в «офтоп» почти не лезет. Огромный пик в пользовательских постах в июне 2020-го — это протесты в США, TLOU2 и размышления на тему чемоданов в игровой журналистике.
Вопросы, Мемы, Видео и гифки
Самые быстроразвивающиеся подсайты. Без комментариев.
Жизнь
В «жизни» ничего интересного, все стабильно.
Инди
Пик в июле 2019-го — это индиджем на DTF. В 2020 есть тренд на увеличение пользовательских постов в «Инди».
Музыка, Аниме, Железо
В этих подсайтах стабильный рост. В «музыке» в июле 2020-го большой всплеск — кто-то просто начал выкладывать большое количество музыкальных клипов каждый день, никакого особого инфоповода я там не увидел. В июле Spotify появился в СНГ, но пик не из-за него.
Творчество, Арт, Скриншоты
Пик в «творчестве» в апреле 2020-го — это конкурс демонов.
Пик в «скриншотах» в июле 2019-го ни с чем ни связан. Люди пошли в новый подсайт постить свои скриншоты, а потом быстро успокоились.
О порно
Взлет, падение и новый взлет (?) подсайта «О порно». Правда, я бы переименовал его из «О порно» просто в «Порно».
Другие подсайты
Я не стал добавлять все подсайты сюда. Если вам интересно что-то конкретное, спрашивайте в комментариях. Но имейте в виду, что у меня данные только до 20 июля 2020.
Просмотры
104,368,242
Топ 30 постов по количеству просмотров
Доля просмотров подсайта от общего количества просмотров на DTF
Отсюда видно, что DTF — это все еще сайт про игры, сейчас они дают примерно 25% всех просмотров. «Кино и сериалы» — 10%, «офтоп» — 7%, «индустрия игр» — 12-13%, gamedev — примерно 1.5%.
Помните я писал, что по количеству постов блоги занимают 35% от всех новых постов? Так вот, по количеству просмотров они дают меньше 2%. С точки зрения трафика блогов на DTF не существует. У Gamedev трафик тоже маленький, но там особая аудитория, поэтому нельзя напрямую сравнивать просмотры в этом подсайте и в остальных — эти просмотры могут быть гораздо дороже с точки зрения стоимости рекламы.
Топ 30 подсайтов по количеству просмотров за июнь 2020 и их доля от общего количества просмотров в июне 2020
Вот таблица с более точными числами, чтобы примерно понимать, какую долю трафика обеспечивают разные подсайты за месяц.
Рейтинг
5,564,600
Топ 30 постов по рейтингу
Замполит захватил этот топ.
Мой прошлый пост про анализ пользователей DTF на 48 месте. В таблицу не попал, но все равно приятно. Подписывайтесь на блог, кстати.
Топ 30 постов с отрицательным рейтингом
12698
Комментарии
5,573,269
Топ 30 постов по количеству комментариев
Количество новых комментариев за неделю
Количество комментариев в неделю растет экспоненциально. Я слышал точку зрения, что DTF стал токсичным 2 года назад. А ведь с тех пор частота комментариев увеличилась в 4 раза. Тяжелая у Шерифа и Рейнджера работа.
Среднее количество комментариев на пост
Комментариев становится все больше, но и постов тоже становится больше. Из-за этого средний размер дискуссии начал падать, начиная с начала 2019 года.
Падение комментариев в конце 2018 года — это все тот же конкурс «Продай винил». конкурсных постов выходило очень много, а комментариев все столько же.
Закладки
Топ 30 постов по количеству закладок
Репосты
К сожалению, API не дает нормальной информации о том, что и откуда репостят. Можно узнать только то, кто репостит. Потом уже можно открыть пользователя/подсайт и посмотреть, что он репостит, но это нельзя автоматизировать.
Топ 30 пользователей/подсайтов, любящих делать репосты
Я уже упоминал Гошу. Гоша очень любил делать репосты. К сожалению, он перестал их делать.
«Подкасты» репостит себе новые выпуски подкастов из подсайтов этих подкастов.
Larian Studios репостит все посты про их игры и про саму студию.
Размер постов
Топ 30 постов по длине текста
Первые два поста — это тесты максимального размера поста на DTF. Третий пост — это тест Zalgo-текста. Я у себя в блоге писал, что такое Zalgo-текст и как он работает (подписывайтесь на блог).
К сожалению, некоторые редакторские посты используют особую верстку, если там есть спонсорская интеграция, поэтому в API они отображаются не как текст, а как HTML. Их полную длину посчитать либо сложно, либо невозможно. Из-за этого, например, в статистику не попал вот этот монументальный труд Семёна Костина:
Распределение длины текста
Построим график распределения длины текста. Я убрал тестовые посты, так как их длина нам не интересна и из-за них графики становятся нечитабельными.
На этом графике ничего не понятно, так как особо длинные посты ломают масштаб (а представьте, если б я еще и тестовые посты оставил..). Построим график от 0% до 95%, чтобы отрезать то, что мешает.
Здесь уже масштаб гораздо лучше. Для тех, кто любит точность, вот еще и таблица с конкретными значениями:
10% постов на DTF не содержат текста вообще (не считая заголовка). Т.е. это только медиа-данные: гифки, видео, изображения и подобное.
Медиана: 749. Это значит, что половина постов на DTF содержит меньше 749 символов текста. Если вам интересно, сколько это, 749 символов, то вот:
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Quisque elementum in eros nec pharetra. Praesent id mauris vitae erat tincidunt cursus. Aliquam erat volutpat. Quisque commodo semper quam, sit amet vehicula justo iaculis et. Sed leo nibh, sollicitudin in arcu et, iaculis vulputate nisi. Morbi dignissim felis risus. Aenean vulputate tortor et diam posuere, vitae posuere erat sollicitudin. In hac habitasse platea dictumst. Nulla sit amet nisi ullamcorper, tincidun urna et, tristique dui. Nulla facilisi. Pellentesque iaculis ultrices ex, eget blandit mauris semper a. Curabitur pulvinar mollis tellus quis ornare. Mauris et eros augue. Vestibulum pellentesque rutrum risus nec dignissim. In non diam eu nunc consequat pharetra at quis at.
90% постов содержат меньше 5900 символов. Это примерно 2 страницы Arial’ом с размером 12.
Лонги
На DTF у людей иногда появляются мысли, что лонгов становится все меньше. Олег Чимде заметил эти настроения и даже писал у себя в блоге, что, как минимум, с редакционными лонгами все в порядке.
Тут есть одна проблема — что вообще считать лонгом? В зависимости от критерия мы можем получить разную статистику.
Лонги, отмеченные хештегами
7193
Построим график новых лонгов.
Пик постов в конце 2018 года — это уже хорошо знакомый нам конкурс «Продай винил». По какой-то причине текстовые описания идей для игр отмечены тегом #long .
Предполагаю, что на DTF в какой-то момент прошлись скриптом и повесили этот тег всем постам с длиной выше определенного значения.
В январе 2019-го виден резкий спад в количестве лонгов. Построим отдельные графики для #long и всех остальных.
Если выборочно посмотреть посты с #long , то видно, что там все подряд — не только полноценные статьи, которые сейчас принято считать лонгами, но и новостные заметки.
Так как мы выяснили, что тегам для лонгов нельзя доверять до января 2019 года, дальнейший анализ будет только для постов после этой даты и только для остальных тегов без #long .
Таких лонгов уже меньше:
1457
Распределение длины лонгов
Есть несколько очень маленьких постов, но это не лонги, а просто упоминания лонгов в вопросах или каких-то постах в блогах.
Медиана для длины текста в лонгах: 15361. Это чуть меньше 6 страниц Arial’ом с размером 12.
График новых лонгов
Из графиков видно, что количество лонгридов (по тегам) не меняется. Оно держится в районе 15 штук в неделю. Причем половина из них редакторские, а половина — пользовательские.
Я не буду делать подробные графики лонгов по отдельным подсайтам, так как они не информативны. Олег Чимде писал, что у них есть фиксированный бюджет на лонги на каждый месяц, и я полагаю, что этот бюджет не привязан к подсайтам. Поэтому в какой-то месяц может быть больше постов в «играх», а в какой-то где-то еще: «кино», «аниме», «железо», что угодно. Такие графики просто не будут нести какой-то полезной информации.
Топ подсайтов/блогов по количеству лонгов
Топ подсайтов по количеству редакторских лонгов
Забавный факт: редакция написала больше лонгов в «кино и сериалы», чем в «игры».
Топ подсайтов/блогов по количеству пользовательских лонгов
А вот пользователи больше всего лонгов пишут в «игры».
Топ 30 авторов по количеству лонгов
Топ 30 авторов по суммарному объему текста в лонгах
Лонги с длиной текста выше порогового
Второй способ определять лонги — это брать тексты, длина которых больше определенного порога. Какого порога? А я не знаю. Статистика — это манипуляция числами. Я могу подобрать порог так, чтобы результаты получились такими, какими мне было бы выгоднее их показать. Поэтому я не буду так делать.
Вместо это лучше построим график изменения медианной длины поста и заодно 25- и 75-процентили. Медиана — это то же самое, что и 50-процентиль.
На графике видно, как рост количества мемов, видео, гифок и вопросов влияет на статистику длины постов — они становятся все короче.
Вот график длины постов, если брать только основные контентные подсайты (игры, кино и сериалы, индустрия игр, gamedev):
Отсюда видно, что в 2017 тексты были длиннее. В 2018 стали укорачиваться (вероятно из-за роста новостных заметок), в 2019 стабилизировались, а в 2020 есть небольшой рост.
А вот график, если брать лонги (по тегам):
У лонгов все хорошо. Есть даже небольшой тренд на увеличение их размера.
«Спасибо за наводку» и «Дополнено редакцией»
943
3822
Топ 30 пользователей по количеству постов, которые забрала редакция и добавила автора в «Спасибо за наводку»
Топ 30 пользователей по количеству дополненных постов с сохранением авторства
В комментариях жду шутки про то, почему Andrey Apanasik не на первом месте.
Хештеги
Во всех таблицах и графиках в этом разделе я не учитываю дубликаты тегов в постах. Т.е. если в каком-то посте какой-то тег используется более одного раза, то такой тег будет учтен всего один раз.
Топ 30 хештегов по количеству постов с ними
Топ 7 хештегов в разные месяцы
Я убрал из таблицы хештеги, которые, по моему мнению, не несут информации о трендах, а просто обозначают тип поста: long, лонг, кино, фан,мнения, обзоры, разбор, опыт, игры, видео, сериалы,деньги, топы, истории, мобайл, киберспорт.
Таблицу довольно сложно читать, поэтому самые интересные тренды в хештегах я вынес в отдельные графики.
Тренды в хештегах
thelastofus, thelastofus2, tlou, tlou2
nintendo, microsoft, sony
Ничего интересного, основные платформодержатели упоминаются равномерно. Большой пик в июне 2020-го — это The Last of Us 2.
xbox, playstation, switch
Switch упоминается в тегах реже, чем другие две консоли, но со стабильной частотой. Количество упоминаний Xbox и PS увеличивается. Вероятно, из-за приближающегося релиза нового поколения.
Эффект The Last of Us 2 здесь тоже виден.
steam против egs
Галёнкин, конечно, молодец, но Гейба ему не догнать.
играпрестолов
Первый пик — 7й сезон, второй пик — 8й сезон.
микротранзакции
Первый пик в октябре 2017го — это новости о грядущем релизе Star Wars Battlefront II и о том, что там прогрессия завязана на лутбоксах и микротранзакциях. Большой пик в ноябре 2017го — это релиз игры и последующее обсуждение лутбоксов, микротранзакций, этичности их использования в платных играх, а также новости о том, как правительства разных стран размышляют, являются ли лутбоксы разновидностью казино.
коронавирус
Коронавирус перестал быть инфоповодом и стал обыденностью.
cyberpunk2077
Хайптрейн Cyberpunk 2077. Пики каждое лето — это новые трейлеры.
Я хотел показать, как изменялись популярные теги на DTF в виде эффектной гифки или видео, как это было модно некоторое время назад, но это оказалось сложнее, чем я думал. Я еще вернусь к этой идее позже. Подписывайтесь на мой блог, чтобы не пропустить.
Когда лучше публиковаться
Rokors опередил меня своим постом по этой теме.
У него в анализе было 3500 постов, а у меня 111621. Посмотрим, отличаются ли наши результаты.
Количество постов в разные часы
Если брать все посты за все время, то больше всего публикаций приходится на 15-16 часов.
Если брать посты только за первую половину 2020 года (37341 постов), то теперь график уже не такой ровный. Максимум публикаций теперь в 19-20, пик в 15-16 часов все еще сохраняется. Есть еще небольшой выброс в 13 часов (обед?).
У редакционных постов различие между днем и ночью еще сильнее. Пик публикаций — 16 часов. В 15 часов, наоборот, падение количества публикаций.
Пользователи в меньшей степени заботятся о времени публикации. Из этого графика видно, что пик публикаций в 19-20 часов обеспечивают именно они, а не редакция.
В блогах пользователи разгоняются примерно к обеду, постят равномерно до 23 часов, а потом идут спать (иногда).
Количество постов в зависимости от дня недели
В выходные постов меньше. Из будних дней есть небольшое уменьшение постов по понедельникам. В случае редакции разница по дням более заметна. Пик редакционных постов — четверг.
Количество лонгов в зависимости от часа публикации
Лонги определяются по тегам.
Пик публикации лонгов — 18 часов.
Редакция как будто выпускает лонги в определенное время: 14, 16 или 18 часов. Пользователи любят выпускать лонги утром (10-12), в 15 часов и вечером (17-18).
Количество просмотров в зависимости от часа публикации
Сразу важное замечание: это не количество просмотров в определенное время. Это количество просмотров у постов, которые были опубликованы в это время. Эти графики показывают корреляцию между временем публикации и просмотрами, но из них нельзя понять, когда на DTF наибольший трафик.
Если брать все посты, то среднее количество просмотров на пост примерно одинаковое в разные часы. С 23 до 3 часов лучше не публиковаться, у таких постов меньше просмотров. Возможно, из-за того, что они теряются в ленте после других утренних постов.
Если брать только редакционные посты, то у ночных постов просмотров заметно больше. Нужно иметь в виду, что ночью редакция выкладывает очень мало постов, поэтому у ночной статистики очень большая погрешность. Эти всплески сглаживаются на общем графике, потому что ночью пользователи постят гораздо больше, чем редакция, и из-за этого среднее количество просмотров падает.
У пользователей среднее количество просмотров меньше в несколько раз, так как у них нет такого мощного инструмента продвижения, как выкладывание постов в соц.сети. Больше всего собирают посты, выходящие утром в 4-7 часов. Видимо, это как раз те посты, которые по утрам отбирают все внимание у постов, которые выходят в 23-3 часов. А так как люди начинают активно постить часов с 10, то эти утренние посты несколько часов висят в свежем, собирая просмотры.
Лонги
Судя по этому графику, лучше всего публиковать лонги в 14 или в 23 часа. Но про 23 часа — это неправильный вывод. Сейчас объясню почему.
Сравним графики средних просмотров для редакции и для пользователей.
Тут видно, что пик среднего количества просмотров в 23 часа дает именно редакция. Теперь возвращаемся на несколько графиков назад и смотрим, сколько постов редакция выпустила в 23 часа вечера за рассматриваемый период времени. Там всего один пост. Вот этот:
Он собрал много, так как там был важный инфоповод, но это статистическая аномалия, мы не можем делать выводы только по одному посту.
Поэтому, если убрать такие аномалии, самым эффективным временем публикации лонгов получается 14 часов по московскому времени.
Количество просмотров в зависимости от дня недели
Количество просмотров падает у постов, опубликованных в пятницу и на выходных, но не сильно.
А вот лонги выгодно публиковать в пятницу и воскресение. У меня нет статистики по тому, в какое время у постов появляются просмотры, но предполагаю, что пятничные посты набирают просмотры в тот же день, а воскресные — в понедельник.
Я не буду строить графики для рейтинга постов и количества комментариев, так как уже есть графики количества просмотров, а просмотры конвертируются в рейтинг и комментарии в зависимости от качества поста. Качество поста, очевидно, не зависит от времени публикации, а если и зависит, то так слабо, что на графиках мы этого не увидим.
На этом все. Получилось и так гораздо больше, чем я ожидал. Если у вас есть еще какие-то идеи для графиков или таблиц, то пишите об этом в комментариях — я либо отвечу прям там в комментариях, либо потом соберу в дополнительный пост с заявками читателей.
Ну и подписывайтесь на блог. Я периодически выкладываю подобную дичь там. Да, это уже пятый призыв подписываться на мой блог, но вдруг вы пропустили первые четыре.
Полезно, спасибо.
очень круто
Здорово! Обожаю графики, статистику и в ней копаться.
йоптвоюмать, вот тебе денег, я тебя боюсь