Немного Виабу-аналитики за февраль
Аналитический щитпост с некоторым количеством графиков и цифр, а также моими праздными рассуждениями. По мотивам публикации об итогах февраля подсайта Виабу.
Оглавление
- Введение
- Общие показатели
- Пользователи
- Публикации
- Заключение
Введение
Цель данного поста - дополнить и визуализировать результаты, опубликованные в официальном.
Откуда и каким образом были получены данные? DTF сделан на платформе "Основа" (далее - Очоба), как и несколько других сайтов издательского дома "Комитет". Очоба имеет свой открытый API, также есть документация (хотелось бы более подробную, но уж какая есть).
Я написал небольшой скрипт на Python, который возвращает список статей (в JSON формате) из подсайта в порядке их публикации и записывает их в csv-файл. Затем полученные данные были обработаны в отдельном Jupyter Notebook'е с использованием библиотек pandas, numpy, matplotlib и seaborn.
Важно отметить пару моментов. Во-первых, результаты моих исследований немного не сошлись с официальными. Основная причина в том, что данные для исследований я выгрузил из DTF'a 01.03.2021, ровно в 12:00. К тому же, возможно, часть погрешности вызвана несовершенством моих методик подсчёта. Впрочем, это не играет особой роли, поскольку относительная погрешность расчётов не превышает 1.8%.
Во-вторых, анализировалось только содержимое и показатели постов (кол-во просмотров, комментариев, лайков, символов и медиаконтента и т. д.).
Итак, официальная часть наконец-то завершена и мы можем перейти к самому интересному!
Общие показатели
Все данные были разбиты на две категории: с учётом репостов и без. В любом случае я буду уточнять, учитывались ли репосты при построении визуализаций или нет.
605
Из них: 518 статей подсайта и 87 репостов.
114
Из них 90 - в подсайт. Остальные - репосты.
7238
Из них: в статьях подсайта - 4464, в репостах - 2774.
218695
136519 - у статей подсайта, а 82176 - у репостов.
8327
5775 у статей подсайта и 2552 у репостов.
И, наконец, один из самых популярных показателей - лайки!
23061
18491 за статьи в подсайте, 4570 у репостов.
Вот здесь и появляется первое серьёзное расхождение с официальной статистикой. Полученные мною значения учитывают также удалённые посты, поскольку они не стираются полностью из базы Очобы, а удаляется только их содержимое, количественные показатели сохраняются и они всё так же висят в ленте подсайта.
Лайки есть лайки, но, чтобы быть до конца честным, я уберу удалённые статьи из расчёта и тогда получится:
22450
18087 за статьи в подсайте, 4363 у репостов.
В таком случае необходимо произвести перерасчёт и остальных, ранее расмотренных показателей! Но, увы, не в этот раз.
Просто скажу, что погрешность, внесённая удалёнными статьями в показатели просмотров, добавлений в закладки и комментарии составляет не более 1.4% для каждого показателя.
Тем более, что я считаю, что "фарш невозможно провернуть назад" и раз уж удалённые посты были просмотрены и прокомментированы, то их уже не развидеть и не откомментировать.
На этой лирической ноте предлагаю дальше рассматривать лайки. Посмотрим, каково распределение лайков у постов.
Итак, лайки за публикуемые статьи, вне зависимости то того репост это или статья подсайта, имеют логнормальное распределение с длинным правым хвостом. Медиана: 33 для левого и 38 для правого графиков соответственно. Таким образом, большая часть статей имела рейтинг от 20 до 50. Имеются заметные выбросы - посты-аномалии, имеющие необычно высокие показатели лайков. Чуть позже мы их рассмотрим.
Немного посмотрим на временные ряды! На графике представлено количество публикуемых статей посуточно.
Какой-то явной закономерности выявить не удалось. Из очевидного: сильно выделяются 8-е и 26-е февраля, а также 5-е, 17-е и 22-е. Были проанализированы посты за указанные (и смежные) числа, но выяснить причину подобных резонансов и спадов не удалось.
Каких-то явно выраженных отклонений от среднего значения на графике нет. В понедельник чуть больше постов, в выходные - чуть меньше.
И в заключение посмотрим на пару важных количественных показателей:
234911
3652
Чтобы представить это великолепие взглянем на диаграмму рассеяния:
Сложно сделать какие-либо далекоидущие выводы, основываясь на этой визуализации. Можно отметить, что есть как минимум 3 группы:
- около начала координат - там расположены посты-мемы
- вертикально расположенное облако точек с околонулевым значением абсциссы - это подборки медиаконтента
- горизонтально расположенное разрозненные точки - это преимущественно текстовые статьи
Количество лайков, указанное в легенде графика - ориентировочное, т. е. чем темнее точка, тем больше лайков. Как видно из графика, наиболее тепло в этом месяце были приняты статьи-подборки, но не обделены вниманием и текстовые посты.
Пользователи
Теперь посмотрим, кто опубликовал наибольшее количество постов, без учёта репостов. Встречаем победителей!
Таким образом получается, что:
30.12 %
Дополнительно стоит взглянуть кто принёс своими постами больше всего рейтинга сообществу, опять же, без учёта репостов.
41.28 %
Впечатляет!
Публикации
Пришло время разобраться с публикациями. Будем рассматривать топ-10 публикации по различным показателям. Репосты не учитываются.
Из необычного можно отметить сильный отрыв топ-1 от топ-2. Остальные претенденты шли достаточно ровно.
А в этом случае помимо отрыва топ-1 от топ-2 также заметен отрыв топ-2 от топ-3.
В этом случае ничего примечательного, все претенденты шли достаточно ровно.
Теперь рассмотрим топ постов по различным категориям. На данный момент разделение по категориям мной было проведено на основе тривиальных критериев, а именно:
- Одна единица медиаконтента в статье (неважно что: видео, аудио, картинка) - это пост-мем
- Более 5 единиц медиаконтента в статье - это подборка
- Количество символов превышает 2000 - это лонгрид
Не лучший вариант, но лучше, чем ничего. ( ° ʖ °)
Итак, топы:
В завершении хочется привести пару лирических отступлений.
Первое. Если бы учитывались репосты, то картина выглядела бы кардинально иначе.
Евангелион, Киберпанк, отголоски неприятного скандала во всех его проявлениях, интервью с Kurisu, инициатива по поддержке авторов лонгридов от Андрея Апанасика, удалённые статьи Hikka по Steins;Gate и немного тематических статей из подсайта - вот, что содержал бы топ, если бы учитывались репосты.
Второе. Очень жаль, что Hikka удалил свой аккаунт, поскольку топ выглядел бы несколько иначе, а именно:
Да, это была именно та статья по Steins;Gate. И, помимо прочего, это была одна из тех статей-аномалий на распределении на 6-й диаграмме в первом разделе настоящей статьи.
Заключение
В результате анализа можно сделать вывод: Виабу - это динамично развивающееся сообщество. В феврале было немало постов, но меньше, чем обычно. Об этом свидетельствует хотя бы вот этот график.
Но, судя по всему, в скором времени нас ожидают новые интересные активности! Будем ждать с нетерпением!
P. S.
Во время анализа данных проводился расчёт основных статистических показателей для переменных. Однако я посчитал нецелесообразным приводить полученные значения, поскольку сами по себе они не имеют практического смысла. Их нужно интерпретировать совместно с этими же показателями, рассчитанными для других месяцев. Указанное исследование выходит за рамки настоящей статьи и будет проведено в будущем. =)
А ещё в редакторе отсутствует возможность создавать таблицы. Возмутительно! Как же так?
На данный момент есть ещё пара идей для того, что можно проанализировать. Предлагайте свои варианты в комментариях и я постараюсь включить их в следующие статьи. Если вам это вообще интересно, конечно. ( ° ʖ °)