Немного Виабу-аналитики за март
Анализ постов по открытым данным по мотивам итогов марта подсайта Виабу. Немного графиков, цифр и комментариев.
Оглавление
Предварительные замечания
Традиционно анализировалось только содержимое и показатели постов (кол-во просмотров, комментариев, лайков, символов и медиаконтента и т. д.). Данные собраны 2 апреля в 22∶37 (GMT+3).
На этот раз результаты исследования категорически не сошлись с официальными — у меня они сильно завышены (хотя кол-во постов меньше). Относительная погрешность составляет от 5.13 % до 9.81 % в зависимости от показателя, а с просмотрами разница вообще в разы.
Я предполагаю, что основная часть расхождения обусловлена тем, что база собрана позже конца месяца (практически на двое суток). За это время пользователи успели посмотреть, лайкнуть, прокомментировать и ещё всячески провзаимодействовать с публикациями. Ещё часть расхождения в данных обусловлена тем, что на этот раз я таки удалил из датафрейма всю информацию о публикациях удалённых пользователей. А за март удалился как минимум один активный пользователь — Фарид. К тому же, часть постов из подсайта конкретно для меня недоступна, даже при авторизации возникает ошибка 403.
Это может быть причиной того, что у меня в датасете меньшее количество постов, поскольку подобные публикации не индексируются при используемом способе сбора данных, и, соответственно не видны в ленте подсайта (опять же, по крайней мере у меня). Или я чего-то не знаю про функционал Очобы.
К сожалению, на данный момент я вообще не понимаю как считать уникальные просмотры (по открытым данным). Если есть возможность, то прошу кого-нибудь из администрации Виабу, кто занимается составлением отчётов и подсчётом показателей связаться со мной как-нибудь и объяснить методики подсчёта. Не настаиваю, конечно, но очень хочу узнать. =)
А теперь — к делу!
Общие показатели
868
9 755
319 181
11 117
33 093
469 006
5 427
Посмотрим на количество публикаций различных типов за март с учётом репостов.
Каким образом были определены типы публикаций и произведён соответствующий расчёт? Сегодня я опубликую статью с подробным разбором этого вопроса. (¬‿¬ )
Временные ряды:
Топ-30 мартовских хэштегов:
Пользователи
Посмотрим на авторов, которые публиковались в Виабу и которых репостили в подсайт.
А теперь взглянем на всех поимённо.
Теперь посмотрим, кто опубликовал наибольшее количество постов, без учёта репостов.
С учётом репостов:
24.65 %
В марте топ авторов по количеству публикаций более равномерен, нежели в феврале — нет такого чудовищного отрыва между топ-3 и последующими местами.
Посмотрим, кого больше всего репостили.
Дополнительно стоит взглянуть кто принёс своими постами больше всего рейтинга сообществу, без учёта репостов.
Топы практически совпадают: кто активнее постит, у того и лайков больше.
31.20 %
Публикации
Пришло время разобраться с публикациями. Будем рассматривать топ-10 публикации по различным показателям.
Замечание: почему по вертикальной оси иногда указан id публикации, а иногда ник автора? Потому что в настоящий момент реализация не позволяет указать повторно ник автора в сформированном топе. Если один и тот же автор присутствует в топе несколько раз, то указывается id поста.
Посмотрим на топы по лайкам в различных категориях.
Для формирования топов использовался алгоритм иерархической кластеризации (подробнее об этом в следующей статье). Если чей-то пост не попал в какую-либо из подборок, хотя должен был бы оказаться там — во-первых: не расстраивайтесь, а во-вторых: напишите о соответствующем посте в комментариях (желательно указать название и id поста). Я пока что ещё тюнингую алгоритм, и он может выдавать не вполне верные результаты.
Заключение
С каждым новым месяцем активность сообщества неуклонно растёт. Всё больше подписчиков у подсайта, всё больше разнообразного контента. Множество активных пользователей вливаются в славные ряды Виабу! В общем, динамика положительная. (¬‿¬ )