Немного разведочного анализа данных подсайта Виабу. Часть 1: Базовая

На открытых данных подсайта Виабу. Графики, числа и чуть-чуть магии.

Немного разведочного анализа данных подсайта Виабу. Часть 1: Базовая

Оглавление

Введение

Краткая справка по используемым технологиям и методам

Откуда и каким образом были получены данные? DTF сделан на платформе «Основа» (далее — Очоба), как и несколько других сайтов издательского дома «Комитет». Очоба имеет свой открытый API, также есть документация.

Я написал небольшой скрипт на Python, который возвращает список статей (в JSON формате) из подсайта в порядке их публикации и записывает их в csv-файл. Затем полученные данные были обработаны в отдельном Jupyter Notebook’е с использованием различных библиотек для визуализации и анализа данных.

Предварительные уточнения: учёт содержимого публикации

Данные собраны 2 мая в в 10∶34 (GMT+3).

Анализировалось только содержимое и количественные показатели постов (кол-во просмотров, комментариев, лайков, символов и медиаконтента и т. д.). Дополнительные уточнения:

Текстовый контент:

  • Содержимое блоков с голосованиями не учитывается при подсчёте символов и слов.
  • Твиты и ссылки на телеграм учитываются как одна ссылка на источник, вне зависимости от объёма и типа содержимого. Это же актуально и для контента типа «Персона» (в редакторе статей DTF’а — последний инструмент).

Визуальный контент:

  • Гифки учитываются как изображения.
  • Виджет инстаграма учитывается как одно изображение, вне зависимости от количества изображений в галерее. Это вызвано тем, что API Очобы не отдаёт информацию о количестве медиаконтента, содержащегося в виджете, а специальная логика для перехода не страницу галереи и сбора данных непосредственно из неё на данный момент не реализована.

Аудиоконтент:

  • При учёте отдельных аудиофайлов учитывалось только их наличие и количество.
  • Плейлист спотифай учитывается как один аудиофайл, вне зависимости от количества треков. Причина та же, что и с виджетом инстаграма.

Смысловое наполнение публикаций не анализировалось.

Мотивация

Эта статья носит прежде всего обзорный характер. В ней я планирую познакомиться самому и познакомить читателей с данными, которые были сгенерированы пользователями в процессе жизни подсайта Виабу. Более серьёзные, строгие и обоснованные исследования планируются в будущем.

Я придерживаюсь мнения, что данные — это всегда какая-нибудь история. А хорошая история нуждается в качественной визуализации — лучше один раз увидеть, верно?

Для того, чтобы рассказать эту историю я пожертвовал математической строгостью изложения, поскольку в противном случае сделанные выводы будут не очень информативны для рядового читателя. Также я позволил себе сделать различные выводы и сформулировать гипотезы относительно данных, которые в настоящей статье не являются до конца обоснованными или не являются обоснованными в принципе, в строгом понимании.

Я предполагаю, что большая часть терминов будет знакома или, как минимум, интуитивно понятна читателям, но иногда буду добавлять дополнительные пояснения. Если какие-то моменты всё ещё будут не до конца ясны — добро пожаловать в комментарии, постараюсь объяснить на пальцах. Не стесняйтесь задавать вопросы.

Программная реализация алгоритмов обработки не приведена в настоящем посте по различным причинам.

Все необходимые формальности соблюдены, поэтому перейдём к делу!

Основные количественные показатели и наивный подход к описательным статистикам

Количественные показатели

Общие данные

Для начала посмотрим на общие данные: количество публикаций, комментариев, просмотров, добавлений в закладки, лайков, количество символов и медиаконтента в постах.

7 790
всего опубликовано постов за всё время существования подсайта (с учётом публикаций от удалённых пользователей)

Так как учитывать при анализе удалённые публикации будет не вполне честно, то было принято решение удалить всю информацию о них из имеющегося датафрейма. Их относительно немного:

298
публикаций от удалённых пользователей

Это составляет примерно 3.83 % от общего количества постов на текущий момент. Все дальнейшие расчёты показателей произведены без учёта удалённых статей.

После удаления распределение постов выглядит следующим образом:

Общее количество постов за всё время существования подсайта.
Общее количество постов за всё время существования подсайта.

Таким образом 88 % постов в подсайте являются оригинальными. Немало!

2 823 881
просмотров (неуникальных) у опубликованных статей
Немного разведочного анализа данных подсайта Виабу. Часть 1: Базовая

Учитывая, что большинство статей в подсайте — оригинальные, то странно видеть подобный перекос в просмотрах. Посмотрим на следующую диаграмму:

Немного разведочного анализа данных подсайта Виабу. Часть 1: Базовая

Точками на графиках изображены средние значения просмотров, а горизонтальными линиями — границы 95 %-ного доверительного интервала для среднего. Чем уже интервал — тем меньше неопределённость оценки, и, соответственно, выше точность оценки. Несмотря на то, что подавляющее большинство статей в подсайте являются оригинальными, среднее число для просмотров у них в разы меньше, чем у репостов. Для репостов среднее значение равно 1225, а для оригинальных постов — 260.

77 680
комментариев оставлено под постами

С комментариями та же история, что и с просмотрами.

Округляя, получим, что среднее количество комментариев у постов подсайта — 8, а для репостов — 29.

75 186
добавлений в закладки у публикаций

Всё то же, всё так же. Среднее количество добавлений в закладки у постов подсайта — 8, а для репостов — 29.

233 752
всего лайков у всех публикаций

С лайками тенденция также сохраняется.

Среднее количество лайков у поста подсайта — 28, для репоста — 52.

3 156 766
всего символов в постах

Подобное распределение, лично для меня, оказалось неожиданным. Я предполагал, что количество символов в статьях будет примерно 50/50 для "родных" публикаций и репостов. Среднее для постов подсайта — 180 символов, а для репостов — 2190.

38 308
единиц медиаконтента в статьях

Среднее количество медиаконтента на пост для постов подсайта — 4, для репостов — 13. Суммарное количество медиаконтента в публикациях подсайта ожидаемо больше, чем у репостов, поскольку важно учитывать специфику Виабу. Однако среднее количество медиаконтента на пост для публикаций подсайта сильно меньше и это наводит на очевидный вывод.

Промежуточный вывод: значительная часть репостов в Виабу представляет собой публикации, содержащие преимущественно текст, а родные статьи подсайта — преимущественно медиаконтент. Этим может быть объяснено то, почему репосты имеют большее количество комментариев и просмотров — статьи и лонгриды естественным образом создают больше тем для обсуждения, чем одиночные изображения или даже подборки, за счёт возможности "упаковать" больше смыслового наполнения. Также в лонгриды добавляется больше ссылок и изображений для повышения "качества" публикации. ("Качество" в кавычках потому, что это субъективная категория и зависит от восприятия.) Посты подсайта представляют собой преимущественно небольшие публикации, с несколькими изображениями и короткими комментариями к ним.

Дополнительная гипотеза относительно комментариев: низкая активность в статьях подсайта может быть объяснена наличием официального дискорда, в котором и происходит основное обсуждение публикаций и непосредственное общение участников подсайта.

Немного временных характеристик

Этот раздел будет подробно рассматриваться в одной из следующих публикаций, но в качестве тизера посмотрим на некоторые характеристики.

Количество постов с учётом репостов

Немного разведочного анализа данных подсайта Виабу. Часть 1: Базовая

Можно видеть, что на заре жизни подсайта активность была крайне высока — это было необходимо для привлечения внимания к подсайту и, соответственно, для набора кор-аудитории и подписчиков. Следующий пик активности сообщества пришёлся на конец сентября 2020 года (17-25 числа). Какая-либо очевидная причина резкого увеличения активности не была найдена на данный момент, поэтому скачок можно считать аномалией, хотя присутствует заметный возрастающий линейный тренд. Затем активность снова сильно возросла в декабре, несмотря на убывающий тренд. Это может быть связано с проведением предновогодних конкурсов. Минимум активности в 2021 году был достигнут в конце января-начале февраля. В настоящее время активность медленно, но верно уменьшается, несмотря на периодические всплески.

Комментарии с учётом репостов

Публикации, которые порождают дискуссии — преимущественно репосты.
Публикации, которые порождают дискуссии — преимущественно репосты.

Присутствует ярко выраженная сезонность — каждые неделю-две возникает некий дискуссионный вопрос. Ну и парочка чередующихся слабых линейных трендов.

Дни недели

Посмотрим на распределение постов по дням недели.

Сплошная красная линия — среднее значение. Красная пунктирная линия — <a href="https://api.dtf.ru/v2.8/redirect?to=https%3A%2F%2Fen.wikipedia.org%2Fwiki%2FStandard_deviation&postId=665392" rel="nofollow noreferrer noopener" target="_blank">стандартное отклонение</a> (одна сигма).
Сплошная красная линия — среднее значение. Красная пунктирная линия — стандартное отклонение (одна сигма).

Как видно из графика выше, аномальными по количеству постов являются пятница и выходные. Касательно пятницы: можно объяснить высокую активность тем, что у некоторых авторов есть традиционные пятничные рубрики. Что касается низкой активности в субботу и воскресенье: выходные есть выходные, все отдыхают, и у авторов наверняка есть дела помимо ДТФа.

Хештеги

Хотя некоторые авторы ими и пренебрегают, но мы их ни за что не бросим – хештеги.

Немного разведочного анализа данных подсайта Виабу. Часть 1: Базовая

Из диаграммы можно сделать вывод, что большая часть хештегов является взаимозаменяемыми, т. е. содержательный смысл они несут одинаковый, но отличаются написанием (например: weaboo, weeaboo, виабу и Виабу). Если объединить все похожие хештеги, то самыми популярными будут:

  1. Виабу
  2. Аниме
  3. Мем
  4. Арт
  5. NSFW

Подобный список вполне согласуется с официальным описанием сообщества. Замечание: судя по всему, в апреле произошло изменение описания подсайта, тем не менее, содержательный смысл остался примерно тем же.

Авторы

Посмотрим на количество авторов, которые пишут свои статьи для подсайта и которых репостят в него.

440
уникальных авторов публикаций
Сегмент посередине — авторы, которые и публикуся в подсайте и которых репостят в него.
Сегмент посередине — авторы, которые и публикуся в подсайте и которых репостят в него.

Посмотрим на динамику постинга в подсайте, без учёта репостов. Подсчёт вёлся с начала основания подсайта, были выбраны итоговые топ-40 авторов по количеству публикаций.

Счётчик справа внизу учитывает только посты отображаемых авторов. Вертикальная серая линия — медианное значение.

В самом начале жизни подсайта Олег [прошу прощения за фамильярность! (¬‿¬ )] легко вырвался вперёд, второе место стабильно удерживалось статьями подсайта — необходимо было много постить, дабы сделать подсайт заметнее. Прочие же места по активности постинга занимали члены нынешней администрации подсайта. Начиная с середины сентября в гонку решительно включился Гусь, а за топ боролись Layben и Олег. В это же время на подсайт начали постить новые люди. В середине октября приток новых авторов стал максимален и количество постов начало резко увеличиваться. В ноябре максимальная динамика вне топ-3 была у авторов: Just Chill, Suzume-sama, Kurisu Makise, Некстгеновна Элой Плейстейшевна. Прочие же авторы постили более-менее регулярно, но не слишком активно. Судя по динамике, Гусь мог бы побороться за топ-1 по количеству публикаций, если бы неожиданно не прекратил свою деятельность в середине декабря. В январе активность резко снизилась и была низкой вплоть до конца февраля. В это время преимущественно Олег, Layben, Suzume-sama и Diego Paw занимались наполнением подсайта контентом. В это же время топ-5 прочно закрепился и, судя по динамике, не изменится в ближайшее время. В начале марта появилось немало новых авторов, которые активно начали постить в подсайт, поэтому самое интересное в это время происходило во второй половине топа. Динамикой отличились: Yuru Camp, unheilig, Over9k5000, Revendi, восставший из пепла Knightmare. И тем не менее, общая динамика в апреле начала ухудшаться, по сравнению с предыдущими периодами.

Замечание: к сожалению из "гонки" авторов выбыли удалённые авторы и статьи, которые были удалены лично авторами. Лично по моим воспоминаниям активно постил Knightmare (press F to сериям статей "Подписчики намяукали" и "Кошкодевы уютного блога") и Китоглав (я так и не прочитал вторую статью из цикла Культурных отсылок в JJBA, о чём сильно жалею).

Итоговый топ.

Администрация в первых рядах! Проводят для остальных наглядную агитацию своей активностью.
Администрация в первых рядах! Проводят для остальных наглядную агитацию своей активностью.
Немного разведочного анализа данных подсайта Виабу. Часть 1: Базовая

А кого в таком случае чаще всего репостят?

Немного разведочного анализа данных подсайта Виабу. Часть 1: Базовая

Посчитаем количество рейтинга, которое заработали авторы благодаря своим публикациям, а также взглянем на динамику рейтинга во времени, с учётом репостов.

Счётчик справа внизу учитывает только посты отображаемых авторов. Вертикальная серая линия — медианное значение.

Здесь ситуация примерно та же, что и с топом по количеству постов. Разница заключается лишь в том, что среднее количество лайков, получаемое авторами за посты различается. Посмотрим, насколько и каким образом.

Чёрные ромбики — <a href="https://api.dtf.ru/v2.8/redirect?to=https%3A%2F%2Fen.wikipedia.org%2Fwiki%2FOutlier&postId=665392" rel="nofollow noreferrer noopener" target="_blank">выбросы</a>. Цифры внутри "ящиков" — медиана (также отмечена чёрной вертикальной полосой внутри "ящика").
Чёрные ромбики — выбросы. Цифры внутри "ящиков" — медиана (также отмечена чёрной вертикальной полосой внутри "ящика").

Основной принцип чтения диаграммы с боксплотами, кратко: чем дальше по горизонтальной оси друг от друга находятся "ящики" и чем больше они различаются по длине, тем больше распределения отличаются друг от друга. Первое, что хочется отметить: лайки за посты у многих авторов распределены нормально (медиана симметрична относительно границ верхнего и нижнего квартилей) — это означает, что авторы могут с вероятностью около 70 % рассчитывать на количество лайков, находящихся в пределах "тела ящика". Судя по диаграмме, самыми стабильными и при этом высокооценёнными авторами являются: mindtered, Over9k5000, Kurisu Makise, Asuka Soryu. Самыми нестабильными в плане оценок являются: Олег, Layben, Suzume-sama, Diego Paw и Pray for Megumin. Чаще всего их публикации получают от 15 до 45 лайков, однако около 30 % их постов "выстреливают" и срывают банк. Неожиданно, но посты могут уходить и в минус! Таким "достижением" могут похвастаться посты авторов: Layben, Marshal_New_Arleana и Фанат Ани Тейлор-Джой. Наибольший коэффициент асимметрии принадлежит постам Пети Мирова, Андрея Тор4'а, HiroariTillWhen и Анастасии Юговы — медиана заметно левее центра боксплота, поэтому в плане лайков стоит поумерить аппетиты. Либо стоит что-то менять в плане тематики и оформления постов.

Но вернёмся к топу по рейтингу. Финальный топ авторов по количеству рейтинга, без учёта репостов.

Ещё один ободряющий пример от администрации!
Ещё один ободряющий пример от администрации!
Даже если учитывать репосты, то картина меняется незначительно.
Даже если учитывать репосты, то картина меняется незначительно.

Таким образом получается, что:

64.41 %
от общего количества контента создают 3.5 % от общего числа авторов (топ-15 по количеству публикаций)
87.98 %
от общего количества контента создают 16 % от общего числа авторов (топ-70 авторов по количеству публикаций)

Несмотря на то, что активное ядро сообщества насчитывает 10-15 человек, но оно создаёт бОльшую часть контента. Остальной контент создают менее активные авторы (которые, тем не менее, постят относительно регулярно), коих примерно 50-70 человек. Остальные — стихийные авторы, которые написали пару статей и исчезли во мраке ночи.

Из всего увиденного можно сделать вывод: хотя ядро сообщества Виабу немногочисленно, по сравнению с прочими сообществами, оно легко компенсирует это своей активностью.

Наивный подход к описательным статистикам

Для начала взглянем, что собой представляют распределения наших данных, с учётом репостов.

Все количественные характеристики представляют собой либо логнормальное распределение с длинным правым хвостом либо экспоненциальное распределение. По крайней мере, визуально распределения очень на них похожи. Это хорошо — с такими данными удобно работать.

Предлагаю посмотреть на 95 %-ный перцентиль и какую-нибудь меру центральной тенденции по каждому параметру, для того чтобы оценить, на какие количественные результаты можно рассчитывать при публикации своего поста в подсайте.

Так как мы имеем дело с логнормальным и экспоненциальным распределением, то для того чтобы наиболее адекватно описать всё распределение одним числом, стоит использовать наиболее робастный метод, т. е. такой, который был бы устойчив к выбросам (аномальным значениям) в данных. Поэтому будем считать медиану, т. е. такое число, что половина из элементов выборки больше него, а другая половина меньше. Также предел измерения по оси абсцисс был сдвинут ближе к началу координат для удобства рассмотрения графиков.

Лайки:

Крайне маловероятно, что вы получите менее 5 лайков за пост. Но и на более чем 85 рассчитывать не стоит.
Крайне маловероятно, что вы получите менее 5 лайков за пост. Но и на более чем 85 рассчитывать не стоит.

Добавления в закладки:

Забавно, что распределение имеет просадку в районе 13-14 единиц.
Забавно, что распределение имеет просадку в районе 13-14 единиц.

Комментарии к публикациям:

Про комментарии – без комментариев. (¬‿¬ )
Про комментарии – без комментариев. (¬‿¬ )

Просмотры:

Чуть меньше 200 просмотров для статьи – мало, на мой взгляд.
Чуть меньше 200 просмотров для статьи – мало, на мой взгляд.

Количество символов в публикации:

Немного разведочного анализа данных подсайта Виабу. Часть 1: Базовая

Количество медиаконтента в публикации:

Немного разведочного анализа данных подсайта Виабу. Часть 1: Базовая

Медиана в 12 символов при верхней границе квантиля в 2400 единиц — это очень странно. А также медиана для медиаконтента, в точности равная нижней границе — это крайне подозрительно, даже для логнормального распределения.

Таким образом, можно сказать, что "усреднённый пост" может рассчитывать на 25 лайков, примерно 200 просмотров и 5 комментариев. Не густо, но лучше, чем ничего.

Следующий вопрос, который возникает — а есть ли какие-нибудь показатели, которые связаны между собой? Давайте разберёмся. Для начала построим попарные диаграммы рассеяния признаков (визуальное представление взаимозависимости признаков), а затем построим корреляционную матрицу.

Графики симметричны относительно диагонали. 
Графики симметричны относительно диагонали. 

В качестве коэффициента корреляции был выбран непараметрический коэффициент корреляции Спирмена, поскольку он более устойчив к выбросам и несимметричности распределения нежели классический коэффициент Пирсона.

Матрица симметрична относительно диагонали. Главная диагональ состоит из единиц, поскольку корреляция признака самого с собой равна 1.
Матрица симметрична относительно диагонали. Главная диагональ состоит из единиц, поскольку корреляция признака самого с собой равна 1.

Итак, что можно сказать, смотря на эту таблицу? Хотя большая часть значений коэффициента невелика, но даже начиная со значения 0.3 можно говорить о наличии слабой взаимосвязи. Чем выше значение — тем сильнее взаимосвязь.

Первый, самый очевидный вывод — популярные посты популярны во всём. Если у поста много просмотров, то с высокой вероятностью его будут часто добавлять в закладки, у него будет много лайков и комментариев, и наоборот. Помним, что корреляция не является причинно-следственной связью, а только лишь указывает на наличие некой статистической взаимосвязи, возможно посредством других неучтённых факторов.

Второй вывод — если в посте много текста, то его часто добавляют в закладки. Не удивительно, потому что лонгриды можно читать за несколько заходов. Также, если в посте много текста, то с высокой вероятностью будет и немало медиаконтента.

Третий вывод — большая часть медиаконтента в постах — это изображения. А вот музыки практически нет.

Четвёртый, неочевидный вывод — количество символов в статье не особо влияет на её популярность. То же можно сказать и про количество медиаконтента. Неожиданно! Эти результаты, а также гистограммы выше, наводят на подозрения, что что-то всё-таки не так в этих рассуждениях.

Внимательный читатель уже догадался в чём дело и сделает замечание:

Почему при расчёте мер центральной тенденции для данных не учитывалась их внутренняя структура? Тем более, что распределение признаков отличается от нормального.

Внимательный читатель, Внимательно читает публикацию

И будет совершенно прав. Действительно, взглянем на диаграмму рассеяния для количества символов и медиаконтента, а также соответствующего количества лайков у публикаций.

Шкала справа — количество лайков.
Шкала справа — количество лайков.

Очевидно, что имеющиеся данные имеют сложную внутреннюю структуру и существуют различные категории публикаций. А если прологарифмировать данные, то часть категорий будет видно невооружённым глазом:

Отчётливо видны несколько категорий постов.
Отчётливо видны несколько категорий постов.

Также предлагаю посмотреть на то как это выглядит в 3D (к сожалению, я так и не нашёл способа встроить динамическую 3D-визуализацию в пост, поэтому придётся смотреть в статике). Палитра выбрана таким образом, чтобы визуально можно было выделить отдельные объекты.

Что же делать в таком случае? Можно воспользоваться каким-нибудь тривиальным критерием для классификации, например вручную установить какой-нибудь порог по количеству символов и медиаконтента, для того чтобы отделить различные типы публикаций друг от друга. Но, есть идея получше.

Кластеризация: скажи мне, кто твой друг

– А вы за меня и размечать будете?
– Ага!

Незадачливый аналитик и алгоритмы кластеризации, Дары Виабу: Часть первая.

Для того, чтобы определить количество типов публикаций я решил воспользоваться кластерным анализом (КА). КА – один из классических методов статистической обработки данных, а в связи с развитием машинного обучения он стал ещё популярнее. КА позволяет не только рассортировать элементы выборки на группы, но и выделить эти самые группы.

В качестве алгоритма кластеризации была выбрана иерархическая кластеризация, в частности – агломеративный метод. Принцип действия этого алгоритма в двух словах: считаем попарные расстояния между всеми точками в выбранном признаковом пространстве и объединяем в кластеры самые близкие точки. Используемая метрика расстояния – Эвклидова. Отделение кластеров друг от друга обеспечивается выбором порога отсечения по дистанции.

Внимательный читатель обязательно задаст вопрос:

А почему, собственно, иерархическая кластеризация и агломеративные методы? Есть же классический K-Means, EM-алгоритм, который работает чуть ли не из коробки, да тот же модный-молодёжный DBSCAN в конце концов?

Внимательный читатель, Задаёт отличные вопросы

Ответ, на самом деле, прост. Взглянем ещё раз на диаграмму рассеяния.

Немного разведочного анализа данных подсайта Виабу. Часть 1: Базовая

Как видно из диаграммы наши данные, мягко говоря, неоднородны. Есть области с высокой плотностью элементов и есть разреженные области. И вот тут-то часть алгоритмов кластеризации, в основе которых лежат метрики плотности перестают адекватно работать. А вот иерархические алгоритмы работают превосходно.

К тому же, некоторые алгоритмы кластеризации для корректной работы требуют ожидаемое количество кластеров, что нас очевидно не устраивает. Разумеется, рассматривая диаграмму и учитывая данные, полученные в ходе предварительного анализа, мы можем предположить определённое количество кластеров. Однако, в данном случае я предлагаю довериться математике [если с ней аккуратно обращаться и вежливо обходиться, то она сделает абсолютно всё, что вы захотите (¬‿¬ )].

Было выбрано значение порога отсечения, равное 24. Почему именно 24? Я попробовал различные пороги и этот показался мне самым адекватным, поскольку большее количество классов избыточно, а меньшее не вполне адекватно разбивает данные на кластеры, объединяя явно разнородные группы.

Красная линия — порог отсечения.
Красная линия — порог отсечения.

В результате работы алгоритма мы получим следующие классы:

Немного разведочного анализа данных подсайта Виабу. Часть 1: Базовая

Отлично! Итого 8 кластеров. Условно можно дать следующие (авторские!) названия группам:

  • Заметка
  • Статья
  • Подборка
  • Ультра-Подборка
  • Лонгрид
  • Супер-Лонгрид
  • Ультра-Лонгрид
  • Ультра-Медиа-Лонгрид
Немного разведочного анализа данных подсайта Виабу. Часть 1: Базовая

Тем не менее я хочу прокомментировать пару моментов.
Во-первых: хотя такую разметку полученных данных можно назвать более-менее адекватной, тем не менее, считаю необходимым сделать одно преобразование – выделить ещё одну группу. Внутри заметок необходимо выделить подгруппу постов, которые содержат только одну единицу медиаконтента (отсутствует какой-либо текст, за исключением хештегов и подписей к медиа-элементу). Назовём её "Мем".
Во-вторых: слепо полагаться на результаты алгоритма не стоит. Для некоторой доли постов я обнаружил несоответствие контента поста тому типу, который ему присвоил алгоритм. Это справедливо прежде всего для типов: Заметка, Статья и Подборка (Подборка иногда обозначается как Статья или Заметка и наоборот). В настоящий момент проводится тюнинг алгоритма и комбинирование его результатов с автоматической простановкой категорий на основании эмпирических критериев.

Финальные кластеры после выделения дополнительной группы и переназначения части элементов исходных групп публикаций согласно эмпирике:

Немного разведочного анализа данных подсайта Виабу. Часть 1: Базовая

Казалось бы, визуально, мемов по сравнению с остальными группами исчезающе мало. Но, "не верь глазам своим". Посмотрим сколько количественно постов каждого типа, с учётом репостов.

Немного разведочного анализа данных подсайта Виабу. Часть 1: Базовая

Вот это да! Только 44.9 % контента составляют мемы (или, если угодно, щитпосты), но 55.1 % контента составляют заметки, подборки, статьи и лонгриды. Теперь можно уверенно заявить:

Виабу – это не (только) щитпосты.

Некий НаучныйЧувак, Ковырятель данных, починятель примусов

Небольшое замечание по разделу: справедливости ради должен сказать, что я попробовал все вышеперечисленные алгоритмы кластеризации, и они ожидаемо дали неудовлетворительный результат. Ручная подстройка гиперпараметров успехов не принесла. Возможно, стоит попробовать скомбинировать несколько алгоритмов, но это уже как-нибудь в другой раз. Галерея неудачных попыток:

Можно сказать, что на данном этапе предварительная обработка данных, конструирование и выделение признаков закончено.

Анализ кластеризованных данных

Общие показатели

Категории определены – теперь можно разбираться в том, отличаются ли хоть чем-нибудь мемы от лонгридов. Разумеется, результат зависит от точности кластеризации, которую на текущий момент можно оценить в примерно 84 %.

Итак, судя по количеству символов заметка представляет собой пост с парой небольших предложений и несколькими изображениями или ссылками на источник. Подборки имеют чуть больше текста, который необходим для описания медиаконтента или ссылок на художников. Супер-Лонгриды в среднем не уступают Супер-Подборкам по количеству медиаконтента. Ультра-Лонгриды содержат в 10 раз больше текста и в два раза меньше медиа, чем обычные Лонгриды. Хотя текста в Статьях в среднем меньше в 30 раз, чем в Лонгридах, зато изображений примерно столько же! Потрясающе!

Диаграммы говорят сами за себя: супер-лонгриды – наиболее популярный у читателей тип публикаций. На втором месте по всем показателям стоят обычные лонгриды, однако, в плане просмотров медиа-лонгриды имеют более высокий потенциал. Ультра-лонгриды хоть и читают, но не особо лайкают. Видимо, без картинок читать не интересно. ( ._.) У всех видов подборок просмотров в два раза больше, чем у мемов, но это сомнительное достижение. Подборки худо-бедно добавляют в закладки, но не комментируют. Неожиданно, но больше – не значит лучше! Ультра-Лонгриды и Ультра-Подборки уступают менее объёмным "сородичам" по количеству лайков и с трудом конкурируют в плане просмотров. Мемы и заметки находятся на дне по всем категориям, хотя раз в год какой-нибудь может и набрать 16к просмотров (накрутка или какой-то сбой в работе базы Очобы?) и 250 лайков. Впрочем, подобные результаты вполне очевидны для любого более-менее опытного читателя популярного ресурса.

Заметки, статьи и мемы имеют большое количество аномальных значений – это вызвано сильным дисбалансом классов. Указанных классов в разы (а то и на порядок) больше прочих, следовательно и аномалий в них больше. Также, причиной большого числа выбросов может быть не вполне точная кластеризация.

Теперь посмотрим, каким образом отличаются посты из подсайта и репосты.

Из диаграмм видно, что репосты поставляют в подсайт немало лонгридов, супер-подборок, а также ультра- и супер-лонгридов.

Теперь выясним: есть ли какие-либо различия между публикациями из подсайта и репостом в каждой категории.

Судя по диаграммам, ситуация обстоит следующим образом: по просмотрам публикации подсайта серьёзно уступают репостам, разве что кроме статей и подборок. По количеству лайков с репостами потенциально могут конкурировать только статьи, подборки и супер-подборки. Из этого можно сделать очевидный вывод: посты подсайта имеют меньший охват аудитории.

Топы

Теперь, после того как выделены основные категории и группы постов, мы можем посмотреть на топы публикаций в каждой группе. Без учёта репостов.

Мемы

В топе по лайкам замечательный локальный мем про Нахтигалку (aka skamaz/Елена Кравченко) в образе Нагаторо. Остальной топ состоит преимущественно из всевозможной хорноты, Евангелиона и, внезапно, Астольфо. По просмотрам с чудовищным отрывом побеждает пост Олега, однако, как мне кажется это либо баг Очобы, либо случайная накрутка, поэтому было решено этот пост из топа исключить. После исключения аномалии топ по просмотрам заняли: пост с подозрительными цифрами и Ехидной (нужны более *кхм* глубокие исследования!), заминусованное видеоэссе о взгляде на жизнь знаменитых ниндзя сквозь призму актуальной западной повестки, а также пост с дипломатической миссией к дружественному подсайту. Прочие же позиции заняла всевозможная хорнота. Весь топ по закладкам представляет из себя исключительно культурный контент (¬‿¬ ). Как-то прокомментировать его сложно, поэтому каждому стоит лично ознакомиться с указанными публикациями и составить собственное мнение (¬‿¬ ). Основными катализаторами общения стали публикации с обсужденияем аниме (кто бы мог подумать!), вопросы повседневной жизни и культуры (¬‿¬ ), а также влияния пандемии на всё вышеперечисленное.

Заметки

Большая часть Заметок представляет собой всевозможные результаты и описания деятельности в подсайте: итоги месяцев и голосований, анонсы конкурсов, справочная информация. Все прочие посты в данной категории – это преимущественно небольшие обзорные публикации и статьи-мнения относительно различных аниме-тайтлов, а также мнения по злободневным вопросам и актуальным новостям. По просмотрам в данной категории резко выделяются две публикации: первая – анонс ивента по ЖиЖе, который закономерно стал одним из самых громких событий последнего времени, поскольку на него было возложено множество ожиданий; вторая – краткое освещение локального скандала, связанного с популярными японскими художниками и реакцией западной общественности на их творчество. Топ заметок по добавлению в закладки состоит преимущественно из культурного (¬‿¬ ) контента. Самые обсуждаемые посты в данной категории – это конкурсы и решение повседневных вопросов администрирования подсайта.

Статьи

Топ-1 по количеству просмотров и добавлениям в закладки принадлежит Статье Аниме, основанные на реальных событиях за авторством Just Chill: 6 469 просмотров и 321 ДвЗ соответственно! Так как эти значения резко выделяются среди прочих (в 2 и 4 раза соответственно), то они были признаны выбросами и не представлены на диаграммах выше, однако это не отменяет того факта, что указанная статья – топ-1!

Со смысловым содержанием статей примерно та же ситуация, что и с заметками, только больше объём публикаций. Также необходимо отметить наличие новой категории Статей, содержание которых посвящено необычным фактам о культуре Японии.

Лонгриды

Наконец-то, мы подошли к самому волнующему и интригующему пункту! Камень преткновения, бесконечный источник полемики – лонгриды.

Основные темы лонгридов: аниме, ранобэ и манга, их авторы и режиссёры; фансервис и вайфу; Япония и её репрезентация в аниме, а также её повседневная жизнь и культура. Дополнительно стоит отметить, что вне зависимости от типа метрики топ практически не меняется.

Подборки

Подавляющее большинство подборок в том или ином виде содержат NSFW контент. Большая часть подборок содержит в своём названии слово "подборка". Прочие частоупоминаемые слова:

Таким образом, можно сказать, что наиболее часто в названиях подборок фигурируют девушки (кто бы мог подумать!), арты с персонажами Yuru Camp, аниме, спорт, очки и попки. Интересное сочетание. Могу лишь только предложить кому-нибудь из авторов запостить подборку милых весёлых хорни спортсменок в очках с крупными формами (гремучая смесь!). Исключительно во имя науки! (¬‿¬ ) Будет интересно посмотреть на результаты (в плане лайков и просмотров).

Супер-Подборки

Топ-1 по количеству просмотров прочно занимает Kurisu Makise и его Genshin Impact Girls: 12 708 просмотров. Топ-1 по количеству комментариев безоговорочно принадлежит small PADORU pack by Suzume-sama said OKawaii Koto – 164 комментария! Эти посты – явные аномалии среди прочих супер-подборок, поэтому из топа их пришлось изъять, к сожалению. Но тем не менее, мы помним, что они топ-1, поэтому они уже получили свой приз зрительских симпатий. =) В целом, топы занимают одни и те же посты, только они ротируются в зависимости от показателя. Большую часть супер-подборок занимают посты от YuruCamp каждый день – впечатляющая стабильность! Прочие же супер-подборки посвящены разнообразным тайтлам и авторским сериям конкретных художников.

Супер-Лонгриды

Всего существует 5 супер-лонгридов в Виабу-подсайте:

Названия публикаций говорят сами за себя, поэтому какие-либо комментарии будут излишни.

Ультра-Лонгрид

В подсайте всего один ультра-лонгрид, так что читателям будет проще непосредственно с ним ознакомиться.

Ультра-Медиа-Лонгриды

С медиа-лонгридами ситуация обстоит чуть получше, но их тоже немного:

На фоне прочих медиа-лонгридов выделяется пост с саундтреками – как минимум потому, что подавляющее большинство аудиофайлов, которые присутствуют в публикациях подсайта сконцентрированы именно в этом посте!

Вывод по разделу: все публикации-лонгриды (кроме У-М-Л) имеют непосредственное отношение к конкурсам в подсайте. Таким образом, можно сформулировать гипотезу, что конкурсы являются действенным стимулом к написанию всевозможных лонгов.

Заключение

Предварительно можно сделать несколько выводов, некоторые из которых в последующем стоит проверить как статистические гипотезы:

  1. Большая часть постов в подсайте является оригинальными в рамках всего сайта.
  2. Чаще всего авторы постят в середине недели и ближе к концу, но не на выходных.
  3. Ядро авторов подсайта насчитывает порядка 70-80 человек, которые постят что-либо регулярно.
  4. Посты в подсайте имеют определённую устоявшуюся типизацию.
  5. Популярность материала не зависит напрямую от объёма вложенных усилий. Да, вы можете написать невероятных размеров лонгрид, привести кучу ссылок на различные источники, вставить множество изображений и видео, но все ваши потуги будут тщетны, поскольку тема не вызвала отклика у общественности. Неудачи случаются. Зато какой-нибудь мем на актуальную тему, позаимствованный на другом ресурсе может сорвать банк. Тем не менее, в среднем, любые категории публикаций относительно мемов получают больший положительный отклик у публики.
  6. Конкурсы являются действенным стимулом к написанию разнообразных крупных и содержательных публикаций.
  7. Количество лайков у публикации слабо зависит от количества подписчиков в подсайте. Просмотры публикации, а также количество комментариев умеренно зависят от количества подписчиков в подсайте.

Пожалуй, что на этом можно завершить первую часть исследования.

Благодарю за внимание!

P. S. Праздные рассуждения и нерелевантные комментарии

Спасибо, что прочитали этот небольшой разбор. Буду рад критике и замечаниям, а также пожеланиям и рекомендациям. Всю критику постараюсь учесть в будущих публикациях.

Из-за того, что материала для исследований оказалось достаточно много я решил разбить статью на несколько небольших частей. Работать над лонгридом оказалось непросто и в процессе описания полученных результатов терялась связность повествования. К тому же, была высокая вероятность перегореть и не дописать материал до конца. Эта часть и так оказалась чуть больше, чем я изначально планировал.

В качестве тизера одной из следующих статей (сцена после титров!):

В следующих сериях: временные ряды и предсказание будущего, SARIMA модели, статистические исследования и проверка гипотез, регрессионные модели и отбор признаков, дисперсионный анализ, ♂ deep ♂ leaning, рекуррентные нейронные сети (в частности, LSTM).

Немного разведочного анализа данных подсайта Виабу. Часть 1: Базовая

Почему рассматривались данные именно из Виабу? Если коротко – я очень люблю этот подсайт из-за его дружного, тёплого и лампового сообщества. Ребята, вы очень клёвые! =) Ну и контент тоже хорош. (¬‿¬ )

Отдельно необходимо отметить, что у меня сильно ограничены аппаратные ресурсы (пишу с калькулятора), поэтому (даже при желании) выгружать всю базу постов и комментариев DTF’а я не могу чисто физически (на данный момент, по крайней мере). Но я стараюсь решить эту проблему, или, хотя бы, собрать комментарии к постам из имеющегося датасета с целью проведения более подробного анализа.

К сожалению, я так и не нашёл способа встроить динамическую визуализацию в пост (в том числе 3D), поэтому придётся смотреть в статике. Тем не менее, все графики из статьи имеются в html формате отдельными файлами. Я пока что думаю, что с ними можно сделать и куда их можно залить.

Ссылку на гитхаб не привожу из-за потенциальной возможности деанона и булинга ( ._.) , а также из-за того, что код не самого лучшего качества. Он может оскорбить взор нормального человека, поэтому поверьте, вы вряд ли захотите его видеть. Но, если это вас и правда это интересует, то в одной из следующих частей я выложу ссылку на репозиторий.

Благодарю за внимание!

5959
36 комментариев

Комментарий недоступен

16
Ответить

Комментарий недоступен

15
Ответить

Даже не представляю сколько времени на это пошло, спасибо что с нами. Надеюсь, личные дела поскорее отпустят и будешь больше времени отдавать любимым занятиям. Спасибо. Ты лучший дата-саентист:3

14
Ответить

Зачем??? У меня флешбеки теперь! Я тебя найду!

6
Ответить

Спасибо за добрые слова! Надеюсь, что тебе и остальным понравился пост. =)
Если хотите, то будет вторая и третья части, однако я пока не могу сказать как скоро. 

6
Ответить

Титанический труд, очень интересно ознакомиться было

13
Ответить

Спасибо за внимание! =)

6
Ответить