Я собрал и провел анализ 3 млн. комментариев на DTF

И готов выдать вам интересную статистику. Кто сколько матерится, сколько комментариев удалили модеры, а так же обращение к самой Модерации.

Я собрал и провел анализ 3 млн. комментариев на DTF

Всем привет! Я собрал 2 913 273 комментария с нашего любимого сайта и захотел узнать много всякого интересного. В одном моменте я подтвердил прошлые статистики, а некоторые вы увидите впервые!

Дисклеймер: Мы тут не претендуем ни на какую точность. Я институтов не кончал, а Power BI запускал в первый раз. Данные могут расходиться с реальностью до 10% (в том числе и из-за API площадки, что будет описано в статье). Среднее по больнице +- точное. За дизайн - извините. Ну и да, я "вдохновлялся" Инфернальным Гaвнoедом, и что вы мне сделаете, а?

Содержание

Предисловие. Борьба с API

API DTF — это весело (не очень). Сам я раньше с API плотно не работал, кроме VK, документация которой божественна, но мои более опытные друзья очень бомбили с его структуры. Пришлось немного покувыркаться, чтобы сделать скрипт автоматизированным.

Обращаюсь к Модерации DTF. Может вы уже обновите документацию?!

Во-первых, у вас уже есть версия API v3.0, но ссылка ведёт на Swagger 1.9 (почему хотя бы не 2.31?), а спецификации ссылаются на 404...

На версию 2.31 ссылки нормальные ("документация" и Swagger).

Ну и во-вторых, почему нельзя сгенерировать новый токен разработчика в своем профиле? Что мешает сделать ее? Это будет ИМХО много лучше, чем пользоваться только методом из API.

GET-запрос комментариев в принципе логичный. За один раз отдается определенное количество комментов, чтобы не нагружать сайт, а чтобы получить следующую пачку — в запросе нужно указать айдишник последнего комментария в запросе. Нормально, разобрались.

Но со сбором комментариев возникли проблемы, не все они были сохранены. Я оставил на ночь скрипт, он спокойно себе шуршал, но раз в час-полтора он начал проскакивать, причем нормально так, по 8-10 постов за каждую итерацию (примерно пол минуты), в которых может содержаться куча комментариев. Некоторые посты он не мог обработать, причем не из-за того, что они недоступны, а походу сайт просто не мог обработать запрос лол. Я уменьшил количество запросов до 2 в секунду (было 3, согласно требованиям из документации), но ситуация не поменялась. В общем от 5% до 15% комментов я потерял, ну, спишем на погрешность расчетов.

В общем очень прошу руководство DTF разобраться со своим API. Допилить напильником, убрать 404, и все вот такое.

Кто больше всего написал?

Итак, были обработаны данные примерно за пол года — с 17 сентября 2023 года по 5 марта 2024 года. Было собрано 2 913 273 со всех постов за этот период, которые смогли пропарсится, благодаря кривому API.

В статистику попало 20 478 аккаунтов.

Количество активных авторов, пишущих в среднем хотя бы один комментарий в день — 3 559.

Судя по содержанию комментариев, "Аккаунт заморожен" - это Vino. Упокой душу его аккаунт.
Судя по содержанию комментариев, "Аккаунт заморожен" - это Vino. Упокой душу его аккаунт.

Что ж, поздравляем Ник СЦК с самой большой активностью! За это время он написал примерно 20500 комментариев, почти 1% от всех комментов за пол года, это в среднем 120,5 комментариев в день на протяжении полугода! Это уважаемо. Так щитпостить в комменты — это надо постараться. Я сначала подумал, что это ошибка парсинга, но что-то не верится, он на DTF зависает часто.

На втором месте — наш любимый Gvizdon оголтелый консерватор (aka Gvizdon прятался, aka Gvizdon wet boy, aka.... ХВАТИТ МЕНЯТЬ ИМЕНА, Я УЖЕ ЗАДОЛБАЛСЯ РЕДАЧИТЬ) с 16807 комментов! Это 99 комментов в день! Действительно неплохо.

Ну и на 3 месте самая красивая девочка этого сайта — Обаче с 7383 комментами, это 43 коммента в день (по такому же расчету)!

Количество повторяющихся комментариев. Пустое первое место — гифки/картинки/видео, их закинули под посты примерно 85 000 раз за пол года.

Я собрал и провел анализ 3 млн. комментариев на DTF

На втором месте — кровавая ГЕБНЯ. Модераторы удалили примерно 74 000 комментариев, это 2,5% от общего количества. БОЛЬШОЙ БРАТ СЛЕДИТ ЗА ТОБОЙ!

Ну а сами авторы за пол года удалили примерно 8 000 своих комментариев, а в чем-либо участвовали примерно 6 000 раз.

Комментарии в датах

По самой свежей аналитике, которую я нашел, посты стоит выкладывать с утра в будние дни. Собственно, могу уточнить и подтвердить ее. Самая большая активность пользователей в комментариях наблюдается в среду-четверг, а самая низкая — в воскресение. Самый низкий пик в принципе очевиден — это 1 января.

Я собрал и провел анализ 3 млн. комментариев на DTF

Судя по этому посту, активность на DTF снижается, но по комментариям этого не видно, никакого спада нет, наоборот. Среднее количество комментариев с сентября 2023 по март 2024 увеличилось на чуть более чем 9%. Могу предположить, что на площадку стало заходить меньше незарегистрированных и/или ридонли пользователей.

На следующем графике сумма всех комментариев распределена на сутки, от 0 до 23 часов по UTC.

По московскому времени график выходит на плато с 11 утра и снижается с 23 часов
По московскому времени график выходит на плато с 11 утра и снижается с 23 часов

Детализация за октябрь. В среднем во всех месяцах больше всего комментариев пишется на третьей неделе месяца, почему-то. Графики на всех месяцах +- схожие, в зависимости от того, на какие числа выпадают выходные. Исключение — январь, где пик приходится на первую неделю месяца.

Я собрал и провел анализ 3 млн. комментариев на DTF

Список сапожников

Вы мои матершинники. Вас много, и материтесь вы много!

Отбор проводился по самым популярным матерным словам, а точнее по их корням. Скрипт находил содержание этих корней (с вашего позволения не буду тут материться), и выдал список. Power BI падал от сканирования всех вариантов матюков, так что статистика может быть (и является) не совсем полной.

Дисклеймер: Power BI падал при попытке найти содержание 20 значений в каждом из 3 млн. комментов, поэтому в графике меньшее количество авторов, чем на других. Извините(

В абсолютном количестве матерных слов снова побеждает Ник СЦК, причем с большим отрывом, но только потому, что у него большой отрыв и в количестве комментов за период.

Я собрал и провел анализ 3 млн. комментариев на DTF

Кстати, Granger ни разу не матерился. А за пол года ДТФеры упомянули сосиски в комментариях около тысячи раз. Это так, забавный факт.

В процентном соотношении, что более справедливо, победитель совершенно другой, и это Hungry Evok. Комментариев всего у него 1588 за пол года (~10 комментов в день), а сматерился он в целых 49% случаев. За ним следует Roanoac (2095 комментариев) с 40% матерных комментов, а за ним — пивной барон Габедан Прайз (4032 комментария) с 30%. Красивые цифры получились! Самый активный комментатор Ник СЦК (напомню, рекордные 20478!!!!! комментариев) матерился в 25% случаев.

Я собрал и провел анализ 3 млн. комментариев на DTF

Комментаторы-пикчеры

Есть отдельная категория пользователей, которые любят общаться картинками, а не буквами. Победитель очевиден, и это Evil metadodic!

Я собрал и провел анализ 3 млн. комментариев на DTF

На втором месте — человек С, адепт Метадодика, вероятно копирует своего кумира, ну и на третьем месте самый лучший пупсик этого сайта — День РЖД!

GenderBot технически на втором месте, но его не учитываем. Он, как ни странно — бот. Считайте, что это статистика, сколько раз его вызывали.

Ваши гифки бесценны!

Комментаторы-лонгеры

Кто-то пишет лонги по играм, а кто-то пишет лонги в комментариях. Встречаем победителей!

Я собрал и провел анализ 3 млн. комментариев на DTF

Первое место занимает Rucama Nuqavan aka «Шитпостер с DTF», второе почетное место достается фармеру плюсов исключительно на комментах Павлу Казьмину, а третье — Don-grafon. Поздравляю!

Количество упоминаний модерации

Этот график НЕ ПОКАЗЫВАЕТ именно призыв модерации в комменты. В него включены и простые упоминания, так сказать вспоминали "добрым словом" Модерацию, Шерифа и Рейнджера.

Я собрал и провел анализ 3 млн. комментариев на DTF

Ярослав каким-либо образом упоминал модеров 45 раз, KekW — 33 раза, а Nick Ran — 31 раз.

Всего вызывали через тег Модерацию, Шерифа или Рейнджера всего лишь 24 раза за пол года. Странно мало. Но скорее это ошибка в моих расчетах.

Заключение

Напомню, что это мой первый опыт анализа чего-либо, так что данные могут быть ох какими неточными, но мы тут и не претендуем ни на какую истину. Графики не самые красивые, но для первого запуска Power BI - сойдёт.

Надеюсь, вам было интересно узнать немного интересных фактов о DTF. Мб через еще пол годика соберу такую же статистику, и снова порадую вас красивыми (или не очень) графиками.

Отмечайте победителей в комментариях, пишите свое мнение насчет результатов, уважайте и любите друг друга, и хорошего дня!

P.S.

Если хотите узнать статистику по себе, или поправить или расчеты, качайте из Microsoft Store программку Power BI и берите этот файлик. В каждом графике я оставил фильтр по авторам (во вкладке Фильтры), найдете там себя. Но будьте готовы к тому, файл кривоват, напомню, я запускал такое ПО впервые.

Если хотите составить свою аналитику с нуля или еще чего - держите SQLite3 базу.

Если вы вдруг хотите меня как-то отблагодарить (кроме, как за щеку), дайте знать.

Все комментарии были взяты из открытых источников средствами API DTF v2.31.

859
1
537 комментариев

Ник ты че ебанутый?

297

До вас только начало доходить? кекус

136

Забыл на каком сайте находишься?

1

С этой пикчи орнул конечно

167