Немного о пользователе Министерство коррупции или Ну как там дела с TEXTAN
Всем привет, меня зовут очень настырный человек и я покажу, как я делал инструментарий для сбора комментариев в чОрный пакет и какие картинки для визуального анализа разработал.
Демку разработанного функционала я решил провести на примере комментариев пользователя Министерство коррупции, для чего я обратился к нему в ЛС за разрешением и согласование получил:
Для визуализации картинок предварительно нужно было собрать комментарии пользователя. Собирал почти 40 минут, получилось 45640. Сначала я предположил, что это комментарии за все годы жизни Министерства коррупции, но заглянув в профиль, увидел, что на DTF он пришёл относительно недавно - 9 октября 2022 года.
Ниже по подзаголовкам я расположил графики, построенные по его комментариям. Итак, поехали:
№1 Количество комментариев по дням календаря
Если кто знаком с Github, то знает, что там есть календарь активностей в Гитхабе у каждого пользователя -- можно посмотреть сколько коммитов в код делает тот или иной разработчик. Я решил, что будет интересно построить такой же график для комментариев DTF.
Министерство коррупции - это мощь:
№2 Количество комментариев по часам дня
Следующий график - это гистограмма количества комментариев по часам от нуля до 23, когда писался комментарий. Получилась кумулятивная такая штука, которая показывает, в какие часы в среднем пользователь активен.
Министерство коррупции спит очень мало:
№3 Количество комментариев по часам дня помесячно
Предыдущий график получился слишком агрегированным, т.к. он построен по всем комментариям. Что если строить точно такую же гистограмму, но в рамках отдельно взятых месяцев? Это даёт больше визуальной информации, как менялась активности Министерства коррупции от месяца к месяцу:
№4 Количество комментариев по их длине в символах
В этом графике я захотел посмотреть, как распределены все 45640 комментариев Министерства коррупции по длине текста в них. Насколько средняя длина комментариев больше, чем 140 символов Твиттера?
№5 Текстовый анализ комментариев (тот самый TEXTAN)
Гистограммы это хорошо, но что в этих комментариях пишется - подумал я. И решил попробовать построить облако слов по комментариям. Сразу скажу, это нифига непросто, учитывая многообразие слов в нашем замечательном русском языке. Но что удалось мне сделать, показываю ниже:
Дальше я решил очистить комментарии от предлогов, союзов, частиц и междометий в ожидании, что это добавит больше значащих слов в облако.
Вот что получилось:
Результат меня не очень впечатлил, и я решил отфильтрованный текст привести к нормальной форме. Нормальная форма - это когда слова "игры" и "игр" приводятся к одному слову "игра". Для некоторых частей речи нормальную форму слова определить невозможно, поэтому они выкидываются из облака слов. Вот что вышло:
Заморочился ещё, и из отфильтрованного приведенного к нормальному виду текста я построил облака слов по существительным, прилагательным и глаголам:
В заключение хочу написать, что буду рад, если дадите обратную связь по построенным графикам - было ли вам это интересно, видите ли в этом ценность? Так же буду признателен лайкам, репостам, и - чего уж скрывать - любой финансовой помощи на продолжение дела аналитики на DTF.
У меня нет цели зарабатывать на этом, но вообще, если общая сумма сбора превысит овер 9000 (да, это не попа кокоса), то я опубликую в открытый доступ весь код, которым я это собирал\строил. Так же хочу сказать, что это даст мне мотивацию быстрее сделать полностью автоматизированную цепочку обработки данных, которая на выходе будет выдавать PDFку с этими картинками на каждого пользователя. Выбор за вами, уважаемые донатеры!
Хочу отдельно отметить, что такой инструмент на ваших комментариях будет хорошо работать, только если у вас достаточно много комментариев. Если вы сидите ридонли, то о вас никто никогда не узнает, понятное дело.Если у вас есть ещё идеи по визуализации графиков, пишите, рассмотрю любые предложения.
#textan #dtf #министерство_коррупции