Ну как там дела с анализатором комментариев DTF aka DTF_TEXTAN?
В эту маленькую SQLite уже скачал все свои комментарии. Сложнейшим запросом удалось выяснить, что комментариев я написал уже целых 4858.
БД имеет следующую структуру:
Такая структура выглядит достаточной для того, чтобы подсчитать все интересующие меня метрики комментариев.
Чего не хватает?
Список лайкнувших комментарий можно получить отдельным API-запросом на каждый комментарий. То есть, если у вас 4858 комментариев, как у меня, то придётся послать 4858 запросов к API, чтобы подсчитать все лайки. Учитывая, что допустимо обращаться к API не более трёх раз в секунду, то потребуется как минимум 4858 разделить на три секунд, чтобы скачать это всё. А это 27 минут.
В чём мораль этого пассажа лонгрида по разработке анализатора комментариев DTF_TEXTAN? А мораль простая - не надо щитпостить, ребята, вы нужны матерям вашим. Ну и чтобы вы понимали, что подсчёт аналитики лайков быстрым делом не будет.
Но я в любом случае скачаю всех лайкнувших.
Чего ещё не хватает?
Нужно ещё скачивать посты, это тоже отдельные запросы к API.
Но метрики по постам это вообще отдельная задача, которую я не решаю в данный момент. Но могу решить за ваши 5к. Небыстро и без гарантий, правда.
Что дальше?
Дальше просто импортну базу в датафрейм и начну строить всякие графички-метрички, возможно, сделаю какие-то простейшие классификаторы.
Пример метрик по комментариям:
- Самый длинный комментарий
- Облако слов по всем комментариям ever
- Облако слов помесячно (так сказать, чтобы увидеть эволюцию ключевых слов)
- Гистограмма количества комментов по длине комментария (чтобы убедиться, что большинство комментариев не превышает лимита твиттера)
- Аналог Github-Activity комментатора, что-то типа того, что на скрине ниже:
Кстати, если у вас есть ещё идеи для метрики - тегайте меня и пишите метрики, все предложения рассматриваются.
Метрики по лайкам тоже в разработке.
Вообще я люблю пиздеть, так что не обещаю, что сделаю это всё. Если сделаю хотя бы 30% обещанного, это уже будет достижением.