Эксперимент по поиску ключевых слов в подсайтах и блогах DTF
Решил написать небольшой скрипт на питоне, собирающий тексты из блогов/подсайтов и выделяющий из них ключевые слова. Конечно, результат нужно пре��ставить в понятной и приятной форме — тут мне помог Gephi.
Я не пытаюсь сделать всеобьемлющий обзор, а представляю результат эксперимента.
Размер вершины (текста) графа ключевых слов зависит от того, как часто это слово встречается во всех текстах, а размер ребра — от того, как часто два ключевых слова слова встречаются вместе. Нажмите на картинки для увеличения — на превью почти ничего не видно.
Популярные темы в подсайтах за последние две недели
Главными темами «Игр» всегда останутся игровые платформы: больше инфоповодов в последнее время создает xbox.
В «Кино и сериалах» в основном пишут про Netflix.
«Железо» — филиал digital foundry на DTF (и тут тоже xbox популярнее других платформ).
Блоги
В топе блогов много таких, что состоят из не-текстовой информации, и мой способ для них не подходит. В рамках эксперимента я собрал информацию из нескольких более-менее текстовых блогов.
Andrey Apanasik
Andrey Apanasik пишет о разработке на Unity и Unreal Engine и играх вообще.
Илья Шишкунов
Илья — автор еженедельных дайджестов про железо.
Riverander
Зачем что-то писать, когда у блога есть отличное описание.
Denis Shiryeav
Раньше этот блог был про DTF, теперь это блог про лицо Ширяева.
Заметки по эксперименту
- код выложен на гитхаб
- для выделения ключевых слов используется библиотека rutermextract. Я намучался с написанием собственного извлечения ключевых слов и понял, что готовые решения чаще лучше самописных
- как можно заметит��, выложенные картинки можно разделить на разные категории. Буду рад, если вы напишите, какой вариант получился лучше
Пишите, если вам интересно увидеть что-то такое для своего блога (или вообще есть идеи по применению).