Как определить – популярен фильм или нет

Сколько голосов должно быть на Кинопоиске, чтобы назвать фильм популярным? А также о том, как отражается смена поколений в базах данных с кинофильмами.

"Барби" - на сегодняшний день самый популярный фильм во всех кинобазах (на Letterboxd у него 3.86 млн голосов).
"Барби" - на сегодняшний день самый популярный фильм во всех кинобазах (на Letterboxd у него 3.86 млн голосов).

Популярен фильм или нет? Каждому приходилось или отвечать хотя бы раз в жизни на этот вопрос, ну или сталкиваться с ответами на него. Часто видишь перечни «малоизвестных» фильмов, первым комментарием к которым бывает что-нибудь вроде: «фильм «Бабадук» известен всем и каждому». Можно ли это как-то доказать или опровергнуть? В четырех основных базах данных с кинофильмами (IMDB, Letterboxd, Кинопоиск и Кинориум) есть такой показатель как количество голосов, отданных за фильм. У второй части «Дюны» на Кинопоиске сейчас более 180 тысяч оценок, у советского сериала «Долгая дорога в дюнах» - 25 тысяч. Интуитивно понятно, что «Дюна» - фильм сверхпопулярный, а латышский эпос – не очень, даже в России.

Самый популярный фильм на IMDB - "Побег из Шоушенка" (почти 3 млн голосов).
Самый популярный фильм на IMDB - "Побег из Шоушенка" (почти 3 млн голосов).

При определении популярности всегда еще важно учитывать аудиторию: думаю, что о «Веселой вдове» Штрогейма знает каждый, интересовавшийся историей немого кино, в то же время зрителям старше 40 вряд ли известно, кто такие «Объяснялкины». Количество голосов в базах данных может рассказать только о том, что популярно у современного активного кинозрителя (предполагаю, что возрастной диапазон будет там примерно от 20 до 35). У каждой из баз есть еще и свои особенности: у Кинопоиска и Кинориума много пользователей из СНГ, на IMDB много американцев, индусов и турок, на Letterboxd много голосов может набрать артхаусный фильм.

Самый популярный фильм на Кинопоиске - "1+1" (2.42 млн голосов).
Самый популярный фильм на Кинопоиске - "1+1" (2.42 млн голосов).

Как определить границу поточнее? Для того, чтобы получить хоть какую-то количественную оценку популярности, я взял датасеты IMDB – насколько я понимаю, только они регулярно выкладывают их для общего пользования. Я ограничился полнометражными фильмами. У старых фильмов оценок наверняка меньше, чем у новых, поэтому я решил оставить только данные с 1921 по 2020 – за десять десятилетий (переход на формат полнометражного фильма начинается примерно в 1913-м, по 2020-м пока что нет цифр за все десятилетие). Фильмы, получившие менее 20 оценок, я не учитывал: если судить по 1920-м – 1930-м годам, среди фильмов с 10-20 голосами почти половина – утраченные фильмы.

У фильма Der Ring der Bajadere (1928) всего 10 оценок, все их поставили во Франции. Ни одного отзыва на фильм я не нашел, существует он где-нибудь в архивах или нет - понятия не имею.
У фильма Der Ring der Bajadere (1928) всего 10 оценок, все их поставили во Франции. Ни одного отзыва на фильм я не нашел, существует он где-нибудь в архивах или нет - понятия не имею.

Можно, конечно, предположить, что их смотрели работники какой-нибудь синематеки или гости коллекционера, но, думается мне, скорее всего эти оценки поставили боты. Сам я поставил в IMDB 6734 оценки, среди фильмов, которые я оценивал, всего за пару десятков голосовали 20 человек и менее.

Вот диаграмма с количеством полнометражных фильмов по десятилетиям:

Как определить – популярен фильм или нет

Предполагаю, что разница между 30-ми и 40-ми связана со спадом кинопроизводства во время войны. Резкий рост в 2000-х и 2010-х – следствие лучшего учета (создатели фильма могут сами отправить информацию о нем в IMDB), ну и более легкого способа производства полнометражных фильмов – среди последних 65 тысяч наверняка процентов 30 – копеечные любительские поделки.

Как выглядит распределение количества голосов у фильмов? Вот, например, 2010-е годы (по шкале x – порядковый номер фильма в списке, отсортированном по убыванию голосов, я взял только первые 5 тысяч фильмов для того, чтобы график лучше смотрелся):

Как определить – популярен фильм или нет

Это - экспоненциальное распределение с тяжелым длинным хвостом: типичное распределение для всего, связанного с популярностью (количество продаж по товарам из гигантского онлайн-магазина, личные имена, любимые блюда, поисковые запросы на определенную тему и т. д.) Понятно, что в левой части располагаются хиты, о которых знают миллионы зрителей, а в правой – ограниченно востребованные фильмы, у которых тем не менее есть свой круг ценителей (тот самый «длинный хвост», ставший одной из причин лидерства на рынке Амазона, обеспечившего уже в начале нулевых доступ к книжным редкостям, интересным десяткам или сотням людей). А где проходит граница между популярными и непопулярными фильмами?

50% от суммы всех голосов, отданных на IMDB за фильмы 2010-х, получают 420 фильмов - завершается этот список "Валерианом".
50% от суммы всех голосов, отданных на IMDB за фильмы 2010-х, получают 420 фильмов - завершается этот список "Валерианом".

Я не знаю. Для точного определения стоило бы провести опрос зрителей, выбрав представителей разных поколений с разными вкусами. Для приблизительной оценки можно попробовать разделить площадь под кривой на равные промежутки. Мне часто встречалось такое определение длинного хвоста: 50% площади под кривой распределения. Если говорить про 2010-е, то 50% всех голосов собирают фильмы до бессоновского «Валериана и города тысячи планет». На отметке 40% - «Место под соснами» с Гослингом: популярный фильм, 60% - «Игра Джеральда» по Стивену Кингу, менее популярный, 70% - «Черный плавник», документальный фильм про косатку, - я о его существовании не знал. Кажется, что разделение по 50% суммы всех оценок - неплохой выбор.

Но как это будет выглядеть по всем десятилетиям? У меня получилась вот такая таблица:

Как определить – популярен фильм или нет

Из строчки с 90% я видел два фильма: отличный Eye of the Beholder (1999) с Макгрегором и убогий American Outlaws (2001) с Фарреллом, о семи фильмах ранее не знал. 80% - видел только «Кровь и песок», потому что отсматриваю фильмы 1920-х годов, ничего не знал о паре названий. 70% - видел три фильма, ничего не знал только об одном. 60% - видел восемь фильмов. 50% - видел все десять, 40% - не смотрел только «Место под соснами». То есть, и здесь разделение по границе в 50 процентов суммы всех оценок кажется уместным.

Отсортируем фильмы 2010-х по количеству голосов, выберем первые 4200 (замыкает этот список турецкий "Зять Айкут"): сумма голосов, отданных за них, составляет 90% от общей суммы десятилетия.
Отсортируем фильмы 2010-х по количеству голосов, выберем первые 4200 (замыкает этот список турецкий "Зять Айкут"): сумма голосов, отданных за них, составляет 90% от общей суммы десятилетия.

Но вместо четкой границы вернее будет задать диапазон: «серую» зону между популярными и непопулярными фильмами – где-то между 50 и 70 процентами. 70 процентов я выбрал, просматривая результаты между 65 и 75 процентами. Я сверял впечатления от названий из разных десятилетий: если что-то мне казалось известным среди старых фильмов, то я смотрел на столбец с 2010-ми, которые я знаю хуже и уточнял по нему. Это не идеальный способ, но вряд ли предложенные мной диапазоны сильно отличаются от тех, что были бы получены после опроса.

"Французский связной" - последний из 46 самых популярных фильмов 1970-х годов.
"Французский связной" - последний из 46 самых популярных фильмов 1970-х годов.

Удалось выяснить еще одну интересную деталь распределения голосов по десятилетиям: оно отражает голоса трех (ну, по крайне мере двух) поколений зрителей. За 2010-е 420 фильмов собирают 50% всех голосов за этот период. За 2000-е – 324, за 1990-е – 147, за 1980-е – 117, за 1970-е – 46. Снижение понятно: пик голосования на IMDB приходится на 2000-е – 2010-е годы, активнее всего голосуют те, кому 20-35 лет, в семидесятые годы их еще не существовало на свете или им было до десяти лет. О семидесятых годах они знают хуже всего, поэтому считают, что в те годы было не так много фильмов, заслуживающих просмотра. Много голосов получает небольшое количество фильмов, все остальное смещается в длинный хвост.

За все фильмы 1920-х отдано 2,2 млн голосов (меньше, чем за "Бойцовский клуб"). Четверть этих голосов отдана "Носферату", "Метрополису" и двум фильмам с Чаплином.
За все фильмы 1920-х отдано 2,2 млн голосов (меньше, чем за "Бойцовский клуб"). Четверть этих голосов отдана "Носферату", "Метрополису" и двум фильмам с Чаплином.

Что же дальше, в 1960-е таких фильмов должно быть еще меньше? Нет, 1960-е – 81, 1950-е – 52. И это уже следы голосования предыдущего поколения: для него кино начинается в 1950-х, а затем количество известных фильмов становится больше с каждым следующим десятилетием. У этого поколения в 1970-е цифра наверняка увеличивается до сотни, но голосов «отцов» все же значительно меньше, чем голосов «детей» и мы эту цифру не видим. Более того, мне кажется, что в IMDB видны следы голосования и третьего поколения: 1940-е – 53 и 1930-е – 40. Я помню, что когда на IMDB отображалось распределение голосов по возрасту, там было довольно много тех, кому за 45. «Прадедов» в этой базе нет, 1920-е – забытое прошлое и фильмов, собравших 50% всех голосов там всего 17.

"Касабланка" - самый популярный фильм 1940-х. "You must remember this ..." - сказал как-то своей юной собеседнице критик Томсон и тщетно ждал, что она продолжит цитату. Сможет ли ее завершить кто-нибудь из читающих это)?
"Касабланка" - самый популярный фильм 1940-х. "You must remember this ..." - сказал как-то своей юной собеседнице критик Томсон и тщетно ждал, что она продолжит цитату. Сможет ли ее завершить кто-нибудь из читающих это)?

Об этом важно помнить, рассуждая об истории кино. Фильмы «для тебя» снимают пока тебе примерно от 10 до 35 лет. Вкусы предыдущего поколения более-менее важны: ты растешь среди старых культурных отсылок, но разбираешься в них чуть хуже, чем в современных. С «дедушкиным» периодом связь слабее, но все же существует. С тем, что за его границами, прочной культурной связи нет: те же 1920-е для меня – кино с другой планеты. В 1925-м в СССР с невероятным успехом прошел «Багдадский вор» Дугласа Фэрбенкса – это просто факт из книжки, никаких коллективных переживаний у меня с ним не связано. Но при этом я помню воспоминания стариков о трофейном «Тарзане», помню походы с родителями на любимые ими «Как украсть миллион» и «Искателей приключений». У меня хранится до сих пор билет на первый сеанс «Властелина колец» - этот поход в кино был важен уже лично для меня. Дэвид Томсон, родившийся в 1941-м, был поражен в 2003-м тем, что молодая женщина не узнала цитату из «Касабланки» (1942): для него это – база, главный фильм старшего поколения, для них – что-то на стариковском.

Такой билет мне продали на премьеру "Братства кольца" - никаких очередей в кассе не было. Очень трогает "приключения" в определении жанра - просто "фэнтези" писать пока что не решаются.
Такой билет мне продали на премьеру "Братства кольца" - никаких очередей в кассе не было. Очень трогает "приключения" в определении жанра - просто "фэнтези" писать пока что не решаются.

Соответственно кино, которое снимается для следующего поколения, уже может раздражать: отсюда современное ворчание о «повесточке». Помню, как я с удивлением слушал, как мой дедушка ругает Андрея Миронова, помню, как кинокритик, которому в 2000-м было за сорок, рассуждал об уродливых молодых актрисах и называл всех юных героев «поросятками». Для противопоставления «свое» - «чужое» характерно представление о «своем» как о чем-то сложном, многомерном, настоящем и живом, «чужое» же - это что-то простое и фальшивое. В истории кино это работает в обе стороны: все, что до 1950-х (а для тех, кто помоложе, и до 1960-х) – «кал мамонта», все, что снимают для молодежи, – тупо и примитивно.

В России "Таксист" популярнее, чем в Европе и США. Подозреваю, что на Кинопоиске в целом высокие оценки у корейцев и аниме, не проверял.
В России "Таксист" популярнее, чем в Европе и США. Подозреваю, что на Кинопоиске в целом высокие оценки у корейцев и аниме, не проверял.

Но вернусь к цифрам, определяющим популярность. Табличку с диапазоном по количеству голосов, определяющих популярные, непопулярные фильмы и «серую зону» между ними составить нетрудно. Но важно помнить, что со второй половины 2010-х аудитория IMDB переходит на другие ресурсы – зарубежные зрители чаще голосуют на Letterboxd (подражая американцам, там заводят аккаунты и наши соотечественники), российские – на Кинопоиске. Как перевести количества голосов из IMDB в количество голосов на Кинопоиске?

"Большие гонки": герои прибывают в Тобольск.
"Большие гонки": герои прибывают в Тобольск.

Ради интереса я сначала сделал выборку по фильмам, определяющим границу в 10, 15, 20 процентов суммы и т. д. Выяснилось, что по отдельным наименованиям ничего определенного сказать нельзя: у корейского «Таксиста» (2017) – 187 тысяч оценок на КП, 34 тысячи на IMDB (не исключаю, что у нас в целом по азиатам высокие значения), у «Еще по одной» (2020) с Миккельсеном – 491 тыс. (КП) и 208 тыс. (IMDB), у популярной в СССР комедии «Большие гонки» (1965) – 24 тыс. (КП) и 20 тыс. (IMDB), примерно то же соотношение у фильма «В джазе только девушки». Количество оценок у фильмов, которые сейчас в США прессуют из-за неверной идеологии, на КП оказывается примерно равным количеству оценок на IMDB: это и «Apocalypto» Мела Гибсона, и, что особо меня удивило, «Унесенные ветром».

"Добровольцы поневоле" Билл Мюррей захватывает советскую базу. У нас этот фильм не очень любят.
"Добровольцы поневоле" Билл Мюррей захватывает советскую базу. У нас этот фильм не очень любят.

С другой стороны, на IMDB активно голосуют турки и индусы, на Кинопоиск они не лезут: например, у фильма «Беги, Милка, беги» (2013) 74 тыс. голосов на IMDB и тысяча голосов на КП. Многое из американской классики у нас не видели, поэтому в России голосов за эти фильмы отдается меньше: у комедии «Добровольцы поневоле» (1981) с Биллом Мюрреем 3 тыс. голосов на КП и 81 тыс. на IMDB, у классического фильма Капры «Мистер Смит едет в Вашингтон» 5 тыс. на КП, 122 тыс. на IMDB. C Letterboxd примерно та же ситуация: у американской классики и индийских фильмов голосов там меньше, чем на IMDB, у современных фильмов, хорроров и арт-хауса – порой в разы больше.

Поэтому для оценки диапазонов популярности на КП и на Леттере я посчитал коэффициенты для каждого десятилетия, сравнивая количество голосов в списках фильмов для 50, 100, 150 места и т. д. (сортировка – по убыванию голосов пользователей). Получилась вот такая таблица (до первого значения - малоизвестные, между двумя значениями - более-менее известные, после второго значения - популярные; единица измерения - тысяча оценок; значения я очень грубо округлял; по 2020-м пока все же мало данных):

Как определить – популярен фильм или нет

Для проверки я посмотрел на фильмы, лежащие в центре диапазона и рядом с его границами. Возьмем, например, 2000-е: "Пила" - популярный фильм (190 тыс. оценок на КП), "Золотой компас" - более-менее известный (113 тыс.), "Запределье" Тарсема Сингха - малоизвестный (43 тыс.). Или 1990-е: "Секреты Лос-Анджелеса" - популярный фильм (106 тыс.), "Страшилы" Питера Джексона - более-менее известный (45 тыс.), "Настя" Данелии - малоизвестный фильм (22 тыс.) Особых возражений эти определения у меня не вызывают.

В России эта отличная бэшка чуть популярнее, чем за рубежом.
В России эта отличная бэшка чуть популярнее, чем за рубежом.

Дополнительно я посмотрел подборки по запросам «десять малоизвестных / забытых / непопулярных фильмов/хорроров/боевиков». Вот, Кинопоиск добавляет в такой список «Связь» братьев Вачовски: 123 тыс. голосов на Леттере (середина «серой» зоны), 63 тыс. на IMDB (непопулярные), 14 тыс. на КП. Да, все корректно: средний россиянин, в отличие от среднего пользователя Леттера, этот фильм не узнает. Вот, вижу, что на DTF в этот список попадают «Крикуны», одна из лучших экранизаций Ф. К. Дика. Он никому не нужен на Letterboxd (10 тыс. голосов), на IMDB – 30 тыс. (непопулярные), столько же на КП («серая» зона). Так что тоже да, но с оговорками: в России популярность у «Крикунов» повыше, чем за рубежом – известен в узких кругах. «Тинькофф Журнал» включает в список забытых советских фильмов комедию «Три плюс два». 660 голосов на Letterboxd, 2 тысячи на IMDB и 137 тысяч на Кинопоиске. Конечно, это - очень популярный в России фильм, никто его не забыл.

На этом, наверное, все. Можно было бы дополнительно разобраться со странами и жанрами (не исключаю, что хоррорам не только занижают оценки, но и голосуют за них реже), но для начала хватит и этого. Хотелось бы, конечно, прочитать мораль – мол, смотрите на количество оценок в базах данных, когда объявляете какой-то фильм малоизвестным, но кому она нужна.

28
2
31 комментарий

К вопросу об оценках на подобных сервисах.

В последнее время обратил внимание, насколько же сильно на оценку влияет популярность фильма и его выход за пределы определённой ниши. Примеров много, но из последнего и супер показательного:
Вот вышел добротный такой боди-хоррор «Субстанция». И пока про него знали только несколько тысяч человек, оценка на КП была 7.7 (для жанра это ОЧЕНЬ МНОГО). Потом фильм завирусилось в более массовом кругу киноманов - оценка упала до 7 с небольшим. А дальше пошли мемы… Много мемов… «Субстанцию» начали смотреть нормисы всех возрастов, и этот весьма нишевый продукт стал вторым по популярности фильмом 2024 года ВООБЩЕ, среди всех сегментов (опередил его только боевичок с народным артистом Стэйтемом). 720 тысяч людей оценили фильм. Как итог, текущая оценка: 6.3.
С «Анорой», кстати, похожая ситуация была.

Я честно говоря не знаю, какой здесь должен быть вывод. С одной стороны, ориентироваться на вкус узкой группы не стоит. С другой, мнение «широких народных масс», у которых 1+1 оценён выше любого фильма Кубрика, тоже не слишком информативно.

9

Я писал о количестве оценок, а не о среднем балле, но ок))

Постепенное снижение средней оценки - обычный процесс: так было всегда. Ну и у хорроров оценки всегда были на балл ниже, чем у других фильмов. Если ориентироваться на оценки из бд, то надо всегда один балл прибавлять: тогда у Субстанции хороший результат.

Сам я Субстанции поставил 5, Аноре вроде 6, так что в данном случае оценки меня устраивают))

На КП года три назад поменяли алгоритм сравнения векторов с оценками и теперь при выборе современного фильма или сериала я посматриваю на средний балл похожих на меня юзеров.

4

Я оценки пользователей смотрю только на посмеяться. Всегда врут.
А вот профкритики чуть чаще оказываются правы, но тоже не всегда.

4

Я в какой-то момент просто нашел пару людей, вкусы которых совпадают с моими. При этом их насмотренность в разы превышает мою, и самое главное, они ещё и пишут заметки о фильмах в тг и вк. Ориентироваться в кино стало гораздо проще

3

Тоже обратил внимание. Впервые на "Всё, везде и сразу"

1

Статья интересная, спасибо. Удивило такое снижение количества оценок в 70х, всегда казалось что интереснейшее десятилетие.

2

Я это объясняю средним возрастом голосовавших: чем дальше прошлое, тем хуже его знаешь, а исследователей среди зрителей не так много.

1