Как определить – популярен фильм или нет
Сколько голосов должно быть на Кинопоиске, чтобы назвать фильм популярным? А также о том, как отражается смена поколений в базах данных с кинофильмами.
Популярен фильм или нет? Каждому приходилось или отвечать хотя бы раз в жизни на этот вопрос, ну или сталкиваться с ответами на него. Часто видишь перечни «малоизвестных» фильмов, первым комментарием к которым бывает что-нибудь вроде: «фильм «Бабадук» известен всем и каждому». Можно ли это как-то доказать или опровергнуть? В четырех основных базах данных с кинофильмами (IMDB, Letterboxd, Кинопоиск и Кинориум) есть такой показатель как количество голосов, отданных за фильм. У второй части «Дюны» на Кинопоиске сейчас более 180 тысяч оценок, у советского сериала «Долгая дорога в дюнах» - 25 тысяч. Интуитивно понятно, что «Дюна» - фильм сверхпопулярный, а латышский эпос – не очень, даже в России.
При определении популярности всегда еще важно учитывать аудиторию: думаю, что о «Веселой вдове» Штрогейма знает каждый, интересовавшийся историей немого кино, в то же время зрителям старше 40 вряд ли известно, кто такие «Объяснялкины». Количество голосов в базах данных может рассказать только о том, что популярно у современного активного кинозрителя (предполагаю, что возрастной диапазон будет там примерно от 20 до 35). У каждой из баз есть еще и свои особенности: у Кинопоиска и Кинориума много пользователей из СНГ, на IMDB много американцев, индусов и турок, на Letterboxd много голосов может набрать артхаусный фильм.
Как определить границу поточнее? Для того, чтобы получить хоть какую-то количественную оценку популярности, я взял датасеты IMDB – насколько я понимаю, только они регулярно выкладывают их для общего пользования. Я ограничился полнометражными фильмами. У старых фильмов оценок наверняка меньше, чем у новых, поэтому я решил оставить только данные с 1921 по 2020 – за десять десятилетий (переход на формат полнометражного фильма начинается примерно в 1913-м, по 2020-м пока что нет цифр за все десятилетие). Фильмы, получившие менее 20 оценок, я не учитывал: если судить по 1920-м – 1930-м годам, среди фильмов с 10-20 голосами почти половина – утраченные фильмы.
Можно, конечно, предположить, что их смотрели работники какой-нибудь синематеки или гости коллекционера, но, думается мне, скорее всего эти оценки поставили боты. Сам я поставил в IMDB 6734 оценки, среди фильмов, которые я оценивал, всего за пару десятков голосовали 20 человек и менее.
Вот диаграмма с количеством полнометражных фильмов по десятилетиям:
Предполагаю, что разница между 30-ми и 40-ми связана со спадом кинопроизводства во время войны. Резкий рост в 2000-х и 2010-х – следствие лучшего учета (создатели фильма могут сами отправить информацию о нем в IMDB), ну и более легкого способа производства полнометражных фильмов – среди последних 65 тысяч наверняка процентов 30 – копеечные любительские поделки.
Как выглядит распределение количества голосов у фильмов? Вот, например, 2010-е годы (по шкале x – порядковый номер фильма в списке, отсортированном по убыванию голосов, я взял только первые 5 тысяч фильмов для того, чтобы график лучше смотрелся):
Это - экспоненциальное распределение с тяжелым длинным хвостом: типичное распределение для всего, связанного с популярностью (количество продаж по товарам из гигантского онлайн-магазина, личные имена, любимые блюда, поисковые запросы на определенную тему и т. д.) Понятно, что в левой части располагаются хиты, о которых знают миллионы зрителей, а в правой – ограниченно востребованные фильмы, у которых тем не менее есть свой круг ценителей (тот самый «длинный хвост», ставший одной из причин лидерства на рынке Амазона, обеспечившего уже в начале нулевых доступ к книжным редкостям, интересным десяткам или сотням людей). А где проходит граница между популярными и непопулярными фильмами?
Я не знаю. Для точного определения стоило бы провести опрос зрителей, выбрав представителей разных поколений с разными вкусами. Для приблизительной оценки можно попробовать разделить площадь под кривой на равные промежутки. Мне часто встречалось такое определение длинного хвоста: 50% площади под кривой распределения. Если говорить про 2010-е, то 50% всех голосов собирают фильмы до бессоновского «Валериана и города тысячи планет». На отметке 40% - «Место под соснами» с Гослингом: популярный фильм, 60% - «Игра Джеральда» по Стивену Кингу, менее популярный, 70% - «Черный плавник», документальный фильм про косатку, - я о его существовании не знал. Кажется, что разделение по 50% суммы всех оценок - неплохой выбор.
Но как это будет выглядеть по всем десятилетиям? У меня получилась вот такая таблица:
Из строчки с 90% я видел два фильма: отличный Eye of the Beholder (1999) с Макгрегором и убогий American Outlaws (2001) с Фарреллом, о семи фильмах ранее не знал. 80% - видел только «Кровь и песок», потому что отсматриваю фильмы 1920-х годов, ничего не знал о паре названий. 70% - видел три фильма, ничего не знал только об одном. 60% - видел восемь фильмов. 50% - видел все десять, 40% - не смотрел только «Место под соснами». То есть, и здесь разделение по границе в 50 процентов суммы всех оценок кажется уместным.
Но вместо четкой границы вернее будет задать диапазон: «серую» зону между популярными и непопулярными фильмами – где-то между 50 и 70 процентами. 70 процентов я выбрал, просматривая результаты между 65 и 75 процентами. Я сверял впечатления от названий из разных десятилетий: если что-то мне казалось известным среди старых фильмов, то я смотрел на столбец с 2010-ми, которые я знаю хуже и уточнял по нему. Это не идеальный способ, но вряд ли предложенные мной диапазоны сильно отличаются от тех, что были бы получены после опроса.
Удалось выяснить еще одну интересную деталь распределения голосов по десятилетиям: оно отражает голоса трех (ну, по крайне мере двух) поколений зрителей. За 2010-е 420 фильмов собирают 50% всех голосов за этот период. За 2000-е – 324, за 1990-е – 147, за 1980-е – 117, за 1970-е – 46. Снижение понятно: пик голосования на IMDB приходится на 2000-е – 2010-е годы, активнее всего голосуют те, кому 20-35 лет, в семидесятые годы их еще не существовало на свете или им было до десяти лет. О семидесятых годах они знают хуже всего, поэтому считают, что в те годы было не так много фильмов, заслуживающих просмотра. Много голосов получает небольшое количество фильмов, все остальное смещается в длинный хвост.
Что же дальше, в 1960-е таких фильмов должно быть еще меньше? Нет, 1960-е – 81, 1950-е – 52. И это уже следы голосования предыдущего поколения: для него кино начинается в 1950-х, а затем количество известных фильмов становится больше с каждым следующим десятилетием. У этого поколения в 1970-е цифра наверняка увеличивается до сотни, но голосов «отцов» все же значительно меньше, чем голосов «детей» и мы эту цифру не видим. Более того, мне кажется, что в IMDB видны следы голосования и третьего поколения: 1940-е – 53 и 1930-е – 40. Я помню, что когда на IMDB отображалось распределение голосов по возрасту, там было довольно много тех, кому за 45. «Прадедов» в этой базе нет, 1920-е – забытое прошлое и фильмов, собравших 50% всех голосов там всего 17.
Об этом важно помнить, рассуждая об истории кино. Фильмы «для тебя» снимают пока тебе примерно от 10 до 35 лет. Вкусы предыдущего поколения более-менее важны: ты растешь среди старых культурных отсылок, но разбираешься в них чуть хуже, чем в современных. С «дедушкиным» периодом связь слабее, но все же существует. С тем, что за его границами, прочной культурной связи нет: те же 1920-е для меня – кино с другой планеты. В 1925-м в СССР с невероятным успехом прошел «Багдадский вор» Дугласа Фэрбенкса – это просто факт из книжки, никаких коллективных переживаний у меня с ним не связано. Но при этом я помню воспоминания стариков о трофейном «Тарзане», помню походы с родителями на любимые ими «Как украсть миллион» и «Искателей приключений». У меня хранится до сих пор билет на первый сеанс «Властелина колец» - этот поход в кино был важен уже лично для меня. Дэвид Томсон, родившийся в 1941-м, был поражен в 2003-м тем, что молодая женщина не узнала цитату из «Касабланки» (1942): для него это – база, главный фильм старшего поколения, для них – что-то на стариковском.
Соответственно кино, которое снимается для следующего поколения, уже может раздражать: отсюда современное ворчание о «повесточке». Помню, как я с удивлением слушал, как мой дедушка ругает Андрея Миронова, помню, как кинокритик, которому в 2000-м было за сорок, рассуждал об уродливых молодых актрисах и называл всех юных героев «поросятками». Для противопоставления «свое» - «чужое» характерно представление о «своем» как о чем-то сложном, многомерном, настоящем и живом, «чужое» же - это что-то простое и фальшивое. В истории кино это работает в обе стороны: все, что до 1950-х (а для тех, кто помоложе, и до 1960-х) – «кал мамонта», все, что снимают для молодежи, – тупо и примитивно.
Но вернусь к цифрам, определяющим популярность. Табличку с диапазоном по количеству голосов, определяющих популярные, непопулярные фильмы и «серую зону» между ними составить нетрудно. Но важно помнить, что со второй половины 2010-х аудитория IMDB переходит на другие ресурсы – зарубежные зрители чаще голосуют на Letterboxd (подражая американцам, там заводят аккаунты и наши соотечественники), российские – на Кинопоиске. Как перевести количества голосов из IMDB в количество голосов на Кинопоиске?
Ради интереса я сначала сделал выборку по фильмам, определяющим границу в 10, 15, 20 процентов суммы и т. д. Выяснилось, что по отдельным наименованиям ничего определенного сказать нельзя: у корейского «Таксиста» (2017) – 187 тысяч оценок на КП, 34 тысячи на IMDB (не исключаю, что у нас в целом по азиатам высокие значения), у «Еще по одной» (2020) с Миккельсеном – 491 тыс. (КП) и 208 тыс. (IMDB), у популярной в СССР комедии «Большие гонки» (1965) – 24 тыс. (КП) и 20 тыс. (IMDB), примерно то же соотношение у фильма «В джазе только девушки». Количество оценок у фильмов, которые сейчас в США прессуют из-за неверной идеологии, на КП оказывается примерно равным количеству оценок на IMDB: это и «Apocalypto» Мела Гибсона, и, что особо меня удивило, «Унесенные ветром».
С другой стороны, на IMDB активно голосуют турки и индусы, на Кинопоиск они не лезут: например, у фильма «Беги, Милка, беги» (2013) 74 тыс. голосов на IMDB и тысяча голосов на КП. Многое из американской классики у нас не видели, поэтому в России голосов за эти фильмы отдается меньше: у комедии «Добровольцы поневоле» (1981) с Биллом Мюрреем 3 тыс. голосов на КП и 81 тыс. на IMDB, у классического фильма Капры «Мистер Смит едет в Вашингтон» 5 тыс. на КП, 122 тыс. на IMDB. C Letterboxd примерно та же ситуация: у американской классики и индийских фильмов голосов там меньше, чем на IMDB, у современных фильмов, хорроров и арт-хауса – порой в разы больше.
Поэтому для оценки диапазонов популярности на КП и на Леттере я посчитал коэффициенты для каждого десятилетия, сравнивая количество голосов в списках фильмов для 50, 100, 150 места и т. д. (сортировка – по убыванию голосов пользователей). Получилась вот такая таблица (до первого значения - малоизвестные, между двумя значениями - более-менее известные, после второго значения - популярные; единица измерения - тысяча оценок; значения я очень грубо округлял; по 2020-м пока все же мало данных):
Для проверки я посмотрел на фильмы, лежащие в центре диапазона и рядом с его границами. Возьмем, например, 2000-е: "Пила" - популярный фильм (190 тыс. оценок на КП), "Золотой компас" - более-менее известный (113 тыс.), "Запределье" Тарсема Сингха - малоизвестный (43 тыс.). Или 1990-е: "Секреты Лос-Анджелеса" - популярный фильм (106 тыс.), "Страшилы" Питера Джексона - более-менее известный (45 тыс.), "Настя" Данелии - малоизвестный фильм (22 тыс.) Особых возражений эти определения у меня не вызывают.
Дополнительно я посмотрел подборки по запросам «десять малоизвестных / забытых / непопулярных фильмов/хорроров/боевиков». Вот, Кинопоиск добавляет в такой список «Связь» братьев Вачовски: 123 тыс. голосов на Леттере (середина «серой» зоны), 63 тыс. на IMDB (непопулярные), 14 тыс. на КП. Да, все корректно: средний россиянин, в отличие от среднего пользователя Леттера, этот фильм не узнает. Вот, вижу, что на DTF в этот список попадают «Крикуны», одна из лучших экранизаций Ф. К. Дика. Он никому не нужен на Letterboxd (10 тыс. голосов), на IMDB – 30 тыс. (непопулярные), столько же на КП («серая» зона). Так что тоже да, но с оговорками: в России популярность у «Крикунов» повыше, чем за рубежом – известен в узких кругах. «Тинькофф Журнал» включает в список забытых советских фильмов комедию «Три плюс два». 660 голосов на Letterboxd, 2 тысячи на IMDB и 137 тысяч на Кинопоиске. Конечно, это - очень популярный в России фильм, никто его не забыл.
На этом, наверное, все. Можно было бы дополнительно разобраться со странами и жанрами (не исключаю, что хоррорам не только занижают оценки, но и голосуют за них реже), но для начала хватит и этого. Хотелось бы, конечно, прочитать мораль – мол, смотрите на количество оценок в базах данных, когда объявляете какой-то фильм малоизвестным, но кому она нужна.
К вопросу об оценках на подобных сервисах.
В последнее время обратил внимание, насколько же сильно на оценку влияет популярность фильма и его выход за пределы определённой ниши. Примеров много, но из последнего и супер показательного:
Вот вышел добротный такой боди-хоррор «Субстанция». И пока про него знали только несколько тысяч человек, оценка на КП была 7.7 (для жанра это ОЧЕНЬ МНОГО). Потом фильм завирусилось в более массовом кругу киноманов - оценка упала до 7 с небольшим. А дальше пошли мемы… Много мемов… «Субстанцию» начали смотреть нормисы всех возрастов, и этот весьма нишевый продукт стал вторым по популярности фильмом 2024 года ВООБЩЕ, среди всех сегментов (опередил его только боевичок с народным артистом Стэйтемом). 720 тысяч людей оценили фильм. Как итог, текущая оценка: 6.3.
С «Анорой», кстати, похожая ситуация была.
Я честно говоря не знаю, какой здесь должен быть вывод. С одной стороны, ориентироваться на вкус узкой группы не стоит. С другой, мнение «широких народных масс», у которых 1+1 оценён выше любого фильма Кубрика, тоже не слишком информативно.
Я писал о количестве оценок, а не о среднем балле, но ок))
Постепенное снижение средней оценки - обычный процесс: так было всегда. Ну и у хорроров оценки всегда были на балл ниже, чем у других фильмов. Если ориентироваться на оценки из бд, то надо всегда один балл прибавлять: тогда у Субстанции хороший результат.
Сам я Субстанции поставил 5, Аноре вроде 6, так что в данном случае оценки меня устраивают))
На КП года три назад поменяли алгоритм сравнения векторов с оценками и теперь при выборе современного фильма или сериала я посматриваю на средний балл похожих на меня юзеров.
Я оценки пользователей смотрю только на посмеяться. Всегда врут.
А вот профкритики чуть чаще оказываются правы, но тоже не всегда.
Я в какой-то момент просто нашел пару людей, вкусы которых совпадают с моими. При этом их насмотренность в разы превышает мою, и самое главное, они ещё и пишут заметки о фильмах в тг и вк. Ориентироваться в кино стало гораздо проще
Тоже обратил внимание. Впервые на "Всё, везде и сразу"
Статья интересная, спасибо. Удивило такое снижение количества оценок в 70х, всегда казалось что интереснейшее десятилетие.
Я это объясняю средним возрастом голосовавших: чем дальше прошлое, тем хуже его знаешь, а исследователей среди зрителей не так много.