Основы математической статистики. Часть 1
Математическая статистика. Звучит грустно и скучно, но сегодня постараемся разобраться с тем что это такое и зачем нужно. При этом сделаем это максимально интересно для гейм-дизайнеров.
Математическая статистика — прежде всего подход или способ мышления. Она проникает во всю нашу жизнь. Везде где мы принимаем какие-либо решения, мы основываемся на доводах. Эти доводы чаще всего — численные. А статистика помогает сформировать правильные численные доводы.
Также изучая статистику вы получите пассивный навык: у вас повысится наблюдательность, проницательность и вы начнете искать подвохи. Вы начнете относиться к данным чуть иначе, научитесь их правильно трактовать и понимать, а также принимать более правильные решения.
Статья получилась довольно крупной и я решил разбить её на несколько логических блоков. В первой части мы разберемся, зачем нам статистика, и с основными статистическими показателями, такими как среднее, медиана и мода. Вступление получилось довольно длинным, так что давайте переходить ближе к делу!
Что позволяет статистика?
С помощью статистики мы можем собирать данные, определять закономерности в этих данных, анализировать эти закономерности и выстраивать прогнозы на основе этого анализа, что и помогает нам в принятии решения.
В университете статистика разбивается на две большие части: теорию вероятности и математическую статистику. О второй части сегодня речь и пойдет, так как с теорией вероятности каждый гейм-дизайнер немного, но знаком, а вот математическая статистика уходит на второй план.
В статистике, в отличие от теории вероятности, мы работаем с неполными данными. Мы работаем с некой выборкой, и, делая вывод на этих неполных данных, мы говорим, что это не 100% истина. В статистике не может быть 100% истинных выводов вообще.
Что такое выборка? Это часть генеральной совокупности. Проще всего эти два понятия понимать так: выборка — это ложка супа, а кастрюля с супом — это генеральная совокупность. Пробуя лишь одну ложку супа мы делаем вывод о том, насколько этот суп вкусный. Также работает и статистика.
Возможно ли что на дне кастрюли лежит огромный нерастворившийся кусок соли, который не успел раствориться, и на самом деле суп куда более соленый, чем та ложка что мы попробовали? Да, такая вероятность есть, поэтому мы и говорим, что хоть вывод мы и сделали, но он не 100% истинный.
Основные статистические показатели
Какими основными показателями оперируют в подсчете статистики и принятии решений? На самом деле вы с большинством уже знакомы, но возможно не знали точных названий этих показателей. Сейчас мы с вами подробно разберемся что есть что, и как оно работает:
- Среднее значение. Мы берем все элементы выборки, суммируем между собой и делим на количество элементов. Тут все просто. Мы считали такие средние еще в школе. Для нас это привычно. Помните анекдот про температуру в больнице? Вот именно про это там и говорилось. Если на первом этаже у больных температура 33, а на втором — 40, то в среднем у них температура 36.5 — все здоровые!
- Медиана. Мы берем все элементы выборки, упорядочиваем по возрастанию и берем элемент из середины — это и будет наша медиана. Если число элементов нечетное, то все просто — берем то что по середине. Если число элементов четное — берем два элемента в середине и находим среднее значение.
- Мода. Мода рассказывает нам о том, какой элемент чаще всего попадается в выборке. Например в ряде числе “1, 1, 3, 3, 3” мода будет равна 3. Запомнить легко: самое модное число.
Эти три показателя помогают нам в анализе данных для поиска средних значений. Использование именно поиска среднего сложением всех элементов конечно довольно справедливое, но если у нас слишком полярные данные (например почти все зарабатывают 10.000, а один 500.000), то среднее будет выглядеть не очень справедливо. Это часто применяется в разных СМИ для того, чтобы выдать позитивную новость роста зарплат.
Медиана же более робастна, т.е. устойчива к подобным слишком большим или маленьким значениям. Если в нашем примере мы берем медиану, то мы получим более справедливую среднюю зарплату. Медиана справедливее чем среднее в случае с слишком большими или маленькими значениями относительно всех остальных.
Чтобы не считать полностью распределение, мы можем сравнить медиану и среднее друг с другом. Если среднее сильно выше чем медиана — значит в нашей выборке есть такие данные, которые сильно выше остальных. Если среднее сильно ниже медианы — значит есть много маленьких элементов. Если среднее +- равно медиане, то выборка распределена более менее равномерно, либо слишком маленькие значения компенсируют слишком большие, и наоборот.
Как применить на практике
Примеры приведенные ниже могут встретиться вам в тестовых заданиях в разных компаниях, но на самом деле это стандартные задачи, которые нужно решать в ходе работы над игрой. Чаще всего соискатель видит выражение “найдите среднее” и просто берет среднее значение, хотя как мы разобрали выше, оно может не подходить в той или иной ситуации.
Пример 1: Виртуальная валюта
Для расчета баланса вам необходимо узнать среднее значение золота у игроков. В игре нет системы античита. В игре есть возможность покупать валюту за реальные деньги. Каким способом вы это сделаете? Почему?
Ответ: В нашей игре могут быть как платящие, так и неплатящие игроки. У первых валюты будет больше чем у вторых, но все еще в пределах разумного. А вот пункт про античит намекает нам на то, что читер в игре может создать себе несправедливо огромное значение золота. Тогда мы получим нерелевантное среднее если просто сложим все значения и разделим их на общее количество элементов. Читер испортит среднее.
Мода также не будет справедлива, потому что значение не будет повторяться слишком часто, ведь игроки по разному относятся к накоплению валюты и её трате. К тому же выпадение валюты может быть неравномерным. Из-за этого выборка очень широкая и получить типичные (модные) значения слишком трудно. Медиана же будет более-менее справедлива для данного случая.
Ответ со звездочкой (если ответили так, то это +10 очков сразу к вашей кандидатуре): нужно сегментировать пользователей на платящих и неплатящих, читеров и не читеров, и рассматривать их по отдельности. Посчитать среднее и медиану, сравнить их друг с другом и в зависимости от результата сравнения выбрать либо среднее, либо медиану.
Пример 2: Уровни игрока
В игре планируется ввести новое событие с доступом на определенном уровне. Этим событием мы хотим подстегнуть интерес к бустерам опыта. Для этого нужно определить, с какого уровня запускать данное событие. Это должен быть следующий уровень за тем, что есть у большинства игроков на данный момент. Каким образом вы найдете этот уровень? Почему?
Попробуйте решить данную задачу самостоятельно исходя из хода мыслей в первом примере. Ответ можете писать в комментарии.
Небольшой шаг в сторону понимания статистики
Сегодня мы сделали небольшой шаг в сторону понимания математической статистики. На следующей неделе нас ждет не менее интересная часть. Чтобы не пропустить её, подписывайтесь на наш телеграм-канал, где мы вместе с Даниилом Хрипко и Ильей Арининым с понедельника по пятницу публикуем интересные материалы. А наша редакторка Валерия Тиранова разбавляет полезности мемами связанными с игровой индустрией.