Основы математической статистики. Часть 1

Математическая статистика. Звучит грустно и скучно, но сегодня постараемся разобраться с тем что это такое и зачем нужно. При этом сделаем это максимально интересно для гейм-дизайнеров.

Математическая статистика — прежде всего подход или способ мышления. Она проникает во всю нашу жизнь. Везде где мы принимаем какие-либо решения, мы основываемся на доводах. Эти доводы чаще всего — численные. А статистика помогает сформировать правильные численные доводы.

Также изучая статистику вы получите пассивный навык: у вас повысится наблюдательность, проницательность и вы начнете искать подвохи. Вы начнете относиться к данным чуть иначе, научитесь их правильно трактовать и понимать, а также принимать более правильные решения.

Статья получилась довольно крупной и я решил разбить её на несколько логических блоков. В первой части мы разберемся, зачем нам статистика, и с основными статистическими показателями, такими как среднее, медиана и мода. Вступление получилось довольно длинным, так что давайте переходить ближе к делу!

Основы математической статистики. Часть 1

Что позволяет статистика?

С помощью статистики мы можем собирать данные, определять закономерности в этих данных, анализировать эти закономерности и выстраивать прогнозы на основе этого анализа, что и помогает нам в принятии решения.

В университете статистика разбивается на две большие части: теорию вероятности и математическую статистику. О второй части сегодня речь и пойдет, так как с теорией вероятности каждый гейм-дизайнер немного, но знаком, а вот математическая статистика уходит на второй план.

В статистике, в отличие от теории вероятности, мы работаем с неполными данными. Мы работаем с некой выборкой, и, делая вывод на этих неполных данных, мы говорим, что это не 100% истина. В статистике не может быть 100% истинных выводов вообще.

Что такое выборка? Это часть генеральной совокупности. Проще всего эти два понятия понимать так: выборка — это ложка супа, а кастрюля с супом — это генеральная совокупность. Пробуя лишь одну ложку супа мы делаем вывод о том, насколько этот суп вкусный. Также работает и статистика.

Возможно ли что на дне кастрюли лежит огромный нерастворившийся кусок соли, который не успел раствориться, и на самом деле суп куда более соленый, чем та ложка что мы попробовали? Да, такая вероятность есть, поэтому мы и говорим, что хоть вывод мы и сделали, но он не 100% истинный.

Основы математической статистики. Часть 1

Основные статистические показатели

Какими основными показателями оперируют в подсчете статистики и принятии решений? На самом деле вы с большинством уже знакомы, но возможно не знали точных названий этих показателей. Сейчас мы с вами подробно разберемся что есть что, и как оно работает:

  • Среднее значение. Мы берем все элементы выборки, суммируем между собой и делим на количество элементов. Тут все просто. Мы считали такие средние еще в школе. Для нас это привычно. Помните анекдот про температуру в больнице? Вот именно про это там и говорилось. Если на первом этаже у больных температура 33, а на втором — 40, то в среднем у них температура 36.5 — все здоровые!
  • Медиана. Мы берем все элементы выборки, упорядочиваем по возрастанию и берем элемент из середины — это и будет наша медиана. Если число элементов нечетное, то все просто — берем то что по середине. Если число элементов четное — берем два элемента в середине и находим среднее значение.
  • Мода. Мода рассказывает нам о том, какой элемент чаще всего попадается в выборке. Например в ряде числе “1, 1, 3, 3, 3” мода будет равна 3. Запомнить легко: самое модное число.

Эти три показателя помогают нам в анализе данных для поиска средних значений. Использование именно поиска среднего сложением всех элементов конечно довольно справедливое, но если у нас слишком полярные данные (например почти все зарабатывают 10.000, а один 500.000), то среднее будет выглядеть не очень справедливо. Это часто применяется в разных СМИ для того, чтобы выдать позитивную новость роста зарплат.

Медиана же более робастна, т.е. устойчива к подобным слишком большим или маленьким значениям. Если в нашем примере мы берем медиану, то мы получим более справедливую среднюю зарплату. Медиана справедливее чем среднее в случае с слишком большими или маленькими значениями относительно всех остальных.

Чтобы не считать полностью распределение, мы можем сравнить медиану и среднее друг с другом. Если среднее сильно выше чем медиана — значит в нашей выборке есть такие данные, которые сильно выше остальных. Если среднее сильно ниже медианы — значит есть много маленьких элементов. Если среднее +- равно медиане, то выборка распределена более менее равномерно, либо слишком маленькие значения компенсируют слишком большие, и наоборот.

Основы математической статистики. Часть 1

Как применить на практике

Примеры приведенные ниже могут встретиться вам в тестовых заданиях в разных компаниях, но на самом деле это стандартные задачи, которые нужно решать в ходе работы над игрой. Чаще всего соискатель видит выражение “найдите среднее” и просто берет среднее значение, хотя как мы разобрали выше, оно может не подходить в той или иной ситуации.

Пример 1: Виртуальная валюта

Для расчета баланса вам необходимо узнать среднее значение золота у игроков. В игре нет системы античита. В игре есть возможность покупать валюту за реальные деньги. Каким способом вы это сделаете? Почему?

Ответ: В нашей игре могут быть как платящие, так и неплатящие игроки. У первых валюты будет больше чем у вторых, но все еще в пределах разумного. А вот пункт про античит намекает нам на то, что читер в игре может создать себе несправедливо огромное значение золота. Тогда мы получим нерелевантное среднее если просто сложим все значения и разделим их на общее количество элементов. Читер испортит среднее.

Мода также не будет справедлива, потому что значение не будет повторяться слишком часто, ведь игроки по разному относятся к накоплению валюты и её трате. К тому же выпадение валюты может быть неравномерным. Из-за этого выборка очень широкая и получить типичные (модные) значения слишком трудно. Медиана же будет более-менее справедлива для данного случая.

Ответ со звездочкой (если ответили так, то это +10 очков сразу к вашей кандидатуре): нужно сегментировать пользователей на платящих и неплатящих, читеров и не читеров, и рассматривать их по отдельности. Посчитать среднее и медиану, сравнить их друг с другом и в зависимости от результата сравнения выбрать либо среднее, либо медиану.

Пример 2: Уровни игрока

В игре планируется ввести новое событие с доступом на определенном уровне. Этим событием мы хотим подстегнуть интерес к бустерам опыта. Для этого нужно определить, с какого уровня запускать данное событие. Это должен быть следующий уровень за тем, что есть у большинства игроков на данный момент. Каким образом вы найдете этот уровень? Почему?

Попробуйте решить данную задачу самостоятельно исходя из хода мыслей в первом примере. Ответ можете писать в комментарии.

Основы математической статистики. Часть 1

Небольшой шаг в сторону понимания статистики

Сегодня мы сделали небольшой шаг в сторону понимания математической статистики. На следующей неделе нас ждет не менее интересная часть. Чтобы не пропустить её, подписывайтесь на наш телеграм-канал, где мы вместе с Даниилом Хрипко и Ильей Арининым с понедельника по пятницу публикуем интересные материалы. А наша редакторка Валерия Тиранова разбавляет полезности мемами связанными с игровой индустрией.

Основы математической статистики. Часть 1
66
Начать дискуссию