Основы математической статистики. Часть 2

Мы продолжаем наш цикл статей про математическую статистику для гейм-дизайнеров. В прошлой статье мы писали про поиск среднего значения и зачем оно вам надо, а в этой мы будем разбирать тему дисперсии. К сожалению, объяснить что такое дисперсия с ходу будет сложно. Мы зайдем чуть с другой стороны, чтобы у вас не создалось каши из терминов в голове. Чтобы было все более-менее понятно и связано с прошлой статьей, начнем мы с метода трех сигм.

Основы математической статистики. Часть 2

Раз Сигма, Два Сигма

Шутки шутками, но на самом деле сигма — это вот такие закорючки: “Σ”, “σ”, “ς”. Они пришли к нам из греческого алфавита. Да, математики любят греческие символы. Сигмой в статистическом анализе обозначают стандартное отклонение. Опуская тонкости, которые будут обсуждены ниже, можно сказать, что стандартное отклонение — это та погрешность, которой обязательно сопровождают измерение величины.

“Сделаю за три дня, плюс-минус день,” — вот именно это вот “плюс-минус” и есть наша сигма. Разница в том, что когда мы говорим про свои субъективные ощущения, мы получаем это значение явно не математическим образом, а в работе с математикой мы можем его высчитать на основе нашей выборки и данных. И вот как это сделать:

  • вычисляем среднее арифметическое выборки данных;
  • отнимаем это среднее от каждого элемента выборки;
  • все полученные разности возводим в квадрат;
  • суммируем все полученные квадраты;
  • делим полученную сумму на количество элементов в выборке;
  • вычисляем квадратный корень из полученного частного.

Таким образом, мы сможем добавлять вот то самое “плюс-минус” основываясь на данных, а не просто из головы. Также еще есть одна приятная закономерность, которая именуется методом трех сигм.

  • В интервале от -3сигма до +3сигма от среднего значения поместятся 99.7% значений нашей выборки (при условии что выборка с нормальным распределением, но пока не забивайте себе этим голову, обсудим в последующих сериях этого цикла статей);
  • В интервале от -2сигма до +2сигма будет 95.4% всей выборки;
  • В интервале от -сигма до +сигма будет 68.2% всей нашей выборки.
Основы математической статистики. Часть 2

Выбросы

Итак, мы научились считать доверительные интервалы, которые расположены в разбросе от -3сигма и до +3сигма. А что если у нас есть данные за пределами этих значений? Слишком маленькие, или наоборот, слишком крупные. Эти данные мы считаем выбросами. С некоторыми выбросами можно работать, например, они могут помочь найти кита на основе данных о поступающих платежах в вашей игре.

Для этого разберем пример: В Free to Play игре платящие игроки платят примерно $20 в месяц. Стандартное отклонение на основе данных у нас = $5. Значит, что почти все наши игроки будут разбросаны по платежам в районе $5 - $35 в месяц, но мы видим, что какой-то игрок оставляет в нашей игре $70.

Конечно не очень крупная сумма, но математически это значение будет признано выбросом, а значит, что он отличается от 99.7% всех платящих игроков и мы можем признать этого игрока потенциальным китом и работать с ним более точечно, чтобы повысить его траты в игре на максимум.

Также можно найти выбросы, которые слишком малы для того, чтобы быть верными. Часто это можно сопоставить просто с неверным заполнением данных. Допустим, мы считаем данные по росту людей. Все данные у нас записаны в сантиметрах, но парочку записали в метрах. Получается, что среди 171..180 появились люди ростом 1.7 сантиметров. Это явный выброс. И связан он с неверным заполнением данных. Но такое случается редко. Чаще вам будут попадаться выбросы в виде аномально больших значений в данных.

Основы математической статистики. Часть 2

Задачи чтобы проверить себя

Сейчас рассмотрим пару задач. Какие-то связаны с производством игр, а какие-то не очень. Варианты ответов будут. В конце статьи — ответы. Проверьте себя)

Задача 1: В нашей игре среднее значение валюты у игроков составляет 15.000 золотых монет. Стандартное отклонение = 2.000. Вам нужно проверить баланс трех игроков. Кто больше похож на читера (не попадает в 99.7% игроков)?

А) 20.500 монет

Б) 9.500 монет

В) 23.000 монет

Задача 2: В среднем стоимость молока в магазине 90 рублей. Стандартное отклонение = 10 рублей. Кто из продавцов ну совсем охренел?

А) 115 рублей

Б) 121 рублей

В) 118 рублей

Задача 3: В нашей Free to Play игре платящий игрок тратит в среднем $10 в месяц. Стандартное отклонение = $3. Какой интервал платежей у ~95% игроков.

А) $4 - $16

Б) $1 - $19

В) $7 - $13

Основы математической статистики. Часть 2

Визуализация данных

Визуализация помогает раскрывать данные. Графики могут быть точнее, чем некоторые статистические вычисления. Для этого мы можем взглянуть на четыре набора данных. С виду они выглядят одинаково:

Основы математической статистики. Часть 2

Эти данные состоят из четырёх пар x и y с практически равным средним значением и дисперсией между соответствующими элементами пар, а также равным коэффициентом корреляции. Модель линейной регрессии, построенная методом МНК, для всех вариантов описывается уравнением y = 3.00 + 0.500x .

  • Среднее значение переменной x – 9.0
  • Дисперсия переменной x – 10,0
  • Среднее значение переменной y – 7,5
  • Дисперсия переменной y – 3,75
  • Корреляция между переменными x и y – 0,816
  • Прямая линейной регрессии – y = 3 + 0,5x
  • Коэффициент детерминации линейной регрессии – 0,67

Но вот графики этих внешне статистически одинаковых данных различаются довольно сильно. Так конечно происходит не всегда, но все равно нужно помнить о том, что визуализация — это очень важно.

Основы математической статистики. Часть 2

Заключение

Вот и еще одна тема позади. Теперь мы знаем, что такое среднее и стандартное отклонение от этого среднего, а также интервалы, построенные методом трех сигм. Также вы поняли, зачем аналитики строят графики.

Кстати, вот ответы на задачки:

  • 1 - В
  • 2 - Б
  • 3 - А

Надеюсь вам все понятно и ваша голова не разрывается от математики. На следующей неделе будет тема полегче, а потом мы вернемся для изучения следующей главы математической статистики. Чтобы не упускать статьи подпишись на канал в телеграме, где я и другие авторы постят очень качественный контент. Желаю успеха в математике — прокачай свою экспертизу гейм-дизайна с помощью умелой работы с данными, и стань круче!

Основы математической статистики. Часть 2
55
2 комментария

Комментарий недоступен

Ответить

надо было с козырей зайти,
ТИ на платформе про игры, что может быть лучше?)
и Рассел Кроу - для киноманов

Ответить