Основы математической статистики. Часть 2
Мы продолжаем наш цикл статей про математическую статистику для гейм-дизайнеров. В прошлой статье мы писали про поиск среднего значения и зачем оно вам надо, а в этой мы будем разбирать тему дисперсии. К сожалению, объяснить что такое дисперсия с ходу будет сложно. Мы зайдем чуть с другой стороны, чтобы у вас не создалось каши из терминов в голове. Чтобы было все более-менее понятно и связано с прошлой статьей, начнем мы с метода трех сигм.
Раз Сигма, Два Сигма
Шутки шутками, но на самом деле сигма — это вот такие закорючки: “Σ”, “σ”, “ς”. Они пришли к нам из греческого алфавита. Да, математики любят греческие символы. Сигмой в статистическом анализе обозначают стандартное отклонение. Опуская тонкости, которые будут обсуждены ниже, можно сказать, что стандартное отклонение — это та погрешность, которой обязательно сопровождают измерение величины.
“Сделаю за три дня, плюс-минус день,” — вот именно это вот “плюс-минус” и есть наша сигма. Разница в том, что когда мы говорим про свои субъективные ощущения, мы получаем это значение явно не математическим образом, а в работе с математикой мы можем его высчитать на основе нашей выборки и данных. И вот как это сделать:
- вычисляем среднее арифметическое выборки данных;
- отнимаем это среднее от каждого элемента выборки;
- все полученные разности возводим в квадрат;
- суммируем все полученные квадраты;
- делим полученную сумму на количество элементов в выборке;
- вычисляем квадратный корень из полученного частного.
Таким образом, мы сможем добавлять вот то самое “плюс-минус” основываясь на данных, а не просто из головы. Также еще есть одна приятная закономерность, которая именуется методом трех сигм.
- В интервале от -3сигма до +3сигма от среднего значения поместятся 99.7% значений нашей выборки (при условии что выборка с нормальным распределением, но пока не забивайте себе этим голову, обсудим в последующих сериях этого цикла статей);
- В интервале от -2сигма до +2сигма будет 95.4% всей выборки;
- В интервале от -сигма до +сигма будет 68.2% всей нашей выборки.
Выбросы
Итак, мы научились считать доверительные интервалы, которые расположены в разбросе от -3сигма и до +3сигма. А что если у нас есть данные за пределами этих значений? Слишком маленькие, или наоборот, слишком крупные. Эти данные мы считаем выбросами. С некоторыми выбросами можно работать, например, они могут помочь найти кита на основе данных о поступающих платежах в вашей игре.
Для этого разберем пример: В Free to Play игре платящие игроки платят примерно $20 в месяц. Стандартное отклонение на основе данных у нас = $5. Значит, что почти все наши игроки будут разбросаны по платежам в районе $5 - $35 в месяц, но мы видим, что какой-то игрок оставляет в нашей игре $70.
Конечно не очень крупная сумма, но математически это значение будет признано выбросом, а значит, что он отличается от 99.7% всех платящих игроков и мы можем признать этого игрока потенциальным китом и работать с ним более точечно, чтобы повысить его траты в игре на максимум.
Также можно найти выбросы, которые слишком малы для того, чтобы быть верными. Часто это можно сопоставить просто с неверным заполнением данных. Допустим, мы считаем данные по росту людей. Все данные у нас записаны в сантиметрах, но парочку записали в метрах. Получается, что среди 171..180 появились люди ростом 1.7 сантиметров. Это явный выброс. И связан он с неверным заполнением данных. Но такое случается редко. Чаще вам будут попадаться выбросы в виде аномально больших значений в данных.
Задачи чтобы проверить себя
Сейчас рассмотрим пару задач. Какие-то связаны с производством игр, а какие-то не очень. Варианты ответов будут. В конце статьи — ответы. Проверьте себя)
Задача 1: В нашей игре среднее значение валюты у игроков составляет 15.000 золотых монет. Стандартное отклонение = 2.000. Вам нужно проверить баланс трех игроков. Кто больше похож на читера (не попадает в 99.7% игроков)?
А) 20.500 монет
Б) 9.500 монет
В) 23.000 монет
Задача 2: В среднем стоимость молока в магазине 90 рублей. Стандартное отклонение = 10 рублей. Кто из продавцов ну совсем охренел?
А) 115 рублей
Б) 121 рублей
В) 118 рублей
Задача 3: В нашей Free to Play игре платящий игрок тратит в среднем $10 в месяц. Стандартное отклонение = $3. Какой интервал платежей у ~95% игроков.
А) $4 - $16
Б) $1 - $19
В) $7 - $13
Визуализация данных
Визуализация помогает раскрывать данные. Графики могут быть точнее, чем некоторые статистические вычисления. Для этого мы можем взглянуть на четыре набора данных. С виду они выглядят одинаково:
Эти данные состоят из четырёх пар x и y с практически равным средним значением и дисперсией между соответствующими элементами пар, а также равным коэффициентом корреляции. Модель линейной регрессии, построенная методом МНК, для всех вариантов описывается уравнением y = 3.00 + 0.500x .
- Среднее значение переменной x – 9.0
- Дисперсия переменной x – 10,0
- Среднее значение переменной y – 7,5
- Дисперсия переменной y – 3,75
- Корреляция между переменными x и y – 0,816
- Прямая линейной регрессии – y = 3 + 0,5x
- Коэффициент детерминации линейной регрессии – 0,67
Но вот графики этих внешне статистически одинаковых данных различаются довольно сильно. Так конечно происходит не всегда, но все равно нужно помнить о том, что визуализация — это очень важно.
Заключение
Вот и еще одна тема позади. Теперь мы знаем, что такое среднее и стандартное отклонение от этого среднего, а также интервалы, построенные методом трех сигм. Также вы поняли, зачем аналитики строят графики.
Кстати, вот ответы на задачки:
- 1 - В
- 2 - Б
- 3 - А
Надеюсь вам все понятно и ваша голова не разрывается от математики. На следующей неделе будет тема полегче, а потом мы вернемся для изучения следующей главы математической статистики. Чтобы не упускать статьи подпишись на канал в телеграме, где я и другие авторы постят очень качественный контент. Желаю успеха в математике — прокачай свою экспертизу гейм-дизайна с помощью умелой работы с данными, и стань круче!