Обзор книги «Как лгать при помощи статистики»

Отличная книга для расширения кругозора.

Обзор книги «Как лгать при помощи статистики»

Книга отлично подойдет , как для тех, кто давно "в теме", так и для тех людей, чья профессиональная деятельность никак не связана со статистикой.

Публикую обзор книги с моего телеграмм-канала IT-старт t.me/it_begin на книгу "Как лгать при помощи статистики". Автор книги Дарелл Хафф.

Ссылку на бесплатную версию книги оставлю в конце поста.

Стоит читать? Да! Почему? Опишу в статье.

Статистика - то, что окружает каждого из нас, данная книга поможет разобраться с тем, как грамотно можно "подтасовывать" данные в статистике.

Для кого эта книга?

Рис.1. Начальная страница
Рис.1. Начальная страница

Что в самой книге?

Сама книга достаточно компактная, можно даже сказать небольшая, по соотношению к обычной канцелярской ручке на фотографиях это видно.

Состоит из 163 страниц. Но в этом и плюс данной книги, формат её компактный, а информация достойная.

Рис.1.1. Размер книги
Рис.1.1. Размер книги

Сама по себе главная иллюстрация, что изображена на обложке книги, достаточно символична)

Рис.1.2. Размер книги
Рис.1.2. Размер книги

Далее, для предметного понимания того, какие главы рассматриваются в книге, предлагаю ознакомиться с её оглавлением.

Рис 1.3. Оглавление
Рис 1.3. Оглавление

Книга состоит из 10 глав.

Так как каждая глава имеет большое количество интересных и практичных примеров, постараюсь выделить самые интересные из них для вас и рассказать о том, что нового и познавательного можно узнать в этой книге.

Книга состоит из 10 глав. Далее кратко и главное предметно постараюсь рассказать о том, что есть интересного и "полезного" в книге.

Глава 1. Выборка изначально необъективна

Рис. 2. Глава 1
Рис. 2. Глава 1

В самой первой главе автор начинает с раскрытия того аспекта, насколько важна первоначальная выборка данных.

Обычно, выборки , что используются в статистических исследованиях, имеют много искажений. Для предметного понимания:

Если вам надо опросить днем людей с интересующим вас вопросом и для этого вы выходите на улицу, то идет первое искажение вашей выборки, ведь в ней не будут задействованы те люди, что в данный момент находятся у себя дома.

Если вы пойдете по квартирам и будете стучаться в дверь, общаться с теми, кто дома, появляется следующее искажение выборки, вы не застаёте тех, кто сейчас на работе.

Хорошо, вам приходит идея опрашивать людей по вечерам, когда многие люди идут домой с работы или же уже находятся дома, но и тут искажение, вы не учитываете в своей выборке тех людей, что любят посещать кино или же посетить увеселительное заведение.

Всё это отлично рассмотрено в первой главе. Так что, теперь мы с вами понимаем , что в разное время и в разных условиях мы постоянно получаем разную выборку, объективность и точность которой также будет изменчива, в зависимости от первоначальных условий.

Что хотелось бы также отметить, книга полна забавных иллюстраций)

Рис. 2.1 Глава 1
Рис. 2.1 Глава 1

Глава 2. Грамотно выбранное среднее

Рис.3. Глава 2
Рис.3. Глава 2

В этой главе автором удачнее всего рассмотрен знакомый многим жизненный пример - средний зарплатный показатель.

Когда мы встречаем такое понятие, как средняя зарплату, автор предлагает первым делом задать самим себе вопрос:

Кого включает в свою выборку данная средняя зарплата. В пример приводится случай из истории, когда одна сталелитейная компания из Америки заявляла, что средняя зарплата их сотрудников выросла на 107% за промежуток 1940-1948 гг., но было одно но, этот показатель включал значительно большее число частично занятых сотрудников.

Для понимания, если в 1941 году сотрудник работа полнедели, а в 1942 он уже работал полную рабочую неделю, то зарплата такого сотрудника возрастает в два раза. Таких вариаций изменений условий и времени труда много, что крайне показательно для того, как можно манипулировать понятием "среднее".

Глава 3. Нюансы, о которых скромно умалчивают

Рис.4. Глава 3, страница 64
Рис.4. Глава 3, страница 64

В этой главе автор знакомит нас с следующими понятиями:

Критерий значимости - та штука, что показывает, какая вероятность того, что полученная в ходе испытаний (исследования) цифра отражает реальный результат, а не случайное значение.

Размах исследуемого признака - если простыми словами, то это разность между наибольшим и наименьшим значениями результатов наблюдений.

Краткий вывод по всей главе сводится к следующему: не доверяйте тем исследованиям, где не уточнены

  • Критерий значимости
  • Размах исследуемого признака
  • Отсутствуют какие-либо пояснения и формулы расчетов
  • Нет подписей данных на осях графиков

Глава 4. Много шума практически из ничего ( насколько объективен IQ тест)

Рис. 5. Глава 4 , страница 68
Рис. 5. Глава 4 , страница 68

Автор рассматривает ситуацию, когда нам необходимо самостоятельно измерить размеры огромного числа полей, причем измерять нужно без рулетки и иного рода измерителей, а шагами.

Так как мы живем в России, буду писать метр, а не ярд, для легкости восприятия.

В среднем погрешность подобной деятельности составить 3 м на каждые 100 м. Грубо говоря, на каждые 100 м погрешность +- 3 м.

Далее автор рассматривает IQ тест, что имеет погрешность 3%.

К примеру, если у Алексея IQ 88 +-3, а у Анастасии IQ 91 +-3, получается в одном из случаев, Алексей может иметь IQ 88 + 3 = 91 против 91 - 3 = 88 у Анастасии и оказаться умнее.

В целом, автор ведёт к тому, что не совсем верно оценивать IQ человека по абсолютному значению, а куда корректнее делать это диапазоном, в нашем случае это диапазон IQ у Алексея 85-91 и у Анастасии 88 - 94.

Не сказать, что я согласен с автором в этом моменте, большая это тема для споров, но теория интересная)

Идём далее.

Глава 5. График - лучше не бывает

Рис.6. Глава 6, страница 78
Рис.6. Глава 6, страница 78

Вся суть данной главы сводится к тому, как незначительную числовую разницу в графике можно представить, как что-то грандиозное и великое.

Предлагаю обратить внимание на верхний рисунок. Фонд зарплаты госслужащих США в 1937 г. вырос с 19 500 000 $ до 20 000 000$. Если исходить из числовых значений, то рост в период с июня по ноябрь 1937 года составляет всего 2.56 %, но на графике же рост выглядит куда значительнее, согласитесь?

Считаю это крайне интересным и показательным примером того, как можно исказить график с той целью, чтобы зрительного всё выглядело куда иначе, нежели есть на самом деле.

Глава 6. Схематичная картинка

Рис.7. Глава 6, страница 84
Рис.7. Глава 6, страница 84

Сама по себе глава достаточно объемная и интересная, но чтобы кратко передать её суть, предлагаю рассмотреть следующий пример из книги.

Мощность производства сталелитейной промышленности США в 1930-е годы составляла 10 млн тонн чугуна.

В 1940-е же мощность сталелитейной промышленности выросла на 42.5% и уже составляла 14.25 млн тонн чугуна.

Но, если бегло взглянуть на схематичную картинку, что образно должна нам показать изменение объема мощности выпускаемой продукции, может быть создано впечатление, что рост не 42.5%, а все 300%.

Этот пример отлично показывает, как зрительно искаженный образ может менять восприятие числовых значений. Подобное, к сожалению, нередко встречается и в наши дни.

Глава 7. Псевдообразная цифра

Рис.8. Глава 7, страница 88
Рис.8. Глава 7, страница 88

В данной главе автор пытается раскрыть нам следующее:

Если у вас не получается доказать то, что вы хотите доказать, то продемонстрируйте нечто иное и настаивайте на том, что это то же самое.

Из всех примеров, что были рассмотрены в книге, более всего мне запомнился пример с лекарством.

Его краткая суть в следующем:

Если вы не имеете возможности доказать того, что ваше лекарство лечит от простуды, то никто не мешает вам напечатать результаты лабораторного исследования: полкапли лекарства помещенные в пробирку через 11 секунд может уничтожить 31 108 бактерий.

Вы, в свою очередь отражаете действительную информацию, но насколько это близко к тому, что ваше лекарство реально лечит от простуды - вопрос открытый. Так это и работает)

Глава 8. И снова "после - значит вследствие"

Рис.9. Глава 8, страница 102
Рис.9. Глава 8, страница 102

Идея данной главы в том, что заблуждения всегда обнаруживаются в статистических данных, замаскированные в гуще внушительных цифр.

Автор предлагает не поддаваться заблуждению "после - значит вследствие" и подвергать любое утверждение тщательному анализу.

В главе рассмотрены также типы ложной корреляции. Больше всего мне хотелось бы рассмотреть следующий рассмотренный в книге тип корреляции.

Фиктивная корреляция - когда ни одна из переменных не оказывает никакого влияния на другую, но при этом корреляция между переменными подтверждается расчетами.

Понравилось в данной главе также рассуждение автора о производителе зубной пасты.

Если вы производите зубную пасту, что должна защищать от кариеса, ваша задача это отбрасывать неугодные вам результаты и делать акцентах на тех, что подходят для ваших целей.

Глава 9. Как производить статикуляции

Статикуляция - это статистические манипуляции.

Автор предлагает рассмотреть следующие манипуляции с данными:

  • Подбор подходящих средних величин ( как в главе 2 "Грамотно выбранное среднее")
  • Искажение диаграмм ( как в главе 5 "Трюки с графиками")
  • Сложение неслагаемого
  • Манипуляция индексами
  • Манипуляция с процентами

Больше всего понравилось рассмотрение примера манипуляции с процентами.

Лучшим и показательным считаю привести пример следующих изображений из книги

Рис10. Глава 9, страница 126
Рис10. Глава 9, страница 126
Рис 10. Глава 9, страница 127
Рис 10. Глава 9, страница 127

Глава 10. Как поставить статистика на место

Рис 11. Глава 10, страница 140
Рис 11. Глава 10, страница 140

В заключительной главе автор предлагает всегда задавать 5 критических вопросов к тем, кто производил то или иное статистическое исследование:

  • Кто это говорит? Первое, на что советует обращать внимание автор, на предвзятость статистических данных, о том, кто производит исследования, насколько он заинтересован в том или ином исходе.
  • Откуда ему это известно? Не смещенная ли выборка, достаточно ли велика выборка, достаточно ли рассмотренно случаев, чтобы выявленная корреляция была значима.
  • Чего не хватает? Указывается ли степень достоверности и есть ли другие цифры, что могут помочь оценить значение данных?
  • Не подменен ли объект исследования? Будьте внимательны к тому, не производилась ли подмена при переходе от исходных значений к выводам?
  • Есть ли в этом смысл? Пожалуй, самый важный вопрос, ведь далеко нередко статистические исследования не имеют никакой практической пользы. Автор рассматривает пример, что в период с 1947 по 1952 г. число телевизоров в домах жителей США возросло на 10.000%. Но, также автор предлагает экстраполировать это на следующие 5 лет, что привело бы к тому, что количество телевизоров будет стремиться к двум миллиардам. Тут есть над чем подумать)

Теперь, тезисно о плюсах и минусах книги

Плюсы книги:

1.Цена

Книга имеет более чем доступный ценник и цена новой книги не превышает 600 руб. на популярных маркетплейсах.

Рис.12. Цена книги на Ozon
Рис.12. Цена книги на Ozon
Рис.12.1 Цена книги на Wildberries
Рис.12.1 Цена книги на Wildberries

Мне книга досталась еще дешевле, покупал в мае за 282 руб., так как находилась в отделе книжного магазина, где только литература с некондицией.

Рис.12.2 Ценник моей книги
Рис.12.2 Ценник моей книги

Внешне никаких видимых повреждений у книги не было. Только если приглядеться и правильно подать свет, видно, что обложка книги имеет царапины.

Рис. 12.3. Царапины на книге
Рис. 12.3. Царапины на книге

Сама же книга выглядит более чем презентабельно, тем более , мне она нужна была не на подарок, а для собственного чтения.

Рис.12.4 Фото книги
Рис.12.4 Фото книги

Что же, переходим к следующему достоинству книги.

2. Качество изготовления, вес и размер книги.

Книга произведена качественно, страницы не расклеиваются, текст напечатан четко. По идее, данные плюсы должны быть обыденными и не выделяться как-то отдельно, но исходя из некоторых последних книг, что были прочитаны мною, уже и такие простые вещи приходится ценить.

Сама по себе книга достаточно небольшая, по соотношению книги к моей руке это видно, её удобно брать с собой , положив в сумку или небольшой рюкзак, вес её также позволяет без проблем долго держать в руках в транспорте , никакого дискомфорта.

3.Книга написана простым языком.

Это сугубо индивидуальное суждение, но по мне, книга написано крайне понятно, не кишит математическими терминами и адаптирована под любого уровня читателя, от профессионала до обывателя, тем самым, делая полезную информацию доступной, независимо от компетенций читателя.

Минусы книги:

1.Очень плотное сплетение книги

Так как книга в целом мне понравилось, сложно выделить какие-либо минусы.

Могу выделить пожалуй один минус, это плотное сплетение книги. Банально открыть книгу, положить её на стол и приступить к её прочтению не получится, книга постоянно будет пытаться захлопнуться. Приходится или придерживать руками или ставить на неё предметы, что в последнем случае не совсем удобно, учитывая, что книга небольшая, читается быстро и перелистывать страницы приходится часто.

Подведение итогов по книге:

Могу посоветовать к прочтению данную книгу. Имеет много полезной информации, что позволит критически и более обдуманно относиться к той публичной информации , что окружает каждого человека.

Статистическим методам и т.п. эта книга не научит, но расширить кругозор, дать полезные знания - эта книга может. Советую.

Мой канал в телеграмм

Если обзор показался вам интересным, то буду благодарен за подписку на мой

канал IT-старт t.me/it_begin

где я также публикую обзоры технической литературы и полезную информацию как для действующих, так и для начинающих программистов

Ссылка на бесплатную электронную версию книги https://t.me/it_begin/398

Также публикую обзоры книг и интервью на сайте https://russia-it.ru

289289
69 комментариев

Да ты пересказал всю книгу. Можно не покупать!

50
Ответить

Можно не писать книгу даже было. Ведь по исследованиям, 77,5% все равно читают по диагонали или в пересказе..

А если серьезно, то можно добавлять к любому изречению проценты и цифры и это будет выглядеть солидно

Ответить

Бггг. Такой статистикой не лгут. Тут как бэ юзер видящий такую статистику не правильно её использует.

1
Ответить

тем временем дтф 2-ой или 3-ий день подряд:

фактчекинг фактчекинг фактчекинг

44
Ответить

Зависит от цели. Если ты хочешь обмануть - да, правильное использование статистики.

Другое дело если ты владелец бизнеса и тебе кладут на стол такую «правильную» статистику - твое дело долго не проживет.

6
Ответить

Напомнило про "доброе утро"

10
Ответить

Ахах, только вчера пересматривал. Прям ответ психиатра пациенту из начала статьи.

Ответить