Уважаемые пользователи Голос!
Сайт доступен в режиме «чтение» до сентября 2020 года. Операции с токенами Golos, Cyber можно проводить, используя альтернативные клиенты или через эксплорер Cyberway. Подробности здесь: https://golos.io/@goloscore/operacii-s-tokenami-golos-cyber-1594822432061
С уважением, команда “Голос”
GOLOS
RU
EN
UA
vovochkin
7 лет назад

Корреляция - значит, взаимосвязь?

Статистика - как много в этом слове. Ильф и Петров писали:

Статистика знает все.
Точно учтено количество пахотной земли в СССР с подразделением на чернозем, суглинок и лёсс. Все граждане обоего пола записаны в аккуратные толстые книги, так хорошо известные Ипполиту Матвеевичу Воробьянинову, — книги загсов. Известно, сколько какой пищи съедает в год средний гражданин республики. Известно, сколько этот средний гражданин выпивает в среднем водки с примерным указанием потребляемой закуски. Известно, сколько в стране охотников, балерин, револьверных станков, собак всех пород, велосипедов, памятников, девушек, маяков и швейных машинок.

Как много жизни, полной пыла, страстей и мысли, глядит на нас со статистических таблиц!

Конечно, писатели иронизировали. Но сбор данных - это только часть возможностей статистического аппарата. Сегодня я хочу поговорить о таком понятии, как корреляция.


Источник

Корреляция - это статистическая взаимосвязь между несколькими случайными величинами. Часто ее трактуют, как связь между какими-либо переменными. Но всегда ли корреляция означает причинно-следственную связь?

Простой пример. Если верить статистике, то раком легких чаще болеют те, кто в течение рабочего дня делает много небольших перерывов, между этими этими параметрами (вероятность заболеть раком легких и количество перерывов) есть корреляция. Означает ли это, что лучше работать от звонка до звонка, не покидая рабочего места?
Конечно же, нет.

Стоит подумать, куда же расходуется большинство таких перерывов - и все станет понятным: к сожалению, это не просто перерывы, а перекуры. А курение - убивает.



Источник фото

Получается, что чисто математически можно найти связь между самыми разными вещами, хоть между популярностью светлых носков и длиной железнодорожных составов на Южно-Уральской железной дороге. Второй параметр выбрал не случайно: большую часть поста я пишу в поезде, от руки.



Логики в этой связи, правда, не будет никакой. Приведу немножко забавных примеров корреляции, найденных мной в интернете.

Расходы на научные, технические и космические исследования в США коррелируют с количеством самоубийств путем удушения и повешения с коэффициентом корреляции 0,99789126.


А это “связь” между общим доходом от аркад и количеством защитившихся докторов в компьютерных науках. Коэффициент корреляции тут составляет 0,985065.


В целом, графики могут использоваться для доказательств связи даже более убедительно, чем непонятные цифры. Вот как Google Trends сравнил поисковые запросы “тыква” и “global warming”



Явно видно, что сначала несколько русскоязычных людей ищут про тыквы - а потом гораздо большее количество начинает интересоваться глобальным потеплением на английском. Наверное, это неспроста:)

Про то, что количество пиратов “влияет” на среднюю земную температуру, знают многие, но вот графическое подтверждение:



Источник

Разбавлю скучные цифры фотографией Николаса Кейджа.



Источник

Статистика утверждает, что чем чаще он появляется в фильмах, тем больше людей тонут, упав в бассейн:


Коэффициент корреляции тут ниже, чем у предыдущих примеров, но все-таки высок: 0,666. И три шестерки - это тоже вряд ли случайность:)

Источник забавных корреляций - сайт http://www.tylervigen.com/spurious-correlations, любопытным советую его посмотреть.

Получается, что корреляция - бесполезная штука? Вовсе нет. У нее есть полезное свойство: она может отображать зависимости между действительно связанными вещами. Впервые “закон корреляции” разработал французский палеонтолог Кювье в XVIII веке. Конечно, он не выводил формулу расчета коэффициента и не рисовал красивые графики. Он объяснял так:

“Каждое животное приспособлено к той среде, в которой оно живёт, находит корм, укрывается от врагов, заботится о потомстве. Если это животное травоядное, его передние зубы приспособлены срывать траву, а коренные - растирать её. Массивные зубы, растирающие траву, требуют крупных и мощных челюстей и соответствующей жевательной мускулатуры. Стало быть, у такого животного должна быть тяжёлая, большая голова, а так как у него нет ни острых когтей, ни длинных клыков, чтобы отбиться от хищника, то оно отбивается рогами. Чтобы поддерживать тяжёлую голову и рога, нужны сильная шея и большие шейные позвонки с длинными отростками, к которым прикреплены мышцы."

Источник цитаты

Как это связано с современной статистикой? Благодаря выводам, к которым пришел Кювье: “Каждый организм образует единое замкнутое целое, в котором ни одна из частей не может измениться, чтоб не изменились при этом и другие”. Взаимосвязь между частями (читай - параметрами!) - вот что важно в работе Кювье. Палеонтолог предлагаю по найденным отдельным частям восстанавливать облик всего животного.

А формулу для расчета коэффициента предложил английский математик Пирсон.
Она выглядит следующим образом:

X и Y тут - это как раз те самые параметры, между которыми мы находим связь.

Вообще, именно взаимосвязь между такими параметрами ищет статистика, ищет машинное обучение. Корреляция в этом играет не последнюю роль.

Таким образом, корреляция - один из рабочих методов для описания связи между различными переменными. Но к ней, как и к любому другому методу, нужно относиться с осторожностью. Ведь нет же связи между возрастом Мисс Америка и количеством смертей от ожогов. А корреляция - есть.
Учите статистику, включайте голову, пишите на Голосе. Да пребудет с Вами сила!

6
150.370 GOLOS
На Golos с July 2017
Комментарии (6)
Сортировать по:
Сначала старые