Корреляция - значит, взаимосвязь?
Статистика - как много в этом слове. Ильф и Петров писали:
Статистика знает все.
Точно учтено количество пахотной земли в СССР с подразделением на чернозем, суглинок и лёсс. Все граждане обоего пола записаны в аккуратные толстые книги, так хорошо известные Ипполиту Матвеевичу Воробьянинову, — книги загсов. Известно, сколько какой пищи съедает в год средний гражданин республики. Известно, сколько этот средний гражданин выпивает в среднем водки с примерным указанием потребляемой закуски. Известно, сколько в стране охотников, балерин, револьверных станков, собак всех пород, велосипедов, памятников, девушек, маяков и швейных машинок.Как много жизни, полной пыла, страстей и мысли, глядит на нас со статистических таблиц!
Конечно, писатели иронизировали. Но сбор данных - это только часть возможностей статистического аппарата. Сегодня я хочу поговорить о таком понятии, как корреляция.
Источник
Корреляция - это статистическая взаимосвязь между несколькими случайными величинами. Часто ее трактуют, как связь между какими-либо переменными. Но всегда ли корреляция означает причинно-следственную связь?
Простой пример. Если верить статистике, то раком легких чаще болеют те, кто в течение рабочего дня делает много небольших перерывов, между этими этими параметрами (вероятность заболеть раком легких и количество перерывов) есть корреляция. Означает ли это, что лучше работать от звонка до звонка, не покидая рабочего места?
Конечно же, нет.
Стоит подумать, куда же расходуется большинство таких перерывов - и все станет понятным: к сожалению, это не просто перерывы, а перекуры. А курение - убивает.
Источник фото
Получается, что чисто математически можно найти связь между самыми разными вещами, хоть между популярностью светлых носков и длиной железнодорожных составов на Южно-Уральской железной дороге. Второй параметр выбрал не случайно: большую часть поста я пишу в поезде, от руки.
Логики в этой связи, правда, не будет никакой. Приведу немножко забавных примеров корреляции, найденных мной в интернете.
Расходы на научные, технические и космические исследования в США коррелируют с количеством самоубийств путем удушения и повешения с коэффициентом корреляции 0,99789126.
А это “связь” между общим доходом от аркад и количеством защитившихся докторов в компьютерных науках. Коэффициент корреляции тут составляет 0,985065.
В целом, графики могут использоваться для доказательств связи даже более убедительно, чем непонятные цифры. Вот как Google Trends сравнил поисковые запросы “тыква” и “global warming”
Явно видно, что сначала несколько русскоязычных людей ищут про тыквы - а потом гораздо большее количество начинает интересоваться глобальным потеплением на английском. Наверное, это неспроста:)
Про то, что количество пиратов “влияет” на среднюю земную температуру, знают многие, но вот графическое подтверждение:
Источник
Разбавлю скучные цифры фотографией Николаса Кейджа.
Источник
Статистика утверждает, что чем чаще он появляется в фильмах, тем больше людей тонут, упав в бассейн:
Коэффициент корреляции тут ниже, чем у предыдущих примеров, но все-таки высок: 0,666. И три шестерки - это тоже вряд ли случайность:)
Источник забавных корреляций - сайт http://www.tylervigen.com/spurious-correlations, любопытным советую его посмотреть.
Получается, что корреляция - бесполезная штука? Вовсе нет. У нее есть полезное свойство: она может отображать зависимости между действительно связанными вещами. Впервые “закон корреляции” разработал французский палеонтолог Кювье в XVIII веке. Конечно, он не выводил формулу расчета коэффициента и не рисовал красивые графики. Он объяснял так:
“Каждое животное приспособлено к той среде, в которой оно живёт, находит корм, укрывается от врагов, заботится о потомстве. Если это животное травоядное, его передние зубы приспособлены срывать траву, а коренные - растирать её. Массивные зубы, растирающие траву, требуют крупных и мощных челюстей и соответствующей жевательной мускулатуры. Стало быть, у такого животного должна быть тяжёлая, большая голова, а так как у него нет ни острых когтей, ни длинных клыков, чтобы отбиться от хищника, то оно отбивается рогами. Чтобы поддерживать тяжёлую голову и рога, нужны сильная шея и большие шейные позвонки с длинными отростками, к которым прикреплены мышцы."
Как это связано с современной статистикой? Благодаря выводам, к которым пришел Кювье: “Каждый организм образует единое замкнутое целое, в котором ни одна из частей не может измениться, чтоб не изменились при этом и другие”. Взаимосвязь между частями (читай - параметрами!) - вот что важно в работе Кювье. Палеонтолог предлагаю по найденным отдельным частям восстанавливать облик всего животного.
А формулу для расчета коэффициента предложил английский математик Пирсон.
Она выглядит следующим образом:
X и Y тут - это как раз те самые параметры, между которыми мы находим связь.
Вообще, именно взаимосвязь между такими параметрами ищет статистика, ищет машинное обучение. Корреляция в этом играет не последнюю роль.
Таким образом, корреляция - один из рабочих методов для описания связи между различными переменными. Но к ней, как и к любому другому методу, нужно относиться с осторожностью. Ведь нет же связи между возрастом Мисс Америка и количеством смертей от ожогов. А корреляция - есть.
Учите статистику, включайте голову, пишите на Голосе. Да пребудет с Вами сила!