Зачатки корреляционного анализа в прикладном софте
Надеюсь, что материал будет интересен тем участникам Сообщества, которым приходится иметь дело с большими массивами неупорядоченных данных без явно выраженных взаимосвязей. Здесь про расчет коэффициента корреляции Пирсона.
Слово «зачатки» в заголовке неслучайно, потому что описываемый метод – всего лишь мизерная часть всех механизмов регрессионного анализа данных.
Не знаю, насколько применим этот метод для прогнозирования результатов @golos.loto (каюсь, подсел на тему!), но попытаться использовать можно. В отличие от методов регрессионного анализа – вчера и позавчера чапаевским наскоком пытался аппроксимировать статистику повторений событий (это я про результаты розыгрышей), результат никакой, экстраполяция вероятностей изменяет прогноз скорее в худшую сторону, чем в лучшую.
Теперь по теме заметки, про корреляцию. Коэффициент корреляции Пирсона очень востребованный параметр, если имеется необходимость найти «похожесть» среди множества событий или процессов с неопределенными причинно-следственными связями.
Интерпретация результатов достаточно проста: единица – полное совпадение событий/процессов; минус единица – противофаза событий/процессов; ноль – полное отсутствие взаимосвязей. Плюс промежуточные значения, которые позволяют ранжировать исходные данные по величине «похожести».
От слова «халва» во рту слаже не становится, поэтому ниже ссылка на пост в ЖЖ с PHP-листингом расчета коэффициента корреляции Пирсона:
Расчет реализован на основе написанного на Object Pascal математического модуля DMath (автор: Dr Jean DEBORD, Laboratoire de Pharmacologie, Faculte de Medecine 2 Rue du Docteur Marcland, 87025 Limoges, France).
Искомая зависимость:
Или ее альтернативный вариант:
Ссылка на страницу с онлайн-расчетом:
Что имеем в результате онлайн-расчета (по выбору пользователя: или вывести результат в небольшом окне, или сохранить вместе с исходными данными в RTF-файл):
В онлайн-расчете выполняется построение только одного графика – с приведенными к единице максимальными значениями наборов данных. В программном обеспечении – калькуляторе «Регрессионный анализ» - выводимый результат слегка разнообразнее:
Калькулятор тоже размещен на сайте. Скачать его (плюс исходники проекта на Object Pascal, IDE CodeTyphon 5.50) можно по ссылке ниже:
Калькулятор «Регрессионный анализ»
В калькуляторе собраны пять или шесть методов регрессионного анализа, плюс расчет коэффициента корреляции Пирсона, плюс возможность формирования некоторых видов распределения, плюс возможность загрузки исходных данных из Excel.
Успехов, Сообщество!