Как сделать корреляционные плеяды
Excel – это эффективный инструмент для статистической обработки данных. И определение корреляций является очень важной составляющей этого процесса. Программа имеет весь необходимый инструментарий для осуществления расчетов такого плана. Сегодня мы более детально разберемся, что нам нужно для осуществления анализа этого типа.
Что представляет собой корреляционный анализ
Простыми словами, корреляция – это связь между двумя явлениями. В свою очередь, под корреляционным анализом подразумевают выявление этой связи. Очень частое утверждение гласит, что корреляция – это зависимость между разными объектами, но на деле это неточное определение. Ведь существует множество изображений, которые показывают связь между явлениями, которые никак не могут быть зависимы друг от друга или одного третьего фактора, который влияет на них.
Для определения зависимости используется другой тип анализа, который называется регрессионным.
Величина, определяющая степень выраженности взаимосвязи, называется коэффициентом корреляции. Это единственная величина, которая рассчитывается корреляционным анализом по сравнению с регрессионным. Возможные вариации коэффициента корреляции могут быть в пределах от -1 до 1. Если это число положительное, взаимосвязь между динамикой изменения значений прямая. Если же отрицательное, то увеличение числа 1 приводит к аналогичному уменьшению числа 2. Если число меньше единицы по модулю, то корреляция неполная. Например, увеличение числа 1 на единицу приводит к увеличению числа 2 на 0,5. В таком случае коэффициент корреляции составляет 0,5. Если же коэффициент корреляции составляет 0, то взаимосвязи между двумя переменными нет.
Интересный факт: корреляции делятся на истинные и ложные. То есть, иногда то, что графики идут в одинаковом направлении, может быть чистой случайностью, а не закономерным следствием воздействия одной переменной на другую или влияния общего фактора на обе переменные. В узких кругах довольно популярны картинки, где коррелируют между собой абсолютно не связанные явления. Вот некоторые примеры:
Ну и наконец, еще один пример ложной корреляции – чем больше сыра люди едят, тем больше людей умирает из-за того, что они запутываются в своих простынях.
Поэтому несмотря на то, что корреляция является эффективным статистическим инструментом, нужно учиться отфильтровывать истинные взаимосвязи между явлениями и ложные. Иначе исследование может получить такие интересные результаты. А теперь переходим непосредственно к тому, как проводить корреляционный анализ в Excel.
Корреляционный анализ в Excel — 2 способа
Вычисление коэффициента корреляции осуществляется двумя способами. Первый – это использование Мастера функций, который позволяет ввести формулу КОРРЕЛ. Второй инструмент – это пакет анализа, требующий отдельной активации.
Как рассчитать коэффициент корреляции
Давайте продемонстрируем механизм получения коэффициента корреляции на реальном кейсе. Допустим, у нас есть таблица с информацией о суммах продаж и рекламу. Нам нужно понять, в какой степени количество продаж и количество денег, которые были использованы на продвижение, взаимосвязаны.
Способ 1. Определение корреляции с помощью Мастера Функций
Функция КОРРЕЛ – один из самых простых методов, как можно реализовать поставленную задачу. В своем общем виде этот оператор имеет следующий вид: КОРРЕЛ(массив1;массив2). Как же ее ввести? Для этого нужно осуществлять следующие действия:
После выполнения описанных выше шагов мы видим в ячейке, выбранной нами на первом этапе, коэффициент корреляции. В нашем примере он составляет 0,97, что указывает на очень сильно выраженную взаимосвязь между данными двух диапазонов.
Способ 2. Вычисление корреляции с помощью пакета анализа
Также довольно неплохой инструмент для определения корреляции между двумя диапазонами – пакет анализа. Но перед тем, как его использовать, нам надо его включить. Для этого выполняем следующие действия:
Поскольку мы оставили поле с данными о том, куда будут выводиться результаты, таким, каким оно было, мы переходим на новый лист. На нем можно найти коэффициент корреляции. Конечно, он такой же самый, как был в предыдущем методе – 0,97. Причина этого в том, что вычисления производятся одинаковые, исходные данные мы также не меняли. Просто разными методами, но не более.
Таким образом, Эксель дает сразу два метода осуществления корреляционного анализа. Как вы уже понимаете, в результате вычислений итог получится таким же. Но каждый пользователь может выбрать тот метод расчета, который ему больше всего подходит.
Как построить поле корреляции в Excel
Итак, давайте теперь разберемся, как построить поле корреляции. Для начала нужно разобраться, что это вообще такое. Под корреляционным полем подразумевается фактически график корреляции. Главное требование к такой диаграмме – каждая точка должна соответствовать единице совокупности. Поле корреляции поможет установить более глубокие связи и проанализировать данные более качественно. Для начала нам нужно найти коэффициент корреляции между двумя диапазонами, используя функцию КОРРЕЛ.
После того, как мы это сделали, мы теперь можем сделать поле корреляции. Для этого выполняем следующие действия:
Этот график можно построить не только на основе корреляции, определенной через функцию КОРРЕЛ.
Диаграмма рассеивания. Поле корреляции
До сих пор часть пользователей сидит на старой версии Word. Как построить корреляционное поле в этом случае? Для этого существует специальный инструмент, который называется мастером диаграмм. Найти его можно на панели инструментов по специфическому изображению диаграммы. Если навести на эту иконку мышкой, то появится всплывающая подсказка, которая поможет нам убедиться в том, что это действительно мастер диаграмм.
После подтверждения действий у нас появится что-то типа такого графика.
Как видим, возможных вариантов построения может быть огромное количество.
Задача разбиения признаков на группы часто имеет и самостоятельное значение. Например, в ботанике для систематизации вновь открытых растений делают разбиение набора признаков на группы так, чтобы 1-я группа характеризовала форму листа, 2-я группа — форму плода и т. д. В связи с этим и возник эвристический метод корреляционных плеяд [48, 1511.
Рассмотрим корреляционную матрицу , исходных признаков. Нарисуем кружков; внутри каждого кружка напишем номер одного из признаков. Каждый кружок соединяется линиями со всеми остальными кружками; над линией, соединяющей элементы (ребром графа), ставится значение модуля коэффициента корреляции Полученный таким образом чертеж рассматриваем как исходный граф.
Задавшись (произвольным образом или на основании предварительного изучения корреляционной матрицы) некоторым пороговым значением коэффициента корреляции исключаем из графа все ребра, которые соответствуют коэффициентам корреляции, по модулю меньшим
Затем задаем некоторое и относительно него повторяем описанную процедуру. При некотором достаточно большом граф распадается на несколько подграфов, т. е. таких групп кружков, что связи (ребра графа) между кружками различных групп отсутствуют. Очевидно, что для полученных таким образом плеяд внутриплеядные коэффициенты корреляции будут больше , а межплеядные — меньше .
В другом варианте корреляционных плеяд [481 предлагается упорядочивать признаки и рассматривать только те коэффициенты корреляции, которые соответствуют связям между элементами в упорядоченной системе.
Упорядочение производится на основании принципа максимального корреляционного пути все признаков связываются при помощи () линий (ребер) так, чтобы сумма модулей коэффициентов корреляции была максимальной. Это достигается следующим образом: в корреляционной матрице находят наибольший по абсолютной величине коэффициент корреляции, например (коэффициенты на главной диагонали матрицы, равные единице, не рассматриваются).
Далее рисуем кружок, соответствующий и соединяем его с и т.д. На каждом шаге находятся параметры, наиболее сильно связанные с двумя последними рассмотренными параметрами, а затем выбирается один из них, соответствующий большему коэффициенту корреляции. Процедура заканчивается после шага; граф оказывается состоящим из кружков, соединенных () ребром.
Затем задается пороговое значение а все ребра, соответствующие меньшим, чем , коэффициентам корреляции, исключаются из графа.
Назовем незамкнутым графом такой граф, для которого для любых двух кружков существует единственная траектория, составленная из линий связи, соединяющая эти два кружка. Очевидно, что во втором варианте метода корреляционных плеяд допускается построение только незамкнутых графов, а в первом варианте такое ограничение отсутствует. Поэтому разбиения на плеяды, полученные разными способами, могут не совпадать.
В работе [97] приводятся результаты экспериментальной проверки алгоритмов экстремальной группировки параметров, а также сравнение полученных результатов с результатами, даваемыми методом корреляционных плеяд.
Эксперимент проводился на физиологическом материале: исследовались влияния шумов и вибрации на работоспособность и самочувствие. Регистрировались 33 признака из них 7 параметров, характеризующих температуру тела; 4 — кровяное давление; 14 — аудиометрию (порог слышимости на заданной частоте); 2 — дыхание; 4 — силу и выносливость рук и 2 (особенных параметра) — пульс и скорость реакции.
Исторически раньше возникшие различные варианты метода корреляционных плеяд являются в действительности несколько упрощенными эвристическими версиями более совершенных в математическом плане алгоритмов исследования структуры связей между компонентами многомерного признака, использующими графы-деревья (см. [12, гл. 4).
Важнейшее значение для фенетических исследований могут иметь работы ленинградского биометрика профессора ЛГУ П.В. Терентьева, развившего метод корреляционных плеяд, который позволяет успешно решить проблему выбора из массы признаков наиболее устойчивых, "самостоятельных". Пока этот процесс зачастую основывается исключительно на интуиции и наблюдательности исследователя-фенетика. И не исключена возможность использования не независимых, а скоррелированных, взаимосвязано изменяющихся и наследуемых признаков. Предложенный П.В. Терентьевым метод корреляционных плеяд избавляет исследователя от работы "методом тыка" в поисках ведущих признаков, хранит от опасности изучения признаков-дублеров, признаков-"призраков".
Метод основан на математическом анализе массива признаков, из которого сначала выделяются подсистемы скоррелированных признаков, а уж из них - наиболее устойчивые, ведущие (маркерные) признаки-фены. Такие ведущие признаки аналогичны "родовым признакам", представление о которых использовал, например, Н.И. Вавилов. Анализ признаков-фенов с помощью соответствующего метода позволяет получить динамику этих признаков в онтогенезе или в эволюции.
Метод корреляционных плеяд совместно с методом профилей С.Р. Царапкина был применен для изучения эволюционного движения признаков в одном из родов пауков-волков. Оказалось, что достаточно специализированные структуры ротового аппарата - хелицеры у этой группы пауков все еще "сохраняют привязанность" к плеяде признаков конечностей, которым они гомологичны и обязаны своим происхождением. Этот пример показывает пригодность данного метода анализа даже для изучения движения наследственности в ходе макроэволюции.
С помощью корреляционного анализа плеяд признаков-фенов могут быть получены сведения о любых иных изменениях в структуре целостности, о закономерностях, которым подчиняется связь между фенами, о реагировании фенов на изменения условий среды или селекции и прочие. Причем данный метод позволяет по изменению показателей корреляции между фенами одной плеяды проследить весь ход эволюции наследственности. Работы В.Л. Шмидта, Л.Д. Колосовой, Р.Л. Берг и других показали, что в этом отношении методу плеяд нет равных. Можно лишь сожалеть, что пока в фенетике направление исследований, внедренное в науку нашим соотечественником П.В. Терентьевым, еще не оформилось в самостоятельный раздел.
Перспективное приложение фенетических исследований к теории наследственности вырисовывалось в процессе изучения эпигенетической изменчивости у простейших. Занимавшиеся этой проблемой Ю.М. Оленов, Ю.И. Полянский, В.А. Ратнер, Р.Н. Чураев, А.Л. Юдин пришли к выводу,/5,6/ что углубленная разработка относящихся сюда вопросов невозможна без применения методов фенетического анализа. "Необходимо перейти, - пишет А.Л. Юдин, - от использовавшихся до сих пор в качестве маркеров признаков сложной и, как правило, неизвестной биохимической природы… к элементарным биохимических признакам. Здесь можно предвидеть значительные трудности, связанные с культивированием и получением больших масс клеток, отсутствием до сих пор искусственных питательных сред и аксенических культур". Понадобятся также особые микрометоды биохимического и биофизического исследования эпигенетических факторов на клеточном уровне - пока их нет или они несовершенны.
К фенетике тяготеет еще ряд важных, но пока тоже слабо разработанных проблем теории наследственности - о фенокритических стадиях онтогенеза, о динамике гомологичных фенов в онтогенезе и в эволюции, о генетической "прописке" фенов аналогичных, но обязанных своим формированием действию разных генов (типа мутации "черное тело" у дрозофилы), и другие. От правильного выбора ориентиров для будущих исследований будет зависеть, какое место займет фенетика в системе наук, с разных сторон исследующих грандиозное явление наследственного осуществления.
Данная тенденция, очевидно, связана с тем, что сейчас не составляет особого труда рассчитывать огромные корреляционные матрицы, отвечающие за взаимосвязи между исследуемыми параметрами. Множество найденных корреляций не всегда легко описать, сложно выделить важное и отбросить лишнее. Зачастую подсчитав корреляции, сложно понять с чего начать, собственно, анализ результатов. И тут, как нельзя, кстати, пришлись корреляционные плеяды, которые позволяют графически отобразить все многообразие взаимосвязей. О плеядах вспомнили те преподаватели и профессора, которые выросли на них, для которых они являются привычными. Они используют корреляционные плеяды в своих научных работах, зачастую вручную рисуя их на бумажке ручкой или карандашом, как это делали ещё полвека назад.
По сути, корреляционные плеяды - это способ отображения информации о корреляциях, который помогает их структурировать, проводить объединение коррелирующих факторов.
зоогеография корреляционная плеяда терентьев
Здесь стоит сделать небольшое отступление, и рассказать об учебном процессе: еще десятилетие назад никакой такой сложной статистики не требовали от студентов. С начала появления компьютеров в широком использовании, с ростом возможностей текстовых редакторов и электронных таблиц, студенту вполне хватало сравнительного анализа табличных данных, а до компьютерной эры не требовалось и того - достаточно было одного лишь описания частных случаев, выявления тенденций "на глазок". /5,6/.
Метод корреляционных плеяд самый первый из эвристических методов классификации данных и он наименее формализован. Выглядит этот метод очень трудоемким особенно это становится явным при достаточно большом числе объектов.
Осуществляется следующим образом:
В матрице коэффициентов корреляции выбирается максимальный по абсолютной величине коэффициент корреляции( не считая диагональных). Пусть им оказался . Чертим два кружка, соответствующие признакам и , и соединяем их линией, над которой пишем значение . Затем находим наибольший по абсолютной величине коэффициент в -том столбце матрицы корреляции( он будет соответствовать признаку, наиболее тесно после связанному с ). Выбираем больший из этих двух коэффициентов. Пусть им оказался . Чертим кружок , соединяем его с кружком , над связью пишем . Далее находим признаки, наиболее тесно связанные с двумя последними рассмотренными( в данном случае и ), и повторяя процедуру выбора, выбираем из двух соответствующих коэффициентов корреляции наибольший по абсолютной величине. Продолжая построение, на каждом шаге находим признак, наиболее тесно связанный с одним из двух признаков, отобранных на предыдущем этапе. Построение чертежа завершим, когда в нем окажется m кружков(m - число признаков). Выбираем пороговую величину h и исключаем из схемы связи, соответствующие меньшим чем h коэффициентам парной корреляции. Величину h выбираем до тех пор, пока не получим нормальных групп(плеяд) признаков(h является порогом, при переходе через который происходит рассеивание групп на отдельные, не связанные признаки).
Может быть предложен более формальный подход к реализации метода корреляционных плеяд, заключающийся в следующем. В завершенном чертеже m кружков соединяют от (m-1) до (m(m-1):2) связей. Очевидно, что исключение не каждой связи приводит к появлению новой неодноэлементной группы(плеяды) признаков, поэтому оставим на чертеже только существенные связи, т.е. те, исключая которые мы обязательно увеличиваем число плеяд. Их будет m-1. В результате получим тот же дендрит. Для выделения корреляционных групп теперь можно применить те же критерии, что и в методе дендритов.
Читайте также: