Что такое метод корреляции. Поиск объектов указанием связей между шаблонами

Чтобы преодолеть ограничения метода клинических случаев, исследователи личности часто используют альтернативную стратегию, известную как корреляционный метод . Этот метод стремится установить взаимосвязи между событиями (переменными) и внутри них. Переменная - любая величина, которая может быть измерена и чье количественное выражение может варьировать в переделах того или иного континуума. Например, тревожность - переменная, потому что ее можно измерить (с помощью шкалы самооценки тревоги) и потому что люди различаются по степени выраженности у них тревожности. Сходным образом точность выполнения задания, требующего определенного навыка, тоже является переменной, которую можно измерить. Корреляционное исследование можно провести, просто измерив уровень тревожности у некоторого числа людей, а также уровень точности действий каждого из них при выполнении группой сложного задания. Если опубликованные результаты подтвердятся в другом исследовании, то можно будет считать, что субъекты с более низкими показателями тревожности имеют более высокие показатели точности выполнения задания. Поскольку на точность выполнения задания, вероятно, влияют и другие факторы (например, прежний опыт его выполнения, мотивация, интеллект), связь между точностью действий и тревожностью не будет безупречной, но она будет заслуживать внимания.

Переменными в корреляционном исследовании могут быть данные тестирования, демографические характеристики (такие как возраст, порядок рождения и социально - экономический статус), результаты измерения черт характера по методу самооценки, мотивы, ценности и установки, физиологические реакции (такие как частота сердечных сокращений, артериальное давление и кожно - гальваническая реакция), а также стили поведения. При использовании корреляционного метода психологи хотят получить ответы на такие специфические вопросы, как: влияет ли высшее образование на профессиональный успех в будущем? имеет ли отношение стресс к коронарной болезни сердца? есть ли взаимосвязь между самооценкой и одиночеством? есть ли связь между порядковым номером рождения и мотивацией достижения? Корреляционный метод не только позволяет ответить «да» или «нет» на эти вопросы, но также дать количественную оценку соответствия значений одной переменной значениям другой переменной. Для решения этой задачи психологи вычисляют статистический индекс, называемый коэффициентом корреляции (известен также как коэффициент линейной корреляции по Пирсону). Коэффициент корреляции (обозначается маленькой буквой r ) показывает нам две вещи: 1) степень зависимости двух переменных и 2) направление этой зависимости (прямая или обратная зависимость).

Численное значение коэффициента корреляции варьирует от–1 (полностью отрицательная, или обратная зависимость) через 0 (отсутствие связи) до +1 (полностью положительная, или прямая зависимость). Коэффициент, близкий по значению к нулю, означает, что две измеряемые переменные не связаны сколько - нибудь заметным образом. То есть большие или малые значения переменной X не имеют значимой связи с большими или малыми значениями переменной Y . В качестве примера приведем связь между двумя переменными: массой тела и интеллектом. В целом, полные люди не являются значимо более интеллектуальными или значимо менее интеллектуальными, чем более худощавые люди. И, наоборот, коэффициент корреляции +1 или–1 говорит о полном, однозначном соответствии между двумя переменными. Корреляции, близкие к полным, почти никогда не встречаются в исследовании личности, и это заставляет предположить, что хотя многие психологические переменные и связаны друг с другом, степень связи между ними не является столь уж сильной. Значение коэффициента корреляции в пределах между ±0,30 и ±0,60 является общераспространенным в исследовании личности и представляет практическую и теоретическую ценность для научного прогнозирования. К значениям коэффициента корреляции между 0 и ±0,30 следует относиться с осторожностью - их ценность для научных предсказаний минимальна. На рис. 2–2 представлены графики распределения значений двух переменных при двух различных значениях коэффициента корреляции. По горизонтали расположены значения одной переменной, а по вертикали - другой. Каждая точка означает баллы, полученные одним испытуемым по двум переменным.

Рис. 2–2. Каждая из диаграмм иллюстрирует различную степень зависимости значений двух переменных. Каждая точка па диаграмме представляет собой показатели испытуемого по двум переменным: a - полная положительная корреляция (r = +1); b - полная отрицательная корреляция (r = -1); с - умеренная положительная корреляция (r = +0,71); d - корреляция отсутствует (r = 0).

Положительная корреляция означает, что большие значения одной переменной имеют тенденцию быть связанными с большими значениями другой переменной или малые значения одной переменной - с малыми значениями другой переменной. Другими словами, две переменные увеличиваются или уменьшаются вместе. Например, существует положительная корреляция между ростом и массой тела людей. В целом, у более высоких людей есть тенденция иметь большую массу тела, чем у более низких. Другой пример положительной корреляции - связь между количеством сцен насилия, которые видят дети в телевизионных передачах и их тенденцией вести себя агрессивно. В среднем, чем чаще дети наблюдают насилие по телевизору, тем чаще они демонстрируют агрессивное поведение. Отрицательная корреляция означает, что высокие значения одной переменной связаны с низкими значениями другой переменной и наоборот.

Примером отрицательной корреляции может служить связь между частотой отсутствия студентов в аудитории и успешностью сдачи ими экзаменов. В целом, студенты, имевшие большее количество пропущенных занятий, проявляют тенденцию к получению более низких оценок на экзаменах. Студенты, имевшие меньшее количество пропусков, получали более высокие экзаменационные баллы. Другой пример - отрицательная корреляция между робостью и напористым поведением. Лица, получившие высокие баллы по показателю робости, имели склонность к нерешительному поведению, в то время как лица с низкими показателями робости проявляли себя решительными и напористыми. Чем ближе значение коэффициента корреляции к +1 или к–1, тем сильнее связь между двумя изучаемыми переменными. Так, коэффициент корреляции +0,80 отражает наличие более сильной зависимости между двумя переменными, чем коэффициент корреляции +0,30. Сходным образом, коэффициент корреляции–0,65 отражает более сильную взаимосвязь переменных, чем коэффициент корреляции–0,25. Надо иметь в виду, что величина корреляции зависит только от числового значения коэффициента, в то время как знак «+» или «-», стоящий перед коэффициентом, просто обозначает положительная это корреляция или отрицательная. Так, значение r = +0,70 отражает наличие такой же сильной зависимости, как и значение r = -0,70. Но первый пример указывает на положительную зависимость, а второй - на отрицательную. Далее, коэффициент корреляции–0,55 указывает на более сильную зависимость, чем коэффициент корреляции +0,35. Понимание этих аспектов корреляционной статистики поможет вам оценивать результаты исследований такого рода.

Оценка корреляционного метода

Корреляционный метод обладает некоторыми уникальными преимуществами. Наиболее важным является то, что он позволяет исследователям изучать большой набор переменных, которые недоступны проверке с помощью экспериментальных исследований. Например, когда речь идет об установлении связи между сексуальным насилием, перенесенным в детстве, и эмоциональными проблемами в более поздние годы жизни, корреляционный анализ может стать единственным этически приемлемым способом исследования. Аналогично, чтобы изучить, как демократический и авторитарный стили родительского воспитания соотносятся с ценностными ориентациями человека, стоит выбрать этот метод, поскольку этические соображения не дают возможности экспериментально контролировать стиль родительского воспитания.

Второе преимущество корреляционного метода состоит в том, что он дает возможность изучать многие аспекты личности в естественных условиях реальной жизни. Например, если мы хотим оценить влияние развода родителей на адаптацию и поведение детей в школе, мы должны систематически отслеживать социальные и академические успехи детей из распавшихся семей в течение определенного периода времени. Проведение подобного естественного наблюдения потребует времени и усилий, но позволит дать вполне реалистичную оценку сложного поведения. По этой причине корреляционный метод является предпочтительной исследовательской стратегией для персонологов, заинтересованных в изучении индивидуальных различий и феноменов, поддающихся экспериментальному контролю. Третье преимущество корреляционного метода заключается в том, что иногда с его помощью становится возможным предсказать некое событие, зная другое. Например, в исследовании получена умеренно высокая положительная корреляция между оценками по SAT у старшеклассников и их же оценками, полученными позднее в колледже (Hargadon, 1981). Поэтому, зная баллы студентов по SAT, приемная комиссия в колледже может достаточно точно предсказать их последующую успеваемость. Подобные предсказания никогда не бывают совершенными, но часто оказываются полезными для решения вопроса о приеме в учебное заведение. Тем не менее, все исследователи личности признают два серьезных недостатка этой стратегии. Во - первых, применение корреляционного метода не позволяет исследователям выделять причинно - следственные отношения. Суть проблемы состоит в том, что корреляционное исследование не может дать окончательное заключение о том, что две переменные причинно связаны . Например, во многих корреляционных исследованиях подтверждается связь между просмотром телевизионных программ с эпизодами насилия и агрессивным поведением у части детей и взрослых зрителей (Freedman, 1988; Huston, Wright, 1982). Какой вывод можно сделать из этих работ? Одно из возможных заключений таково: просмотр в течение длительного времени сцен насилия по телевидению ведет к возрастанию у зрителя агрессивных побуждений. Но возможен и противоположный вывод: агрессивные по складу своего характера субъекты или те, кто совершали агрессивные действия, предпочитают смотреть телевизионные программы со сценами насилия. К сожалению, корреляционный метод не позволяет установить, какое из этих двух объяснений верно. В то же время, корреляционные исследования, в которых устанавливается сильная корреляционная зависимость между значениями двух переменных, поднимает вопрос о возможности наличия причинно обусловленной связи между этими переменными. Что касается, например, связи между просмотром сцен насилия по телевидению и агрессией, то экспериментальное исследование, проведенное вслед за полученными результатами корреляционного анализа, привело ученых к заключению, что экспозиция программ, содержащих сцены насилия, может быть причиной агрессивного поведения (Eron, 1987).

Второй недостаток корреляционного метода - возможная путаница, вызванная действием третьей переменной. Для иллюстрации рассмотрим зависимость между употреблением наркотиков подростками и их родителями. Означает ли наличие корреляционной зависимости, что подростки, видя, как родители принимают наркотики, сами начинают употреблять их в еще большем количестве? Или это значит, что беспокойство при виде того, как их дети - подростки принимают наркотики, заставляет самих родителей прибегать к наркотикам, чтобы тем самым уменьшить свою тревогу? Или какой - то третий фактор сходным образом толкает подростков и взрослых к употреблению наркотиков? Может быть, подростки и их родители принимают наркотики, чтобы смириться с угнетающей нищетой, в которой они живут? То есть истинной причиной, обусловливающей наркоманию, может быть социально - экономический статус семей (например, бедность). Вероятность того, что третья переменная, которая не измеряется и о которой, может быть, даже и не подозревают, в действительности оказывает причинное влияние на обе измеряемые переменные, нельзя исключать при интерпретации результатов, полученных с помощью корреляционного метода.

Хотя корреляционный метод не предполагает установления причинно - следственной связи, из этого не следует, что причинно - следственные отношения в определенных случаях не могут быть четко установлены. Последнее особенно верно в отношении лонгитюдных корреляционных исследований - где, например, интересующие нас переменные, измеренные в одно время, коррелируют с другими переменными, о которых известно, что они появляются вслед за первыми. Рассмотрим, например, хорошо известную положительную корреляцию между курением сигарет и раком легких. Несмотря на возможность того, что какая - то третья неизвестная переменная (например, генетическая предрасположенность) может служить причиной и курения, и рака легких, мало кто сомневается, что весьма вероятная причина рака - курение, так как по времени курение предшествует заболеванию раком легких. Подобная стратегия (измерение двух переменных, разделенное определенным промежутком времени) дает возможность исследователям устанавливать причинно - следственные отношения в случаях, когда невозможно провести эксперимент. Например, на основе клинических наблюдений исследователи в течение долгого времени подозревали, что хронический стресс способствует развитию многих физиологических и психологических проблем. Недавние работы по измерению силы стресса (с использованием шкал самооценки) позволили проверить эти предположения с применением корреляционного метода. В области физиологических расстройств, например, накопленные данные свидетельствуют о следующем: стресс значимо связан с возникновением и развитием сердечно - сосудистых заболеваний, диабета, рака и различных типов инфекционных заболеваний (Elliott, Eisdorfer, 1982; Friedman, Booth - Kelley, 1987; Jemmott, Locke, 1984; Smith, Anderson, 1986; Williams, Deffenbacher, 1983). Корреляционный анализ также показал, что стресс может способствовать формированию зависимости от наркотиков (Newcomb, Harlow, 1986), сексуальных расстройств (Malatesta, Adams, 1984), а также возникновению многочисленных психических нарушений (Neufeld, Mothersill, 1980). Тем не менее, критики корреляционного подхода справедливо замечают, что могут существовать и другие факторы, искусственно усиливающие предположительную связь между стрессом и болезнью (Schroeder, Costa, 1984). Таким образом, одно предостережение остается: хотя иногда при наличии сильной корреляционной зависимости между двумя переменными напрашивается вывод о наличии причинной связи между ними, в действительности установить причинно - следственные отношения можно только экспериментальными методами.

Все явления в природе и обществе находятся во взаимной связи. Выяснение

наличия связей между изучаемыми явлениями ― одна из важных

задач статистики. Многие медико-биологические и медико-социальные

исследования требуют установления вида связи (зависимости) между

случайными величинами. Сама постановка большого круга задач

в медицинских исследовательских работах предполагает построение

и реализацию алгоритмов «фактор ― отклик», «доза ― эффект».

Зачастую нужно установить наличие эффекта при имеющейся дозе

и оценить количественно полученный эффект в зависимости от дозы. Решение

этой задачи напрямую связано с вопросом прогнозирования определенного

эффекта и дальнейшего изучения механизма возникновения именно такого

Как известно, случайные величины X и Y могут быть либо независимыми,

либо зависимыми. Зависимость случайных величин подразделяется на

функциональную и статистическую (корреляционную).

Функциональная зависимость ― такой вид зависимости, когда каждому

значению одного признака соответствует точное значение другого.

В математике функциональную зависимость переменной X от переменной

Y называют зависимостью вида X= f (Y), где каждому допустимому значению

Y ставится в соответствие по определенному правилу единственно возможное

значение X.

Например: взаимосвязь площади круга (S) и длины окружности (L). Известно,

что площадь круга и длина окружности связаны вполне определенным

отношением S = r L, где r – радиус круга. Умножив длину окружности

на половину ее радиуса, можно точно определить площадь крута. Такую

изменение одного признака изменением другого. Этот вид связи характерен

для объектов, являющихся сферой приложения точных наук.

В медико-биологических исследованиях сталкиваться с функциональной

связью приходится крайне редко, поскольку объекты этих исследований

имеют большую индивидуальную вариабельность (изменчивость). С

другой стороны, характеристики биологических объектов зависят,

как правило, от комплекса большого числа сложных взаимосвязей и не могут

быть сведены к отношению двух или трех факторов. Во многих

медицинских исследованиях требуется выявить зависимость какой-либо

величины, характеризующей результативный признак, от нескольких

факториальных признаков.

Дело в том, что на формирование значений случайных величин X и Y

оказывают влияние различные факторы. Обе величины ― и X, и

Y ― являются случайными, но так как имеются общие факторы, оказывающие

влияние на них, то X и Y обязательно будут взаимосвязаны. И связь эта

уже не будет функциональной, поскольку в медицине и биологии часто

бывают факторы, влияющие лишь на одну из случайных величин и

разрушающие прямую (функциональную) зависимость между значениями

X и Y. Связь носит вероятностный, случайный характер, в численном выражении

меняясь от испытания к испытанию, но эта связь определенно присутствует

и называется корреляционной.

Корреляционной является зависимость массы тела от роста, поскольку

на нее влияют и многие другие факторы (питание, здоровье,

наследственность и т.д.). Каждому значению роста (X) соответствует множество

значений массы (Y), причем, несмотря на общую тенденцию, справедливую

для средних: большему значению роста соответствует и большее

значение массы, ― в отдельных наблюдениях субъект с большим ростом

может иметь и меньшую массу. Корреляционной будет зависимость

заболеваемости от воздействия внешних факторов, например

запыленности, уровня радиации, солнечной активности и т.д. Имеется

корреляционная зависимость между дозой ионизирующего излучения и

числом мутаций, между пигментом волос человека и цветом глаз, между

показателями уровня жизни населения и смертностью, между числом

пропущенных студентами лекций и оценкой на экзамене.

Именно корреляционная зависимость наиболее часто встречается в

природе в силу взаимовлияния и тесного переплетения огромного множества

самых разных факторов, определяющих значение изучаемых показателей.

Корреляционная зависимость ― это зависимость, когда при изменении

одной величины изменяется среднее значение другой.

Строго говоря, термин «зависимость» при статистической обработке

материалов медико-биологических исследований должен использоваться

весьма осторожно. Это связано с природой статистического анализа,

который сам по себе не может вскрыть истинных причинно-следственных

отношений между факторами, нередко опосредованными третьими факторами,

причем эти третьи факторы могут лежать вообще вне поля зрения

исследователя. С помощью статистических критериев можно дать только

формальную оценку взаимосвязей. Попытки механически

перенести данные статистических расчетов в объективную реальность

могут привести к ошибочным выводам. Например, утверждение: «Чем

громче утром кричат воробьи, тем выше встает солнце», несмотря на явную

несуразность, с точки зрения формальной статистики вполне правомерно.

Таким образом, термин «зависимость» в статистическом анализе подразумевает

только оценку соответствующих статистических критериев.

Корреляционные связи называют также статистическими (например,

зависимость уровня заболеваемости от возраста населения). Эти связи

непостоянны, они колеблются от нуля до единицы. Ноль означает отсутствие

зависимости между признаками, а единица ― полную, или функциональную,

связь, когда имеется зависимость только от одного признака.

Мерой измерения статистической зависимости служат раз личные

коэффициенты корреляции. Выбор метода для определения взаимосвязей

обусловлен видом самих признаков и способами их группировки.

Для количественных данных применяют линейную регрессию и

коэффициент линейной корреляции Пирсона. Для качественных признаков

применяются таблицы сопряженности и рассчитываемые на их основе

коэффициенты сопряженности (С и Ф), Чупрова (К). Для при знаков,

сформированных в порядковой (ранговой, балльной) шкале, можно применять

ранговые коэффициенты корреляции Спирмена или Кендэла.

Любую существующую зависимость по направлению связи можно

подразделить на прямую и обратную. Прямая зависимость

― это зависимость, при которой увеличение или уменьшение значения

одного признака ведет, соответственно, к увеличению или уменьшению второго.

Например: при увеличении температуры возрастает давление газа

(при его неизменном объеме), при уменьшении температуры снижается

и давление. Обратная зависимость имеется тогда, когда при увеличении

одного признака второй уменьшается, и наоборот: при уменьшении

одного второй увеличивается. Обратная зависимость, или обратная

связь, является основой нормального регулирования почти

всех процессов жизнедеятельности любого организма.

Оценка силы корреляционной связи проводится в соответствии со шкалой тесноты.

Если размеры коэффициента корреляции от ±0,9(9) до ±0,7, то связь

сильная, коэффициенты корреляции от ±0,31 до ±0,69 отражают связь средней

силы, а коэффициенты от ±0,3 до нуля характеризуют слабую связь.

Известное представление о наличии или отсутствии корреляционной связи

между изучаемыми явлениями или признаками (например, между массой тела и

ростом) можно получить графически, не прибегая к специальным расчетам. Для

этого достаточно на чертеже в системе прямоугольных координат отложить,

например,

на оси абсцисс величины роста, а на оси ординат ― массы тела и нанести ряд точек,

каждая из которых соответствует индивидуальной величине веса при данном

росте обследуемого. Если полученные точки располагаются кучно по наклонной

прямой к осям ординат в виде овала (эллипса) или по кривой линии,

то это свидетельствует о зависимости между явлениями. Если же точки

расположены беспорядочно или на прямой, параллельной абсциссе либо ординате,

то это говорит об отсутствии зависимости.

По форме корреляционные связи подразделяются на прямолинейные, когда

наблюдается пропорциональное изменение одного признака в зависимости от

изменения другого (графически эти связи изображаются в виде прямой линии или

близкой к ней), и криволинейные, когда одна величина признака


Корреляционный анализ (от лат. «соотношение», «связь») применяется для проверки гипотезы о статистической зависимости значений двух или нескольких переменных в том случае, если исследователь может их регистрировать (измерять), но не контролировать (изменять).

Когда повышение уровня одной переменной сопровождается повышением уровня другой, то речь идет о положительной корреляции. Если же рост одной переменной происходит при снижении уровня другой, то говорят об отрицательной корреляции. При отсутствии связи переменных мы имеем дело с нулевой корреляцией.

При этом переменными могут быть данные тестирований, наблюдений, экспериментов, социально-демографические характеристики, физиологические параметры, особенности поведения и т. д. К примеру, использование метода позволяет нам дать количественно выраженную оценку взаимосвязи таких признаков, как: успешность обучения в вузе и степень профессиональных достижений по его окончании, уровень притязаний и стресс, количество детей в семье и качества их интеллекта, черты личности и профессиональная ориентация, продолжительность одиночества и динамика самооценки, тревожность и внутригрупповой статус, социальная адаптированность и агрессивность при конфликте...

В качестве вспомогательных средств, процедуры корреляции незаменимы при конструировании тестов (для определения валидности и надежности измерения), а также как пилотажные действия по проверке пригодности экспериментальных гипотез (факт отсутствия корреляции позволяет отвергнуть предположение о причинно-следственной связи переменных).

Усиление интереса в психологической науке к потенциалу корреляционного анализа обусловлено целым рядом причин. Во-первых, становится допустимым изучение широкого круга переменных, экспериментальная проверка которых затруднена или невозможна. Ведь по этическим соображениям, к примеру, нельзя провести экспериментальные исследования самоубийств, наркомании, деструктивных родительских воздействий, влияния авторитарных сект. Во-вторых, возможно получение за короткое время ценных обобщений данных о больших количествах исследуемых лиц. В-третьих, известно, что многие феномены изменяют свою специфику во время строгих лабораторных экспериментов. А корреляционный анализ предоставляет исследователю возможность оперировать информацией, полученной в условиях, максимально приближенных к реальным. В-четвертых, осуществление статистического изучения динамики той или иной зависимости нередко создает предпосылки к достоверному прогнозированию психологических процессов и явлений.

Однако следует иметь в виду, что применение корреляционного метода связано и с весьма существенными принципиальными ограничениями.

Так, известно, что переменные вполне могут коррелировать и при отсутствии причинно-следственной связи между собой.

Это иногда возможно в силу действия случайных причин, при неоднородности выборки, из-за неадекватности исследовательского инструментария поставленным задачам. Такая ложная корреляция способна стать, скажем, «доказательством» того, что женщины дисциплинированнее мужчин, подростки из неполных семей более склонны к правонарушениям, экстраверты агрессивнее интровертов и т. п. Действительно, стоит отобрать в одну группу мужчин, работающих в высшей школе, и женщин, предположим, из сферы обслуживания, да еще и протестировать тех и других на знание научной методологии, то мы получим выражение заметной зависимости качества информированности от пола. Можно ли доверять такой корреляции?

Еще чаще, пожалуй, в исследовательской практике встречаются случаи, когда обе переменные изменяются под влиянием некоей третьей или даже нескольких скрытых детерминант.

Если мы обозначим цифрами переменные, а стрелками - направления от причин к следствиям, то увидим целый ряд возможных вариантов:

1→ 2→ 3→ 4

1← 2← 3→ 4

1← 2→ 3→ 4

1← 2← 3← 4

Невнимание к воздействию реальных, но неучтенных исследователями факторов позволило представить обоснования того, что интеллект - сугубо наследуемое образование (психогенетический подход) или, напротив, что он обусловлен лишь влиянием социальных составляющих развития (социогенетический подход). В психологии, следует заметить, нераспространены феномены, имеющие однозначную первопричину.

Кроме того, факт наличия взаимосвязи переменных не дает возможности выявить по итогам корреляционного исследования причину и следствие даже в тех случаях, когда промежуточных переменных не существует.

Например, при изучении агрессивности детей было установлено, что склонные к жестокости дети чаще сверстников смотрят фильмы со сценами насилия. Означает ли это, что такие сцены развивают агрессивные реакции или, наоборот, подобные фильмы привлекают самых агрессивных детей? В рамках корреляционного исследования дать правомерный ответ на этот вопрос невозможно.

Необходимо запомнить: наличие корреляций не является показателем выраженности и направленности причинно-следственных отношений.

Другими словами, установив корреляцию переменных, мы можем судить не о детерминантах и производных, а лишь о том, насколько тесно взаимосвязаны изменения переменных и каким образом одна из них реагирует на динамику другой.

При использовании данного метода оперируют той или иной разновидностью коэффициента корреляции. Его числовое значение обычно изменяется от -1 (обратная зависимость переменных) до +1 (прямая зависимость). При этом нулевое значение коэффициента соответствует полному отсутствию взаимосвязи динамики переменных.

Например, коэффициент корреляции +0,80 отражает наличие более выраженной зависимости между переменными, чем коэффициент +0,25. Аналогично, зависимость между переменными, характеризуемая коэффициентом -0,95, гораздо теснее, чем та, где коэффициенты имеют значения +0,80 или + 0,25 («минус» указывает нам только на то, что рост одной переменной сопровождается уменьшением другой).

В практике психологических исследований показатели коэффициентов корреляции обычно не достигают +1 или -1. Речь может идти только о той или иной степени приближения к данному значению. Часто корреляция считается выраженной, если ее коэффициент выше ±0,60. При этом недостаточной корреляцией, как правило, считаются показатели, располагающиеся в интервале от -0,30 до +0,30.

Однако, сразу следует оговорить, что интерпретация наличия корреляции всегда предполагает определение критических значений соответствующего коэффициента. Рассмотрим этот момент более подробно.

Вполне может получиться так, что коэффициент корреляции равный +0,50 в некоторых случаях не будет признан достоверным, а коэффициент, составляющий +0,30, окажется при определенных условиях характеристикой несомненной корреляции. Многое здесь зависит от протяженности рядов переменных (т. е. от количества сопоставляемых показателей), а также от заданной величины уровня значимости (или от принятой за приемлемую вероятность ошибки в расчетах).

Ведь, с одной стороны, чем больше выборка, тем количественно меньший коэффициент будет считаться достоверным свидетельством корреляционных отношений. А с другой стороны, если мы готовы смириться со значительной вероятностью ошибки, то можем посчитать за достаточную небольшую величину коэффициента корреляции.

Существуют стандартные таблицы с критическими значениями коэффициентов корреляции. Если полученный нами коэффициент окажется ниже, чем указанный в таблице для данной выборки при установленном уровне значимости, то он считается статистически недостоверным.

Работая с такой таблицей, следует знать, что пороговой величиной уровня значимости в психологических исследованиях обычно считается 0,05 (или пять процентов). Разумеется, риск ошибиться будет еще меньше, если эта вероятность составляет 1 на 100 или, еще лучше, 1 на 1000.

Итак, не сама по себе величина подсчитанного коэффициента корреляции служит основанием для оценки качества связи переменных, а статистическое решение о том, можно ли считать вычисленный показатель коэффициента достоверным.

Зная это, обратимся к изучению конкретных способов определения коэффициентов корреляции.

Значительный вклад в разработку статистического аппарата корреляционных исследований внес английский математик и биолог Карл Пирсон (1857-1936), занимавшийся в свое время проверкой эволюционной теории Ч. Дарвина.

Обозначение коэффициента корреляции Пирсона (r) происходит от понятия регрессии - операции по сведению множества частных зависимостей между отдельными значениями переменных к их непрерывной (линейной) усредненной зависимости.

Формула для расчета коэффициента Пирсона имеет такой вид:

где x, y - частные значения переменных, S - (сигма) - обозначение суммы, а - средние значения тех же самых переменных. Рассмотрим порядок использования таблицы критических значений коэффициентов Пирсона. Как мы видим, в левой ее графе указано число степеней свободы. Определяя нужную нам строчку, мы исходим из того, что искомая степень свободы равна n -2, где n - количество данных в каждом из коррелируемых рядов. В графах же, расположенных с правой стороны, указаны конкретные значения модулей коэффициентов.

Причем, чем правее расположен столбик чисел, тем выше достоверность корреляции, увереннее статистическое решение о её значимости.

Если у нас, например, коррелируют два ряда цифр по 10 единиц в каждом из них и получен по формуле Пирсона коэффициент, равный +0,65, то он будет считаться значимым на уровне 0,05 (так как больше критического значения в 0,632 для вероятности 0,05 и меньше критического значения 0,715 для вероятности 0,02). Такой уровень значимости свидетельствует о существенной вероятности повторения данной корреляции в аналогичных исследованиях.

Теперь приведем пример вычисления коэффициента корреляции Пирсона. Пусть в нашем случае необходимо определить характер связи между выполнением одними и теми же лицами двух тестов. Данные по первому из них обозначены как x , а по второму - как y .

Для упрощения расчетов введены некоторые тождества. А именно:

При этом мы имеем следующие результаты испытуемых (в тестовых баллах):

Заметим, что число степеней свободы равно в нашем случае 10. Обратившись к таблице критических значений коэффициентов Пирсона, узнаем, что при данной степени свободы на уровне значимости 0,999 будет считаться достоверным любой показатель корреляции переменных выше, чем 0,823. Это дает нам право считать полученный коэффициент свидетельством несомненной корреляции рядов x и y .

Применение линейного коэффициента корреляции становится неправомерным в тех случаях, когда вычисления производятся в пределах не интервальной, а порядковой шкалы измерения. Тогда используют коэффициенты ранговой корреляции. Разумеется, результаты при этом получаются менее точными, так как сопоставлению подлежат не сами количественные характеристики, а лишь порядки их следования друг за другом.

Среди коэффициентов ранговой корреляции в практике психологических исследований довольно часто применяют тот, который предложен английским ученым Чарльзом Спирменом (1863-1945), известным разработчиком двухфакторной теории интеллекта.

Используя соответствующий пример, рассмотрим действия, необходимые для определения коэффициента ранговой корреляции Спирмена.

Формула его вычисления выглядит следующим образом:

где d - разности между рангами каждой переменной из рядов x и y ,

n - число сопоставляемых пар.

Пусть x и y - показатели успешности выполнения испытуемыми некоторых видов деятельности (оценки индивидуальных достижений). При этом мы располагаем следующими данными:

Заметим, что вначале производится раздельное ранжирование показателей в рядах x и y . Если при этом встречается несколько равных переменных, то им присваивается одинаковый усредненный ранг.

Затем осуществляется попарное определение разности рангов. Знак разности несущественен, так как по формуле она возводится в квадрат.

В нашем примере сумма квадратов разностей рангов ∑d 2 равна 178. Подставим полученное число в формулу:

Как мы видим, показатель коэффициента корреляции в данном случае составляет ничтожно малую величину. Тем не менее, сопоставим его с критическими значениями коэффициента Спирмена из стандартной таблицы.

Вывод: между указанными рядами переменных x и y корреляция отсутствует.

Надо заметить, что использование процедур ранговой корреляции предоставляет исследователю возможность определять соотношения не только количественных, но и качественных признаков, в том, разумеется, случае, если последние могут быть упорядочены по возрастанию выраженности (ранжированы).

Нами были рассмотрены наиболее распространенные, пожалуй, на практике способы определения коэффициентов корреляции. Иные, более сложные или реже применяемые разновидности данного метода при необходимости можно найти в материалах пособий, посвященных измерениям в научных исследованиях.



Корреляционно-регрессионный анализ - один из наиболее широко распространенных и гибких приемов обработки стати­стических данных. Данный метод начинает свой отсчет с 1795 г., когда английский исследователь Фрэнсис Гальтон предложил теоретические основы регрессионного метода, а в 1801 г. рассчи­тал с его помощью траекторию полета планеты Церера. Им же введен в статистику термин «корреляция». Можно также назвать

французского кристаллографа Огюста Браве, немецкого физика Густава Теодора Фехнера, английского экономиста и статистика Фрэнсиса Эджуорта, впервые высказывавших в середине-конце XIX в. идеи о количественном измерении связей явлений. В раз­ное время над теорией анализа работали известные в области теоретической статистики ученые Карл Фридрих Гаусс (Герма­ния), Адриен Мари Лежандр (Франция), Карл Пирсон (Англия) и др.

Корреляционно-регрессионный анализ состоит в построении и анализе экономико-математической модели в виде уравнения регрессии (корреляционной связи), характеризующего зависи­мость признака от определяющих его факторов.

Корреляционно-регрессионный анализ предполагает сле­дующие этапы:

Предварительный анализ (здесь формулируются основные направления всего анализа, определяется методика оценки ре­зультативного показателя и перечень наиболее существенных факторов);

Сбор информации и ее первичная обработка;

Построение модели (один из важнейших этапов);

Оценка и анализ модели.

Задачи корреляционного анализа сводятся к выделению важ­нейших факторов, которые влияют на результативный признак, измерению тесноты связи между факторами, выявлению неиз­вестных причин связей и оценке факторов, оказывающих макси­мальное влияние на результат.

Задачи регрессионного анализа заключаются в установлении формы зависимости, определении уравнения регрессии и его ис­пользовании для оценки неизвестных значений зависимой пере­менной, прогнозировании возможных значений результативного признака при задаваемых значениях факторных признаков.



При использовании корреляционно-регрессионного анализа необходимо соблюдать следующие требования.

1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями.

2. Все факторные признаки должны иметь количественное (цифровое) выражение.

3. Необходимо наличие массовости значений изучаемых по­казателей.

4. Причинно-следственные связи между явлениями и процес­сами могут быть описаны линейной или приводимой к линейной формой зависимости.

5. Не должно быть количественных ограничений на парамет­ры модели связи.

6. Необходимо обеспечить постоянство территориальной и временной структуры изучаемой совокупности.

Корреляция - статистическая зависимость между случай­ными величинами, не имеющими строго функционального харак­тера, при которой изменение одной из случайных величин приво­дит к изменению математического ожидания другой.

В статистике принято различать следующие варианты зави­симостей.

1. Парная корреляция - связь между двумя признаками (ре­зультативным и факторным).

2. Частная корреляция - зависимость между результатив­ным и одним из факторных признаков при фиксированном значе­нии других факторных признаков.

3. Множественная корреляция - зависимость результатив­ного и двух или более факторных признаков, включенных в ис­следование.

Корреляционная связь - частный случай стохастической связи и состоит в том, что разным значениям одной переменной соответствуют различные средние значения другой.

Обязательное условие применения корреляционного метода - массовость значений изучаемых показателей, что позволяет вы­явить тенденцию, закономерность развития, форму взаимосвязи между признаками. Тогда, в соответствии с законом больших, чи­сел, влияние других факторов сглаживается, нейтрализуется. На­личие корреляционной связи присуще многим общественным явлениям.

Показатели тесноты связи между признаками называют ко­эффициентами корреляции. Их выбор зависит от того, в каких шкалах измерены признаки. Основными шкалами являются:

1) номинальная шкала (наименований) предназначена для описания принадлежности объектов к определенным социальным группам (например, коэффициенты ассоциации и контингенции, коэффициенты Пирсона и Чупрова);

2) шкала порядка (ординальная) применяется для измерения упорядоченности объектов по одному или нескольким признакам (например, коэффициенты Спирмена и Кенделла);

3) количественная шкала используется для описания количе­ственных показателей - например, линейный коэффициент кор­реляции и корреляционное отношение.

Корреляционный анализ - метод статистического исследо­вания экспериментальных данных, позволяющий определить сте­пень линейной зависимости между переменными.

Парная линейная корреляция - простейшая система корре­ляционной связи, представляющая линейную связь между двумя признаками. Ее практическое значение состоит в выделении од­ного важнейшего фактора, который и определяет вариацию ре­зультативного признака.

Для определения степени тесноты парной линейной зависи­мости служит линейный коэффициент корреляции, который был впервые введен в начале 1890-х гг. Пирсоном, Эджуортом и Велдоном. В теории разработаны и на практике применяются раз­личные варианты формул расчета данного коэффициента:

Где ,

где n - число наблюдений.

При малом числе наблюдений для практических вычислений линейный коэффициент корреляции удобнее исчислять по формуле:

,

где r принимает значения в пределах от -1 до 1.

Чем ближе линейный коэффициент корреляции по абсолют­ной величине к I, тем теснее связь. С другой стороны, если он ра­вен 1, то зависимость является не стохастической, а функциональ­ной. Знак при нем указывает направление связи: знак «-» соответ­ствует обратной зависимости, «+» - прямой. Величина коэффициента корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.

Степень взаимного влияния факторов в зависимости от ко­эффициента корреляции приведена в табл. 1.

Таблица 1

Количественная оценка тесноты связи

при различных значениях коэффициента корреляции

После того, как с помощью корреляционного анализа выяв­лено наличие статистических связей между переменными и оце­нена степень их тесноты, обычно переходят к математическому описанию зависимостей, то есть к регрессионному анализу.

Термин «регрессия» (произошел от латинского regression - отступление, возврат к чему-либо) был также введен Ф. Гальтоном в 1886 г. Обрабатывая статистические данные в связи с ана­лизом наследственности роста, он отметил прямую зависимость между ростом родителей и их детей (наблюдение само по себе не слишком глубокое). Но относительно старших сыновей ему уда­лось установить более тонкую зависимость. Он рассчитал, что средний рост старшего сына лежит между средним ростом насе­ления и средним ростом родителей. Если рост родителей выше среднего, то их наследник, как правило, ниже; если средний рост родителей ниже среднего, то рост их потомка выше. Когда Гальтон нанес на график средний рост старших сыновей для различ­ных значений среднего роста родителей, он получил почти пря­мую линию, проходящую через нанесенные точки.

Поскольку рост потомства стремится двигаться к среднему, Гальтон назвал это явление регрессией к среднему состоянию, а ли­нию, проходящую через точки на графике, - линией регрессии.

Регрессивный анализ применяется в тех случаях, когда необ­ходимо отыскать непосредственно вид зависимости х и у. При этом предполагается, что независимые факторы не случайные величины, а результативный показатель у имеет постоянную, не­зависимую от факторов дисперсию и стандартное отклонение.

Одна из проблем построения уравнения регрессии - размер­ность, то есть определение числа факторных признаков, вклю­чаемых в модель. Их число должно быть оптимальным.

Сокращение размерности за счет исключения второстепен­ных, несущественных факторов позволяет получить модель, бы­стрее и качественнее реализуемую. В то же время построение мо­дели малой размерности может привести к тому, что она будет недостаточно полно описывать исследуемое явление или процесс в единой системе национального счетоводства.

При построении модели число факторных признаков должно быть в 5-6 раз меньше объема изучаемой совокупности.

Если результативный признак с увеличением факторного признака равномерно возрастает или убывает, то такая зависи­мость является линейной и выражается уравнением прямой.

Линейная регрессия сводится к нахождению уравнения вида:

где х - индивидуальное значение факторного признака; а 0 , а 1 - параметры уравнения прямой (уравнения регрессии); у х - теоре­тическое значение результирующего фактора.

Данное уравнение показывает среднее значение изменения ре­зультативного признака х на одну единицу его измерения. Знак па­раметра показывает направление этого изменения. На практике по­строение линейной регрессии сводится к оценке ее параметров а 0 , а 1.

При классическом подходе параметры уравнения а 0 , а 1 нахо­дятся методом наименьших квадратов, который позволяет полу­чить такие оценки параметров, при которых сумма квадратов от­клонений фактических значений результативного признака у от расчетных, теоретических (у х) была бы минимальной.

Для нахождения минимума данной функции приравняем к нулю частные производные и тем самым получим систему двух линейных уравнений, которая называется системой нормальных уравнений:

В уравнении прямой параметр а 0 экономического смысла не имеет, параметр а 1 является коэффициентом регрессии и показы­вает изменение результативного признака при изменении фак­торного на единицу.

Или по следующим формулам:

Где , , ,

Между линейным коэффициентом корреляции и коэффици­ентом регрессии существует определенная зависимость, выра­женная формулой

Часто исследуемые признаки имеют разные единицы измере­ния, поэтому для оценки влияния факторного признака на ре­зультативный применяется коэффициент эластичности. Он рас­считывается для каждой точки и в среднем по всей совокупности по формуле:

где у" х - первая производная уравнения регрессии.

Коэффициент эластичности показывает, на сколько процен­тов изменяется результативный признак при изменении фактор­ного признака на 1%.

Чтобы иметь возможность судить о сравнительной связи влияния отдельных факторов и о тех резервах, которые в них за­ложены, должны быть вычислены частные (средние) коэффициенты эластичности .

Различия в единицах измерения факторов устраняют с помо­щью частных (средних) коэффициентов эластичности , которые рассчитываются по формуле:

где а i - коэффициент регрессии при факторе х; - средние значения факторного и результативного признаков.

Частные коэффициенты эластичности показывают, на сколь­ко процентов в среднем изменяется анализируемый показатель с изменением на 1 % каждого фактора при фиксированном поло­жении других факторов.

Альтернативным показателем степени зависимости между двумя переменными является линейный коэффициент детерми­нации , представляющий собой квадрат линейного коэффициента корреляции r 2 . Его числовое значение всегда заключено в пределе от 0 до 1. Он характеризует долю вариации (разброса) зависимой переменной. Значение коэффициента детерминации непосредст­венно указывает степень влияния независимого фактора на ре­зультативный показатель.

Степень тесноты связи полностью соответствует теоретиче­скому корреляционному отношению , которое является универ­сальным показателем тесноты связи по сравнению с линейным коэффициентом корреляции.

С помощью теоретического корреляционного отношения из­меряется теснота связи любой формы, а посредством линейного коэффициента корреляции - только прямолинейной связи.

Теоретическое корреляционное отношение рассчитывается по формулам:

где - факторная дисперсия; - общая дисперсия.

Для упрощения расчетов меры тесноты корреляционной свя­зи часто применятся индекс корреляционной связи, который оп­ределяется по формулам:

где - остаточная дисперсия.

Линейные модели отличаются простой интерпретируемостью и хорошо разработанными приемами оценивания коэффициентов регрессии. Обычно для них все три наиболее распространенных метода статистического оценивания - максимального правдопо­добия, наименьших квадратов и моментов - дают оптимальные решения и соответственно приводят к оценкам, обладающим ли­нейностью, эффективностью, несмещенностью. Принимая во внимание, что линейные регрессионные модели не могут с оди­наково высокой степенью достоверности описывать многообраз­ные процессы, происходящие в реальности, их дополняет боль­шой класс нелинейных моделей. Для последних, однако, с учетом их сложности и специфичности приемов параметрического оце­нивания предпочтительным остается приведение к простой ли­нейной форме.

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
Еще Гиппократ обратил внимание на то, что между телосложением и темпераментом людей, между строением их тела и предрасположенностью к заболеваниям существует определенная связь.
Чаще всего рассматриваются простейшие ситуации, когда в ходе исследования измеряют значения только одного варьирующего признака генеральной совокупности. Остальные признаки либо считаются постоянными для данной совокупности, либо относятся к случайным факторам, определяющим варьирование исследуемого признака. Как правило, исследования в спорте значительно сложнее и носят комплексный характер. Например, при контроле за ходом тренировочного процесса измеряется спортивный результат, и одновременно может оцениваться целый ряд биомеханических, физиологических, биохимических и других параметров (скорость и ускорения общего центра масс и отдельных звеньев тела, углы в суставах, сила мышц, показатели систем дыхания и кровообращения, объем физической нагрузки и энергозатраты организма на ее выполнение и т. д.). При этом часто возникает вопрос о взаимосвязи отдельных признаков. Например, как зависит спортивный результат от некоторых элементов техники спортивных движений? как связаны энергозатраты организма с объемом физической нагрузки определенного вида? насколько точно по результатам выполнения некоторых стандартных упражнений можно судить о потенциальных возможностях человека в конкретном виде спортивной деятельности? и т. п. Во всех этих случаях внимание исследователя привлекает зависимость между различными величинами, описывающими интересующие его признаки.
Этой цели служит математическое понятие функции, имеющее в виду случаи, когда определенному значению одной (независимой) переменной Х, называемой аргументом , соответствует определенное значение другой (зависимой) переменной Y, называемой функцией . Однозначная зависимость между переменными величинами Y и X называется функциональной , т.е. Y = f(X) (“игрек есть функция от икс”).
Например, в функции Y = 2X каждому значению X соответствует в два раза большее значение Y . В функции Y = 2X 2 каждому значению Y соответствует 2 определенных значения X . Графически это выглядит так (рис.1.1, 1.2 соответственно):
Рис.1.1. Рис.1.2.
Но такого рода однозначные или функциональные связи между переменными величинами встречаются не всегда. Известно, например, что между ростом (длиной тела) и массой человека существует положительная связь: более высокие индивиды имеют обычно и большую массу, чем индивиды низкого роста. То же наблюдается и в отношении качественных признаков: блондины, как правило, имеют голубые, а брюнеты - карие глаза. Однако из этого правила имеются исключения, когда сравнительно низкорослые индивиды оказываются тяжелее высокорослых, и среди населения хотя и нечасто, но встречаются кареглазые блондины и голубоглазые брюнеты. Причина таких “исключений” в том, что каждый биологический признак, выражаясь математическим языком, является функцией многих переменных; на его величине сказывается влияние и генетических и средовых факторов, в том числе и случайных, что вызывает варьирование признаков. Отсюда зависимость между ними приобретает не функциональный, а статистический характер , когда определенному значению одного признака, рассматриваемого в качестве независимой переменной, соответствует не одно и то же числовое значение, а целая гамма распределяемых в вариационный ряд числовых значений другого признака, рассматриваемого в качестве независимой переменной. Такого рода зависимость между переменными величинами называется корреляционной или корреляцией (термин “корреляция” происходит от лат. correlatio - соотношение, связь). При этом данный вид взаимосвязи между признаками проявляется в том, что при изменении одной из величин изменяется среднее значение другой.
Если функциональные связи одинаково легко обнаружить и на единичных, и на групповых объектах, то этого нельзя сказать о связях корреляционных, которые изучаются только на групповых объектах методами математической статистики.
Задача корреляционного анализа сводится к установлению направления и формы связи между признаками, измерению ее тесноты и к оценке достоверности выборочных показателей корреляции.
Корреляционная связь между признаками может быть линейной и криволинейной (нелинейной), положительной и отрицательной.
Прямая корреляция отражает однотипность в изменении признаков: с увеличением значений первого признака увеличиваются значения и другого, или с уменьшением первого уменьшается второй.
Обратная корреляция указывает на увеличение первого признака при уменьшении второго или уменьшение первого признака при увеличении второго.
Например, больший прыжок и большее количество тренировок - прямая корреляция, уменьшение времени, затраченного на преодоление дистанции, и большее количество тренировок - обратная корреляция.

1.2. Корреляционные поля и цель их построения
Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (x i , y i ) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений x i и y i . При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.
Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения x i и y i .
Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами x i и y i г рафически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем .
Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: m x , m y – средние значения (математические ожидания); s x , s y стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y .
Если р = 0, то значения, x i , y i , полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рис.1.3, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y .


Рис.1.3. Графическая интерпретация взаимосвязи между показателями.

Если р = 1 или р = -1, то между случайными величинами Х и Y существует линейная функциональная зависимость (Y = c + dX) . В этом случае говорят о полной корреляции. При р = 1 значения x i , y i определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением x i значения y i также увеличиваются), при р = -1 прямая имеет отрицательный наклон (рис.1.3, б).
В промежуточных случаях (-1 < p < 1) точки, соответствующие значениям xi , y i , попадают в область, ограниченную некоторым эллипсом (рис.1.3, в. г), причем при p > 0 имеет место положительная корреляция (с увеличением x i значения y i имеют тенденцию к возрастанию), при p < 0 корреляция отрицательная. Чем ближе р к , тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии.
Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию (рис.1.3, д).
Таким образом, визуальный анализ корреляционного поля помогает выявить не только наличия статистической зависимости (линейную или нелинейную) между исследуемыми признаками, но и ее тесноту и форму. Это имеет существенное значение для следующего шага в анализе ѕ выбора и вычисления соответствующего коэффициента корреляции.
Корреляционную зависимость между признаками можно описывать разными способами. В частности, любая форма связи может быть выражена уравнением общего вида Y = f(X) , где признак Y зависимая переменная , или функция от независимой переменной X , называемой аргументом . Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Просмотрите примеры решения задач. Пример 1.2. Определить форму и направление взаимосвязи между показателями пульса покоя и абсолютными значениями пробы PWC 170 у 13 исследуемых с помощью построения графика корреляционного поля, если данные выборок таковы:

x i , уд/мин ~ 80; 72; 71; 80; 84; 82; 78; 70; 83; 72; 72; 73; 81
y i , кГм/мин ~ 858; 979; 1071; 920; 982; 1000; 1004; 1022; 807; 1099; 817; 879; 982

Решение
1. Построим график данного корреляционного поля, отложив на оси Х в порядке возрастания показатели пульса покоя, на оси Y - абсолютные значения пробы PWC 170 .


2. Сделать вывод о форме и направлении взаимосвязи между исследуемыми показателями.

Вывод: график данного корреляционного поля позволяет предположить, что, возможно, между пульса покоя и абсолютными значениями пробы PWC 170 у исследуемой группы наблюдается прямая, обратная зависимость, т.е. со снижением показателя пульса покоя происходит увеличение абсолютных значений PWC 170 .

Самостоятельно решите следующие задачи:
Задача 1 . Определить форму и направление взаимосвязи между результатами в беге на первой и второй половине дистанции 400 м у 13 исследуемых с помощью построения графика корреляционного поля, если данные выборок таковы:
x i , с ~ 25,2; 26,4; 26,0; 25,8; 24,9; 25,7; 25,7; 25,7; 26,1; 25,8; 25,9; 26,2; 25,6 (первые 200 м).
y i , с ~ 30,8; 29,4; 30,2; 30,5; 31,4; 30,3; 30,4; 30,5; 29,9; 30,4; 30,3; 30,5; 30,6 (последние 200 м).

Задача 2 . Определить форму и направление взаимосвязи между результатами в толчке штанги и прыжка в высоту с места у 12 тяжелоатлетов весовой категории до 60 кг с помощью построения графика корре-ляционного поля, если данные выборок таковы:
Результат в толчке: x i , кг ~ 107,5; 110; 110; 115; 115; 107,5; 107,5; 120; 122,5; 112,5; 120; 110.
Прыжок в высоту с места: y i , см ~ 57; 60; 58; 61; 63; 58; 55; 64; 65; 64; 66; 61.

Задача 3 . Определить форму и направление взаимосвязи между результатами кистевой динамометрии правой и левой рук у 7 школьников с помощью построения графика корреляционного поля, если данные выборок таковы:
Правая рука: x i , кГ ~ 14,0; 14,2; 14,9; 15,4; 16,0; 17,2; 18,1.
Левая рука: y i , кГ ~ 12,1; 13,8; 14,2; 13,0; 14,6; 15,9; 17,4.

1.3. Коэффициенты корреляции и их свойства.
Коэффициент корреляции р для генеральной совокупности, как правило, неизвестен, поэтому он оценивается по экспериментальным данным, представляющим собой выборку объема n пар значений (x i , y i ), полученную при совместном измерении двух признаков Х и Y . Коэффициент корреляции, определяемый по выборочным данным, называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции ). Его принято обозначать символом r .
Коэффициенты корреляции - удобный показатель связи, получивший широкое применение в практике. К их основным свойствам необходимо отнести следующие: 1. Коэффициенты корреляции способны характеризовать только линейные связи, т.е. такие, которые выражаются уравнением линейной функции. При наличии нелинейной зависимости между варьирующими признаками следует использовать другие показатели связи. 2. Значения коэффициентов корреляции – это отвлеченные числа, лежащее в пределах от -1 до +1, т.е. -1 < r < 1 . 3. При независимом варьировании признаков, когда связь между ними отсутствует, г = 0 . 4. При положительной, или прямой, связи, когда с увеличением значений одного признака возрастают значения другого, коэффициент корреляции приобретает положительный (+) знак и находится в пределах от 0 до +1, т.е. 0 < r 1 . 5. При отрицательной, или обратной, связи, когда с увеличением значений одного признака соответственно уменьшаются значения другого, коэффициент корреляции сопровождается отрицательным (–) знаком и находится в пределах от 0 до –1, т.е. -1 < r <0 . 6. Чем сильнее связь между признаками, тем ближе величина коэффициента корреляции к ô1ô. Если r =

, то корреляционная связь переходит в функциональную, т.е. каждому значению признака Х будет соответствовать одно или несколько строго определенных значений признака Y . 7. Только по величине коэффициентов корреляции нельзя судить о достоверности корреляционной связи между признаками. Этот параметр зависит от числа степеней свободы k = n –2 , где: n – число коррелируемых пар показателей Х и Y . Чем больше n , тем выше достоверность связи при одном и том же значении коэффициента корреляции. В практической деятельности, когда число коррелируемых пар признаков Х и Y не велико (), то при оценке зависимости между показателями используется следующую градацию:
1) высокая степень взаимосвязи – значения коэффициента корреляции находится в пределах от 0,7 до 0,99;
2) средняя степень взаимосвязи – значения коэффициента корреляции находится в пределах от 0,5 до 0,69;
3) слабая степень взаимосвязи – значения коэффициента корреляции находится от 0,2 до 0,49.

1.4. Нормированный коэффициент корреляции Браве-Пирсона
В качестве оценки генерального коэффициента корреляции р используется коэффициент корреляции r Браве–Пирсона. Для его определения принимается предположение о двумерном нормальном распределении генеральной совокупности, из которой получены экспериментальные данные. Это предположение может быть проверено с помощью соответствующих критериев значимости. Следует отметить, что если по отдельности одномерные эмпирические распределения значений x i и y i согласуются с нормальным распределением, то из этого еще не следует, что двумерное распределение будет нормальным. Для такого заключения необходимо еще проверить предположение о линейности связи между случайными величинами Х и Y . Строго говоря, для вычисления коэффициента корреляции достаточно только принять предположение о линейности связи между случайными величинами, и вычисленный коэффициент корреляции будет мерой этой линейной связи.
Коэффициент корреляции Браве–Пирсона (