3.2.3. Коэффициент корреляции и линейная функциональная зависимость
Prob{AB} = Prob {А } • РгоЪ {В}. (3.59)
Отсюда следует, что случайные величины є и г] независимы, если
РгоЪ{г < х, г) < у} = РгоЬ{г < х}-РгоЪ{\\ < у)
или
Ptn(x, у) = FR(x)-FA(y)r (3.60)
где F(>) — функция распределения соответствующей случайной величины.
Этот формализм позволяет охватить широкий круг явлений, включает даже вопросы чистой математики (см., например, развитие И.
П. Кубилюсом теоретико-вероятностных методов в теории чисел [228]). Определения (3.59), (3.60) не накладывают никаких ограничений на шкалу, в которой измерены переменные є и г]; (3.59) вообще не требует числового представления переменных. Но количественные переменные есть в этих определениях: вероятности событий А, В или {є < х}, {г] < у). Поэтому, строго говоря, все задачи исследования связи между неколичественными переменными решаются количественными методами. В число задач входят задачи оценивания силы связи между переменными (признаками и т. п.), которым посвящена общирная статистическая литература (см., например, [8], [81], [83], [92], [154], [190], [251]) и которые мы здесь по этой причине не будем рассматривать, ограничившись только несколькими замечаниями о коэффициенте корреляции.Этот коэффициент часто встречается в экономико-мате- матической литературе. Это неудивительно, так как коэффициент корреляции естественным образом появляется в связи с понятием независимости случайных величин; высказывания о нем адекватны, если переменные измерены в абсолютной, количественной шкалах и даже в шкале интервалов, и во многих случаях его оценивание оказывается полезным. В то же время сейчас практически любая серьезная работа по теории вероятностей или математической статистике содержит призывы к осторожности при использовании коэффициента корреляции (см., например, [167], [236], [277], [430])16.
Более того, в последнее время появились работы, в которых отрицается какая-либо польза от использования коэффициента корреляции (см. например, [12], [380]).Рассмотрим дисперсию суммы случайных величин в + Л- Введем обозначения:
D(-) — дисперсия случайной величины;
М(-) — математическое ожидание случайной величины. Имеем.
D (в + ц) = М(г + г] - М(г + г)))2 = М{г - Me)2 + + М{г] - Mr])2 + 2М({г - М&)(г] - Мц)). Введя обозначение для
сои(г,г\) = М{(г — Мг)(х\ — Му\)), получаем
Ще + г]) = De + Dr\ + 2соф, г]). (3.61)
Если в и г] независимые случайные величины, то и величины (є — Ms) и (г] — Mr]) будут независимы; для независимых случайных величин математическое ожидание их произведения равно произведению их математических ожиданий 17. Следовательно, если в и г] — независимые случайные величины, их ковариация равна нулю:
сои(г, г]) = 0.
Коэффициент корреляции определяется в результате нормирования коэффициента ковариации (с тем чтобы получить безразмерную характеристику) COv(8, Г])
уDz-Dx\'
(3.62)
р = cor (є, rj) Таким образом, ковариация и корреляция не какие-то «придуманные» понятия, они вполне естественно появляются при определении дисперсии суммы случайных величин. Независимо от того, какие выводы делаются на основе вычисления коэффициента корреляции, он не может Рис. 3.14. Равномерно распределенные в круге с случайные величины (Є, Т|) быть упразднен. Но возможности делать правильные выводы о зависимости между величинами, о «силе связи», о «тесноте линейной зависимости» и т. п. на основе корреляционного анализа весьма ограниченны.
Прежде всего понятия «некорреляционность» и «независимость» неэквивалентны18. Для доказательства воспользуемся простым примером, приведенным Е. С. Вент- цель [81, с. 178—179]. Пусть система случайных величин (в, т]) равномерно распределена внутри круга с радиуса г (см. рис. 3.14): /(*» У) =
—2 при г19 + у2<г2 яг
О при х* + у*>г\ где f(x, у) — совместная функция плотности системы случайных величин (є, Г]).
Ясно, что эти случайные величины зависимы.
Например:РгоЪ {г] 01 в = г} = О
1 при у>г РгоЪ{у\Су |е = 0} =
Л-у + ±. при — г<*/<г О при у << — г и т. д.
Вычислим ковариацию между є и т|. Имеем
cov (єл у) = j j xyf (х, у) dxdy = -Ц J J xydxdy = (с) яг (с)
Яг2
J ^xydxdy + J J xydxdy + J ^xydxdy + J J.rz/drcfo/l.
Jci) (c2) (сз) (C4) J
(Разбиение области интегрирования с на сегменты сг, с2, с3, с4 показано на рис. 3.14). Далее:
ху > 0 в секторах и с3;
<С 0 в секторах с2 и с4,
по абсолютной величине интегралы по этим областям одинаковы, следовательно:
j [ xydxdy + J J xydxdy = 0, (ci) (сз)
J J xydxdy + J J xydxdy = 0.
(C2) (°4)
и cov{8, T|) = 0.
Это значит, что вывод о независимости случайных величин на основе их некоррелированности в общем случае неверен. Некоррелированность и независимость эквивалентны, если случайные величины имеют совместное нормальное распределение. Так, в случае двумерного нормального распределения:
ч 1 [ 1
/(*.»>-: ехр | - ^^
2novo„ /і - г2 1 2/l П
2г(х-тх) (у - ту) [ (у -
а;
где г — коэффициент корреляции, rriy — Me И Mr] соответственно; О*, OY — De И DR\ соответственно,
при г — 0 (отсутствие корреляции) получаем непосредственно
где Я Of.
U(X) =
. ехр
VI
2
Мх) =
ехр
VI
(У-ту)2 От корреляции (а в случае совместного нормального распределения и от зависимости) можно избавиться заменой переменных. Введем переменную 5:
COV (8, Г])
6 = 8
ц.
Dr\
(3.63)
Найдем ковариацию между т] и 6. Имеем МЬ^Ме-'-^^МЦ б - Мб = (є — Me) - cov\^ Y)) (Т| - Mr]).
Учитывая последнее равенство, получаем
сог; (г], б) = М ((г] — Мг\) (б — Мб)) = cov (в, Г]) DR\ = 0.
COV (8, Г])
щ Используя (3.63), получаем
(3.64)
СОУ (8, Г])
Dr\
Л + в, причем т) и б некоррелированны, а в случае нормального распределения независимы.
Используя определение коэффициента корреляции, (3.64) можно записать в виде Рг Drі
(3.65)
Л + s®
-rV- или
є = Me + г Y^ (Г] - Mr)) + е, (3.66)
где 0 = 5 — М8.
Нетрудно видеть, что
cov(Q, г]) = сои(5, т)) = 0.
Найдем дисперсию случайной величины 0, пользуясь равенством (3.66).
ИмеемDe = гЮг + DQ + cov(x\, 0) - г2Пг + DQ, откуда
DQ = (1 - г2)?е. (3.67)
Отметим теперь некоторые важные обстоятельства, которые почему-то обычно упускаются из виду при изложении теории корреляции и линейной зависимости между случайными переменными. 1.
Уравнения (3.64), (3.65), (3.66) устанавливают линейную зависимость между любыми двумя случайными величинами є и т). 2.
Эта линейная зависимость получена в разультате введения некоррелированной с г] случайной величины 6, которая независима от т) в случае нормального распределения. 3.
Никаких предположений о виде зависимости г и т), о существовании такой зависимости при построении линейного уравнения связи не делалось. Предполагалось только существование совместного распределения (любого), математических ожиданий, дисперсий и отличие от нуля Dt|. Последнее предположение означает, что г) — существенно случайная величина, т. е. ее функция распределения не имеет вид
І 1 при X ^ ХП = Мц 1V ' (0 при х<х0 = Мт).
145
p. JI. Раяцкас, М. К, Плакунов 4.
" Зависимости (3.64) —(3.66) линейны при любом значении коэффициента корреляции г (за исключением случая г = 0); зависимость остается линейной при любом сколь угодно малом значении коэффициента корреляции. Следовательно, коэффициент корреляции ни в коей степени не характеризует близость к линейной зависимости.
5. Коэффициент корреляции характеризует рассеяние значений зависимой переменной вокруг линии линейной регрессии. Действительно, при фиксированном значении т] = х можно вычислить математическое ожидание величины є:
М (81 г] = х) = Мг + г У {х - Mr)), (3.68)
так как Мб = 0.
Варьируя х, получаем, что
М(г |г) = х) = А + Вх,
где
т. е. линию линейной регрессии. (Еще раз отметим, что линейная регрессия (3.68) — это результат преобразования координат, а не свойство описываемых явлений; (3.68) верно для любой пары случайных величин, удовлетворяющих условию пункта 3.)
Фактическое значение величины є при условии т) = х будет отличаться от (3.68) на случайную величину 0:
є — М(г |т] = х) = 0,
причем D0 определяется (3.67). Если г = 1, то DQ = 0 и все значения є лежат на линии регрессии (3.68), если г близко к нулю, значения є рассеяны вокруг линии регрессии и
|є — МгI « |е — М(г|т) = х)\,
т. е. информация о значении г) ничего не дает для прогноза величины е. Линия регрессии при этом параллельна оси х:
М (е|т) = х) = Мг = const.
Отметим, что эти результаты не зависят от выполнения предположения о нормальности совместного распределения величин 8 И Т).
3.2.4. Ложная корреляция
На практике коэффициент корреляции определяется по выборочным данным
S
= /~ -чТ =Т' (3.69)
І І
где х, у — средние арифметические вариационных рядов хи Уі соответственно, т. е. оценки математических ожиданий случайных величин є и г).
Если ввести обозначения:
г
і і то (3.69) можно записать в виде
V хх уу
Поскольку xt и у і — случайные величины, *гхУ тоже случайная величина, распределение которой зависит от совместного распределения случайных величин ей г). Это распределение можно получить исходя из гипотезы о совместном распределении величин ей rj; в литературе по математической статистике обычно приводятся таблицы распределения гхУ, полученные в предположении, что є и г] имеют совместное нормальное распределение (см., например, [8], [81], [365], [429] и др.), хотя, конечно, распределение гхУ можно получить и для других распределений величин 8 И Г).
Наряду со случайной ошибкой, значимость которой может быть оценена стандартными статистическими методами, возможно наличие систематической ошибки. Последняя появляется в результате нарушения условий применимости корреляционного анализа. Частным случаем систематической ошибки является так называемая ложная корреляция — ситуация, при которой гхУ существенно отклоняется от нуля, хотя величины 8 и г] некоррелированны.
Проблема ложной корреляции была поставлена К. Пирсоном [203], [510]. В частности, он заметил, что из трех некоррелированных вариационных рядов можно в общем случае получить коррелированные ряды. Такая ситуация возникает, когда вычисляется коэффициент корреляции между индексами, построенными на основе переменных х, у, z: xlz и ylz. Даже если попарная корреляция между переменными х, г/, z отсутствует, коэффициент корреляции между переменными xlz и ylz отличен от нуля (если, конечно, z Ф const). Возражения против концепции ложной корреляции К. Пирсона были выдвинуты Э. Юлом, В. С. Ястремским и некоторыми другими статистиками [203], [470], [495].
Критики К. Пирсона указывали, что если задача заключается в определении связи между переменными х и у, а вместо этого вычислен коэффициент корреляции между xlz и ylz, то этот коэффициент ложный в том смысле, что не имеет отношения к исходной задаче.
Б. С. Ястремский связывал проблему ложной корреляции с информированностью исследователя о предмете исследования: «Пока его знания неполны, он имеет все основания полагать, что вычисленная корреляция неложна, т. е. истинна. Но вот открывается некоторый новый факт, углубляющий его знакомство с причинами возникновения корреляционной связи. И этот новый факт обращает ,,истинную'4 корреляцию в ,,ложную'4... Очевидно, что-то неладно в пирсоновском понятии ложной корреляции» [495, с. 264]. Решение проблемы ложной корреляции, как считал Б. С. Ястремский, дает опыт А. Д. Дербишира [156] и его теоретический анализ, проведенный Е. Е. Слуцким [397].
По мнению Б. С. Ястремского, «в основе дербиширско- го опыта лежит следующая организующая идея. Каждое из двух коррелятивно связанных явлений состоит из двоякого рода элементов. Одни элементы входят в состав только одного явления, другие же элементы входят в состав того и другого явления, общи тому и другому явлению. То или другое соотношение между общими и необщими элементами и порождает связь различной тесноты. Связь будет сильной, если доля общих элементов велика и, наоборот, будет слабой, если доля общих элементов мала... не существует никакой логической разницы между ,,ложной44 и ,,истинной44 корреляцией» [495, с. 266— 267].
Проблеме ложной корреляции посвящена довольно обширная литература (см., например, [156], [167], [470], [495]), причем многие специалисты занимают промежу- точную между двумя крайними точками зрения позицию. Так, И.) С. Четвериков [470] признавал появление ложной корреляции в следующих случаях: произвольное (неслучайное) установление значений одной из переменных, наличие трендов, неоднородность выборки, ошибки наблюдений; в случае определения корреляции между относительными величинами, индексами (т. е. в случае как раз той ситуации, которая побудила К. Пирсона развить свою концепцию ложной корреляции) ложная корреляция, по Н. С. Четверикову, может как появляться, так и не появляться.
Практически в экономических исследованиях коэффициенты корреляции вычисляют довольно часто. Можно назвать ряд работ, где вычисляется корреляция между переменными «время» и «цена» (например, [31], [352]), и «балансовая стоимость основных производственных фондов» и «восстановительная стоимость основных производственных фондов», которые, конечно, имеют тенденцию (например, [456]), особенно часто этот коэффициент подсчитывают в множественном регрессионном анализе (см., например, [31] — связь рентабельности с другими технико-экономическими показателями, а также: [10], [122] и др.)- Проблема запутывается еще и тем, что в дискуссии о ложной корреляции иногда противопоставляются «причинная зависимость» и «корреляционная зависимость», делаются ссылки на какую-то «вероятностную причинность», утверждается, что «противоречие между ,,истинной4 4 и ,,ложной44 корреляцией не может быть разрешено средствами одного математического анализа» [495, с. 268].
Между тем, если рассматривать ложную корреляцию как частный случай систематической ошибки оценивания коэффициента корреляции по наличному эмпирическому материалу, эта проблема может быть разрешена посредством привлечения теоретико-вероятностного определения ковариации и корреляции.
Рассмотрим, следуя аддитивной схеме Е. Е. Слуцкого [397], два случая.
Случай 1. Пусть х — неслучайная величина, а е — случайная величина с конечной дисперсией и Мв = 0. Справедливо тождество
х = х.
Это тождество — псевдоуравнение, по принятой нами ранее терминологии: оно не несет никакой информации о переменной х. Рассмотрим теперь корреляцию между пере- менньтми X ы и = х г. В обе эти переменные входит общий элемент х, что, по Б. С. Ястремскому, вызывает связь между ними и эта связь тем теснее, чем меньше De. ПО К. Пирсону,— это ложная корреляция.
Вычислим ковариацию между х и и. Имеем
cov(x, и) = М{{х — Мх)(г — Мг)), так как Мх = х.
Следовательно, корреляция между случайной (х + є) и неслучайной (х) переменными отсутствует.
Но пусть мы имеем несколько различных значений переменных х и и: хгх2, . . ., хь. . ., иг, и2, . . ., ut, . . . Поставим их в формулу выборочного коэффициента корреляции (3.70). Так как xt 4= const,
Sxx Ф 0, Sxu = 2 (ХІ - х)\+ 2 (х, - х) (Єі -1) ф 0.
і і
Причем
MSXU = 2 — =И= (я, и) = 0, і
т. е. Sxu — смещенная оценка коэффициента ковариации между х и и. Следовательно, и выборочный коэффициент корреляции гхи будет смещенной оценкой коэффициента корреляции гхи = 0. Это смещение и есть ложная корреляция. Каким образом в этой ситуации выборочный коэффициент корреляции можно сделать сколь угодно близким к единице, показано, например, в курсе теории вероятностей В. Н. Тутубалина [429, с. 220—221]. Заметим, что ковариация между х и и равна нулю при любой дисперсии случайной величины є, в том числе и при/)е = = 0. В общем-то это очевидно, так как в последнем случае ковариация между х и и равна дисперсии неслучайной величины х:
cov{x, х) = Вх = 0.
Ничего к сделанным выводам не добавляет анализ корреляции между х + є и х + т], где х — неслучайная величина, а є и г] случайны, и тому подобные обобщения.
Случай 2. Пусть теперь х — случайная величина. В этом случае
Dx Ф 0 и cor (,х, х) = 1.
Рассмотрим корреляцию между х и и = Х + 8, где 8 — случайная величина с Мг = 0 иДе < оо. По К. Пирсону, здесь должна быть ложная корреляция, а, по В. С. Яст- ремскому, отличие коэффициента корреляции от нуля свидетельствует о связи между переменными. Иначе говоря, ни сторонники, ни противники концепции ложной корреляции не делают различия между двумя указанными случаями. Но различие есть, и очень существенное: в первом случае cov(x, х) = 0,, а во втором случае сои(х,х) = =Dx ф 0.
Нетрудно видеть, что теперь
сои (х, и) = Dx,
г = cor (х, и) = , Dx % или
1
Г = —р==.
Чем больше Z>8, т. е. чем больше «мощность помехи», тем меньше корреляция между х и х + є. Выборочный коэффициент корреляции будет отличаться от единицы, а выборочная ковариация Sxu — от сои(х, и). Но это отличие случайно, результат ошибки выборки; причем
M(Sxu/n — 2) = Dx; (п — число наблюдений).
Следовательно, систематической ошибки нет и корреляция не является ложной.
Случай 3. Пусть х — неслучайная величина, а е — случайная величина. Рассмотрим корреляцию между г и V = 8 + Имеем
сои(г, & + х) = М({г — Ме)(е + х — Ms — х)) = Z)e.
Следовательно t
^ = 1.
Однако выборочный коэффициент корреляции г80 будет смещен, если xt Ф const:
rev <1» так как
Sev - 2 (Єі - Г)2 + 2 (в! -8) - 5)
і і
и
МЗ^^^МІЕі^г^фсоиіг, и).
Таким образом, в этом случае имеется ложная некоррелированность (если rev ж 0), а точнее, смещенная оценка гги. По К. Пирсону же, здесь ложная корреляция, а по Б. С. Ястремскому, проблемы по-прежнему нет.
Приведенные три случая практически исчерпывают все ситуации, в которых возникает ложная корреляция. Так, случайную величину є можно рассматривать как ошибку наблюдения, неоднородность рассмотреть, вычислив для случая 1 и случая 2
cov(pcr цх + (1 — т])г/),
где г) — случайная величина, принимающая значения 0 и 1, и т. д.
Еще по теме 3.2.3. Коэффициент корреляции и линейная функциональная зависимость:
- 3.2.2. Корреляция и функциональная зависимость
- 3.2.5. Ранговый коэффициент корреляции
- Линейно-функциональные структуры
- Линейные и функциональные структуры управления
- П16.1.1. Парные коэффициенты корреляции модели влияния социально-экономических факторов на потребление вина во Франции
- П16.2.1. Парные коэффициенты корреляции модели влияния социальноэкономических факторов на потребление вина в . России
- 6.4. Математика геометрия Евклида как первая естественно-научная теория; аксиоматический метод; математические доказательства; линейная алгебра с элементами аналитической геометрии; линейное программирование
- 6.3. Влияние корреляции
- Классификация таможенных пошлин в зависимости от страны происхождения товара и в зависимости от характера действий и целей применения
- Корреляция между индексами
- 9.5. Метод ранговой корреляции
- • Инструмент анализа данных Корреляция
- 7.3. Прогнозирование на основе однофакторных моделей линейной регрессии: последовательность процедур 1.
- Рост цен и корреляция с ростом фондового рынка
- 2.1.2. Линейные графики
- 4. Разработка Л. В. Канторовичем метода линейного программирования.
- Линейные функции транспортных издержек
- 2.2. Формы записи задачи линейного программирования и ее экономическая интерпретация
- 2. Равновесие производителя в случае одного продукта и одного ресурса. Предельный и средний продукт. Закон убывающей предельной производительности. Прибыль производителя. Условие равновесия производителя. Линейная модель производства. Равновесие в линейной модели производства.
- б. Линейное программирование