3.2.3. Коэффициент корреляции и линейная функциональная зависимость

Формальное определение независимости — одно из основных в теории вероятности. События А и В независимы, если

Prob{AB} = Prob {А } • РгоЪ {В}. (3.59)

Отсюда следует, что случайные величины є и г] независимы, если

РгоЪ{г < х, г) < у} = РгоЬ{г < х}-РгоЪ{\\ < у)

или

Ptn(x, у) = FR(x)-FA(y)r (3.60)

где F(>) — функция распределения соответствующей случайной величины.

Этот формализм позволяет охватить широкий круг явлений, включает даже вопросы чистой математики (см., например, развитие И.

П. Кубилюсом теоретико-вероятностных методов в теории чисел [228]). Определения (3.59), (3.60) не накладывают никаких ограничений на шкалу, в которой измерены переменные є и г]; (3.59) вообще не требует числового представления переменных. Но количественные переменные есть в этих определениях: вероятности событий А, В или {є < х}, {г] < у). Поэтому, строго говоря, все задачи исследования связи между неколичественными переменными решаются количественными методами. В число задач входят задачи оценивания силы связи между переменными (признаками и т. п.), которым посвящена общирная статистическая литература (см., например, [8], [81], [83], [92], [154], [190], [251]) и которые мы здесь по этой причине не будем рассматривать, ограничившись только несколькими замечаниями о коэффициенте корреляции.

Этот коэффициент часто встречается в экономико-мате- матической литературе. Это неудивительно, так как коэффициент корреляции естественным образом появляется в связи с понятием независимости случайных величин; высказывания о нем адекватны, если переменные измерены в абсолютной, количественной шкалах и даже в шкале интервалов, и во многих случаях его оценивание оказывается полезным. В то же время сейчас практически любая серьезная работа по теории вероятностей или математической статистике содержит призывы к осторожности при использовании коэффициента корреляции (см., например, [167], [236], [277], [430])16.

Более того, в последнее время появились работы, в которых отрицается какая-либо польза от использования коэффициента корреляции (см. например, [12], [380]).

Рассмотрим дисперсию суммы случайных величин в + Л- Введем обозначения:

D(-) — дисперсия случайной величины;

М(-) — математическое ожидание случайной величины. Имеем.

D (в + ц) = М(г + г] - М(г + г)))2 = М{г - Me)2 + + М{г] - Mr])2 + 2М({г - М&)(г] - Мц)). Введя обозначение для

сои(г,г\) = М{(г — Мг)(х\ — Му\)), получаем

Ще + г]) = De + Dr\ + 2соф, г]). (3.61)

Если в и г] независимые случайные величины, то и величины (є — Ms) и (г] — Mr]) будут независимы; для независимых случайных величин математическое ожидание их произведения равно произведению их математических ожиданий 17. Следовательно, если в и г] — независимые случайные величины, их ковариация равна нулю:

сои(г, г]) = 0.

Коэффициент корреляции определяется в результате нормирования коэффициента ковариации (с тем чтобы получить безразмерную характеристику) COv(8, Г])

уDz-Dx\'

(3.62)

р = cor (є, rj) Таким образом, ковариация и корреляция не какие-то «придуманные» понятия, они вполне естественно появляются при определении дисперсии суммы случайных величин. Независимо от того, какие выводы делаются на основе вычисления коэффициента корреляции, он не может Рис. 3.14. Равномерно распределенные в круге с случайные величины (Є, Т|) быть упразднен. Но возможности делать правильные выводы о зависимости между величинами, о «силе связи», о «тесноте линейной зависимости» и т. п. на основе корреляционного анализа весьма ограниченны.

Прежде всего понятия «некорреляционность» и «независимость» неэквивалентны18. Для доказательства воспользуемся простым примером, приведенным Е. С. Вент- цель [81, с. 178—179]. Пусть система случайных величин (в, т]) равномерно распределена внутри круга с радиуса г (см. рис. 3.14): /(*» У) =

—2 при г19 + у2<г2 яг

О при х* + у*>г\ где f(x, у) — совместная функция плотности системы случайных величин (є, Г]).

Ясно, что эти случайные величины зависимы.

Например:

РгоЪ {г] 01 в = г} = О

1 при у>г РгоЪ{у\Су |е = 0} =

Л-у + ±. при — г<*/<г О при у << — г и т. д.

Вычислим ковариацию между є и т|. Имеем

cov (єл у) = j j xyf (х, у) dxdy = -Ц J J xydxdy = (с) яг (с)

Яг2

J ^xydxdy + J J xydxdy + J ^xydxdy + J J.rz/drcfo/l.

Jci) (c2) (сз) (C4) J

(Разбиение области интегрирования с на сегменты сг, с2, с3, с4 показано на рис. 3.14). Далее:

ху > 0 в секторах и с3;

<С 0 в секторах с2 и с4,

по абсолютной величине интегралы по этим областям одинаковы, следовательно:

j [ xydxdy + J J xydxdy = 0, (ci) (сз)

J J xydxdy + J J xydxdy = 0.

(C2) (°4)

и cov{8, T|) = 0.

Это значит, что вывод о независимости случайных величин на основе их некоррелированности в общем случае неверен. Некоррелированность и независимость эквивалентны, если случайные величины имеют совместное нормальное распределение. Так, в случае двумерного нормального распределения:

ч 1 [ 1

/(*.»>-: ехр | - ^^

2novo„ /і - г2 1 2/l П

2г(х-тх) (у - ту) [ (у -

а;

где г — коэффициент корреляции, rriy — Me И Mr] соответственно; О*, OY — De И DR\ соответственно,

при г — 0 (отсутствие корреляции) получаем непосредственно

где Я Of.

U(X) =

. ехр

Мх) =

ехр

(У-ту)2 От корреляции (а в случае совместного нормального распределения и от зависимости) можно избавиться заменой переменных. Введем переменную 5:

COV (8, Г])

6 = 8

ц.

Dr\

(3.63)

Найдем ковариацию между т] и 6. Имеем МЬ^Ме-'-^^МЦ б - Мб = (є — Me) - cov\^ Y)) (Т| - Mr]).

Учитывая последнее равенство, получаем

сог; (г], б) = М ((г] — Мг\) (б — Мб)) = cov (в, Г]) DR\ = 0.

COV (8, Г])

щ Используя (3.63), получаем

(3.64)

СОУ (8, Г])

Dr\

Л + в, причем т) и б некоррелированны, а в случае нормального распределения независимы.

Используя определение коэффициента корреляции, (3.64) можно записать в виде Рг Drі

(3.65)

Л + s®

-rV- или

є = Me + г Y^ (Г] - Mr)) + е, (3.66)

где 0 = 5 — М8.

Нетрудно видеть, что

cov(Q, г]) = сои(5, т)) = 0.

Найдем дисперсию случайной величины 0, пользуясь равенством (3.66).

Имеем

De = гЮг + DQ + cov(x\, 0) - г2Пг + DQ, откуда

DQ = (1 - г2)?е. (3.67)

Отметим теперь некоторые важные обстоятельства, которые почему-то обычно упускаются из виду при изложении теории корреляции и линейной зависимости между случайными переменными. 1.

Уравнения (3.64), (3.65), (3.66) устанавливают линейную зависимость между любыми двумя случайными величинами є и т). 2.

Эта линейная зависимость получена в разультате введения некоррелированной с г] случайной величины 6, которая независима от т) в случае нормального распределения. 3.

Никаких предположений о виде зависимости г и т), о существовании такой зависимости при построении линейного уравнения связи не делалось. Предполагалось только существование совместного распределения (любого), математических ожиданий, дисперсий и отличие от нуля Dt|. Последнее предположение означает, что г) — существенно случайная величина, т. е. ее функция распределения не имеет вид

І 1 при X ^ ХП = Мц 1V ' (0 при х<х0 = Мт).

145

p. JI. Раяцкас, М. К, Плакунов 4.

" Зависимости (3.64) —(3.66) линейны при любом значении коэффициента корреляции г (за исключением случая г = 0); зависимость остается линейной при любом сколь угодно малом значении коэффициента корреляции. Следовательно, коэффициент корреляции ни в коей степени не характеризует близость к линейной зависимости.

5. Коэффициент корреляции характеризует рассеяние значений зависимой переменной вокруг линии линейной регрессии. Действительно, при фиксированном значении т] = х можно вычислить математическое ожидание величины є:

М (81 г] = х) = Мг + г У {х - Mr)), (3.68)

так как Мб = 0.

Варьируя х, получаем, что

М(г |г) = х) = А + Вх,

где

т. е. линию линейной регрессии. (Еще раз отметим, что линейная регрессия (3.68) — это результат преобразования координат, а не свойство описываемых явлений; (3.68) верно для любой пары случайных величин, удовлетворяющих условию пункта 3.)

Фактическое значение величины є при условии т) = х будет отличаться от (3.68) на случайную величину 0:

є — М(г |т] = х) = 0,

причем D0 определяется (3.67). Если г = 1, то DQ = 0 и все значения є лежат на линии регрессии (3.68), если г близко к нулю, значения є рассеяны вокруг линии регрессии и

|є — МгI « |е — М(г|т) = х)\,

т. е. информация о значении г) ничего не дает для прогноза величины е. Линия регрессии при этом параллельна оси х:

М (е|т) = х) = Мг = const.

Отметим, что эти результаты не зависят от выполнения предположения о нормальности совместного распределения величин 8 И Т).

3.2.4. Ложная корреляция

На практике коэффициент корреляции определяется по выборочным данным

= /~ -чТ =Т' (3.69)

І І

где х, у — средние арифметические вариационных рядов хи Уі соответственно, т. е. оценки математических ожиданий случайных величин є и г).

Если ввести обозначения:

і і то (3.69) можно записать в виде

V хх уу

Поскольку xt и у і — случайные величины, *гхУ тоже случайная величина, распределение которой зависит от совместного распределения случайных величин ей г). Это распределение можно получить исходя из гипотезы о совместном распределении величин ей rj; в литературе по математической статистике обычно приводятся таблицы распределения гхУ, полученные в предположении, что є и г] имеют совместное нормальное распределение (см., например, [8], [81], [365], [429] и др.), хотя, конечно, распределение гхУ можно получить и для других распределений величин 8 И Г).

Наряду со случайной ошибкой, значимость которой может быть оценена стандартными статистическими методами, возможно наличие систематической ошибки. Последняя появляется в результате нарушения условий применимости корреляционного анализа. Частным случаем систематической ошибки является так называемая ложная корреляция — ситуация, при которой гхУ существенно отклоняется от нуля, хотя величины 8 и г] некоррелированны.

Проблема ложной корреляции была поставлена К. Пирсоном [203], [510]. В частности, он заметил, что из трех некоррелированных вариационных рядов можно в общем случае получить коррелированные ряды. Такая ситуация возникает, когда вычисляется коэффициент корреляции между индексами, построенными на основе переменных х, у, z: xlz и ylz. Даже если попарная корреляция между переменными х, г/, z отсутствует, коэффициент корреляции между переменными xlz и ylz отличен от нуля (если, конечно, z Ф const). Возражения против концепции ложной корреляции К. Пирсона были выдвинуты Э. Юлом, В. С. Ястремским и некоторыми другими статистиками [203], [470], [495].

Критики К. Пирсона указывали, что если задача заключается в определении связи между переменными х и у, а вместо этого вычислен коэффициент корреляции между xlz и ylz, то этот коэффициент ложный в том смысле, что не имеет отношения к исходной задаче.

Б. С. Ястремский связывал проблему ложной корреляции с информированностью исследователя о предмете исследования: «Пока его знания неполны, он имеет все основания полагать, что вычисленная корреляция неложна, т. е. истинна. Но вот открывается некоторый новый факт, углубляющий его знакомство с причинами возникновения корреляционной связи. И этот новый факт обращает ,,истинную'4 корреляцию в ,,ложную'4... Очевидно, что-то неладно в пирсоновском понятии ложной корреляции» [495, с. 264]. Решение проблемы ложной корреляции, как считал Б. С. Ястремский, дает опыт А. Д. Дербишира [156] и его теоретический анализ, проведенный Е. Е. Слуцким [397].

По мнению Б. С. Ястремского, «в основе дербиширско- го опыта лежит следующая организующая идея. Каждое из двух коррелятивно связанных явлений состоит из двоякого рода элементов. Одни элементы входят в состав только одного явления, другие же элементы входят в состав того и другого явления, общи тому и другому явлению. То или другое соотношение между общими и необщими элементами и порождает связь различной тесноты. Связь будет сильной, если доля общих элементов велика и, наоборот, будет слабой, если доля общих элементов мала... не существует никакой логической разницы между ,,ложной44 и ,,истинной44 корреляцией» [495, с. 266— 267].

Проблеме ложной корреляции посвящена довольно обширная литература (см., например, [156], [167], [470], [495]), причем многие специалисты занимают промежу- точную между двумя крайними точками зрения позицию. Так, И.) С. Четвериков [470] признавал появление ложной корреляции в следующих случаях: произвольное (неслучайное) установление значений одной из переменных, наличие трендов, неоднородность выборки, ошибки наблюдений; в случае определения корреляции между относительными величинами, индексами (т. е. в случае как раз той ситуации, которая побудила К. Пирсона развить свою концепцию ложной корреляции) ложная корреляция, по Н. С. Четверикову, может как появляться, так и не появляться.

Практически в экономических исследованиях коэффициенты корреляции вычисляют довольно часто. Можно назвать ряд работ, где вычисляется корреляция между переменными «время» и «цена» (например, [31], [352]), и «балансовая стоимость основных производственных фондов» и «восстановительная стоимость основных производственных фондов», которые, конечно, имеют тенденцию (например, [456]), особенно часто этот коэффициент подсчитывают в множественном регрессионном анализе (см., например, [31] — связь рентабельности с другими технико-экономическими показателями, а также: [10], [122] и др.)- Проблема запутывается еще и тем, что в дискуссии о ложной корреляции иногда противопоставляются «причинная зависимость» и «корреляционная зависимость», делаются ссылки на какую-то «вероятностную причинность», утверждается, что «противоречие между ,,истинной4 4 и ,,ложной44 корреляцией не может быть разрешено средствами одного математического анализа» [495, с. 268].

Между тем, если рассматривать ложную корреляцию как частный случай систематической ошибки оценивания коэффициента корреляции по наличному эмпирическому материалу, эта проблема может быть разрешена посредством привлечения теоретико-вероятностного определения ковариации и корреляции.

Рассмотрим, следуя аддитивной схеме Е. Е. Слуцкого [397], два случая.

Случай 1. Пусть х — неслучайная величина, а е — случайная величина с конечной дисперсией и Мв = 0. Справедливо тождество

х = х.

Это тождество — псевдоуравнение, по принятой нами ранее терминологии: оно не несет никакой информации о переменной х. Рассмотрим теперь корреляцию между пере- менньтми X ы и = х г. В обе эти переменные входит общий элемент х, что, по Б. С. Ястремскому, вызывает связь между ними и эта связь тем теснее, чем меньше De. ПО К. Пирсону,— это ложная корреляция.

Вычислим ковариацию между х и и. Имеем

cov(x, и) = М{{х — Мх)(г — Мг)), так как Мх = х.

Следовательно, корреляция между случайной (х + є) и неслучайной (х) переменными отсутствует.

Но пусть мы имеем несколько различных значений переменных х и и: хгх2, . . ., хь. . ., иг, и2, . . ., ut, . . . Поставим их в формулу выборочного коэффициента корреляции (3.70). Так как xt 4= const,

Sxx Ф 0, Sxu = 2 (ХІ - х)\+ 2 (х, - х) (Єі -1) ф 0.

і і

Причем

MSXU = 2 — =И= (я, и) = 0, і

т. е. Sxu — смещенная оценка коэффициента ковариации между х и и. Следовательно, и выборочный коэффициент корреляции гхи будет смещенной оценкой коэффициента корреляции гхи = 0. Это смещение и есть ложная корреляция. Каким образом в этой ситуации выборочный коэффициент корреляции можно сделать сколь угодно близким к единице, показано, например, в курсе теории вероятностей В. Н. Тутубалина [429, с. 220—221]. Заметим, что ковариация между х и и равна нулю при любой дисперсии случайной величины є, в том числе и при/)е = = 0. В общем-то это очевидно, так как в последнем случае ковариация между х и и равна дисперсии неслучайной величины х:

cov{x, х) = Вх = 0.

Ничего к сделанным выводам не добавляет анализ корреляции между х + є и х + т], где х — неслучайная величина, а є и г] случайны, и тому подобные обобщения.

Случай 2. Пусть теперь х — случайная величина. В этом случае

Dx Ф 0 и cor (,х, х) = 1.

Рассмотрим корреляцию между х и и = Х + 8, где 8 — случайная величина с Мг = 0 иДе < оо. По К. Пирсону, здесь должна быть ложная корреляция, а, по В. С. Яст- ремскому, отличие коэффициента корреляции от нуля свидетельствует о связи между переменными. Иначе говоря, ни сторонники, ни противники концепции ложной корреляции не делают различия между двумя указанными случаями. Но различие есть, и очень существенное: в первом случае cov(x, х) = 0,, а во втором случае сои(х,х) = =Dx ф 0.

Нетрудно видеть, что теперь

сои (х, и) = Dx,

г = cor (х, и) = , Dx % или

Г = —р==.

Чем больше Z>8, т. е. чем больше «мощность помехи», тем меньше корреляция между х и х + є. Выборочный коэффициент корреляции будет отличаться от единицы, а выборочная ковариация Sxu — от сои(х, и). Но это отличие случайно, результат ошибки выборки; причем

M(Sxu/n — 2) = Dx; (п — число наблюдений).

Следовательно, систематической ошибки нет и корреляция не является ложной.

Случай 3. Пусть х — неслучайная величина, а е — случайная величина. Рассмотрим корреляцию между г и V = 8 + Имеем

сои(г, & + х) = М({г — Ме)(е + х — Ms — х)) = Z)e.

Следовательно t

^ = 1.

Однако выборочный коэффициент корреляции г80 будет смещен, если xt Ф const:

rev <1» так как

Sev - 2 (Єі - Г)2 + 2 (в! -8) - 5)

і і

МЗ^^^МІЕі^г^фсоиіг, и).

Таким образом, в этом случае имеется ложная некоррелированность (если rev ж 0), а точнее, смещенная оценка гги. По К. Пирсону же, здесь ложная корреляция, а по Б. С. Ястремскому, проблемы по-прежнему нет.

Приведенные три случая практически исчерпывают все ситуации, в которых возникает ложная корреляция. Так, случайную величину є можно рассматривать как ошибку наблюдения, неоднородность рассмотреть, вычислив для случая 1 и случая 2

cov(pcr цх + (1 — т])г/),

где г) — случайная величина, принимающая значения 0 и 1, и т. д.

<< | >>

↑

Источник: Р.Л. Раяцкас, М.К. Плакунов. Количественный АНАЛИЗ В ЭКОНОМИКЕ. 1987

Еще по теме 3.2.3. Коэффициент корреляции и линейная функциональная зависимость:

- Информатика для экономистов - Антимонопольное право - Бухгалтерский учет и контроль - Бюджетна система України - Бюджетная система России - ВЭД РФ - Господарче право України - Государственное регулирование экономики в России - Державне регулювання економіки в Україні - ЗЕД України - Инновации - Институциональная экономика - История экономических учений - Коммерческая деятельность предприятия - Контроль и ревизия в России - Контроль і ревізія в Україні - Кризисная экономика - Лизинг - Логистика - Математические методы в экономике - Международные экономические отношения - Микроэкономика - Мировая экономика - Муніципальне та державне управління в Україні - Налоговое право - Организация производства - Основы экономики - Политическая экономия - Размещение производительных сил (РПС) - Региональная и национальная экономика - Страховое дело - Теория управления экономическими системами - Управление инновациями - Философия экономики - Ценообразование - Экономика зарубежных государств - Экономика и управление народным хозяйством - Экономика отрасли - Экономика предприятия - Экономика природопользования - Экономика труда - Экономическая безопасность - Экономическая география - Экономическая демография - Экономическая статистика - Экономическая теория и история - Экономический анализ -

- Аудит - Банки - Бизнес - Бухгалтерский учет - Макро и Микроэкономика - Маркетинг - Менеджмент - Философия - Финансы - Экономика -