3.2.5. Ранговый коэффициент корреляции
Пусть имеются два вариационных ряда: х19 х2, . . . ., хп, у1У . . Уи . . м Уп- Для простоты будем предполагать, что все числа xt различны и все числа yt различны. (Случай совпадающих рангов немного сложнее технически, а его рассмотрение ничего не добавляет в содержательном плане к результатам анализа теоретико- вероятностной модели.)
Введем переменную ut следующим образом. Упорядочим элементы ряда в порядке возрастания, тогда
Ui = /, если хх занимает /-е место в этом ряду;
7 = 1 ~ п.
Аналогичным образом введем переменную ut: vt = 7, если уі занимает 7-е место по величине среди всех yt.
Теперь подставим в (3.69) вместо xt и yt их ранги ut
И V(.
Нетрудно видеть, что U = v= 1/2 {п + 1). Вычисляя ?uu, Svv и Suv, получаем
п
Suu = svv = 2 К — (п2 — 1),
г=1
п
Suv = 2 (и* — — = И (ГС2 — 1) — i=l
п
-У 2 (ИІ"—
г=1
Таким образом, коэффициент корреляции для рангов можно записать в виде
r=l--±i——. (3.71)
п (д — 1;
Рассмотрим теперь, каким образом ранговый коэффициент корреляции (3.71) можно использовать для проверки вероятностной независимости рядов чисел {Xi} И {у і}.
Интерес представляют два случая.Случай 1. {хі} и {уі) — случайные величины. Если они независимы, то
Prob{ui = 7, vt = к} = Prob{ut = /}Х
XProb{vi = к}, (3.72)
причем все значения ^^ и vt равновозможные, т. е.
РгоЬ{и, = у} = Prob{vj = к) = 1/л. (3.73)
Вычислим М(г^), М(иг-)2, и такие же характе
ристики для г;г-.
Учитывая (3.73), имеем
JL V = (га + 1) (2л + 1) ^ (ЗЛ5)
п ;=1
Учитывая (3.73) и (3.72), имеем
п п
м <»«• и'> - Й^гї]- 2 211=і? (п+*) (Зп+2)- (3-76)
Найдем, учитывая сделанные предположения, Mr. Для этого сначала вычислим математическое ожидание квадрата разности рангов. Получаем
М(щ - vtf - M{utf + M{vtf - 2M(utVi).
Подставляя в последнее равенство выражения (3.75) и (3.76), получаем
Теперь находим Mr:
6 ^M(u.-v.f Mr = 1 2 =0.
n \n* — 1;
Можно показать, что Dr = 11(n — 1). Более подробные сведения о распределении г при условии, что ряды {хі) и {уі) независимы, приводятся в литературе по статистике (см., например, [8], [154], [251], [295] и др.). Теоретико-вероятностная модель, лежащая в основе случая 1, по сути дела ничем не отличается от обычных теоретико-вероятностных предпосылок корреляционного анализа.
Случай 2. Пусть {хь} случайны, a {yt} — ряд неслучайных значений величины у. Для определенности положим ух = г, следовательно, vt = і. Вычислим формально ранговый коэффициент корреляции (3.71). Получим
6 SO-"і)2
r-1- • (3.77)
п (п — 1)
Если изменение у не влияет на случайную величину х, то все ряды {их, и2, ...} равновероятны и
РгоЪ {и і = j\y = 1} = РгоЪ{щ = у |г/ = к) =
= = ;} = 1/д. (3.78)
Вычислим M(t — i/j)2. Имеем
j|f(i - utf = і2 - 2іЛф,) +
В силу (3.78) можем воспользоваться результатами вычисления
M(ut) и М(щ)2 (3.74) и (3.75). Получаем М(і-щ)* = і*-(п + i)i + (n + i)fn + i). Теперь находим Mr в (3.77):
Дисперсия Dr так же, как и в случае 1, равна 1 /(п — 1). Таким образом, для рангового коэффициента корреляции случаи 1 (обе переменные случайны) и 2 (только одна переменная случайна) совпадают и проблемы ложной корреляции, с точки зрения позиции К.
Пирсона, здесь не возникает. Причиной этого является то, что теоретико-вероятностная модель случая 2 не содержит никаких предположений ни о совместном распределении у і), ни о распределении величины х.Отметим еще одно важное свойство рангового коэффициента корреляции: переменные х и у могут быть измерены в порядковой шкале, точнее, с точностью до произвольного монотонного преобразования.
В силу указанных свойств (независимость от конкретного вида функции распределения, допустимость ситуа-. ции, когда одна из переменных неслучайна, возможность измерения переменных в порядковой шкале и т. д.) ранговый коэффициент корреляции часто используется в экономических исследованиях. Приведем пример. В табл. 3.3 приведены технико-экономические показатели лесопильного производства в одном из регионов. Задача заключалась в том, чтобы на основе этих данных построить производственную функцию с постоянной эластичностью замены
где q — объем выпуска; К — объем основных производственных фондов; L — численность, t — время, ехр — кинетическая компонента, отражающая автономный на-
Таблица 3.3. Показатели лесойильйого производства Валовая продукция, млн руб.
Среднегодовая стоимость ОПФ, млн. руб.
Численность ППП, тыс. руб. 6.27 6,264 6,26 6,38 6,463 6,5 6,805 6,74 6,231 3,981 3,916 3,855 4,037 3.28
3,209
36,39
41,43
46,47
49,58
52,83
45,58
49,1
48,5
47,886
48,502
35,083
33,42
36,75
31,38
30,46
15,4 16,86 15,65 16,7 17,56 17,58 17,6 17,62 17,75 18,88 17,48 18,91 20,82 18,88 19,69
учно-технический прогресс, а, |3, 7, б, X — параметры, причем 1/(1 + Р) — эластичность замены.
Можно показать [345], что для однородной производственной функции (в том числе и для (3.79)) выполняются неравенства
TQ -yTL-X >0, Tq - уТк - Я <0 при Тк > Ть
(3.80)
Tq - yTL - % <0, Tq - уТк - X >0 при Тк < TL,
где Тх — темп роста х:
гр dx_
х~~ х df
Отрезки времени, на которых (3.80) выполняются при некоторых фиксированных Я и у, являются технологически однородными периодами ([57,] [345], [363]). При оценивании предварительно выделялись технологически однородные периоды для моделей
qt = F(Kt, Lt) (3.81)
и
qt = F{Kt_^ Ьг_г). (3.82)
Ограничения (3.80) в рассматриваемые пятнадцать лет не удовлетворяются ни для модели (3.81), ни для модели (3.82).
Ни для одной из этих моделей не удалось выделить технологически однородный период продолжительностью более 5 лет.
Неоднородность временных рядов объясняется несколькими причинами. Во-первых, это — недостаточно четко оговоренные изменения методики учета технико-экономических показателей лесопильного производства в области, которое распределено между многими ведомствами. Второй причиной является большая сто- хастичность этой производственно-экономической системы, что свидетельствует не только о сильных колебаниях природных условий, но и о низкой эффективности руководства, не обеспечивающего относительного постоянства уровня организационно-технических условий производства.Для выяснения возможности построения производственной функции лесопильного производства области были подсчитаны ранговые коэффициенты корреляции для пар чисел (qt, Kt) и (іqt, Lt) отдельно для каждого из периодов: первый — девятый годы и десятый — пятнадцатый годы. Ранговый коэффициент корреляции использован в качестве статистики, характеризующей тесноту связи между переменными, вследствие того что распределения исследуемых случайных величин неизвестны и нет никаких оснований полагать, что они нормальны. Результаты расчетов и критические значения рангового коэффициента корреляции на 5-процентном уровне значимости для 9 и 6 наблюдений приведены в табл. 3.4.
Таблица 3.4. Ранговый коэффициент корреляции Период, годы переменные Ранговый коэффициент корреляции Критические значения Первый - — девятый q, К 0,350 0,683 Десятый — пятнадцатый к —0,020 —0,886 Первый - - девятый 9. L 0,400 0,683 Десятый — пятнадцатый <7, L 0,943 0,886 Ранговый коэффициент корреляции значимо отличен от нуля только для пары переменных (g, L) в десятый — пятнадцатый годы. На основе результатов корреляционного анализа можно сделать вывод, что объем выпуска не зависит от объема основных фондов. Объем фондов в период десятый — пятнадцатый годы случайным образом колеблется около некоторой постоянной величины. Для проверки этой гипотезы на основе ряда отклонений наблюдаемого объема основных производственных фондов (ОПФ) от медианы временного ряда, равной 18,89 млн. руб. (18,91+18,88) : 2 = 18,89), вычислена статистика Рамачандрана — Ранганатана (РР) [459, с. 166, 945]. Ее значение равно 10. Критическое значение этой статистики на уровне значимости 0,05 для 6 наблюдений равно 18, т. е. гипотеза об отсутствии тренда объема ОПФ в указанные годы не отклоняется.
Отсутствие корреляции между объемом выпуска и объемом ОПФ может быть объяснено как тем, что объем ОПФ фиксирован, так и тем, что производственно-экономическая система перенасыщена ОПФ. Отдать предпочтение одной из этих гипотез можно, оценив параметры ПФПЭЗ; однако временные ряды периода десятый — пятнадцатый годы слишком коротки для того, чтобы получить статистически надежные оценки этих параметров.
Корреляционный анализ, результаты которого приведены в табл. 3.4, показывает, что между объемом выпуска и численностью в десятый — пятнадцатый годы существует тесная связь. Для получения количественной зависимости между этими переменными были оценены параметры модели
In qt = а + 7 Jn Lt.
В результате оценивания получено регрессионное уравнение
In qt = -0,229 + 1,125 In Lt. (3.83)
Коэффициент детерминации равен 0,993. Критическое значение коэффициента детерминации на уровне значимости 0,05 для 2 параметров и 6 наблюдений равно 0,658. Следовательно, коэффициент детерминации значимо отличается от нуля. Статистика РР для остатков равна 14 при критическом значении этой статистики на уровне значимости 0,05 для 6 наблюдений равным 18. Следовательно, гипотеза об автокорреляции остатков отклоняется. Таким образом модель (3.83) объясняет 99,3% рассеяния зависимой переменной.
Предельная производительность труда в лесопильном производстве региона определяется в соответствии с (3.83) равенством
б q/8L = e~°*229/-l,l28L0*128 = 1,128q/L.
Данные, приведенные в табл. 3.3, показывают, что фондовооруженность труда в лесопильном производстве в десятый — пятнадцатый годы росла, хотя и незначительно. Такой рост фондовооруженности приводит к росту производительности труда в том случае, когда эластичность замены высока. Поскольку рост производительности труда в анализируемом периоде не наблюдается, можно предположить, что эластичность замены мала и производственно-экономическая система перенасыщена морально устаревшей техникой. Действительно, производственную функцию лесопильного производства с учетом (3.83) можно записать в следующем виде:
q = e-°'229/L^128[aS-^ + (1 - а)]"1.128/*, где S — фондовооруженность труда: KIL.
Так как (3.83) объясняет 99,3% рассеяния зависимой переменной, компонента, содержащая S и (5, примерно равна 1:
[aS-P + (1 — a)] « 1.
Это возможно, если а ^ 0 и/или 0. Значение коэффициента распределения зависит от выбора базового периода и в этом смысле произвольно. Следовательно,
0, т. е. эластичность замены близка к нулю.