<<
>>

53.3. Компонентный анализ

Компонентный анализ предназначен для преобразования системы k исходных признаков в систему k новых показателей (главных компонент). Главные компоненты не коррелированы между собой и упорядочены по величине их дисперсий, причем первая главная компонента имеет наибольшую дисперсию, а последняя, k-я — наименьшую.

При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.

Компонентный анализ является одним из основных методов факторного анализа. В задачах снижения размерности и классификации обычно используются т первых компонент (т << k).

При наличии результативного признака у может быть построено уравнение регрессии на главных компонентах.

На основании матрицы исходных данных

размерности п х k, где хij.— значение j-го показателя у i-го наблюдения (i = 1, 2, ..., n; j = 1, 2, .... k), вычисляют средние значения показателей а также s1, ..., sk и матрицу нормированных значений

с элементами

Рассчитывается матрица парных коэффициентов корреляции:

(53.24)

с элементами

(53.25)

где j, l= 1, 2, .... k.

На главной диагонали матрицы R, т.е. при j = l, расположены элементы

Модель компонентного анализа имеет вид

(53.26)

где aiv — «вес», т.е. факторная нагрузка v-й главной компоненты на j-ю переменную;

fiv — значение v-й главной компоненты для i-го наблюдения (объекта), где v = 1, 2, ...,k.

В матричной форме модель (53.26) имеет вид

(53.27)

fiv — значение v-й главной компоненты для i-го наблюдения (объекта);

aiv — значение факторной нагрузки v-й главной компоненты на j-ю переменную.

Матрица F описывает п наблюдений в пространстве k главных компонент.

При этом элементы матрицы F нормированы, т.е. fv = , a главные компоненты не коррелированы между собой. Из этого следует, что

(53.28)

Выражение (53.28) может быть представлено в виде

(53.29)

С целью интерпретации элементов матрицы А рассмотрим выражение для парного коэффициента корреляции между переменной zj и, например, f1-й главной компонентой. Так как zо и f1 нормированы, будем иметь с учетом (53.26):

Принимая во внимание (53.29), окончательно получим

Рассуждая аналогично, можно записать в общем виде

(53.30)

для всех j = 1, 2, .,., k и v = 1, 2, .... k.

Таким образом, элемент ajv матрицы факторных нагрузок А характеризует тесноту линейной связи между исходной переменной zj и главной компонентой fv, т.е. –1 ? ajv ? +1.

Рассмотрим теперь выражение для дисперсии нормированной переменной zj. С учетом (53.26) будем иметь

где v, v'= 1, 2, ..., k.

Учитывая (53.29), окончательно получим

(53.31)

По условию, переменные zj нормированы и s = 1. Таким образом, дисперсия переменной zj, согласно (53.31), представлена своими составляющими, определяющими долю вклада в нее всех k главных компонент.

Полный вклад v-й главной компоненты в дисперсию всех k исходных признаков вычисляется по формуле

(53.32)

Одно из основополагающих условий метода главных компонент связано с представлением корреляционной матрицы R через матрицу факторных нагрузок А. Подставив для этого (53.27) в (53.24), будем иметь

Учитывая (53.28), окончательно получим

(53.33)

Перейдем теперь непосредственно к отысканию собственных значений и собственных векторов корреляционной матрицы R.

Из линейной алгебры известно, что для любой симметричной матрицы R всегда существует такая ортогональная матрица U, что выполняется условие

(53.34)

Так как матрица R положительно определена, т.е.

ее главные миноры положительны, то все собственные значения ?v > 0 для любых v =1, 2, ..., k.

В компонентном анализе элементы матрицы ? ранжированы: ?1 ? ?2 ? ... ? ?v ... ? ?k ? 0. Как будет показано ниже, собственное значение ?v характеризует вклад v-й главной компоненты в суммарную дисперсию исходного признакового пространства.

Таким образом, первая главная компонента вносит наибольший вклад в суммарную дисперсию, а последняя, k-я, — наименьший.

В ортогональной матрице U собственных векторов v-й столбец является собственным вектором, соответствующим ?v -му значению.

Собственные значения ?1 ? ... ? ?v.... ? ?k находятся как корни характеристического уравнения

(53.35)

Собственный вектор Vv, соответствующий собственному значению ?v корреляционной матрицы R, определяется как отличное от нуля решение уравнения, которое следует из (53.34):

(53.36)

Нормированный собственный вектор Uv равен

Из условия ортогональности матрицы U следует, что U-1 = UT, но тогда, по определению, матрицы R и ? подобны, так как они, согласно (53.34), удовлетворяют условию

Так как у подобных матриц суммы диагональных элементов равны, то

Учитывая, что сумма диагональных элементов матрицы R равна k, будем иметь

Таким образом,

(53.37)

Представим матрицу факторных нагрузок А в виде

(53.38)

а v-й столбец матрицы А — как

где Uv — собственный вектор матрицы R, соответствующий собственному значению ?v.

Найдем норму вектора Аv:

(53.39)

Здесь учитывалось, что вектор Uv — нормированный и UUv = 1. Таким образом,

Сравнив полученный результат с (53.32), можно сделать вывод, что собственное значение ?v характеризует вклад v-й главной компоненты в суммарную дисперсию всех исходных признаков.

Из (53.38) следует, что

(53.40)

Согласно (53.37), общий вклад всех главных компонент в суммарную дисперсию равен k. Тогда удельный вклад v-й главной компоненты определяется по формуле .

Суммарный вклад т первых главных компонент определяется из выражения .

Обычно для анализа используют т первых главных компонент, вклад которых в суммарную дисперсию превышает 60—70%.

Матрица факторных нагрузок А используется для экономической интерпретации главных компонент, которые представляют собой линейные функции исходных признаков. Для экономической интерпретации fv используются лишь те хj, для которых |ajv| > 0,5.

Значения главных компонент для каждого i-го объекта (i = 1, 2, .... n) задаются матрицей F.

Матрицу значений главных компонент можно получить из формулы

откуда

Уравнение регрессии на главных компонентах строится по алгоритму пошагового регрессионного анализа, где в качестве аргументов используются главные компоненты, а не исходные показатели. К достоинству последней модели следует отнести тот факт, что главные компоненты не коррелированы. При построении уравнений регрессии следует учитывать все главные компоненты.

Пример. Построение регрессионного уравнения

По данным примера из § 53.2 провести компонентный анализ и построить уравнение регрессии урожайности Y на главных компонентах.

Решение. В примере из § 53.2 пошаговая процедура регрессионного анализа позволила исключить отрицательное значение мультиколлинеарности на качество регрессионной модели за счет значительной потери информации. Из пяти исходных показателей в окончательную модель вошли только два (x1 и x4). Более рациональным в условиях мультиколлинеарности можно считать построение уравнения регрессии на главных компонентах, которые являются линейными функциями всех исходных показателей и не коррелированы между собой.

Воспользовавшись методом главных компонент, найдем собственные значения и на их основе — вклад главных компонент в суммарную дисперсию исходных показателей x1, х2, х3, х4, х5 (табл. 53.2).

Таблица 53.2

Собственные значения главных компонент

Ограничимся экономической интерпретацией двух первых главных компонент, общий вклад которых в суммарную дисперсию составляет 89,0%. В матрице факторных нагрузок

звездочкой указаны элементы аjv = rxjfv, учитывающиеся при интерпретации главных компонент fv, где j, v = 1, 2, ..., 5.

Из матрицы факторных нагрузок А следует, что первая главная компонента наиболее тесно связана со следующими показателями: x1 — число колесных тракторов на 100 га (a11 = rx1f1 = 0,95); х2 — число зерноуборочных комбайнов на 100 га (rx2f1 = 0,97); х3 — число орудий поверхностной обработки почвы на 100 га (rx3f1 = 0,94). В этой связи первая главная компонента — f1 — интерпретирована как уровень механизации работ.

Вторая главная компонента — f2 — тесно связана с количеством удобрений (х4) и химических средств оздоровления растений (x5), расходуемых на гектар, и интерпретирована как уровень химизации растениеводства.

Уравнение регрессии на главных компонентах строится по данным вектора значений результативного признака Y и матрицы F значений главных компонент.

Некоррелированность главных компонент между собой и тесноту их связи с результативным признаком у показывает матрица парных коэффициентов корреляции (табл. 53.3).

Анализ матрицы парных коэффициентов корреляции свидетельствует о том, что результативный признак у наиболее тесно связан с первой (ryf1 = 0,48), третьей (ryf3 = 0,37) и. второй (ryf2 = 0,34) главными компонентами. Можно предположить, что только эти главные компоненты войдут в регрессионную модель у.

Таблица 53.3

Матрица парных коэффициентов корреляции

Первоначально в модель у включают все главные компоненты (в скобках указаны расчетные значения t-критерия):

(53.41)

Качество модели характеризуют: множественный коэффициент детерминации r = 0,517, средняя относительная ошибка аппроксимации = 10,4%, остаточная дисперсия s2 = 1,79 и Fнабл = 121. Ввиду того что Fнабл > Fкр =2,85 при ? = 0,05, v1 = 6, v2 = 14, уравнение регрессии значимо и хотя бы один из коэффициентов регрессии — ?1, ?2, ?3, ?4 — не равен нулю.

Если значимость уравнения регрессии (гипотеза Н0: ?1 = ?2 = ?3 = ?4 = 0 проверялась при ? = 0,05, то значимость коэффициентов регрессии, т.е. гипотезы H0: ?j = 0 (j = 1, 2, 3, 4), следует проверять при уровне значимости, большем, чем 0,05, например при ? = 0,1. Тогда при ? = 0,1, v = 14 величина tкр = 1,76, и значимыми, как следует из уравнения (53.41), являются коэффициенты регрессии ?1, ?2, ?3.

Учитывая, что главные компоненты не коррелированы между собой, можно сразу исключить из уравнения все незначимые коэффициенты, и уравнение примет вид

(53.42)

Сравнив уравнения (53.41) и (53.42), видим, что исключение незначимых главных компонент f4 и f5, не отразилось на значениях коэффициентов уравнения b0 = 9,52, b1 = 0,93, b2 = 0,66 и соответствующих tj (j = 0, 1, 2, 3).

Это обусловлено некоррелированностью главных компонент. Здесь интересна параллель уравнений регрессии по исходным показателям (53.22), (53.23) и главным компонентам (53.41), (53.42).

Уравнение (53.42) значимо, поскольку Fнабл = 194 > Fкр = 3,01, найденного при ? = 0,05, v1 = 4, v2 = 16. Значимы и коэффициенты уравнения, так как tj > tкр. = 1,746, соответствующего ? = 0,01, v = 16 для j = 0, 1, 2, 3. Коэффициент детерминации r = 0,486 свидетельствует о том, что 48,6% вариации у обусловлено влиянием трех первых главных компонент.

Уравнение (53.42) характеризуется средней относительной ошибкой аппроксимации = 9,99% и остаточной дисперсией s2 = 1,91.

Уравнение регрессии на главных компонентах (53.42) обладает несколько лучшими аппроксимирующими свойствами по сравнению с регрессионной моделью (53.23) по исходным показателям: r = 0,486 > r = 0,469; = 9,99% < (х) = 10,5% и s2(f) = 1,91 < s2(x) = 1,97. Кроме того, в уравнении (53.42) главные компоненты являются линейными функциями всех исходных показателей, в то время как в уравнение (53.23) входят только две переменные (x1 и х4). В ряде случаев приходится учитывать, что модель (53.42) трудноинтерпретируема, так как в нее входит третья главная компонента f3, которая нами не интерпретирована и вклад которой в суммарную дисперсию исходных показателей (x1, ..., х5) составляет всего 8,6%. Однако исключение f3 из уравнения (53.42) значительно ухудшает аппроксимирующие свойства модели: r = 0,349; = 12,4% и s2(f) = 2,41. Тогда в качестве регрессионной модели урожайности целесообразно выбрать уравнение (53.23).

<< | >>
Источник: М.Г. Назаров. Курс социально-экономической статистики: Учебник для вузов / Под ред. проф. М.Г. Назарова. — М.: Финстатинформ, ЮНИТИ-ДАНА. - 771 с.. 2000

Еще по теме 53.3. Компонентный анализ:

  1. СОМ, компонентная модель ( COM , component object model )
  2. Анализ показателей себестоимости: ее виды, цели, задачи, последовательность и методика анализа. Анализ затрат на 1 руб. продукции.
  3. Подведение итогов ситуационного анализа. Анализ опасностей и возможностей (SWOT-анализ). (Strength, Weaknesses, Opportunities, Threats)
  4. Методы анализа рыночных цен. Технический анализ. Основные принципы технического анализа
  5. АНАЛИЗ ИСПОЛЬЗОВАНИЯ ТРУДОВЫХ РЕСУРСОВ ПРЕДПРИЯТИЯ. АНАЛИЗ ОПЛАТЫ ТРУДА
  6. АНАЛИЗ ИСПОЛЬЗОВАНИЯ ТРУДОВЫХ РЕСУРСОВ ПРЕДПРИЯТИЯ. АНАЛИЗ ОБЕСПЕЧЕННОСТИ ТРУДОВЫМИ РЕСУРСАМИ
  7. АНАЛИЗ ИСПОЛЬЗОВАНИЯ ТРУДОВЫХ РЕСУРСОВ ПРЕДПРИЯТИЯ. АНАЛИЗ ПРОИЗВОДИТЕЛЬНОСТИ ТРУДА И ТРУДОЕМКОСТИ ПРОДУКЦИИ
  8. Особенности анализа деятельности организаций, занимающихся закупкой сельскохозяйственной продукции: анализ объемов закупок, анализ закупок сельскохозяйственной продукции по их ассортименту и качеству.
  9. Особенности анализа деятельности организаций хлебопечения: методы анализа, оценка показателей.
  10. Основные этапы анализа системы показателей и постановка задачи детерминированного анализа
  11. АНАЛИЗ ПРОИЗВОДСТВА И РЕАЛИЗАЦИИ ПРОДУКЦИИ. АНАЛИЗ РИТМИЧНОСТИ РАБОТЫ ПРЕДПРИЯТИЯ
  12. Роль и место финансового анализа в современном развитии экономики и его взаимосвязь с экономическим анализом
  13. АНАЛИЗ СЕБЕСТОИМОСТИ. АНАЛИЗ ЗАТРАТ НА ОДИН РУБЛЬ ПРОДУКЦИИ
  14. Место и роль экономического анализа в управлении организацией. Результаты анализа как база обоснования и принятия управленческих решений.
  15. АНАЛИЗ ПРОИЗВОДСТВА И РЕАЛИЗАЦИИ ПРОДУКЦИИ. АНАЛИЗ АССОРТИМЕНТА
  16. Методы экономического анализа и их использование при анализе затрат на производство.
- Информатика для экономистов - Антимонопольное право - Бухгалтерский учет и контроль - Бюджетна система України - Бюджетная система России - ВЭД РФ - Господарче право України - Государственное регулирование экономики в России - Державне регулювання економіки в Україні - ЗЕД України - Инновации - Институциональная экономика - История экономических учений - Коммерческая деятельность предприятия - Контроль и ревизия в России - Контроль і ревізія в Україні - Кризисная экономика - Лизинг - Логистика - Математические методы в экономике - Международные экономические отношения - Микроэкономика - Мировая экономика - Муніципальне та державне управління в Україні - Налоговое право - Организация производства - Основы экономики - Политическая экономия - Размещение производительных сил (РПС) - Региональная и национальная экономика - Страховое дело - Теория управления экономическими системами - Управление инновациями - Философия экономики - Ценообразование - Экономика зарубежных государств - Экономика и управление народным хозяйством - Экономика отрасли - Экономика предприятия - Экономика природопользования - Экономика труда - Экономическая безопасность - Экономическая география - Экономическая демография - Экономическая статистика - Экономическая теория и история - Экономический анализ -