3.1. Определение структуры СПП для формирования анкеты КЗ
В свете предложенной концепции и в соответствии со структурой, поддерживающей ее, для задачи выявления СПП «хорошего»/«плохого» КЗ на первом этапе следует разработать инструментарий извлечения знаний, что, по мнению авторов [33, 44], является на сегодняшний день существенной проблемой применительно к данной задаче.
Общий алгоритм построения СПП включает три главных этапа: выбор и применение метода; представление структуры семантического пространства; идентификация и интерпретация выделенных структур, кластеров, групп объектов и т.д.
На первом этапе выявления СПП в рассматриваемой предметной области был использован промежуточный вид семантического ассоциативного эксперимента – метод свободных описаний модальных стимулов [27].
Ассоциативный эксперимент состоит в предложении дать на стимулы свободные ассоциации. Такой метод позволяет, что особенно важно на этапе определения СЗП, снять эффект «навязывания» категорий.
Целью первого экспериментального исследования является определение структуры СПП путем обобщения ассоциаций с действием «кредит».
Планирование семантического эксперимента осуществлялось с учетом методики, изложенной в работах [27, 107, 122].
При планировании эксперимента обеспечена репрезентативность выборок, которая определяет внешнюю валидность эксперимента ниже перечисленными ограничениями: выборка потенциально «хороших» заемщиков является направленной, то есть респондентами являются случайно выбранные заемщики при условии, что они уже брали кредит и вернули его вовремя; выборка потенциально «плохих» заемщиков является направленной, то есть ответить на вопросы предложено респондентам, которые по тем или иным причинам не вернули кредит вовремя; выборки являются неоднородными по возрасту, полу и образованию; время эксперимента ограничено: испытуемым было предложено дать ассоциативный ряд на стимул «кредит» в течение десяти минут.
Внутренняя валидность эксперимента определяется наложением на выборки четких анкетируемых социально-демографических признаков: пол, возраст, образование, наличие детей.
В результате проведения эксперимента были получены данные, отражающие действие «кредит» в виде ассоциативных рядов, данных респондентами.
Социально-демографические признаки выбраны на основании рекомендаций данных в литературе по социологии и психодиагностике [38, 45, 47, 54, 85], анализа анкет банков и ограниченных возможностей проведения эксперимента: пол – «мужчина» и «женщина»; образование: высшее и средне-специальное; семейное положение: «есть дети», «нет детей»; возраст – до 25 лет, от 25 до 35 лет, от 35 до 45 лет, старше 45 лет. В эксперименте участвовало: всего респондентов – 1520 человек. Выборки сформированы по обозначенным социально-демографическим признакам и наиболее существенному признаку «хорошая/плохая» кредитная история (табл. П.1.1, П.1.2).
Для обработки эксперимента приняты обозначения.
Пусть
– множество респондентов,
– множество признаков.
Каждый респондент в результате анкетирования дал ряд из ассоциаций, связанных с действием «кредит». Обозначим
– множество всех ассоциаций, данных всеми респондентами,
– количество ассоциаций, участвующих в анализе. Для подготовки данных к анализу были выполнены следующие преобразования: каждому респонденту
ставится в соответствие вектор-строка, состоящая из двух подстрок (рис. 3.1).
| СПП кредитного заемщика | Социально-демографические признаки заемщика | Кредитная история заемщика | |||||||
| СЗП | Пол | Образование | Наличие детей | Возраст | |||||
Рис.
3.1. Вектор-строка:
– множество векторов вида
,
Множество существенных признаков
, где
, | 1 , респондент имеет «хорошую» кредитную историю; |
, | 1, респондент мужчина; |
2, респондент женщина. | |
, | 1, респондент имеет среднее спец. образование; |
2, респондент имеет высшее образование. | |
, | 1, респондент имеет детей; |
2, респондент не имеет детей; | |
, | 1, возраст респондента до 25 лет; |
2, возраст респондента от 25 до 35 лет; | |
3, возраст респондента от 35 до 45 лет; | |
4, возраст респондента свыше 45 лет. |
Следует отметить, что выборка респондентов с «плохой» кредитной историей составила 20 человек, что обусловило необходимость дополнения выборки «виртуальными» респондентами. Для создания ассоциативных рядов, данных «виртуальными» респондентами, из полученной в ходе эксперимента выборки, были выбраны респонденты с «плохой» кредитной историей, сгруппированные по социально-демографическим признакам. Следует определить количество данных ассоциаций респондентами с «плохой» кредитной историей
и
, далее задаться числом «виртуальных» респондентов. Случайным образом задается количество ассоциаций
, которое лежит в интервале
. Далее, из подмножества ассоциаций
случайным образом выбираются
(процедура генерации выборки реализована в приложении MS SQL Server 2005). Таким образом, полученная выборка респондентов с «плохой» кредитной историей составила 100 человек.
Для определения структуры СПП, которое представляет собой пространство СЗП, отражающее субъективное кредитное поведение в связи с социально-демографическими признаками, выдвигаются предположения:
- наличие значительных различий в распределении частот СЗП в выборках, представленных по существенным признакам: по имеющейся кредитной истории («хорошая кредитная история» и «плохая кредитная история»); по полу («мужчины» и «женщины»);
- наличие сколько-нибудь значительных различий в распределении частот слов-значений в направленных выборках «мужчины» и «женщины» по признакам: возраст, социальное положение – наличие образования.
Фактически, задача состоит в условном разделении множества ответов (обобщение ассоциаций с действием «кредит») на группы, которые определяют принадлежность респондента к определенной социально-демографической группе с «хорошей» или «плохой» кредитной историей.
Анализ данных осуществлен при помощи программного продукта Statistica 6.1.
Задача 1. Выявление различий в уровне исследуемого признака – отношение респондентов к действию «кредит» в соответствующих выборках по имеющейся кредитной истории: «хорошая кредитная история» и «плохая кредитная история».
Рассмотрим две смешанные по социально-демографическим признакам выборки, но отличные по значимому признаку – «хорошая кредитная история»(1) и «плохая кредитная история»(2). Поскольку необходимо учитывать наличие неравных по объему выборок, а именно, с «хорошей кредитной историей»(1) nG=1500 человек и «плохой кредитной историей»(2) nG=100 человек, перейдем к относительным частотам встречаемости ассоциаций
, соответствующим каждой группе.
Сформулируем гипотезы:
Принадлежность к одной группе означает, что существенных различий между распределениями
и
нет, противное утверждение означает наличие существенных различий в распределениях
и
.
Выбор критериев как правил, обеспечивающих принятие или отклонение гипотез, осуществлен в соответствии с методиками, изложенными в работе [122]. При проверке гипотез по критерию знаков G и T–критерия Вилкоксона отвергнута гипотеза
, (
). Это означает, что респонденты выборки «хорошая кредитная история»(1) отличны в своем представлении действия «кредит» нежели респонденты выборки «плохая кредитная история»(2).
Следует отметить, что рассматриваемые ассоциации возможно условно сгруппировать в рассматриваемых выборках в соответствии с терминологией психодиагностики личности [27] на:
- имеющие положительный оттенок (например: «удовольствие», «радость» и т.п.);
- имеющие нейтральный оттенок или отражающие рациональное поведение (например: «проценты», «платеж» и т.п.);
- означающие упрощение решения проблемы («удобно», «просто», и т.п.);
- означающие преувеличение своих возможностей («выгода», «нет проблем» и т.п.);
- имеющие негативное отношение (например: «зависимость», «мошенничество» и т.п.);
- означающие, что потребности превышают возможности (например: «желания», «подарки» и т.п.).
Таким образом, получили упорядоченные выборки по означенным шести группам признаков. Отличия в представлении действия «кредит» значительны и имеют тенденцию, а именно, большим значениям относительных частот ассоциаций, имеющим положительный оттенок, для респондентов выборки «хорошая кредитная история» соответствует значительно меньшие, до полного отсутствия слов-значений этой категории, у респондентов выборки «плохая кредитная история». Большим значениям относительных частот встречаемости ассоциаций, означающих упрощение решения проблемы, а также означающих преувеличение своих возможностей, для респондентов выборки «хорошая кредитная история» соответствует значительно меньшие у респондентов выборки «плохая кредитная история». Но, с другой стороны, меньшим значениям относительных частот встречаемости ассоциаций, имеющих нейтральный оттенок или отражающих рациональное поведение, соответствуют значительно большие, чем у респондентов выборки «хорошая кредитная история». То есть респондентам из выборки «хороших» заемщиков свойственно преувеличивать положительную сторону, у «плохих» заемщиков более выражен негативный оттенок, что вполне объяснимо обстоятельствами, в которых они находятся в данный момент времени.
Задача 2. Выявление различий в уровне исследуемого признака – отношение респондентов к действию «кредит» в соответствующих выборках по полу: «мужчины» и «женщины».
Выборки: «мужчины»(3) и «женщины»(4) являются смешанными по всем другим признакам. Далее аналогично первому пункту следует перейти к относительным частотам встречаемости слов-значений.
Сформулируем гипотезы:
Принадлежность к одной группе означает, что существенных различий между распределениями
и
нет, противное утверждение означает наличие существенных различий между распределениями
и
.
При проверке гипотез по критерию знаков G и T–критерия Вилкоксона отвергнута гипотеза
, (
). Это означает, что респонденты выборки «мужчины»(3) отличны в своем представлении действия «кредит» нежели респонденты выборки «женщины»(4).
По подробно рассмотренному в первой задаче способу ассоциации были условно сгруппированы в рассматриваемых выборках. Вновь получили упорядоченные выборки по означенным шести признакам. Отличия в представлении действия «кредит» значительны и имеют тенденцию.
При попарном сравнении были получены следующие выводы: у женщин более выражен и эмоционально представлен положительный оттенок. Например, более 60% женщин из «хороших» заемщиков дали такие ассоциации, как «мечты» и «удовольствие». Тот же положительный оттенок у мужчин выражен через более рациональные понятия: «будущее» и «работа». Слова-значения, имеющие нейтральный оттенок или отражающие рациональное поведение, значительно чаше упоминались мужчинами, нежели женщинами. Более 50% мужчин связывают кредит с негативной стороной: «зависимость», «мошенники». Большим значениям относительных частот встречаемости ассоциаций, означающих упрощение решения проблемы, а также означающих преувеличение своих возможностей, для респондентов выборки «женщины» соответствует значительно меньшие у респондентов выборки «мужчины».
Задача 3. Выявление различий в уровне исследуемого признака – отношение респондентов к действию «кредит» в соответствующих выборках по возрасту и социальному статусу.
Следует учесть на основании предыдущих выводов, что данное исследование следует проводить внутри направленной выборки «мужчины» и «женщины» из выборки респондентов с «хорошей» кредитной историей. При попарном сравнении получены значимые различия в уровне признака «образование», которые удалось подтвердить между респондентами из выборок: «мужчины до 35лет, имеющие средне-специальное образование»(5) и «мужчины до 35лет, имеющие высшее образование»(6); «женщины до 25лет, имеющие высшее образование»(7) и «женщины до 25лет, имеющие средне-специальное образование»(8); «женщины до 35лет, имеющие высшее образование»(9) и «женщины до 35лет, имеющие средне-специальное образование»(10);
Значимые различия в уровне признака «возраст» удалось подтвердить между респондентами из выборок: «женщины до 25лет, имеющие высшее образование»(11) и «женщины до 35лет, имеющие высшее образование»(12); «женщины до 25лет, имеющие высшее образование»(13) и «женщины старше 45лет, имеющие высшее образование»(14); «женщины до 35лет, имеющие высшее образование»(15) и «женщины старше 45лет, имеющие высшее образование»(16); «женщины до 25лет, имеющие средне-специальное образование»(17) и «женщины старше 45лет, имеющие средне-специальное образование»(18); «женщины до 35лет, имеющие средне-специальное образование»(19) и «женщины старше 45лет, имеющие средне-специальное образование»(20).
Среди мужчин разного возраста так же следует отметить наличие разного представления действия «кредит»: «мужчины до 35лет, имеющие высшее образование»(21) и «мужчины старше 45лет, имеющие высшее образование»(22); «мужчины до 25лет, имеющие средне-специальное образование»(23) и «мужчины до 35лет, имеющие средне-специальное образование»(24); «мужчины до 25лет, имеющие средне-специальное образование»(26) и «мужчины старше 45лет, имеющие средне-специальное образование»(27).
Таким образом, доказанные гипотезы о наличии значимых различий позволяют говорить о возможности идентификации и интерпретации выделенных групп, а так же следует считать социально-демографические признаки и признак «кредитная история» значимыми для разделения групп на основании консолидации мнений в выделенных группах. Данное положение определяет структуру типологии СПП.
Для осуществления третьей составляющей алгоритма построения СПП, а именно идентификации и интерпретации выделенных структур СЗП, как правило, предлагаются методики, в основе которых лежат методы статистического анализа данных, ориентированных на проверку заранее сформулированных гипотез [97, 98, 55].
Для того чтобы снять субъективную составляющую подхода в выделении СЗП, как наиболее важный момент подтверждения состоятельности выдвигаемых положений работы о наличии существенных различий значимых для разделения групп (на основании консолидации мнений в выделенных группах по отношению к действию «кредит»), необходимо перейти к разработке автоматизированной системы, на базе методов, позволяющих находить закономерности самостоятельно и строить гипотезы о взаимосвязях. Система на основании полученных выводов должна реализовывать возможность создания анкет для осуществления классификации КЗ.
Таким образом, в соответствии с классификацией, представленной на рис. 2.1, методы, лежащие в основе модуля, решающего задачу формирования анкеты КЗ, как инструментария извлечения знаний, ориентированы на аналитика; фактические данные получены путем анкетирования на естественном языке; анализ СПП следует осуществлять в соответствии с полученной структурой типологии КЗ с использованием методов психосемантики.
Еще по теме 3.1. Определение структуры СПП для формирования анкеты КЗ:
- 3.2. Разработка алгоритма извлечения и структурирования знаний с целью автоматизированного формирования анкеты КЗ
- Приложение 7. Анкета для конечного потребителя.
- 4.1. Определение круга заинтересованных лиц в процессе формирования организационной структуры предприятия
- 4.1. Определение круга заинтересованных лиц в процессе формирования организационной структуры предприятия
- 5. Определение стратегических направлений формирования инвестиционных ресурсов.
- 1.1. Регион: определение, виды, условия формирования
- Определение структуры и целостности АИС
- • Функции для определения дюрации
- Вопрос 105. Структура вложенного капитала. Понятия, структура и методы формирования основного и оборотного капитала
- Сложности при определении оптимальной структуры капитала
- • Функции для определения характеристик купонов
- Формирование финансовой структуры
- Определение неудовлетворительной структуры баланса
- 6.5. Порядок определения качества кредита и формирования резерва на возможные потери по ссудам
- Правила определения финансового результата и формирования годового отчета кредитной организации
,
1 , респондент имеет «хорошую» кредитную историю;
0, респондент имеет «плохую» кредитную историю.
,
1, респондент мужчина;
2, респондент женщина.
,
1, респондент имеет среднее спец. образование;
2, респондент имеет высшее образование.
,
1, респондент имеет детей;
2, респондент не имеет детей;
,
1, возраст респондента до 25 лет;
2, возраст респондента от 25 до 35 лет;
3, возраст респондента от 35 до 45 лет;
4, возраст респондента свыше 45 лет.