Анализ данных на R в примерах и задачах. Часть 1, весна...
Transcript of Анализ данных на R в примерах и задачах. Часть 1, весна...
![Page 1: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/1.jpg)
Факторный анализ
![Page 2: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/2.jpg)
Задачи1. Сокращение числа переменных.2. Измерение неизмеримого. Построение новых
обобщенных показателей.3. Наглядное представление многомерных
наблюдений (проецирование данных).4. Описание структуры взаимных связей между
переменными, в частности выявление групп взаимозависимых переменных.
5. Преодоление мультиколинеарности переменных в регрессионном анализе
6. И так далее…
![Page 3: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/3.jpg)
Сокращение переменных
• исходные переменные (не все) заменяют на меньшее число новых искусственных переменных
• новые переменные - факторы • далее работают с факторами, а не с
исходными показателями
![Page 4: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/4.jpg)
Сокращение числа переменныхпример: портной
• при массовом пошиве одежды используются – размер, – полнота – рост
![Page 5: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/5.jpg)
Сокращение числа переменныхпример : портной
• Например, по одной из формул
• полнота = (длина окружности груди -длиной окружности талии)/2.
![Page 6: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/6.jpg)
Сокращение числа переменных пример : портной
• Размер, полнота и рост – факторы, искусственные переменные.
• Найдены эмпирически, методом проб и ошибок.
• Интерпретация: отсутствует, но мы привыкли…
![Page 7: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/7.jpg)
Сокращение числа переменныхпример Б. Шоу
• Начало прошлого века• Зависимость• Носит цилиндр – шире грудная клетка• Абонемент на место в церкви – дольше
живет• Чаще моется – любит оперы Вагнера
![Page 8: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/8.jpg)
Сокращение числа переменных Пример: влияние пищевых добавок на рост.
• Две переменные: рост ста людей в дюймах и сантиметрах.
• дублирование информации. • одну переменную отбрасываем.• Сокращение данных.
![Page 9: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/9.jpg)
Сокращение числа переменных Пример: влияние пищевых добавок на рост.
• значения одной переменной вычисляются по значениям другой с помощью линейного преобразования.
• Линейная зависимость между переменными коэффициент корреляции между ними равен единице.
![Page 10: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/10.jpg)
Сокращение числа переменных
• Несколько переменных• В каждой паре коэффициент
корреляции близок к 1 • =>• Переменные линейно зависимы• Отбрасываем все переменные, кроме
одной
![Page 11: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/11.jpg)
Сокращение числа переменных
Отбрасываем все переменные• Вместо них новую - «представитель»
– содержит всю «общую» информацию– измеряет то общее, что измеряют
исходные переменных • Фактор
– Или главная компонента
![Page 12: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/12.jpg)
2. Измерение неизмеримого
• Как измерить любовь? • Отношение пациента к своему доктору?• Удовлетворенность сортом кофе? • Как определить степень депрессии человека? • Степень приверженности курению? • Лояльность торговой марке? • Вероятность разорения фирмы в течение
следующего года?
![Page 13: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/13.jpg)
2. Измерение неизмеримого
• Искусственные переменные - факторы. • Может оказаться, что они измеряют
исследуемую характеристику.• Исходные переменные отбирались так,
чтобы косвенно измерять неизмеряемую величину.
![Page 14: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/14.jpg)
Семантический дифференциал
– «оценка»: хороший - плохой– «сила»: сильный − слабый– «активность»: активный − пассивный
![Page 15: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/15.jpg)
Семантический дифференциал
• Осгуд (1952)
• эволюционная значимость?
![Page 16: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/16.jpg)
Измерение неизмеримого
• Интроверт – экстраверт
• Как измерить?
• Юнг, Айзенк
![Page 17: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/17.jpg)
выявления структуры зависимости в данных
• методе корреляционных плеяд
• факторный анализ – обычно представляет более краткую,
выразительную и точную модель структуры зависимостей между переменными
![Page 18: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/18.jpg)
Наглядное представление многомерных наблюдений (проецирование данных).
![Page 19: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/19.jpg)
проецирование данных возможно
![Page 20: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/20.jpg)
Проекции - интересные и скучные
![Page 21: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/21.jpg)
• Посмотрим картинку…
![Page 22: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/22.jpg)
Проецирование данных
• Есть специализированные методы– Projection pursuit– Многомерное шкалирование– Карты Sommer’a
![Page 23: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/23.jpg)
Математическая модель
• Анализ главных компонент
• Факторный анализ
![Page 24: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/24.jpg)
![Page 25: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/25.jpg)
![Page 26: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/26.jpg)
![Page 27: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/27.jpg)
Задачи1. Сокращение числа переменных.2. Измерение неизмеримого. Построение новых
обобщенных показателей.3. Наглядное представление многомерных
наблюдений (проецирование данных).4. Выявление структуры взаимных связей между
переменными, в частности выявление групп взаимозависимых переменных.
5. Преодоление мультиколинеарности переменных в регрессионном анализе
6. И так далее…
![Page 28: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/28.jpg)
Анализ главных компонент.Математическая модель
![Page 29: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/29.jpg)
Определение числа факторов
• Анализ главных компонент, анализируется корреляционная матрица
• Собственные числа == дисперсии главных компонент (Eugenvalues)
• Полная дисперсия (= числу переменных)• Объясненная дисперсия (70%, 80%, 90%)
![Page 30: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/30.jpg)
Определение числа факторов
• Сколько собственных чисел больше 1?
• Сколько собственных чисел больше 0.8?
• График каменистая осыпь (Scree plot)
![Page 31: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/31.jpg)
Нахождение факторов
• Факторный анализ, анализируется корреляционная матрица
• Вращение варимакс
![Page 32: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/32.jpg)
Нахождение факторовОценка качества модели
• Общности (communalities)– Какой % дисперсии переменной объяснен
фактором• Разность корреляционных матриц
– Насколько факторы объясняют корреляции между переменными
• % полной дисперсии
![Page 33: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/33.jpg)
Нахождение факторовОценка качества модели
• Главный критерий качества• Интерпретируемость факторов
![Page 34: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/34.jpg)
• Loadings – коэффициенты уравнения
• Scores – значения факторов для каждого наблюдения
![Page 35: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/35.jpg)
![Page 36: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/36.jpg)
• Рассматриваемая выборка - 47 франко-говорящих провинций Швейцарии в 1888 году. В набор данных вошли показатели социального и экономического развития, а именно
• Fertility Показатель рождаемости.• Agriculture Процент мужчин в провинции, работающих в
сельском хозяйстве.• Examination Процент призывников провинции, получивших
высшие оценки на экзамене при поступлении в армию.
• Education Процент призывников провинции, чье образование превышает уровень начальной (primary) школы.
• Catholic Процент католиков.• Infant_Mortality Детская смертность, процент проживших
меньше одного года.
![Page 37: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/37.jpg)
• Мостеллер и Тьюки следующим образом комментируют данные.
• Швейцария в 1888 году находилась в том периоде своего развития, который называется "демографическим переходом" (“demographic transition”). Этот период характеризуется в частности резким снижением уровня рождаемости с высокого уровня, типичного для неразвитых стран.
![Page 38: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/38.jpg)
• Имеется 47 наблюдений и 6 переменных. Все переменные кроме ‘Fertility’ измеряют процент населения.
• Значения переменных Examination и Education являются средними значениями за 1887, 1888 и 1889 годы.
• Все переменные принимают значения в интервале [0, 100].
• Задачей анализа является конструирование обобщенных характеристик, описывающих различия в социально-экономической ситуации в провинциях Швейцарии.
![Page 39: Анализ данных на R в примерах и задачах. Часть 1, весна 2016: Факторный анализ](https://reader035.fdocument.pub/reader035/viewer/2022062305/587c5fb81a28ab633c8b5a2f/html5/thumbnails/39.jpg)