Статистичний аналіз характеристик випадкових величин по спостереженнях із суміші

Автор:

Кубайчук Оксана Олексіївна

Тип роботи:

Дис. канд. наук

Рік:

2004

Артикул:

0404U002629

129 грн

Вміст

РОЗДІЛ 2
ДЕЯКІ ЗАДАЧІ ПРИКЛАДНОЇ СТАТИСТИКИ‚ ЩО ПРИВОДЯТЬ ДО
МОДЕЛІ СУМІШІ ЗІ ЗМІННИМИ КОНЦЕНТРАЦІЯМИ
2.1. Соціологічний аналіз результатів виборів
Розглянемо задачу соціологічного аналізу результатів виборів міського голови. Під час виборів виборці мають право обрати один із можливих варіантів поведінки. Вони можуть проголосувати за одного з кандидатів, або проголосувати проти всіх, або взагалі не брати участі у виборах. Соціолога цікавлять зв'язки між вибором людини під час виборів та деякими її соціологічними або психологічними характеристиками. У найпростішому випадку такими характеристиками можуть бути відповіді на запитання деякого соціологічного опитування.
Нехай, наприклад, соціолог провів опитування, в якому виборці відповідали на запитання анкети. Одне із запитань було таке: "Чи вірите ви‚ що покращиться благоустрій вашого міста?" При цьому опитувані могли обрати одну з наступних відповідей:
1. Так, вірю.
2. Ні, не вірю.
3. Не знаю.
4. Не хочу відповідати.
Можливо, що статистичний розподіл відповідей на це запитання буде різним у прибічників різних політичних орієнтацій. Природно, наприклад, щоб частка людей з песимістичним поглядом була вищою серед тих, хто не приймає участі у виборах. Однак, ми не можемо сподіватись на повну одностайність відповідей навіть серед членів однієї політичної партії. Мова може йти лише про певні статистичні залежності. З математичної точки зору, це означає, що існує певна ймовірність того, що прибічник певного політичного вибору дасть певну відповідь на запитання анкети.
Перенумеруємо можливі варіанти поведінки на виборах числами від 1 до (скажімо, 1 - проголосувати за X, 2 - проголосувати за Y, ... , - проголосувати проти всіх, - не брати участі у виборах). Сукупність всіх прибічників певної поведінки будемо розглядати як окрему "політичну популяцію". Нехай - множина всіх можливих відповідей на анкету. Якщо у ній вміщено багато запитань, то - це множина всіх векторів ‚ де - номер будь-якого можливого варіанта відповіді на -те запитання. Наша гіпотеза полягає в тому, що ймовірності обрати набір відповідей є різними для осіб з різних політичних популяцій. Точніше кажучи, ми маємо на увазі ймовірність того, що людина, вибрана навмання з даної політичної популяції дасть на нашу анкету саме відповідь .
Якщо прийняти таку гіпотезу, то природно виникає задача оцінки цих ймовірностей на основі наявних даних. Фактично нас цікавлять відносні
частоти вибору відповіді особами з популяції прихильників -того типу електоральної поведінки (-тої компоненти нашого політичного світу). В реальному житті опитування завжди охоплює лише частину виборців. Тому необхідно застосовувати статистичні методи оцінки. Інша проблема полягає в тому, що у нас немає інформації про справжній політичний вибір кожної опитаної особи. Дійсно, щоб дізнатись про нього, потрібно порушити таємницю голосування. Навіть якщо до анкети включено запитання про політичний вибір, ми не маємо права наполягати на відвертій відповіді на нього.
Але не є таємницею усереднені результати голосування по виборчих дільницях. Соціолог може включити до своєї анкети запитання "на якій виборчій дільниці ви будете голосувати" (або "проголосували", якщо анкетування проводиться вже після виборів). Інформація про місце голосування виборця також не є секретною.
Припустимо, що анкети були заповнені особами. Позначимо цих людей . Відповідь (або вектор відповідей)‚ яку дала на анкету -та особа, позначимо . В результаті опитування ми отримуємо набір . Крім того, для кожного (-того) виборця ми знаємо відносну частоту -того вибору на тій виборчій дільниці, де він голосував. Цю частоту позначимо ‚ де - кількість виборців, які обрали -тий вибір на тій дільниці, де голосував ‚ і - загальна кількість виборців, зареєстрованих на цій дільниці.
Якщо респонденти для опитування вибирались випадковим чином, то можна розглядати як ймовірність того, що -та опитувана особа зробила -тий вибір на виборах. Позначимо цей (невідомий нам) вибір особи через . Тоді . Нас цікавить ймовірність того, що особа ‚ для якої ‚ матиме вектор відповідей рівний деякому фіксованому . Позначимо цю ймовірність . З точки зору соціолога, це просто частота відповіді у популяції прибічників -того політичного вибору. Вона невідома і саме її потрібно оцінити за результатами опитування.

Тепер ймовірнісний розподіл вектора відповідей -тої особи матиме вигляд

Якщо вважати, що вектори відповідей різних осіб є незалежними між собою, то повністю визначає розподіл наших даних . Ми будемо називати цю математичну модель розподілу "сумішшю зі змінними концентраціями". Це означає, що спостереження у нашій вибірці отримані з суміші популяцій з різними розподілами спостережуваних характеристик. Ці популяції ми будемо називати компонентами, а ймовірності - розподілами компонент. Ймовірності отримати об'єкт (особу) з -тої компоненти у -тому експерименті (спостереженні) будемо називати концентраціями відповідної компоненти у суміші і позначати . У нашій моделі концентрації змінюються від спостереження до спостереження і це є принциповим для задач, що вивчаються у дисертації.
Якби вибірка складалась зі спостережень з однієї компненти, тобто з однієї однорідної популяції, то ми мали б ‚ і легко оцінили б за допомогою відносної частоти відповіді у вибірці:

де через позначено кількість елементів у множині . Ця оцінка має всі мислимі "хороші" властивості: вона є незсуненою, ефективною, консистентною, асимптотично нормальною.
Якщо розподіл визначений , не є прийнятною оцінкою для . А що ж вона буде оцінювати? Згадаємо, що
де
позначає індикатор події . Отже‚

Математичне сподівання у нашому випадку дорівнює
тобто‚ являє собою суміш з ваговими коефіцієнтами . За законом великих чисел . Тому є "консистентною оцінкою" для .
Як покращити ‚ щоб отримати оцінку для деякого ? Можна домножити і

Ви є тут

Статистичний аналіз характеристик випадкових величин по спостереженнях із суміші

Вміст