Дипломная работа на тему «Множественное заполнение пропусков как метод борьбы с пропущенными данными»

Скачать пример Заказать работу Скачать пример Заказать работу

Введение

Одной из неизбежных проблем, сопутствующих любому социологическому исследованию, являются пропуски в данных, приводящие к невозможности применения изначального дизайна исследования, потере данных и смещению результатов. Некоторые виды пропусков — систематические, или неигнорируемые — возможно избежать или устранить только на этапе сбора информации, например, при помощи внесения изменений в анкету, дополнительного инструктажа интервьюеров или многократного обращения к одному и тому же респонденту. Однако существуют методы, позволяющие бороться с игнорируемыми (случайными и полностью случайными) пропусками уже на этапе анализа данных, когда информация собрана и вернуться к этапу опроса нет возможности. На сегодняшний день таких методов разработано достаточно много, от наиболее простых (например, исключение неполных наблюдений) до сложных, в основе которых лежат сложные алгоритмы подбора пропущенных значений в зависимости от характера пропусков, имеющихся в массиве данных и предположений исследователя.

Один из таких сложных способов борьбы с пропущенными данными — разработанный Дональдом Рубином в 1987 году и активно развивающийся метод множественного заполнения пропусков — предполагает подстановку на место каждого пропуска не одного значения, как в случае более простых способов, а нескольких (в среднем, от 3 до 5). В результате исследователь получает три-пять полных массивов, затем анализирует каждый из них и агрегирует результаты, полученные одним и тем же методом на каждом из заполненных массивов, с применением специфических формул, называемых правилом Рубина. Многократная подстановка пропущенных значений позволяет ввести поправку на неопределенность пропуска, то есть не рассматривать подставленное значение как фиксированное и точное отражение того ответа, который на самом деле мог бы дать респондент на данный вопрос.

Очевидно, что проводить один и тот же анализ несколько раз на каждом массиве, а затем объединять их — задача достаточно трудоемкая. Этот процесс отчасти автоматизирован в статистических пакетах, поддерживающих процедуру множественного заполнения пропусков, однако нередко исследователь все же сталкивается с необходимостью подсчитывать параметры вручную с использованием правила Рубина (к примеру, если дизайн исследования предполагает использование процедуры бутстреп для верификации результатов, а используемым статистическим пакетом является SPSS, который не производит процедуру бутстреп на массиве, созданном в результате применения множественного заполнения пропусков). В связи с этим исследователями неоднократно производились попытки упростить алгоритм множественного заполнения пропусков, однако до сих пор они ограничивались каким-либо специфическим видом анализа (к примеру, отбором подобного по вероятности — propensity score estimation [18]) или не слишком распространенной исследовательской ситуацией (например, когда есть возможность опросить всю генеральную совокупность и, в результате, отпадает необходимость в учете выборочной дисперсии [22]). Таким образом, не существует теоретических или эмпирических доказательств того, что эффективные альтернативы применению правила Рубина для всех прочих исследовательских ситуаций действительно существуют.

В данном исследовании предпринята попытка сравнения эффективности двух подходов к агрегированию результатов множественного заполнения пропусков. Первый — классический — предполагает проведение анализа на каждом из восстановленных при помощи множественного заполнения пропусков массивов и агрегирование результатов этого анализа при помощи правила Рубина. Этот метод используется практически во всех исследованиях, где для борьбы с пропусками применяется множественное заполнение. Второй возможный подход — поменять шаги классического алгоритма местами для упрощения работы с ним, то есть сначала произвести агрегирование заполненных значений так, чтобы несколько массивов снова объединить в один (в данной работе — при помощи «усреднения» подставленных вместо пропусков значений для каждого наблюдения, то есть подстановки на место пропуска в единичном массиве подходящей меры центральной тенденции значений, полученных для этого пропуска в результате множественного заполнения), и уже на нем проводить интересующие исследователя тесты. Очевидно, что использование классического, теоретически и методически хорошо разработанного и неоднократно протестированного алгоритма — путь более надежный, однако второй подход существенно ускоряет и облегчает работу с методом множественного заполнения пропусков и, согласно нашим предположениям, в определенных исследовательских ситуациях может служить эффективной заменой классическому алгоритму. Сравнить эффективность того или иного подхода теоретически достаточно трудно, поэтому для первичного тестирования предположений, на который направлена данное исследование, мы будем использовать статистический эксперимент.

Таким образом, данное исследование призвано установить, существуют ли исследовательские ситуации, в которых агрегирование результатов множественного заполнения пропусков при помощи усреднения подставленных значений и проведение анализа на единственном массиве будет более эффективно, чем агрегирование результатов анализа с применением правила Рубина. Мы предполагаем, что эффективность применения того или иного подхода зависит от конкретной исследовательской ситуации, под которой в данной работе мы подразумеваем комбинацию типа шкалы изучаемой переменной с пропусками, доли пропусков в массиве и метода анализа данных, который будет применяться к изучаемой переменной. В данном исследовании будут рассмотрены три типа шкал (номинальная, порядковая и интервальная), случаи 10, 30 и 50% пропусков в массиве и такие распространенные в социологических исследованиях методы анализа данных, как описательная статистика, поиск связи между переменными и линейная регрессия.

Таким образом, проблема исследования заключается в недостаточной изученности эффективности применения правила Рубина и усреднения значений, подставленных на место каждого пропуска как подходов к агрегированию результатов множественного заполнения пропусков в зависимости от исследовательской ситуации.

Цель исследования — оценить эффективность подходов к агрегированию результатов множественного заполнения пропусков (применение правила Рубина и усреднение заполненных значений) в зависимости от исследовательской ситуации.

Достижение указанной цели предполагает последовательное решение следующих задач:

. Описать суть алгоритма множественного заполнения пропусков и проанализировать основные подходы к агрегированию результатов множественного заполнения пропусков.

. Предложить методику эксперимента для сравнения эффективности применения правила Рубина и усреднения подставленных значений в зависимости от исследовательской ситуации.

. Сравнить эффективность применения правила Рубина и агрегирования при помощи усреднения подставленных значений в зависимости от исследовательской ситуации.

. Выявить наиболее эффективный подход к агрегированию результатов множественного заполнения пропусков для каждой из рассматриваемых исследовательских ситуаций.

Нужна помощь в написании диплома?

Мы - биржа профессиональных авторов (преподавателей и доцентов вузов). Сдача работы по главам. Уникальность более 70%. Правки вносим бесплатно.

Цена диплома

. Составить рекомендации по выбору подхода к агрегированию результатов заполнения пропусков в каждой исследовательской ситуации.

В связи с повсеместным применением классического подхода к агрегированию результатов множественного заполнения пропусков (то есть агрегированию результатов статистических тестов при помощи правила Рубина, заложенного в инструменты анализа результатов множественного заполнения пропусков в тех статистических пакетах, которые поддерживают эту процедуру), на данный момент не существует достаточных теоретических или эмпирических оснований, на которых можно было бы строить гипотезы. Соответственно, рамках данного исследования гипотез выдвинуто не будет.

Теоретическим объектом исследования являются подходы к агрегированию результатов множественного заполнения пропусков.

Предмет исследования — эффективность подходов к агрегированию результатов множественного заполнения пропусков в зависимости от исследовательской ситуации.

В качестве эмпирического объекта в исследовании выступают жители России, принявшие участие в шестой волне Европейского социального исследования, проведенного в 2012 году. Мы используем вторичные данные, поскольку не ставим перед собой никаких содержательных задач, а значит особенности эмпирического объекта не играют роли для целей исследования.

В качестве метода исследования выступает статистический эксперимент.

Таким образом, результатом данного исследования должен стать набор рекомендаций относительно выбора наиболее эффективного подхода к агрегированию результатов множественного заполнения пропусков — правила Рубина или усреднения подставленных значений — для некоторых исследовательских ситуаций. Глава 1. Множественное заполнение пропусков как метод борьбы с пропущенными данными Проблема пропусков в социологических данных

Пропущенные данные — проблема, практически неизбежно возникающая при проведении количественного научного исследования и влекущая за собой негативные последствия для его результатов. Хортон и Липшиц [14, p. 244] выделяют три типа затруднений, возникающих по причине наличия пропусков в собранных данных. Во-первых, таким затруднением является существенная потеря отдачи от информации, собранной на полевом этапе, поскольку итоговое количество полных наблюдений не соответствует дизайну исследования. Далее, стандартные статистические пакеты по умолчанию исключают наблюдения с пропусками из анализа тем или иным образом, что не только ставит под вопрос достоверность результатов анализа, но и ограничивает круг применимых к данным статистических инструментов; именно такие ограничения Хортон и Липшиц относят ко второму типу затруднений. Наконец, третий тип касается возможных смещений в результатах исследования по причине различий между наблюдаемыми и пропущенными данными [Ibid.]. Необходимо заметить, что коррекции на этапе анализа данных поддаются не все виды пропусков, поэтому существенным моментом является определение области применимости нашего исследования, а именно типов пропусков, представляющих интерес для данного исследования, которые мы рассмотрим далее. Классификация пропусков

В процессе сбора социологической информации может возникнуть несколько ситуаций, относящихся к пропускам в данных. Если респондент оказался достижим для исследователя и ему предложили пройти опрос, он может отказаться отвечать вообще (в результате чего мы будем иметь случай отсутствия наблюдения — unit nonresponse), либо ответить на все вопросы (в этом случае мы получим full response — полный ответ), а также отказаться отвечать только на некоторые вопросы анкеты или не суметь на них ответить, в этом случае возникает ситуация неполных наблюдений, то есть отсутствия некоторого набора значений переменных — item nonresponse, борьба с которой происходит уже на этапе обработки полученных данных [2, с. 29]. В фокус нашего исследования находятся именно пропуски типа item nonresponse, для борьбы с которыми применяются статистические методы борьбы с пропусками, в частности, множественное импутирование.

Наиболее принципиальной для выбора способа борьбы с пропусками является природа пропусков, характеризующаяся их случайностью или систематичностью, впервые систематизированная Рубином и Литтлом [6] и подробно описанная в [2, 10, 11, 23].

Пусть имеется некоторая база данных, в которой для каждого респондента k имеется набор из n ответов: k = (k1, …, kn). Тогда в ситуации item nonresponse некоторые из этих ответов, скорее всего, отсутствуют, и все ответы респондента можно разделить на наблюдаемые kobs и пропущенные kmis. Кенвард и Карпентер вводят для каждого ki коэффициент r, который Рубин и Литтл называют индикатором присутствия: он равен единице, если ответ присутствует, и нулю, если ответ пропущен [6, с. 18], и является так называемой случайной величиной второго типа: если обозначить распределение всех возможных значений переменной с пропусками как случайную величину первого типа, то случайная величина второго типа будет указывать на распределение для нее дихотомии «ответ-неответ» [3, с. 149]. В свою очередь, механизм порождения пропуска (missing data mechanism) — это вероятностное распределение r при условии k: P (r | k). Наше знание или незнание о механизме порождения пропусков определяет, каким методом анализа необходимо воспользоваться в каждом конкретном случае, причем если механизм неясен, то выбор производится в соответствии с предположениями исследователя об этом механизме. Анализ не всегда включает в себя механизм порождения пропусков в явном виде, но, если это необходимо, механизм вводится в модель посредством индикатора присутствия [6, с. 18]. Структура пропусков называется монотонной в том случае, если пропуск ki означает, что kj также пропущен для всех i > j [10, p. 200].

Перейдем к самой классификации. Рубин и Литтл выделяют три типа пропусков в зависимости от степени случайности их возникновения. Первый тип — полностью случайные пропуски или MCAR (missing completely at random), механизм порождения которых заключается в том, что вероятность пропуска не зависит от k: P(r | k) = P(r). Кроме того, пропуски называют полностью случайными, если их возникновение обусловлено дизайном исследования, не подразумевающим зависимость от k [10, p. 201]. Случайная величина второго типа в этом случае является определенной, то есть выборочная доля неответов может быть адекватно перенесена на генеральную совокупность [3, с. 152]. Зависимость между вероятностью пропуска, ответами на другие вопросы анкеты или потенциальными ответами на пропущенный вопрос для полностью случайных пропусков отсутствует, и уточнить предсказание о пропущенных значениях при помощи имеющейся информации мы не сможем [13, p. 50]. Те наблюдения, для которых ответ присутствует, образуют простую случайную подвыборку, а значит, являются несмещенной выборкой из генеральной совокупности. К ней можно применять те же статистические критерии, что и к оригинальной выборке, однако их мощность снижается из-за уменьшения ее объема. [2, с. 35].

Пропуск называют случайным или MAR (missing at random) если распределение r не зависит от пропущенных значений интересующей нас переменной: P (r | k) = P (r | kobs). Проще говоря, значения случайных пропусков можно предсказать при помощи других переменных в базе, для которых ответы присутствуют [13, с. 51]. В этом случае мы не можем утверждать, что наблюдения без пропусков образуют случайную подвыборку из оригинальной выборки, однако случайной подвыборкой является совокупность наблюдений с пропуском интересующей нас переменной в каждой подгруппе, выделенной в соответствии со значением определенной полной переменной [6, с. 23]. Таким образом, в данном случае отсутствует зависимость между распределением пропусков в ответах на вопрос и теми ответами, которые потенциально могли дать не ответившие респонденты, однако их неответы связаны со значениями других признаков. Распределение случайной величины для таких пропусков имеет смысл только в подвыборках, но не на всей генеральной совокупности [3, с. 152]. Как для MCAR, так и для MAR функцию f(r | k) можно не вводить в модель, поэтому эти виды пропусков называют игнорируемыми [10, p. 201].

Наконец, третий тип подразумевает, что распределение пропусков зависит как от пропущенных значений, так и от наблюдаемых признаков. В этом случае пропуски называют систематическими или MNAR (missing not at random) и относят к неигнорируемым. Можно сказать, что для систематических пропусков случайная величина второго типа вообще не существует [3, с. 153]. Такая ситуация требует обязательного включения в модель механизма порождения пропусков для устранения систематической ошибки в результатах, причем этот механизм, скорее всего, будет неизвестен исследователю [10, p. 202], поэтому стандартные методы борьбы со смещениями в неполных базах данных — взвешивание, анализ полных наблюдений или заполнение пропусков — не будут корректно выполнять свою задачу [12, p. 984]. Основная рекомендация по устранению систематических пропусков заключается в доработке инструментария до или во время этапа сбора данных, однако Р Глинн, Н. Лэрд и Д. Рубин [12] предлагают метод, позволяющий пользоваться уже имеющимся опросником. Суть их метода заключается в повторной попытке опроса респондентов, в ответах которых возникли неигнорируемые пропуски, получения случайной подвыборки тех, кто ответил при повторном опросе и использования этих наблюдений в смешанной модели с применением множественного заполнения пропусков.

Несмотря на четкое определение механизма порождения пропусков для каждого из рассмотренных случаев, на практике точно сказать, в какую категорию попадают имеющиеся пропуски, не представляется возможным. Однако существует несколько способов установить, являются ли имеющиеся пропуски не полностью случайными или MNCAR (missing not completely at random). Один из них — показатель DRSS, оценивающий различия сумм квадратов остатков в регрессионных уравнениях, построенных на массивах, к которым были применены несколько разных методов заполнения пропусков. В случае, если различия значимы, пропуски являются не полностью случайными. Другой показатель — DXX — использует оценку изменения матрицы Х’Х, где Х — ковариационная матрица для независимых переменных. На не полную случайность пропусков в этом случае указывает значимое изменение ковариационной матрицы признаков [2, с. 37].

Нужна помощь в написании диплома?

Заказать диплом

Эти способы, как мы видим, позволяют с уверенностью различать полную (MCAR) и не полную (MAR и MNAR) случайность пропусков; различение же MAR и MNAR может базироваться только на исследовательских допущениях, но полностью исключить присутствие в базе данных систематических пропусков на основании анализа наблюдаемых значений нельзя [13, p. 51]. Кроме того, необходимо помнить, что определить степень случайности пропусков возможно исключительно с точностью до имеющихся в массиве переменных: в случае отсутствия в нем переменной, от которой может зависеть распределение пропусков, исследователь может ошибочно определить их как полностью случайные.

Таким образом, областью применимости данного исследования являются только случаи игнорируемых пропусков, поскольку с ними есть возможность эффективно бороться уже после этапа сбора информации с помощью различных способов устранения пропущенных данных, о которых пойдет речь далее. Методы борьбы с пропущенными данными

На сегодняшний день для устранения пропусков в данных разработано множество методов, от самых простых (например, исключение неполных наблюдений) до комплексных, в основе которых лежат сложные алгоритмы подбора пропущенных значений в зависимости от характера пропусков, имеющихся в массиве данных и предположений исследователя. Кратко обратимся к наиболее распространенным из них.

В первую очередь, обратимся к простым, или, как их называют Литтл и Рубин, быстрым методам борьбы с пропусками: анализу полных наблюдений, анализу доступных наблюдений и взвешиванию данных. Необходимо заметить, что эти подходы подразумевают полную случайность имеющихся пропусков и не подходят для случаев, когда пропуски являются случайными. Рассмотрим каждый из них в отдельности.

При использовании метода анализа полных наблюдений пропуски из базы удаляются построчно, в SPSS, где быстрые методы борьбы с пропусками являются установленными по умолчанию, этот метод обозначен как listwise deletion. Очевидно, что в этом случае потеря информации окажется, как минимум, существенной. Как уже было сказано выше, данный метод применим исключительно к полностью случайным неответам и только в этом случае не приведет к смещению результатов анализа данных. Несмотря на очевидные недостатки в виде жестких требований к пропускам и высокой потере данных, данный способ является простым и позволяет сравнивать между собой одномерные статистики [6, с. 49], что и обеспечивает ему популярность в академической среде. К примеру, исследование Кинга и его коллег показало, что в период с 1993 по 1997 год (то есть спустя 15-20 лет после того, как Дональд Рубин разработал и представил научному сообществу метод множественного заполнения пропусков) около 94% исследователей использовали метод анализа полных наблюдений с потерей до трети собранных данных [13, p. 49].

Метод анализа доступных наблюдений (pairwise deletion) в некоторой степени избавлен от недостатков метода полных наблюдений и подразумевает использование в анализе всех наблюдений, содержащих интересующую исследователя переменную. В этом случае одномерные статистики приобретают смысл сами по себе, однако теряют преимущество сравнимости, поскольку вычисляются на различных подвыборках в зависимости от распределения пропусков. К примеру, если на вопрос о доверии политикам ответы не дали одни респонденты, а на вопрос о доверии полиции — другие, сравнивать уровни доверия политикам и полиции нельзя, поскольку на первый вопрос давала ответ одна подвыборка, а на второй — другая. В случае, если метод анализа данных требует использования более чем одной переменной, в рамках данного способа необходимо рассматривать только наблюдения, для которых присутствуют значения каждой из интересующих исследователя переменных.

Взвешивание данных позволяет исследователю применить к базе метод удаления неполных наблюдений, но сохранить при этом запланированный объем выборки. Для этого полные наблюдения в очищенной базе «взвешивают», то есть назначают каждому наблюдению некоторый вес при расчетах в соответствии с коэффициентом, заданным исследователем. Коэффициент определяется переменной (или переменными), для которых необходимо сохранить структуру выборки. Например, необходимо провести сравнение средних значений индекса счастья в десяти странах, и исследователь хочет применить для этого параметрический метод, однако в двух из десяти стран количество полных наблюдений меньше тридцати, и, следовательно, параметрические методы к таким выборкам неприменимы. В этом случае исследователь при помощи специальных процедур, предусмотренных статистическими пакетами, может увеличить вес каждого наблюдения в двух малых выборках относительно всей совокупности так, что в процессе анализа данных с поправкой на весовой коэффициент выборки для двух интересующих нас стран окажутся достаточными для параметрических тестов. Альтернативный способ применения взвешивания в данном случае — увеличение веса случайно отобранных наблюдений из малых выборок, пока их не окажется достаточно для проведения параметрического анализа. Метод взвешивания полных наблюдений, однако, не лишен тех же недостатков, что и прочие рассмотренные нами быстрые способы борьбы с пропусками: увеличение веса случайных наблюдений может создать или усугубить смещения, имевшиеся в выборке полных наблюдений [2, с. 41], причем не только для выборок с пропусками, но и для полных переменных.

Рассмотрев простые методы борьбы с пропусками и их недостатки, обратимся к более эффективному и современному способу — заполнению пропусков, целью которого является восстановление исходной структуры информации на основании имеющихся в массиве данных. Таким образом исследователь ни в коем случае не производит ответы, которые респондент не давал, но делает предположения о возможном ответе.

Существует несколько методов заполнения пропусков в данных, которые Р. Литтл разделил на простые и сложные, локальные и глобальные. К простым методам относятся заполнение пропусков мерами центральной тенденции, регрессионное моделирование (метод Бака) и Hot Deck. Сложные методы, в свою очередь, подразделяются на локальные (множественное заполнение пропусков) и глобальные (EM-алгоритм). «Глобальность» алгоритма указывает на то, что для заполнения пропуска используются все остальные значения переменных в базе данных, а «локальность» — на использование только близких к пропуску полных наблюдений [2, с. 52-54]. Рассмотрим подробно каждый из этих методов.

Наиболее простые методы заполнения пропусков — заполнение безусловными мерами средней тенденции и заполнение условными средними. В первом случае пропуски заполняются модой для номинальных переменных, медианой для порядковых и средним для интервальных, вычисленными на имеющихся значениях переменной, однако простота данного метода нивелируется тем, что оценки дисперсии и ковариации в этом случае занижаются из-за увеличения количества срединных значений в распределении. Второй случай — метод Бака или регрессионное моделирование — более комплексный и подразумевает «подстановку средних, условных по присутствующим в наблюдении переменным» [6, с. 55]. Он подходит для двух коррелирующих между собой переменных и предполагает построение линейной регрессии зависимости переменной с пропусками от полной переменной на основе наблюдаемых пар ответов. В случае подстановки условных средних дисперсия и ковариация также занижаются, но не так выраженно, как в случае подстановки безусловных мер [1, с. 74].

Hot Deck (метод ближайшего соседа, метод заполнения выборочными значениями) — это метод заполнения пропусков, основанный на расстояниях между объектами, вычисленных исходя из значений известных признаков. Для подстановки можно использовать как значение признака, соответствующее наблюдению, наиболее близкого к неполному [2, с. 44], так и усредненное значение признака в некотором кластере близких объектов либо случайно выбранное в этом кластере значение [1, с. 74]. Способ вычисления расстояний между объектами может варьироваться в зависимости от специфики данных и целей исследования.

Метод максимального правдоподобия, или EM (Expectation-Maximization) -алгоритм — это итеративная процедура, применимая только к интервальным шкалам для решения задач взвешивания оценок наименьших квадратов, оценивания компонент дисперсии и заполнения пропусков в данных. Алгоритм состоит из двух шагов, условно обозначенных Е от Expectation и M от Maximization. На шаге E, основываясь на ковариационных матрицах, мерах центральной тенденции и корреляции между переменной с пропусками и другими переменными в базе предсказывается значение пропуска. На шаге М итеративно максимизируется соответствие между ковариационными матрицами [4, с. 46]. Этот метод является достаточно медленным в условиях большого количества пропусков, поскольку оптимизация потребует большого количества итераций [1, с. 74].

Множественное заполнение пропусков (Multiple Imputation) отличается от всех предыдущих методов тем, что каждое пропущенное значение заменяется рассчитанным значением не однократно, как в методах, рассмотренных выше, а несколько раз, в результате чего исследователь получает несколько полных массивов. В случае применения классического алгоритма с применением правила Рубина процедура происходит следующим образом: на каждом из полученных в результате множественного заполнения пропусков исследователь должен провести интересующий его статистический тест, а затем агрегировать результаты тестов при помощи набора формул, называемых правилом Рубина. В случае же применения метода, который будет протестирован против правила Рубина в данном исследовании, подставленные значения из полученных в результате множественного заполнения пропусков массивов сначала агрегируются (усредняются), результатом чего становится единственный массив с усредненными результатами множественного импутирования, и уже на нем производится интересующий исследователя статистический тест. Применение метода множественного заполнения пропусков позволяет рассматривать подставленное значение не как фиксированное и однозначно известное, но внести поправку на его неопределенность. Поскольку именно множественное заполнение пропусков находится в фокусе данного исследования, рассмотрим смысл этого подхода более подробно и обратим внимание на каждый из шагов алгоритма в том виде, который был разработан Рубином и используется в большинстве случаев до сих пор, затем рассмотрим альтернативы классическому способу агрегирования результатов множественного заполнения пропусков, а также опишем реализацию множественного заполнения пропусков в пакете SPSS, который будет использован в рамках данного исследования. Множественное заполнение пропусков

При подстановке значений на место пропущенных данных исследователь должен помнить, что результаты импутирования не являются реальными ответами респондентов, и при анализе необходимо учитывать неопределенность, порождаемую совместным распределением интересующей нас переменной с пропусками и соответствующего ей индикатора присутствия, а также самой моделью заполнения (модели заполнения будут подробно рассмотрены ниже) [23, p. 581]. Для снижения этой неопределенности Рубином и Литтлом был разработан метод множественного заполнения пропусков, подразумевающий, что пропуски в исходном массиве заполняются несколько раз с использованием одной и той же модели заполнения пропусков. Тот факт, что в каждом из полученных массивов подставленные значения существенно различаются, эмпирически доказывает существование упомянутой нами неопределенности [2, с. 46].

Достоинства этого метода перед прочими заключаются, во-первых, в том, что множественное импутирование вводит случайную ошибку в процесс заполнения пропусков, что позволяет получить относительно несмещенные оценки статистических параметров; во-вторых, он вносит поправку на дополнительную ошибку, возникающую в процессе импутирования; в-третьих, разнообразие моделей заполнения пропусков и вариабельность позволяют применять этот метод к любому типу данных без использования специальных программ [9, p. 304]. Разберем подробнее, что конкретно здесь подразумевается под «поправкой на дополнительную ошибку». В том случае, если на вопрос ответили все респонденты, в распределении их ответов будет наблюдаться некоторая дисперсия, которую мы можем оценить с точностью до имеющейся выборки и которая является одним из основных показателей искомого закона распределения интересующей нас величины. В том случае, если на вопрос ответили не все респонденты, оценка дисперсии по имеющимся наблюдениям будет гораздо менее точной, чем предполагал изначальный дизайн исследования. Если же мы заполняем эти пропуски только один раз, мы рассматриваем полученные значения как реальные ответы и можем учесть их искусственную природу только условно, а не статистически. В случае применения множественного заполнения пропусков к выборочной («внутримассивной») дисперсии добавляется «межмассивная» дисперсия, которая и позволяет брать в расчет тот факт, что подставленные значения не являются реальными ответами респондентов, иными словами, рассматривать набор подставленных вместо конкретного пропуска значений как выборку, позволяющую установить не истинный ответ респондента, а интервал, в котором этот ответ лежит с некоторой вероятностью.

Сам алгоритм состоит из четырех последовательных шагов:

Нужна помощь в написании диплома?

Подробнее

. Обследование пропусков.

. Определение модели заполнения.

. Подстановка значений.

. Анализ данных и агрегирование результатов.

Рассмотрим принципы и особенности работы с алгоритмом множественного заполнения пропусков по порядку производимых для его осуществления действий. Шаг 1: оценка количества и характера пропусков в массиве

На данном шаге исследователь должен, во-первых, определить, к какой шкале относится переменная, содержащая пропуски, во-вторых, проверить пропуски на монотонность и, в-третьих, установить, присутствуют ли в массиве переменные, которые можно использовать для расчета значений, подставляемых на место пропуска. Тип шкалы (дискретная или непрерывная) и структура пропусков (монотонная или немонотонная) определяет, какую модель импутирования нужно будет применить на следующем шаге. Если тип шкалы исследователь может определить самостоятельно, то для оценки на монотонность в статистических пакетах, поддерживающих процедуру множественного заполнения пропусков, существуют специальные инструменты (к примеру, в пакете SPSS для этого используется команда Analyze patterns).

Не существует строгих принципов выбора переменных, используемых для расчета подставляемых значений, в этом вопросе исследователю следует полагаться на собственные предположения и ограниченный набор рекомендаций. К примеру, одним из способов, позволяющих установить наиболее подходящие в смысле расчета значений для заполнения переменные, является мод

Предыдущий пример

Следующий пример