Программный комплекс для подготовки и проведения...

12
Программный комплекс для подготовки и проведения автоматизированной обработки и получения итогов выборочного наблюдения репродуктивных планов населения в 2012 году Цели создания ПК РПН-2012 Основной целью работы является создание автоматизированной системы, позволяющей своевременно и оперативно осуществлять подготовку, проведение, обработку вопросников РПН- 2012 в рамках реализации Системы федеральных статистических наблюдений по социально- демографическим проблемам. В результате создания ПК РПН-2012 должны быть достигнуты следующие результаты: 1. Осуществлена подготовка к РПН-2012. 2. Осуществлена обработка первичных материалов РПН-2012. 3. Созданы территориально-распределенные программно-аппаратные комплексы, развернутые в региональных центрах обработки, с интегрированной системой защиты информации. 4. Соблюдена единая методика и технология в процессе обработки данных РПН- 2012, обеспечивающая единство подходов и методов в получении информации во всех территориально распределенных центрах обработки. 5. Достигнута высокая скорость и качество технической поддержки процессов обработки за счет единой точки регистрации и обработки всех заявок и обращений пользователей. 6. Осуществлена выгрузка данных, прошедших контроль, для последующей передачи на федеральный уровень. 7. Осуществлена обработка материалов РПН-2012 на федеральном уровне. 8. Сформирована итоговая база данных на федеральном уровне. 9. Опубликованы итоги РПН-2012 на web-ресурсе Росстата с возможностью удаленного доступа к базе микроданных. Характеристики объектов и субъектов автоматизации

Transcript of Программный комплекс для подготовки и проведения...

Программный комплекс для подготовки и проведения автоматизированной обработки и получения итогов выборочного наблюдения репродуктивных планов населения в 2012 году

Цели создания ПК РПН-2012

Основной целью работы является создание автоматизированной системы, позволяющей своевременно и оперативно осуществлять подготовку, проведение, обработку вопросников РПН-2012 в рамках реализации Системы федеральных статистических наблюдений по социально-демографическим проблемам.

В результате создания ПК РПН-2012 должны быть достигнуты следующие результаты:

1. Осуществлена подготовка к РПН-2012.

2. Осуществлена обработка первичных материалов РПН-2012.

3. Созданы территориально-распределенные программно-аппаратные комплексы, развернутые в региональных центрах обработки, с интегрированной системой защиты информации.

4. Соблюдена единая методика и технология в процессе обработки данных РПН-2012, обеспечивающая единство подходов и методов в получении информации во всех территориально распределенных центрах обработки.

5. Достигнута высокая скорость и качество технической поддержки процессов обработки за счет единой точки регистрации и обработки всех заявок и обращений пользователей.

6. Осуществлена выгрузка данных, прошедших контроль, для последующей передачи на федеральный уровень.

7. Осуществлена обработка материалов РПН-2012 на федеральном уровне.

8. Сформирована итоговая база данных на федеральном уровне.

9. Опубликованы итоги РПН-2012 на web-ресурсе Росстата с возможностью удаленного доступа к базе микроданных.

Характеристики объектов и субъектов автоматизации

Объектом автоматизации являются процессы полного цикла автоматизированной обработки материалов РПН-2012.

Проведение обследования репродуктивных планов населения включает в себя следующие этапы:

Этап 1. Подготовка к проведению РПН-2012.

Этап 2. Проведение РПН-2012.

Этап 3. Ввод и обработка первичных материалов РПН-2012 на региональном уровне.

Этап 4. Обработка первичных материалов РПН-2012 на федеральном уровне, получение сводных итогов.

Этап 5. Формирование и выверка базы данных РПН-2012 на федеральном уровне.

Этап 6. Получение итогов РПН-2012 на федеральном уровне.

Этап 7. Распространение итогов обследования.

Для реализации вышеперечисленных этапов в рамках проекта по разработке автоматизированной системы для обработки и публикации итогов обследования автоматизированы следующие объекты:

1) Процесс формирования на федеральном уровне списка домохозяйств. 2) Процесс регистрации, ввода и кодирования первичных данных на региональном

уровне. 3) Процесс формального и логического контроля первичных данных на региональном

уровне. 4) Процесс расчета дополнительных показателей, автокоррекции и импутации данных на

федеральном уровне. 5) Процесс распространения данных на генеральную совокупность. 6) Процесс формирования регламентных и публикационных таблиц. 7) Процесс загрузки данных наблюдения в комплексы SuperSTAR и SPSS Statistics. 8) Процесс публикации итогов наблюдения на сайте Росстата.

Так же в рамках технологических работ должны быть автоматизированы следующие вспомогательные процессы:

1) Процесс администрирования.

2) Процесс формирования и ведения нормативно-справочной информации. 3) Процесс мониторинга хода автоматизированной обработки.

Субъекты автоматизации ПК РПН-2012 распределены по двум уровням:

Региональный уровень включает в себя региональные центры подготовки и обработки материалов РПН-2012, которые располагаются в Территориальных органах государственной статистики (ТОГС). Региональные центры осуществляют следующие задачи регионального уровня:

− загрузка списка домохозяйств; − ввод, кодирование и первичный контроль данных с вопросников РПН-2012; − формальный и логический контроль данных РПН-2012; − выверки промежуточных итогов РПН-2012; − мониторинг проведения РПН-2012.

Федеральный уровень включает в себя Центральный аппарат Росстата и центр обработки данных на федеральном уровне (ЦОДФУ), который отвечает за автоматизированную обработку материалов РПН-2012 и формирование итоговой базы данных на федеральном уровне. На федеральном уровне выполняются следующие задачи:

− загрузка электронных пачек с данными РПН-2012 в базу данных первичного информационного фонда (БД ПИФ ФУ);

− выполнение этапа автокоррекции; − выполнение этапа импутации; − выполнение этапа распространения данных на генеральную совокупность; − формирование базы данных обобщенного информационного фонда (БД ОИФ ФУ); − построение регламентных и публикационных таблиц, построения не регламентных

таблиц; − обеспечение публикации итогов РПН-2012 в Интернете; − обеспечение удаленного доступа к базе микроданных; − мониторинг проведения РПН-2012.

Описание процессов

Процесс формирования на федеральном уровне списка домохозяйств заключается в загрузке на региональном уровне Excel файла с перечнем населенных пунктов и привязанного к ним списка обследуемых домохозяйств.

Процесс ввода и кодирования материалов обследования заключается в ручном вводе данных с форм РПН-2012 на автоматизированных рабочих местах (АРМ), кодирование словарных полей вопросников при помощи использования поиска значений в электронных справочниках и последующее сохранение данных в виде электронных пачек.

Процесс контроля данных заключается в проведении формального и логического контроля на АРМ, в соответствии с правилами, описанными в экономическом описании.

Процесс формирования пообъектной базы данных (ПБД ФУ) заключается в последовательном слиянии в единый массив всех данных, полученных в ходе РПН-2012, в последовательном выполнении этапов автокоррекции, импутации и распространении данных на генеральную совокупность.

Процесс получения итоговых таблиц заключается в пакетной генерации итоговых отчетов, на основе сконструированных макетов таблиц в соответствии с экономическим описанием.

Процесс загрузки данных наблюдения в комплексы SuperSTAR и SPSS Statistics заключается в выгрузке итоговых данных обследования в соответствующие программные комплексы для дальнейшей обработки и анализа.

Процесс публикации итогов РПН-2012 заключается в публикации и предоставлении общего доступа к итогам РПН 2012 года в Интернете, системном представлении итогов обследования в виде обобщенного информационного фонда по отдельным единицам обследования, содержащего первичные и агрегированные (сводные) данные.

Процесс администрирования заключается в установке и обновлении программного обеспечения, в настройке прав доступа к задачам, выполняемым подсистемами.

Процесс формирования и ведения нормативно-справочной информации заключается в просмотре и актуализации нормативно-справочной информации (справочников).

Процесс мониторинга проведения РПН-2012 заключается в предоставлении информации о ходе автоматизированной обработки в виде набора отчетов.

Ключевые преимущества технологий регионального уровня

На регионально уровне по мере поступления заполненных вопросников осуществляется ввод домохозяйства в систему и для каждого добавленного в систему домохозяйства ввод, кодирование и первичный контроль данных с вопросников. В процессе сохранения введенных

данных по домохозяйству осуществляется автоматическое формирование электронной пачки. После полного ввода домохозяйства выполняется формальный и логический контроль введенных данных. При наличии ошибок контроля осуществляется редактирование домохозяйства и выполняется повторный формальный и логический контроль данных. Электронная пачка сразу сохраняется в базу данных на федеральном уровне.

Основные требования, предъявляемые к подсистеме ввода, кодирования и контроля данных форм РПН-2012

Инструментарием комплексного обследования являются следующие вопросники: − вопросник для домохозяйства; − индивидуальный вопросник.

Функциональные требования − Подсистема должна предоставлять возможность пользователю вносить данные из

вопросника РПН-2012 в соответствующие поля на форме ввода данных. Поля на форме ввода данных должны соответствовать полям вопросника.

− Пользователям должна предоставляться возможность кодирования словарных полей вопросников при помощи использования поиска значений в электронных справочниках.

− Ко всем полям, по которым происходит кодирование, должны быть подключены электронные словари с возможностью поиска.

− Подсистема должна предоставлять возможность пользователям выполнять сохранение вводимой информации на любом этапе ввода данных с форм.

− При сохранении должна фиксироваться информация об учетной записи оператора ввода.

− Подсистема должна предоставлять возможность в разрезе домохозяйств формировать электронные пачки, состоящие из вопросников со статусов «Ввод закончен».

− Подсистема должна предоставлять возможность проведения выборочной верификации – повторного ввода отдельных вопросников другим оператором и сравнение введенных данных для проверки достоверности введенных данных.

− Подсистема должна предоставлять возможность проведения формального и логического контроля в пределах одного вопросника. В случае обнаружения ошибки логического или формального контроля на экране должна отображаться следующая информация: сообщение об ошибке; номер сработавшего правила формально-логического контроля; ссылки на поля вопросника, участвовавшие в проверке с возможностью быстрой навигации по ним.

− Подсистема должна предоставлять возможность просмотра оператором пачки в режиме прохождения формально-логического контроля с возможностью перехода к следующей ошибке в данных по мере ее исправления.

− Подсистема должна предоставлять возможность разделения ошибок на «жесткие», т.е. обязательные для исправления и не позволяющие без исправления продолжить формально-логический контроль, и «мягкие», которые оператор, изучив ситуацию, может признать неисправляемыми, пометить и продолжить контроль. Информация о «мягких» ошибках, зафиксированных в пачке, должна сохраняться на все время ее существования.

− Подсистема должна фиксировать информацию обо всех действиях оператора, включая вид и время операций, ошибки и исправления в журнале обработки каждой электронной пачки. Данная информация должна быть доступна в мониторинге хода автоматизированной обработки материалов обследования по запросу, сформированному заказчиком.

Состав и структура подсистемы Подсистема состоит из модуля ввода и кодирования, а также из модуля формального и

логического контроля данных с вопросников РПН-2012. Модуль ввода и кодирования выполнен в виде формы, через которую осуществляется

ручной ввод данных с вопросников, при этом поля формы ввода полностью соответствуют полям вопросника.

На форме присутствуют три основные области: «Область отображения полей вопросника», «Область операций» и «Область отображения перечня вопросников и ошибок контроля».

Модуль ввода позволяет оперативно вводить данные с вопросников за счет полного соответствия полей формы полям вопросника. Ко всем словарным полям подключены электронные справочники. Выбранный ответ у вопроса подсвечивается специальным цветом. Данный механизм позволяет упростить процедуру визуального контроля данных.

В результате ввода вопросников одного домохозяйства формируются электронная пачка, содержащая информацию о домохозяйстве с данными введенных вопросников.

Электронная пачка является единицей хранения информации, подлежащей обработке на федеральном уровне.

Имя пачки формируется из набора полей: код территории, код населенного пункта и код домохозяйства, и является уникальным атрибутом пачки.

По завершению ввода данных с вопросника выполняется формальный и логический контроль данных. Формальный и логический контроль данных реализуется в соответствии с экономическим описанием (ЭО). Правила контроля включают межформенную и внутриформенную проверку данных с вопросников.

Подсистема предоставляет возможность производить контроль по каждому отдельному вопроснику или производить массовую проверку домохозяйств.

Контроль отдельного вопросника производится на форме ввода данных с вопросников, что позволяет осуществлять контроль в процессе ввода данных с вопросника. При обнаружении ошибок контроля выводится их перечень в области ошибок контроля. При наведении на ошибку контроля отображается описание данной ошибки. При нажатии на ошибку контроля осуществляется автоматический переход к полю вопросника для исправления ошибки контроля.

Массовая проверка домохозяйств (АвтоФЛК) позволяет проверить все домохозяйства, находящиеся в статусе «Ввод завершен», «ФЛК пройден», «Отправлен/выгружен». По окончании проверки в окне запуска контроля выводятся ее результаты.

Домохозяйства, в которых ошибок не обнаружено после запуска операции контроля, автоматически переходят в статус обработки «ФЛК пройден».

Ключевые преимущества технологий федерального уровня

На федеральном уровне в рамках системы ПК РПН-2012 формируется центральное хранилище (БД ПИФ ФУ). Затем осуществляется формирование первичных и расчетных показателей (формируется БД ОИФ ФУ). Как только из данных электронных пачек сформированы первичные показатели, пользователи ЦОДФУ получают возможность конструировать запросы к БД ОИФ ФУ с использованием программного продукта SPSS Statistic.

В процессе формирования БД ОИФ ФУ возможно применение различных правил, позволяющих исправить найденные систематические аномалии в данных методом автокоррекции, а также восстановить пропущенные данные методом импутации c использованием программного продукта SPSS Statistic.

Процесс получения итогов ПК РПН-2012 проводится на федеральном уровне. Получение итогов заключается в формировании предопределенных в ЭО рабочих и публикационных таблиц, а также самостоятельном конструировании персоналом заказчика произвольных макетов таблиц и увязок. На основе разработанных макетов таблиц осуществляется пакетная генерация итоговых отчетов, содержащих данные обследования, осуществляется выверка внутритабличных и межтабличных увязок. После того, как данные в базе выверены, полученные итоговые отчеты могут быть опубликованы.

Представления итогов обследования в виде обобщенного информационного фонда по отдельным единицам обследования, содержащего первичные и агрегированные (сводные) данные осуществляется с использованием программного продукта Space-Time Research SuperSTAR.

ПК РПН-2012 федерального уровня состоит из следующих функциональных блоков: − Автоматическое прохождение формального и логического контроля. − Формирование базы данных обобщенного информационного фонда и расчет

показателей. − Анализа полученных данных. − Исправление систематических аномалий в данных. − Получение итоговых таблиц. − Публикация итогов в интернете.

В процессе получения данных с регионального уровня и загрузки электронных пачек в БД ПИФ ФУ система предоставляет возможность оператору осуществлять массовую проверку домохозяйств (АвтоФЛК), что уменьшает вероятность попадания в базу данных обобщенного информационного фонда (БД ОИФ ФУ) некорректных данных.

Для анализа данных используется программный продукт SPSS Statistic, который позволяет эффективно анализировать данные и наглядно представлять результаты в виде таблиц и диаграмм.

SPSS Statistics включает следующие ключевые функции: − Линейные модели предлагают разнообразные процедуры регрессионного и

расширенного статистического анализа, спроектированные с учетом присущих характеристик составных отношений описания данных.

− Нелинейные модели предоставляют возможность применять к данным более сложные модели.

− Настраиваемые таблицы позволяют пользователям легко определять суть данных и быстро выводить обзор результатов в разных стилях для разных потребителей.

Для анализа данных во всех разрезах в SPSS используются OLAP. При этом OLAP-кубы SPSS гораздо проще в использовании, чем OLAP-кубы, созданные в других программных продуктах. Пользователям предоставляется возможность самостоятельно настраивать OLAP-кубы, не обращаясь за помощью к специалистам по информационным технологиям. OLAP-кубы SPSS работают непосредственно на основе файлов данных SPSS и в них используются метки переменных и значений. При помощи SPSS можно агрегировать в OLAP-кубы миллионы строк, что позволяет без труда анализировать данные любых типов и объемов.

В процессе анализа обобщенного информационного фонда могут быть найдены систематические аномалии в данных или пропуски в данных. Для исправления найденных систематических аномалий в данных применяется метод автокоррекции, для восстановления пропущенных данных применяется метод импутации. Пользователям предоставляется возможность, используя программный продукт SPSS, самостоятельно применять различные методы импутации и автокоррекции, а также указывать перечень переменных, для которых данные методы должны быть применены.

ПК РПН-2012 предоставляет возможность выгружать данные обобщенного информационного фонда для дальнейшей обработки их в системе Space-Time Research SuperSTAR.

Система предоставляет возможность на основе разработанных макетов таблиц осуществлять пакетную генерацию итоговых отчетов, содержащих данные комплексного обследования.

Представления итогов обследования в виде обобщенного информационного фонда по отдельным единицам обследования, содержащего первичные и агрегированные (сводные) данные осуществляется с использованием программного продукта Space-Time Research SuperSTAR.

Всем посетителям web-сайта с итогами обследования доступны следующие функции: − выполнение одного или нескольких запросов; − формирование шаблонов запросов; − представление результатов выполнения запроса, как в виде таблиц, так и в виде

графиков и диаграмм для их дальнейшего анализа; − сохранение результатов выполнения запросов на компьютере пользователя в

форматах Excel; − формирование итоговых значений с учетом и без взвешивания (подключение и

отключение коэффициента взвешивания); − добавление расчетных показателей по заданной формуле в шаблон запроса; − расчет количества записей в пределах объекта наблюдения по определенному

признаку или условию; − вычисление суммовых, средних, минимальных, максимальных значений в шаблоне

запроса; − формирование агрегированных показателей из данных разных таблиц (по типам

вопросников), связь между которыми осуществляется по ключевым полям; − фильтрация, отбор записей и их реквизитов по заданному критерию.