MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de...
Transcript of MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS MARCO DE ESTADÍSTICA ESP… · Estadística Espacial de...
MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS
Autores: Jesús Alberto González Yanes, Rafael Betancor Villalba, Esther Torres Medina, Mariano
Sanz Gil, Mª Salomé Hernández García
Organismo de procedencia: Instituto Canario de Estadística (ISTAC)
Palabras clave: GIS, Georreferenciación, API, Mesh Block, GRID.
Resumen: El Marco de Estadística Espacial de Canarias se concibe con el objetivo de establecer las
bases de referencia para la integración de la información estadística y geográfica en la Comunidad
Autónoma de Canarias.
El Marco de Estadística Espacial de Canarias está inspirado y es compatible con el Global Statistical
Geospatial Framework elaborado por el Grupo de Expertos de Integración de Información Estadística
y Geoespacial de Naciones Unidas (UN EG-ISGI, United Nations Expert Group on the Integration of
Statistical and Geospatial Information). Este marco global fue la respuesta de Naciones Unidas a la
constatación, en el Foro Global de la Integración Estadística y Geoespacial celebrado en Agosto de
2014 en Nueva York, de la necesidad urgente de un mecanismo que facilitara enfoques consistentes
de producción e integración de información geoestadística.
El Marco de Estadística Espacial de Canarias es un marco genérico de alto nivel que se estructura en
torno a cinco principios que se consideran esenciales para la integración de la información estadística
y espacial:
1. Sistema de georreferenciación y geocodificación sólido
2. Almacenamiento de datos georreferenciados en la Infraestructura de Datos y Metadatos
Estadísticos de Canarias
3. Entidades geográficas comunes para la difusión de estadísticas.
4. Datos interoperables y estándares de metadatos.
5. Geoestadísticas accesibles y usables.
I. PRINCIPIOS DEL MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS 2 Principio 1: Sistema de georreferenciación y geocodificación sólido 3 Principio 2: Almacenamiento de datos georreferenciados integrado en la Infraestructura de Datos y Metadatos Estadísticos de Canarias 5 Principio 3: Entidades geográficas comunes para la difusión de estadísticas 5 Principio 4: Datos interoperables y estándares de metadatos 6 Principio 5: Geoestadísticas accesibles y usables 7
II. ORGANIZACIÓN Y GESTIÓN DE LA INFORMACIÓN ESPACIAL 8 2.1. Los esquemas-tipo del entorno repositorio del Banco de Datos 8 2.2. Los esquemas-tipo de Información Geográfica de Referencia (IGR) 11 2.3. Almacenamiento de georreferencias en los esquemas de microdatos 13 2.4. El registro de portales en el esquema de datos maestros 17
III. SISTEMA DE GEORREFERENCIACIÓN Y GEOCODIFICACIÓN 22 3.1. Sistema de georreferenciación 22 3.2. Sistema de geocodificación 28
IV. INFRAESTRUCTURA DE NORMALIZACIÓN Y REUTILIZACIÓN 31 4.1. La información territorial en la API de recursos estructurales 31 4.2. La API de callejeros 32 4.3. La API de georreferenciación y georreferenciación inversa 33
Bibliografía 34
1
I. PRINCIPIOS DEL MARCO DE ESTADÍSTICA ESPACIAL DE CANARIAS
El Marco de Estadística Espacial de Canarias se concibe con el objeto de establecer las bases de
referencia para la integración de la información estadística y espacial en la Comunidad Autónoma de
Canarias. La integración de la información estadística y geográfica es un aspecto crítico para:
1. Los procesos de toma de decisiones en diferentes ámbitos competenciales., especialmente a
escalas municipales o suburbanas.
2. Oportunidad de nuevos análisis que no son posibles analizando la información demográfica,
socioeconómica, medioambiental o espacial por separado.
3. Examinar nuevas fuentes de datos que incluyen información geoespacial, como por ejemplo
los datos de telefonía móvil.
4. Apoyar el intercambio de información entre instituciones y mejorar la interoperabilidad de la
información geográfica y estadística.
5. Sentar las bases para la colaboración institucional entre las comunidades geográfica y
estadística.
El Marco de Estadística Espacial de Canarias está inspirado y es compatible con el Marco Estadístico
Geoespacial Global desarrollado por el Grupo de Expertos de Integración de Información Estadística
y Geoespacial de Naciones Unidas (UN EG-ISGI, United Nations Expert Group on the Integration of
Statistical and Geospatial Information). Este marco global fue la respuesta de Naciones Unidas a la
constatación, en el Foro Global de la Integración Estadística y Geoespacial celebrado en Agosto de
2014 en Nueva York, de la necesidad urgente de un mecanismo que facilitara enfoques consistentes
de producción e integración de información geoestadística.
El Marco de Estadística Espacial de Canarias es un marco genérico de alto nivel que se
estructura en torno a cinco principios que se consideran esenciales para la integración de la
información estadística y espacial:
1. Sistema de georreferenciación y geocodificación sólido
2. Almacenamiento de datos georreferenciados integrado en la Infraestructura de Datos y
Metadatos Estadísticos de Canarias
3. Entidades geográficas comunes para la difusión de estadísticas.
4. Datos interoperables y estándares de metadatos.
5. Geoestadísticas accesibles y usables.
Cada uno de estos principios persigue la consecución de unas metas y objetivos, y para ello se
2
propone la adopción de normas nacionales e internacionales así como la asunción de aquellas
buenas prácticas que estén avaladas por experiencias o entidades en contextos extrapolables.
Principio 1: Sistema de georreferenciación y geocodificación sólido
La finalidad de este principio es poder dotar de representación espacial a las unidades de
información estadística de manera que puedan ser integradas en análisis espaciales. Este proceso
se denomina de forma genérica como georreferenciación o referenciación espacial.
La georreferenciación, o referenciación espacial, es el proceso de referenciar datos contra un
sistema de coordenadas geoespacial conocido, ajustándose a puntos conocidos en el sistema de
coordenadas, de manera que los datos pueden ser visualizados, procesados, consultados y
analizados junto con otros datos geográficos.
La georreferenciación debe utilizar información de referencia de las infraestructuras de datos
espaciales existentes en los diversos niveles de la Administración. Se debe priorizar la información
de carácter oficial, respaldada por las autoridades competentes o de uso generalizado y amplio
consenso. Esta información, además, debe ser precisa en términos geográficos (planimetría) y estar
acorde con las entidades del mundo real que subyacen a la información estadística. De forma
complementaria, en línea con las lineas estratégicas del Plan Estadístico de Canarias, se fomentará
el uso de georreferenciación mediantes fuentes Big Data.
La geocodificación es el proceso de asignación de un código geográfico a una unidad de análisis,
asociándola a una línea o polígono georreferenciado. A efectos del Marco de Estadística Espacial de
Canarias, la geocodificación se define como el proceso de dotar de dimensión espacial a las
unidades de registro estadístico de manera que puedan ser utilizadas en análisis espaciales. Más
específicamente, la geocodificación es un proceso que:
A) Permite asignar la descripción de una localización (por ejemplo el texto de una dirección
postal), a un geocódigo (por ejemplo, un objeto con referencia espacial).
B) Permite asignar un geocódigo a una referencia geográfica.
Para asegurar que se llevan a cabo procesos de georreferenciación y geocodificación consistentes
se deben alcanzar los siguientes objetivos:
1. Disponer de información de localización (direcciones, nombres geográficos, referencias
catastrales, etc.) precisa, actualizada y consistente, en coordinación con el Sistema de
3
Información Territorial de Canarias (SITCAN). Desarrollando la operación estadística de
Directorio de Calles y Direcciones incluida en el Plan Estadístico de Canarias.
2. Acceder a datos espaciales de las Infraestructuras de Datos Espaciales locales, nacionales e
internacionales (IDECanarias, IDEE e INSPIRE) así como otras posibles fuentes de
información de uso generalizado y consensuado.
3. Disponer de estándares de recopilación de direcciones consistentes, para capturar de forma
efectiva la dirección física, y disponer de normas auxiliares de localización donde no puedan
aplicarse los sistemas de direccionamiento estándar.
4. Ofrecer dentro de la Infraestructura de Datos y Metadatos Estadísticos de Canarias (eDatos)
API pública de callejeros para facilitar la normalización en la captura de direcciones en
formularios y encuestas.
5. Disponer dentro de la Infraestructura de Datos y Metadatos Estadísticos de Canarias
(eDatos) de API interna de georreferenciación y georreferenciación inversa.
6. Identificar y analizar fuentes auxiliares de georreferenciación de titularidad no pública, para
su uso complementario en la georreferenciación de direcciones en Canarias y de uso
principal en la georreferenciación de entidades en el exterior.
7. Utilizar procedimientos de georreferenciación contrastados y fiables, que garanticen
resultados precisos, y que permitan georreferenciar direcciones incompletas o imprecisas.
8. Establecer procedimientos de gestión sólidos para subsanar los problemas que puedan
aparecer en los procesos de georreferenciación.
9. Disponer de procesos precisos de geocodificación de literales, mediante la clasificación de
entidades de una dirección y el enlazamiento con diccionarios de geocódigos.
10. Disponer de instrumentos en las herramientas de análisis estadístico que faciliten la
geocodificación a partir de georreferencias.
4
Principio 2: Almacenamiento de datos georreferenciados integrado en la Infraestructura de Datos y Metadatos Estadísticos de Canarias
El Marco de Estadística Espacial de Canarias promueve que el almacenamiento de georreferencias y
la asignación de geocódigos a las unidades de información estadística se produzca en el entorno de
la Infraestructura de Datos y Metadatos Estadísticos de Canarias (eDatos), impulsando la utilización
de herramientas, técnicas y estándares que facilitan la integración y gestión de los georreferencias y
geocódigos. De esta manera se asegurará la georreferenciación sistemática de la información
estadística y podrán alcanzar los siguientes objetivos:
1. Información georreferenciada y geocodificada coherente e interpretable.
2. Flexibilidad de integración de la información geoestadística en procesos de análisis y
confección de visualizaciones.
3. Gestión efectiva de datos incluyendo aspectos relativos a la privacidad y a los metadatos.
4. Delimitación clara de roles entorno a la información (custodia, mantenimiento, consulta, etc).
Principio 3: Entidades geográficas comunes para la difusión de estadísticas
Para permitir la comparación de conjuntos de datos de diferentes variables y magnitudes
procedentes de múltiples orígenes, el Marco Geoestadístico de Canarias propone la utilización de un
conjunto común de entidades geográficas para abordar la generación de visualizaciones, elaboración
de informes, representación de indicadores y análisis de la información social, económica y medio
ambiental.
Al margen de las entidades geográficas comunes propuestas por el Instituto Nacional de Estadística
o la Oficina Estadística Europea, el Marco Geoestadístico de Canarias propone la elaboración de
bloques elementales de polígonos a partir de las cuales normalizar otras entidades geográficas de
carácter administrativo de tal manera que se asegure el respeto al secreto estadístico.
Esto asegurará que toda la información estadística esté habilitada geoespacialmente de forma
sistemática/consistente y que los usuarios puedan localizar, acceder, integrar, analizar y visualizar
información estadística de forma homogénea. Esto permitirá alcanzar las siguientes metas:
5
1. Los datos de fuentes dispares puedan ser integrados usando entidades geográficas
comunes.
2. Visualización y análisis simplificado.
3. Los metadatos apoyan la integración y uso de datos.
4. Soporte a la conversión de datos entre entidades geográficas, a través de mecanismos
estándares de conversión (por ejemplo: la correspondencia)
Principio 4: Datos interoperables y estándares de metadatos
Se adoptarán las normas y estándares en materia de interoperabilidad y metadatos aplicables en los
ámbitos estadístico y espacial. En el estadístico con especial atención a SDMX (Statistical Data and
Metadata Exchange) actualmente utilizado en la Infraestructura de Datos y Metadatos Estadísticos de
Canarias (eDatos) y en el espacial a la familia de estándares ISO 19100 desarrollada por el ISO/TC
211 y el OGC (Open Geospatial Consortium).
También se deberá atender a la exposición de la información geoestadística a través de las
iniciativas de Datos Abiertos (Open Data), utilizando el Vocabulario de Datos de Catálogo (DCAT-AP,
Data Catalog Vocabulary Application Profile) especificado por el W3C (World Wide Consortium) y
otras iniciativas relacionadas como puede ser la web semántica y los datos enlazados (Linked Data).
La interoperabilidad de la información geoestadística contribuirá a simplificar y potenciar la
localización, acceso y uso de las estadísticas georreferenciadas. De esta manera se alcanzarán los
siguientes objetivos:
1. Simplificación de la creación, localización, integración y uso de estadísticas
georreferenciadas y datos espaciales.
2. Ampliación del espectro de tecnologías y datos aplicables a la información geoestadística.
3. Incremento de la oferta de información disponible y accesible para su uso en análisis y
procesos de toma de decisiones.
6
Principio 5: Geoestadísticas accesibles y usables
Este principio del Marco Geoestadístico de Canarias tiene como objetivo identificar políticas, normas
y directrices que apoyen la publicación, acceso, análisis y visualización de información estadística
georreferenciada.
Se trata de un amplio espectro de cuestiones legislativas y operacionales entre las que tienen cabida
desde aspectos normativos de privacidad y confidencialidad de la información personal y comercial
hasta los relativos a las condiciones de uso, calidad y usabilidad de la información.
Este principio debe ser considerado a efectos de que la información geoestadística sea publicada y
compartida de forma apropiada, para alcanzar los siguientes objetivos:
1. Los responsables puedan publicar los datos sin infringir principios legales de privacidad u
otra naturaleza.
2. Los usuarios dispongan de toda la información necesaria para valorar su aplicación a un
contexto concreto, incluidas las posibles condiciones de su uso.
3. Se fomente el conocimiento y cumplimiento de las obligaciones legales derivadas del marco
normativo vigente en materia de tratamiento, gestión y publicación de datos geoestadísticos.
4. Se favorezca la localización, acceso y uso de las estadísticas georreferenciadas por parte de
los usuarios.
5. Se disponga de una infraestructura de servicios que permita la integración de geoestadísticas
en cualquier sistema de información.
7
II. ORGANIZACIÓN Y GESTIÓN DE LA INFORMACIÓN ESPACIAL
2.1. Los esquemas-tipo del entorno repositorio del Banco de Datos
El Principio 2 del Marco de Estadística Espacial de Canarias, promueve que el almacenamiento de
georreferencias y la asignación de geocódigos a las unidades de información estadística se produzca
en el entorno de la eDatos, impulsando la utilización de herramientas, técnicas y estándares que
facilitan la integración y gestión de los georreferencias y geocódigos. De esta manera se asegurará la
georreferenciación sistemática de la información estadística y podrán alcanzar los siguientes
objetivos.
La arquitectura del banco de datos del Instituto Canario de Estadística (ISTAC) está dirigida al
procesamiento supervisado de datos por lotes. Esta arquitectura es similar a las planteadas en otras
Oficinas Estadísticas y contrasta con las actuales arquitecturas Lambda o Kappa de procesamiento 1
automático de Big Data tanto en modo batch como en streaming de datos.
1 Julien Forgeat. “Data Processing Architectures – Lambda and Kappa.” Ericsson Research Blog. Accessed October 24, 2016.
8
● Entornos de recepción, captura y prealmacenamiento: Los entornos de recepción,
captura y prealmacenamiento de datos son entornos donde se almacenan y catalogan
previamente los inputs del banco de datos. Estos entornos pueden ser tecnológicamente
variados, desde base de datos SQL, como no-SQL o servidores de ficheros. Además
pueden estar soportados o no por sistemas de gestión (por ejemplo LimeSurvey o
Profesionales del Turismo).
● Entorno repositorio: El entorno repositorio es un entorno de base de datos, donde se
almacenan las cartografías, los microdatos y los macrodatos que son el resultado final de
procesos de tratamiento generadores de un cambio de naturaleza de los mismos. El entorno
repositorio se organiza en esquemas tipo, según la naturaleza de los ficheros que contiene, y
estos esquemas se agrupan en tres tipos de niveles según almacenen cartografías,
microdatos o macrodatos.
● Entornos computacionales: Los entornos computacionales son entornos para el
procesamiento eficiente de datos y su objetivo es el cambio de naturaleza de un fichero de
datos. Pueden existir distintos entornos computacionales según los requerimientos de cálculo
y los requerimientos tecnológicos exigidos por los programas de computación estadística. A
su vez estos entornos pueden también organizarse en esquemas tipo según la fase en la que
se aborda un tratamiento.
● Entornos analíticos: Los entorno analíticos son entornos para el análisis exploratorio de
datos. Estos entornos requieren acceso al entorno repositorio, o también necesitan de copias
o transformaciones de datos para su función analítica.
● Entorno de difusión: No se trata de un entorno en sí mismo, sino de una capa de servicios
web para la difusión de datos y cartografía.
Como decíamos, el entorno repositorio se organiza en esquemas-tipo, según la naturaleza de los
ficheros que contiene, y estos esquemas se agrupan en tres tipos de niveles según almacenen
cartografías, microdatos o macrodatos. Este repositorio es un repositorio de base de datos relacional
(PostgreSQL) con extensión SIG (PostGIS), que permite tanto el almacenamiento de objetos
cartográficos como la realización de procesamiento geográfico.
El sistema de coordenadas en la Infraestructura de Datos y Metadatos Estadísticos de Canarias
(eDatos) es el WGS84 (World Geodetic System 1984) que significa Sistema Geodésico Mundial
1984 y es el sistema es en el que se basa el Sistema de Posicionamiento Global (GPS). El WGS84
9
es un sistema de coordenadas geográficas mundial que permite localizar cualquier punto de la Tierra
sin necesitar otro de referencia, lo que facilita el almacenamiento normalizado de información
geográfica dentro de eDatos. La información geográfica se almacena en todo los esquemas tipo, en
WGS84, según las siguientes características:
1. Las cartografías se almacenan en los esquemas de cartografías
2. Las georreferencias se almacenan es los esquemas de microdatos
3. Los geocódigos se almacenan en los esquemas de microdatos y macrodatos
Grupo Tipo de datos Descripción
Cartografía Raw Cartography (RC)
Esquemas de cartografía en crudo, con sólo tratamiento de normalización.
Support Cartography (IGS)
Esquemas de cartografía de soporte. En estos esquemas se almacenan cartografías normalizadas y depuradas, utilizadas para procesamiento y análisis espacial.
Geographic Information Reference (IGR)
Esquemas de cartografía de referencia. En estos esquemas se almacenan cartografías normalizadas, transformadas y depuradas, para su uso como entidades geográficas de difusión estadística. En este caso se almacenan distintas geometrías e información auxiliar.
Public Cartography (PC)
Esquemas de cartografía estadísticas de uso público. En estos esquemas se almacenan las cartografías públicas para su uso como entidades geográficas de difusión estadística (IGR) y otras cartografías almacenadas en IGS que puedan ser de interés analítico.
Microdatos Raw Data (RD)
Esquemas de microdatos en crudo, con solo tratamiento de normalización. Todo fichero se georreferencia desde su incorporación al Banco de Datos.
Master Data (ID)
Esquemas de microdatos maestros, donde se almacenan los cuatro grandes directorios (direcciones, edificios y viviendas, población y hogares, empresas y establecimientos). En el caso que nos ocupa es especialmente relevante el Directorio de Calles y Portales, donde se almacena la información base para la georreferenciacón.
Statistical Data (SD)
Esquemas de microdatos estadísticos de uso interno, no anomimizados y con georreferencias.
10
Scientific Data (CD)
Esquemas de microdatos para fines científicos, de uso compartido para uso científico, con eliminación de identificadores y otras anonimizaciones indirectas suaves. No se incluyen georreferencias, sólo geocódigos.
Public Data (PD)
Esquemas de microdatos públicos, con eliminación de identificadores y anonimizaciones indirectas fuertes. No se incluyen georreferencias, sólo geocódigos.
Macrodatos MacroDataSet (MDS)
Esquemas de macrodatos estadísticos de uso interno, con almacenamiento de geocódigos.
DataSetCube (DSC)
Esquema público de cubos estadísticos (eDatos), con almacenamiento de geocódigos.
IndicatorsCube (DSI)
Esquema público de indicadores estadísticos (eDatos), con almacenamiento de geocódigos.
2.2. Los esquemas-tipo de Información Geográfica de Referencia (IGR)
En estos esquemas se almacenan cartografías normalizadas, transformadas y depuradas, para su
uso como entidades geográficas de difusión estadística. En los esquemas cartográficos IGR la
información espacial se almacena en tablas GEO según las siguientes características:
1. Identificadores únicos según estándar del banco de datos: identificador único universal
(UUID), identificador único local (LUID), identificador de esquema y tabla (STID) y marca de
tiempo (TIMESTAMP).
2. Información geográfica de varias granularidades homogéneas en una misma tabla, por
ejemplo las diferentes mallas (1000 * 1000, 500 * 500, 250 * 250, 100 * 100) o las
delimitaciones cartográficas básicas de Canarias (Islas, comarcas y municipios),
generalmente asociadas a un CodeLIst geográfico dentro de eDatos (por ejemplo en este
último caso al CL_AREA_ES28).
3. Se almacena el geocódigo (var_element) identificador único dentro de un polígono dentro de
eDatos y además un geocódigo según un CodeList de referencia.
4. Se almacenan distintas geometrías topológicamente depuradas: detallada, generalizada y
centroides.
11
5. Se incluyen diferentes características geométricas: longitud para las líneas, superficie y
perímetro para los polígonos.
Ejemplo de campos de una tabla GEO en un esquema IGR
Ejemplo de datos geométricos en una tabla GEO de un esquema IGR
En este último ejemplo de una tabla almacenamiento de los distritos y secciones a uno de
enero de 2017, sombreados en azul, pueden identificarse los tres campos geométricos
almacenados en la base de datos PostGIS: la geometría detallada, la geometría simplificada
y la geometría del centroide del polígono.
12
2.3. Almacenamiento de georreferencias en los esquemas de microdatos
Los esquemas de microdatos dentro del Banco de Datos de la Infraestructura de Datos y Metadatos
Estadísticos de Canarias se organizan en diferentes tipos de tablas, que podríamos categorizar en
tres tipologías: datos, metadatos y relaciones.
Grupo Tablas tipo Descripción
Datos Datos (DAT)
Tablas de almacenamiento de microdatos en un momento (t)
Georreferencias (GEO)
Tablas de almacenamiento de georreferencias de las observaciones de una tabla de microdatos en un momento t.
Datos longitudinales (LON)
Tablas de almacenamiento de identificadores normalizados de una unidad de observación a lo largo de un periodo de tiempo.
Metadatos Diseño de registro (DSD)
Tabla de almacenamiento del diseño de registros explicativo de un conjunto de tablas de datos. Entre otra información se almacena también las referencias (URL) a los codelist utilizados, que se almacenan y gestionan en el Bando de Metadatos, siendo accesibles mediante APIs internas o externas.
Registro de datos (REG)
Tabla de registro de tablas de datos y su relación con el DSD explicativo.
Extensiones de códigos (CLE)
Los codelist de las tablas de microdatos, se almacenan y gestionan en el Bando de Metadatos, siendo accesibles mediante APIs internas o externas. Cuando los codelist necesitan extensiones, o se requieren codelist especiales, éstos se almacenan en este tipo de tablas.
Relaciones Relaciones entre unidades de información (URD)
Tablas de almacenamiento de las relaciones, internas o externas, de las observaciones de una tabla de microdatos con otros microdatos.
Como vemos, el almacenamiento de las georreferencias dentro de los esquemas de microdatos se
realiza en tablas (GEO) distintas al almacenamiento de los datos (DAT), y se vinculan entre si
mediante las tablas de relaciones (URD). Este modo de organización y gestión de la información
permite:
13
1. Flexibilidad: Las cargas de microdatos se realizan sin la necesidad de disponer previamente
de las georreferencias. Por lo tanto la disponibilidad de los datos no depende del proceso de
georreferenciación.
2. Simplificación: En las tablas GEO se almacenan direcciones (portales) no duplicadas, que
luego se relacionan con sus correspondientes ficheros DAT. Por lo tanto no se almacenan
georreferencias duplicadas, se mantienen las coherencias y se simplifican los procesos de
georreferenciación.
3. Independencia: Cada realización del fichero de microdatos DAT se relaciona con un GEO
propio, lo que evita la propagación de errores de georreferenciación así como la fácil
incorporación de las mejoras de calidad de los sistemas de georreferenciación o de los datos
base. A su vez, no se excluye la posibilidad de obtener georreferencias en el momento (t+1)
a partir de las generadas en el momento (t), a través de métodos denominados de herencia.
4. Seguridad: Disponer las tablas de georreferencias GEO separadas de las tablas de datos
DAT permite gestionar con mayor facilidad los permisos de accesos a esos datos mediante:
(a) Gestionando los accesos a las tablas URD (b) Gestionando los acceso a las tablas GEO.
Ejemplo de tipos de tablas en un esquema-tipo de microdatos
14
Tanto las tablas URD como las tablas GEO son tablas clave en el almacenamiento de las
georreferencias. A su vez comparten una característica importante, y es que ambos tipos de tablas
mantienen un diseño fijo dentro del Banco de Datos, y por lo tanto no necesitan DSD explicativo.
Las tablas GEO son tablas de portales, en las que se almacenan los datos normalizados y no
normalizados de la identificación literal de un portal, así como su latitud y longitud en el sistema de
referencias WGS84, y los identificadores que relacionan ese punto con un punto del Directorio de
Calles y Direcciones que forman parte del conjunto de directorios maestros del Sistema de Datos
Integrados y que se almacena en esquema-tipo ID de la Infraestructura de Datos y Metadatos
Estadísticos de Canarias.
Diseño de registro de una tabla GEO en un esquema de microdatos
Bloque Variable Descripción
Identificadores uuid Identificador único universal
stid Esquema tabla
luid Identificador único local
marcatiempo Fecha de creación
Literales de dirección del portal
tvia Tipo de vía
cvia Código de vía
nvia Nombre de vía
numer Número
codmun Código de municipio
nommun Nombre de municipio
direccion Dirección: tvia+nvia+numer+nommun
Georreferencias geom Punto
longitud Longitud
latitud Latitud
Relación con las tablas
maestras de portales
(Directorio de portales)
uuid_id Relación con el Directorio de Portales: UUID de la tabla
IDT en el esquema C00047A_ID
stid_id Relación con el Directorio de Portales: Por ejemplo
C00047A_ID.IDT_NOMEPORTAL20170101_V01
15
Las tablas URD son tablas de relaciones, en las que establecen las relaciones entre las
observaciones de un fichero DAT con otras unidades de información en otras tablas tanto de tipo
DAT como GEO o LON. Además estas relaciones pueden ser dentro del mismo esquema de datos
(endógenas) como con otros esquemas distintos (exógenas).
Diseño de registro de una tabla URD en un esquema de microdatos
Bloque Variable Descripción
Identificadores uuid Identificador único universal
stid Esquema tabla
luid Identificador único local
marcatiempo Fecha de creación
Identificadores de enlazamiento
uuid_a UUID de la observación que se complementa
stid_a STID de la observación que se complementa
uuid_b UUID de la observación que aporta información complementaria
stid_b STID de la observación que aporta información complementaria
Descripción de la relación
rel_type Tipo de relación según lista controlada (code_list). GEOREF: Complemento de información georreferencial. GEOCOD: Relación de pertenencia a una geometría de IGR. SOURCE: Fuente de información primaria, LON: Relación longitudinal. TRACE: Relación de la observación con otra observación en otra tabla de otro esquema.
rel_description Descripción del tipo de relación
Descripción del enlazamiento
link_type Tipo de enlazamiento según lista controlada (code_list). RL_DETERMINISTIC: Record Linkage determinístico. RL_PSEUDODETERMINISTIC: Record Linkage determinístico parcial. RL_PROBABILISTIC: Record Linkage probabilístico. STATISTICAL_MATCHING: Statistical Matching. RL_INHERITED: Heredado.
link_description Descripción del tipo de enlazamiento
link_quality Descripción de la calidad del enlazamiento
linl_quality_rank Clasificación de la calidad del enlazamiento: MUY_ALTA,
ALTA, MEDIA, BAJA, MUY_BAJA
16
2.4. El registro de portales en el esquema de datos maestros
El artículo 32 de la Ley 1/1991 de Estadística de la Comunidad Autónoma de Canarias indica que se
constituirá un banco de datos administrativos para fines estadísticos, que se nutrirá prioritariamente
de los ficheros administrativos de la Comunidad Autónoma de Canarias, a cuyo fin todos los
departamentos deberán remitir al Instituto Canario de Estadística los ficheros administrativos de los
que sean titulares y que sean necesarios para el ejercicio de la función estadística. Los referidos
ficheros deberán adecuarse, para su remisión, a los requisitos técnicos que establezca el Instituto.
Asimismo se señala que el banco de datos administrativos para fines estadísticos deberá facilitar la
fusión de los ficheros para fines estadísticos.
Este banco de datos se elabora a fin de mejorar la eficiencia de la actividad estadística de interés de
la Comunidad Autónoma de Canarias y para su desarrollo durante la ejecución del Plan Estadístico
de Canarias 2018-2022 (PEC-22) se impulsará el Sistema de Datos Integrados (iDatos). Dicho
sistema debe permitir la producción de estadísticas multifuentes mediante la elaboración de datos
maestros organizados en directorios y registros que faciliten el enlazamiento de fuentes diversas. El
PEC-22 enumera el conjunto de directorios que como datos maestros forman parte del Sistema de
Datos Integrados (iDatos):
Directorios Códigos Descripción
Lugares
C00047A Directorio de Calles y Direcciones
C00113A Directorio de Puntos de Interés Turístico (PIT)
Edificios, viviendas y locales (DEV)
C00111A Directorio de Edificios, Viviendas y Locales
C00111B Directorio de Viviendas Turísticas (VITUR)
Población y hogares (DPH)
C00063A Directorio de Población y Hogares
Empresas y establecimientos (DUE)
C00021A Directorio de Unidades Económicas (DUE)
C00021B Directorio de Alojamientos Turísticos Colectivos (ALOJATUR)
C00021C Directorio de Establecimientos de Alimentación y Bebidas (ALIMERCA)
C00021D Directorio Especializado de Unidades Económicas de la Industria
C00021E Directorio Especializado de Unidades Económicas de la Energía
C00021F Directorio Especializado de Unidades Económicas del Sector Comercial
C00021G
Directorio Especializado de Unidades Económicas del Sector Primario
17
El Sistema de Datos Integrados debe facilitar la obtención de estadísticas espaciales, mediante la
georreferenciación de la información dentro de un Marco de Estadística espacial de Canarias
alineado con el Global Statistical Geospatial Framework elaborado por el Grupo de Expertos de
Integración de Información Estadística y Geoespacial de Naciones Unidas (UN EG-ISGI. United
Nations Expert Group on the integration of Statistical and Geospatial Information).
Asimismo según la Directriz Estratégica 4.1. del PEC-22 la evolución experimentada en los últimos
años en la disponibilidad de datos ha de aprovecharse en la elaboración de las operaciones del Plan.
Los métodos tradicionales de obtención de información primaria han de combinarse con estas
nuevas fuentes de datos de la mejor manera posible, en aras a reducir la carga de los informantes,
abaratar el coste de las estadísticas y, en muchos casos, a disponer de indicadores más rápidos. Por
lo tanto, la potenciación del uso de registros administrativos y las bases de datos masivos (Big Data)
serán los dos bloques fundamentales de fuentes alternativas y complementarias a la obtención
tradicional de la información.
Por lo tanto, el Directorio de Calles y Portales se constituye como un directorio maestro dentro de la
Infraestructura de Datos y Metadatos Estadísticos de Canarias (eDatos), formando parte del Sistema
de Datos Integrados (iDatos). Estos directorios se almacenan dentro del Banco de Datos en
esquemas tipo ID de datos maestros. El conjunto de directorios se agrupan en cuatro grandes
bloques interrelacionados, alimentándose de diferentes fuentes tanto administrativas como Big Data.
:
Relaciones entre los cuatro bloques de directorios maestros
18
Como se observa en el esquema anterior, el Directorio de Calles y Direcciones (C00047A) ocupa una
posición dentro de la integración del conjunto de datos maestros almacenados en esquemas ID.
Dentro de estos esquemas distinguimos tres tipos de tablas DAT: los de capa fuente (IDF), los de
capa de momento (IDT) y los de capa longitudinal.
Tipos de tablas DAT en un esquema-tipo de microdatos maestros (ID)
Estos tipo de DAT se asocian a la construcción de un determinado registro dentro de un directorio.
por ejemplo en el Directorio de Población y Hogares nos encontramos con el Registro de Población y
el Registro de Hogares. La estrategia de construcción de los registros es siempre similar: Se
construyen registros por momentos de referencia (IDT) a partir de una fuente básica que se
enriquece con otras fuentes auxiliares (IDF), para posteriormente enlazar las mismas unidades a lo
largo del tiempo mediante tablas IDL. Dentro del Directorio de Calles y Direcciones (C00047A_ID)
se localizan dos conjuntos de registros, el de vía (NOMECALLES) y el de portales
(NOMEPORTALES).
En el caso que nos ocupa, su construcción tiene como fichero base el registro de portales del
Sistema de Información Territorial de Canarias (SITCAN) mantenido por la empresa pública
Cartográfica de Canarias (GRAFCAN). A su vez este registro de alimenta y depura a partir de
información aportada por el ISTAC a partir del Sistema de Datos Integrados (iDatos).
Tablas Descripción
IDT_NOMEPORTAL
Tabla localización única de portales a partir de su posición espacial
IDF_NOMEPORTAL Tabla de identificación múltiple de portales a partir de descriptores.
19
Por ejemplo un mismo portal se puede identificar como “Avenida Marítima, 15” o “Edificio Playa, 15”.
MDS_NOMEPORTAL Tabla de macrodatos que almacena indicadores asociados a los portales. Estos indicadores tienen diversos usos, entre los que destacamos la georreferenciación aleatoria.
URD_NOMEPORTAL Tabla que relaciona las posiciones de los portales (IDT) con sus descriptores múltiples en IDF o con sus indicadores en MDS.
Tablas del Registro de Portales (NOMEPORTALES)
Los diseños de registros de las tablas IDT_NOMEPORTALES e IDF_NOMERPORTALES son fijos,
por lo que en principio no se requieren tablas DSD en el esquema. A su vez, el diseño de registro de
las tablas IDF está armonizado con las tablas GEO, con las que comparte el bloque de variables de
literales del portal.
Diseño de registro de una tabla IDF_NOMEPORTALES
Bloque Variable Descripción
Identificadores uuid Identificador único universal
stid Esquema tabla
luid Identificador único local
marcatiempo Fecha de creación
Identificadores de enlazamiento con fuente de origen
uuid_s UUID de la observación que aporta información de origen
20
stid_s STID de la observación que aporta información de origen
Literales de dirección del portal
codlugar Código de lugar
tipolugar Tipo de lugar
nomlugar Nombre del lugar
numero Número
codmun Código de municipio
nommun Nombre de municipio
En el mismo sentido el diseño de registro de las tablas IDT está armonizado con las tablas GEO, con
las que comparte el bloque de variables de georreferencias.
Diseño de registro de una tabla IDT_NOMEPORTALES
Bloque Variable Descripción
Identificadores uuid Identificador único universal
stid Esquema tabla
luid Identificador único local
marcatiempo Fecha de creación
Georreferencias geom Punto
longitud Longitud
latitud Latitud
Como puede observarse, las tablas de Registro de Portales lo que hacen es dividir en dos tablas
(IDT) e (IDF) la información contenida en tablas GEO. El fichero básico de construcción de estas
tablas son los portales de SITCAN, pero la información puede ampliarse con otras fuentes. Por
ejemplo se pueden incluir los puntos kilométricos recogidos en CartoCiudad, o incluso se puede
ampliar con georreferencias identificadas usando fuentes Big Data.
Por lo tanto NOMEPORTALES se estructura como un gran diccionario de portales, que a su vez
utilizamos como fuente de alimentación de la API de georreferenciación del ISTAC, con la ventaja de
poder utilizar distintos diccionarios e incluso diccionarios referidos a fechas diferentes.
21
III. SISTEMA DE GEORREFERENCIACIÓN Y GEOCODIFICACIÓN
El Sistema de Georreferenciación y Geocodificación está enumerado en el principio primero del
Marco de Estadística Espacial de Canarias. La finalidad de este principio es poder dotar de
representación espacial a las unidades de información estadística de manera que puedan ser
integradas en análisis espaciales. Este proceso se denomina de forma genérica como
georreferenciación o referenciación espacial.
● La georreferenciación, o referenciación espacial, es el proceso de referenciar datos contra
un sistema de coordenadas geoespacial conocido, ajustándose a puntos conocidos en el
sistema de coordenadas, de manera que los datos pueden ser visualizados, procesados,
consultados y analizados junto con otros datos geográficos.
● La geocodificación es el proceso de asignación de un código geográfico a una unidad de
análisis, asociándola a una línea o polígono georreferenciado. A efectos del Marco de
Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de
dimensión espacial a las unidades de registro estadístico de manera que puedan ser
utilizadas en análisis espaciales.
3.1. Sistema de georreferenciación
El sistema de georreferenciación se fundamenta en el uso de multiprocesos y de multifuentes, que
ofertan un conjunto de geoposiciones y procedimientos para luego definir una estrategia particular de
georreferenciación para cada fichero de datos. El resultado de un proceso de georreferenciación de
un fichero DAT siempre es un fichero de georreferencias GEO y un fichero de relaciones de
georreferenciación URD.
22
Los diferentes procesos y fuentes de georreferenciación se combinan de tal manera que se dispone
de un conjunto de procedimientos a integrar dentro de la estrategia de georreferenciación de un
fichero de microdatos
Ejemplo de estrategia de georreferenciación de los DAT de demandantes de empleo
Los diferentes métodos-fuente que en la actualidad se están utilizando en el sistema de
georreferenciación son los siguientes:
1. Fuente propia
a. Georreferenciación determinística
i. Método de enlazamiento directo a ID_NOMEPORTALES
ii. Método de enlazamiento heredado
b. Georreferenciación pseudodeterminística
i. Método del portal más cercano
ii. Método del centro de vía
c. Georreferenciación probabilística
i. Método de API propia (algoritmo de librería LibPostal)
23
2. Fuentes Big Data
a. Georreferenciación probabilística
i. Método de API
Los métodos de georreferenciación pseudodeterminística son útiles pues reducen el conjunto de
direcciones que se traspasan a otros métodos menos precisos y más lentos. Los resultados
obtenidos arrojan buenos indicadores de calidad.
Portales más cercanos en PMH según la distancia N. Resultados para Tenerife.
Las fuentes Big Data incluidas actualmente en el sistema de georreferenciación son las siguientes:
ArcGIS, Bing, Cartociudad, GoogleMap, Here y Komoot. Como hemos señalado, para estas fuentes
se utiliza el método API, que se invocan mediante llamadas a la misma desde la consola de R. Un
ejemplo de llamada a la API sería:
https://maps.googleapis.com/maps/api/geocode/json?address=CALLE+FARMACEUTICO+PEDRO+RIVE
RO+40+LAS+PALMAS+DE+GRAN+CANARIA&language=es&key=key
24
Método de selección en un sistema de georreferencias múltiples
Las estrategias de georreferenciación en algunos casos, especialmente cuando se usan fuentes Big
Data, pueden dar lugar a múltiples georreferencias para la dirección que se desea posicionar. Para
resolver el problema se ideó un método de selección de la posición que se considera más verosímil
en un rango de 0-1. El algoritmo utilizado se estructura en los siguientes componentes:
1. Cálculo de errores de validaciones espaciales (cold-deck). Consiste en calcular diferentes
errores con información geográfica conocida, como puede ser el municipio, la vía, el código
postal, etc.
ERROR_11 Distancia del punto al municipio (metros) (*) Obligatorio
ERROR_12 Distancia del punto a la vía (metros) (*) Obligatorio
ERROR_13 Distancia del punto al código postal (metros) Optativo
ERROR_14 Distancia del punto a la sección electoral (metros) Optativo
ERROR_15 Distancia del punto al núcleo de población (metros) Optativo
ERROR_16 Distancia del punto a la entidad de población (metros) Optativo
ERROR_17 Distancia del punto al portal más cercano (metros) Optativo
(*) Excluimos los puntos cuyo ERROR_11 > 500 metros y los de ERROR_12 > 500 metros.
2. Cálculo de errores de validaciones internas (hot-deck). Consiste en calcular el error con el
cálculo de diferentes validaciones u opciones. Se selecciona los mejores representantes y se
calcula el centroide con ellos. La distancia de cada uno de los puntos a ese centroide será
este error.
ERROR_21 Distancia del punto al centroide de los mejores representantes
(metros)
- Con código de vía:
● Opción 1: centroide con los puntos que están a una
distancia igual o menor a ‘d’ de la vía
● Opción 2: centroide con los puntos, uno de cada API,
más cercano a la vía.
● Opción 3: centroide con los puntos, uno de cada API,
a una distancia igual o menor a ‘d’ de la vía.
Optativo
25
- Sin código de vía:
● Opción 4: centroide con los puntos que tiene los
ciertos criterios de calidad en la información devuelta
por la API.
3. Cálculo de la gordura. El cálculo de la gordura nos da información de como de aglutinado o
no está cada punto punto, o porque las APIs han devuelto los puntos muy cercanos entre sí o
porque hay muchos portales SITCAN cercanos.
GORDURA_1 Número de puntos APIs para la misma dirección en el radio r Optativo
GORDURA_2 Número ponderado de APIs para la misma dirección en el radio
r, usando los siguientes factores de ponderación: GoogleMap
(0.6) Bing (0,1) ArcGIS (0,07) Cartociudad (0,08) Komoot (0,05)
Here (0,1)
Obligatorio
GORDURA_3 Número de portales en el radio r Obligatorio
4. Cálculo de la verosimilitud de un punto API.
1) Calculamos el error tipificado medio
a) ERROR_TIPIFICADO (ET): Para cada error de cada punto calculamos su error
tipificado, dividiendo el correspondiente error por el error máximo de los puntos de
una dirección. Por lo tanto habrá tantos errores tipificados como errores definidos. El
intervalo de un ET debe encontrarse entre (0,1].
b) ERROR_TIPIFICADO_SUAVIZADO: Se utiliza una función cóncava creciente entre
[0,1], por ejemplo ETS = ET^2. La ausencia de suavizado equivale al uso de la
función ETS =ET.
c) ERROR_TIPIFICADO_MEDIO (ETM): Para cada punto calculamos la media de sus
errores tipificados (ETS)
2) Calculamos la gordura tipificada media de radio r - GTM(r)
a) GORDURAS_TIPIFICADAS (GT): Para cada gordura de cada punto calculamos la
gordura tipifica, dividiendo la correspondiente gordura por la gordura máxima de los
puntos de una dirección.
26
Por lo tanto habrá tantas gorduras tipificadas como gorduras definidas. El intervalo de
una GT debe encontrarse entre (0,1].
b) GORDURA_TIPIFICADA_MEDIA (GTM): Para cada punto calculamos la media de
sus gorduras tipificadas (GT)
3) Calculamos la verosimilitud de radio r: VEROSIMILITUD(r) = GTM(r) ^ ETM
Verosimilitud según error y gordura
4) Selección del punto con mejor verosimilitud según el siguiente criterio
a) 1º Seleccionamos aquel punto con mayor verosimilitud
b) 2º Igual verosimilitud, seleccionamos el de mejor gordura
c) 3º Igual gordura, seleccionamos el de la mejor API
Antes de su aplicación el método es evaluado con muestras del conjunto de datos georreferenciadas
por métodos determinísticos. Los resultados obtenidos hasta el momento son de una muy buena
calidad en la selección del mejor punto de referencia.
27
3.2. Sistema de geocodificación
La geocodificación es el proceso de asignación de un código geográfico a una unidad de análisis,
asociándola a una línea o polígono georreferenciado. A efectos del Marco de Estadística Espacial de
Canarias, la geocodificación se define como el proceso de dotar de dimensión espacial a las
unidades de registro estadístico de manera que puedan ser utilizadas en análisis espaciales. El
Sistema de geocodificación desarrollado en el Marco de Estadística Espacial de Canarias distingue
entre la geocodificación de literales y la geocodificación de georreferencias. Este sistema facilita el
análisis geoestadístico mediante el uso de polígonos.
Población de Santa Cruz de Tenerife según diferentes análisis poligonales
28
Geocodificación de literales
En la geocodificación de literales se realiza desde R, haciendo uso de la librería RecordLinkage, que
permite comparar cadenas y devolver un peso indicando la similitud. En el proceso de
geocodificación de literales, partiendo de las descripciones de las unidades geográficas que se
desean analizar dentro de una tabla de microdatatos (DAT) y usando una lista de códigos extendida
(CLE) a modo de diccionario, mediante enlazamiento probabilístico (RecordLinkage) se obtiene como
resultado un DAT ampliado con los geocódigos propuestos para cada literal y un peso de similitud.
Por ejemplo, si queremos geocodificar la descripción CALLE FARMACEUTICO PEDRO RIVERO,
comparamos por un lado el tipo de vía y por otro el nombre de la vía. La suma de los pesos de las
dos comparaciones (nombres de vías y tipos de vías) será el valor a tener en cuenta para la
selección del candidato que indica que código de vía debe tener la vía que buscamos.
● En azul está el nombre de vía, tipo de vía y municipio de la vía que queremos geocodificar.
● En verde está las posibles soluciones, en este caso ha encontrado 4 similitudes.
● En amarillo están los peso de cada comparación. Weight indica la comparación entre el nombre de vía y Weight2 es
el peso de comparar el tipo de vía.
● En rosa está la suma de todos los peso para cada una de las ocurrencias.
● El rojo está el de mayor peso, indicando que ese es el código de vía que debe tener la vía de la que partimos.
Geocodificación de georreferencias La geocodificación de georreferencias asigna a un punto los geocódigos de los polígonos a los que
pertenece dentro de una colección de polígonos almacenados en un esquema de información
geográfica de referencia IGR o información geográfica de soporte IGS. Los inputs de este proceso
son dos tablas GEO, una con las referencias (x,y) asociadas a los microdatos, y otra con las
geometrías de los polígonos almacenados en IGR o IGS. El resultado es una tabla URD en la que se
29
relacionan (rel_type = GEO) los UUID de cada referencia con los UUID de los polígonos a los que
pertenece.
El procedimiento de geocodificación se resuelve mediante consultas geográficas entre los campos
geométricos almacenados en PostGIS. Para esto disponemos de una macro SAS, que ejecuta las
consultas en R, y que permite obtener el geocódigo de pertenencia de un punto a un polígono en un
esquema IGR o IGS. La forma de llamar a la macro es la siguiente:
%getgeocode(type=XY, p=p, STID=esquema, user=usuario, password=contraseña, out=ISTAC_DATA);
A la macro SAS-R se le pasa el tipo
(type) de punto (XY o GEOM), los
puntos (p) a geocodificar, el
esquema (STID) donde buscar, el
usuario (user) y la contraseña
(password) de la base de datos de
PostGIS donde se encuentra el
esquema y por último el nombre
del dataset (out) donde se
almacenan los resultados. Esta macro devuelve el identificador de cada uno de los puntos (uuid_a),
el identificador del código en el esquema (uuid_b), la granularidad (granularities) y el código
(dim_code).
30
IV. INFRAESTRUCTURA DE NORMALIZACIÓN Y REUTILIZACIÓN
La Infraestructura de Datos y Metadatos Estadísticos de Canarias (eDatos) es la infraestructura central del Gobierno de Canarias que integra datos, metadatos, tratamientos y servicios comunes e interoperables de la estadística de interés de la Comunidad Autónomas de Canarias, siendo el soporte para la difusión abierta e interoperable de los datos publicados por las operaciones del Plan Estadístico de Canarias. A su vez la infraestructura es el canal único para la difusión descentralizada de las estadísticas en las web corporativas del Gobierno de Canarias. La Infraestructura incluye entre su catálogo de servicios tres APIs que facilitan la normalización y reutilización de la información espacial:
1. API de recursos estructurales. Método get-geoinfo 2. API de callejeros 3. API de georreferenciación
4.1. La información territorial en la API de recursos estructurales
La API de recursos estructurales aporta la 2
información estructural de la información estadística. Entre los recursos estructurales aportados por esta API, se pueden obtener los polígonos asociados a los items de variable que tienen naturaleza geográfica. Mediante el método get-geoinfo se obtienen en formato geojson las geometrías ligeras de los polígonos asociados a esquemas de Información Geográfica de Referencia (IGR). Este método facilita el uso y la reutilización de la información geográfica de referencia. Así, por ejemplo, esta API se utiliza en:
- Visor estadístico general - Visor del Sistema de Información Electoral - Atlas Estadístico (usa librería R) - Librería R - Paquete Python - Plugin de QGIS (usa paquete Python)
2 https://www3.gobiernodecanarias.org/istac/api/structural-resources/v1.0/#/
31
Ejemplos de uso de geometrías en diferentes visores: general, electoral y atlas
Ejemplo de reutilización de geometrías e indicadores en QGIS
4.2. La API de callejeros
La API de callejeros pone a disposición pública información de nombres y códigos de diferentes
entidades espaciales tales como municipios, entidades-núcleos de población, distritos-secciones,
códigos postales y vías. El objetivo de esta API es facilitar la normalización de la captura de datos de
direcciones por parte de terceros, especialmente por parte de las Administraciones Públicas que
aportar datos administrativos para fines estadísticos.
32
4.3. La API de georreferenciación y georreferenciación inversa
Se dispone de una API interna basada en el proyecto Pelias, que tomando la información de varios
importadores, incluido los datos ya georreferenciados por el ISTAC, se crea una base de datos que
permite la obtención de forma automática de las coordenadas de una dirección y también la
realización de georreferenciación inversa.
33
Bibliografía
Andreas Borg and Murat Sariyar (2016). RecordLinkage: Record Linkage in R. R package version 0.4-10. https://CRAN.R-project.org/package=RecordLinkage Berson, Alex, and Lawrence Dubov. Master Data Management and Data Governance. 2nd ed. New York: McGraw-Hill, 2011. Data Administration Management Association. The DAMA Guide to the Data Management Body of Knowledge: (DAMA-DMBOK Guide). Edited by Mark Mosley, Michael Brackett, Susan Earley, and Deborah Henderson. First edition. Bradley Beach, NJ: Technics Publications, LLC, 2010. Borgman, Christine L. Big Data, Little Data, No Data: Scholarship in the Networked World. Cambridge, Massachusetts: The MIT Press, 2015. EFGS, Eurostat. A Point-based Foundation For Statistical –Final Report from the GEOSTAT 2 Project 2A Point-based Foundation for Statistics -Final report from the GEOSTAT 2 project. Eurostat, 2017 Jeff Leek. The Elements of Data Analytic Style. A Guide for People Who Want Analyze Data. Leanpub., n.d. https://leanpub.com/datastyle. Julien Forgeat. “Data Processing Architectures – Lambda and Kappa.” Ericsson Research Blog. Accessed October 24, 2016. https://www.ericsson.com/research-blog/data-knowledge/data-processing-architectures-lambda-and-kappa/. Kitchin, Rob. The Data Revolution: Big Data, Open Data, Data Infrastructures & Their Consequences. Los Angeles, California: SAGE Publications, 2014. Marz, Nathan, and James Warren. Big Data: Principles and Best Practices of Scalable Real-Time Data Systems. Shelter Island, NY: Manning, 2015. Shoshani, Arie. “OLAP and Statistical Databases: Similarities and Differences,” 185–96. ACM Press, 1997. doi:10.1145/263661.263682. Ladley, John. Data Governance: How to Design, Deploy, and Sustain an Effective Data Governance Program. Waltham, MA: Morgan Kaufmann, 2012. Laan, P. van der (2002): Creating a Social Statistics Database in the Netherlands: Progress and Priorities. Papel presented for the secundo Seminar on Strategies for Social and Spatial Statistics, Copenhagen, Denmark, 5 september 2002.
Plotkin, David. Data Stewardship: An Actionable Guide to Effective Data Management and Data Governance. Amsterdam ; Boston: Elsevier/Morgan Kaufman, 2014. Seiner, Robert S. Non-Invasive Data Governance: The Path of Least Resistance and Greatest Success. Basking Ridge, N.J.: Technics Pub., 2014. http://search.ebscohost.com/login.aspx?direct=true&scope=site&db=nlebk&db=nlabk&AN=1005063. Soares, Sunil. Chief Data Officer Handbook for Data Governance. Mc Press, 2015. http://lib.myilibrary.com?id=709313. Statistics NetherlAnd(2000) Special issue - Integrating administrative registers and households surveys. Netherlands Office Sattistics vol.15
Sundgren, Bo, United Nations, United Nations, and Conference of European Statisticians, eds. Information Systems Architecture for National and International Statistical Offices: Guidelines and Recommendations. Statistical Standards and Studies, no. 51. Geneva: United Nations, 1999. https://www.unece.org/fileadmin/DAM/stats/documents/information_systems_architecture/1.e.pdf. Swiss Federal Statistical Office. “Conceptual Architecture of the Statistical Information System at the Swiss Federal Statistical Office.” Swiss Federal Statistical Office, May 2007. http://unstats.un.org/unsd/dnss/docViewer.aspx?docID=1564.
34
United Nations. “Guidelines for the Modelling of Statistical Data and Metadata.” United Nations, 1995. https://www.unece.org/fileadmin/DAM/stats/publications/metadatamodeling.pdf. United Nations. Proposal for a Global Statistical Geospatial Framework. Items for information: integration of statistical and geospatial information. Statistical Commission, 2016 Wickham, Hadley. “Tidy Data.” Journal of Statistical Software 59, no. 10 (2014). doi:10.18637/jss.v059.i10
35