Post on 24-May-2020
政府統計と世界メッシュ
独立行政法人統計センター西村 正貴
2018年12月
「グローバル・システムの持続可能性評価基盤に関する研究」 最終成果報告会
2008年に整備した「政府統計の総合窓口(e-Stat)」により、各府省公表する統計データを一元的・総合的に提供。
基幹統計など主要な統計についてはデータベース化。 2018年1月に全面リニューアル
政府統計の総合窓口(e-Stat)
1
○提供している統計データ(2018/12現在)
・統計表(Excel、CSV等) :598統計、約136万ファイル・統計情報データベース :123統計、約12万データセット
参考(2014/10現在)統計情報データベース57統計 約7万データセット
2008年〜 e-Statの運用開始。EXCELファイル等のファイルダウンロードが中心 2014年〜 API機能の提供開始。プログラム等から自動的にデータの取得が可能 2016年〜 LODの提供開始。データ間のリンクが可能 2018年1月 全面リニューアル
政府統計の総合窓口(e-Stat)の変遷
2
ファイルダウンロード
API
LOD
2008~
2014~
Excel
XMLJSON
2016~
2018/1
CSV
機能紹介(統計データを探す)
3
データベース化された統計データを探します。
EXCELやCSVで公開している統計データを探します。
機能紹介(統計データを探す)
4
各データセットの情報を参照できます。
データベースの場合は、使用しているメタ情報(分類など)も参照できます
機能紹介(データベース表示)
5
画面上でデータを確認でき、メタ情報(分類など)によるデータ抽出、レイアウトの変更、データのダウンロード(CSV、EXCEL)ができます。
機能紹介(データベース表示)
6
レイアウトの変更メタ情報(分類など)によるデータ抽出
機能紹介(データベース表示)
7
EXCELの場合は、データ表示で指定されたレイアウトでダウンロードします
CSVの場合は、ページや列に複数のメタ情報があった場合、自動的に行にメタ情報を移動し、列を1つにします。(機械判読に好ましい形式)
・データ表示で抽出した条件でデータをCSV又はEXCEL形式でダウンロードできます。
機能紹介(統計GIS)
8
各種統計データを地図上に表示し、視覚的に統計を把握することができる地理情報システム(GIS)を提供。境界データ、統計データのダウンロードも可能。
利用者のニーズに沿った地域分析が可能となるような機能を提供
➀ ユーザーの保有データを取り込んで分析する機能➁ 任意に指定したエリアにおける統計算出機能➂ 指定したエリア内の統計データをレポート出力する機能➃ 背景地図の切替(国土地理院の基盤地図情報)
すべての機能を使用するにはユーザ登録が必要です。
統計GIS(収録データ)
9
収録データ(抜粋)
統計GIS(主な機能)
10
統計GIS(分析事例)
11
分析事例(オープンデータの活用)
統計GIS(メッシュ)
12
平成27年国勢調査 平成24年経済センサス-活動調査
平成27年国勢調査の人口総数と平成24年経済センサス-活動調査の従業者数との比較
機能紹介(API機能)
13
e-Statでデータベースとして公開している統計データをプログラム等から取得できるAPI機能(Application Programming Interface)を提供。
データベースで提供されているデータはAPIで利用可能
API
プログラム
他のサービスGoogle,yahoo..
etc
API
http://API/get?・・・
XML
http://・・・/get?・・・
XML
Python
Ruby
PHP
R
REST
統計情報データベース
Java
Javascript
API機能
JSON
CSV
JSON
データベースとAPIの連携
14
e-Statでデータベースとして公開している統計データは、APIのパラメータが表示可能
APIのパラメータが表示される。(ずべてのデータを取得)appIDを追加すればリクエストできます。
データベースとAPIの連携
15
e-Statのデータベース表示と連動したAPIパラメータの表示が可能
項目の抽出
抽出条件に応じたAPIパラメータが表示される
機能紹介(統計LOD)
16
API機能の提供により、データのダウンロードや加工などをシステムに任せることができるようになり、利便性が向上。
しかし、似たようなデータが多数あり、データの定義も不明瞭なため、取得したいデータの検索などは、人の目で事前に確認し、対象データを指定(定義)することが必要となっている。
それぞれのデータの定義を明確にするとともに、データ間の関連性を定義することで、目的のデータを探しやすくなり、自動化がさらに進むのではないか。
LOD(Linked Open Data)による統計データの提供
2016年6月からLODによるデータ提供を開始。
LOD(Linked Open Data)とは
17
★ オープンライセンスでデータを公開
★★ コンピュータで処理可能なデータを公開
★★★ オープンに利用できるフォーマットでデータを公開
★★★★ Web標準のフォーマット(URI)でデータを公開
★★★★★ 他へのリンクを入れたデータを公開(LOD)
Webの発明者であるティム・バーナーズ・リーがオープンデータの5つ星レベルを提案
(Source: http://5stardata.info/)
オープンデータの5つ星レベル 標準化された技術を使用“World Wide Web Consortium(W3C)”
Resource Description Framework(RDF)W3C Recommendation
1.0(22 February 1999) / 1.1(25 February 2014)
SPARQL Query Language(SPARQL)W3C Recommendation
1.0(15 January 2008) / 1.1(21 March 2013)
データの定義
データの検索
RDF Data Cube VocabularyW3C Recommendation
(16 January 2014)
統計表の定義
RDB to RDF Mapping Language(R2RML)W3C Recommendation
(27 September 2012)
RDFへの変換
LOD(Linked Open Data)とは
18
“ファイルへのリンク”から “データへのリンク”へ
データにURIを定義(http://data.e-stat
.go.jp/lod/…/obs00001)
ファイルへリンク
データにURIを定義(http://data.e-stat
.go.jp/lod/…/C11201)
ページにURIを定義
(http://www.e-stat.go.jp/
xls0001.xls)
ページにURIを定義
(http://www.e-stat.go.jp/
pages.html)
データの所在が明確に
データへリンク
統計LODの事例
19
17のテーマの119のデータセットを提供
スコットランド
http://statistics.gov.scot/
イタリア国家統計局(ISTAT)
2011年の国勢調査のデータを提供。
http://datiopen.istat.it
統計LODの概要(統計データ)
20
RDF Data Cube Vocabularyは、統計データとメタデータの交換規約(ISO 17369:2013)であるSDMX(Statistical Data and Metadata eXchange)をベースとしており、統計データを以下の要素で表現している。
・次元(Dimension): 何で分類しているか(地域、性別、産業分類など)・測度(Measure): 何で集計等しているか(人、世帯、価格など)・観測値(Observation): 実際のデータ(セルに該当)・属性(Attribute): データの属性(単位、状況(暫定値か)など)
イタリア国家統計局などの事例を参考ししつつ、RDF Data Cube Vocabulary(W3C勧告)をベースに作成
イメージ
1データ単位に、複数の次元(分類)や測度(人口)などの情報を定義する。
統計LODの概要(メタ情報の定義)
21
各種統計調査共通で利用される要素は、共通語彙(Cross Domain)として定義。・性別・年齢・日本標準産業分類(大・中分類)・日本標準職業分類(大分類)など
統計データを表すメタ情報(次元など)を定義。
統計調査ごとに利用する要素は、調査ごと定義。・家族類型(国勢調査)・従業上の地位(国勢調査、経済センサス)・産業分類(国勢調査、経済センサス)→ 日本標準産業分類とリンク
・職業分類(国勢調査)→ 日本標準職業分類とリンク
など
調査共通(Cross Domain)
調査単位
他の定義情報とリンク
統計LODの概要(提供サービス)
22
情報提供サイト SPARQLエンドポイント
https://data.e-stat.go.jp/lodw/
・メタ情報などの各種情報を掲載
・検索用画面(SPARQLエンドポイント)を提供
・URIアクセスに対応
URIアクセス
統計LODの検索
23
Multiple datasets can be cross-searched
e-Stat LODの検索にはSPARQLを使用します。SPARQLを使用すると複数のデータセットを横断検索できます。
select ?pop ?estb ?birth
where {
?s estat-measure:population ?pop ;
cd-dimension:sex cd-code:sex-all ;
cd-dimension:nationality cd-code:nationality-japan ;
g00200521-dimension-2010:area g00200521-code-2010:area-all ;
cd-dimension:age cd-code:age-all ;
cd-dimension:timePeriod "2015"^^xsd:gYear ;
sdmx-dimension:refArea ?areacd.
?sc estat-measure:establishments ?estb ;
g00200552-dimension-2014:industryClassification g00200552-code-2014:industryClassification-A ;
g00200552-dimension-2014:legalOrganization g00200552-code-2014:legalOrganization-all;
cd-dimension:timePeriod "2014"^^xsd:gYear ;
sdmx-dimension:refArea ?areacd.
?o2 sdmx-measure:obsValue ?birth;
g00200502-dimension:indicator g00200502-code:indicator-A4101;
cd-dimension:timePeriod "2015"^^xsd:gYear ;
sdmx-dimension:refArea ?areacd.
?areacd dcterms:identifier "13000".
}
統計LODで定義している地域
24
Administrative Divisions
prefectural
divisions
(e.g., Tokyo)
municipal
divisions
(e.g., Shinjuku-ward)
Japan
Subdivided administrative units
of a municipal divisions
Small Areas (added in 2018)
standard area codes
identify
statistics-specific codes
identify
3rd grid square and
4th grid square
Grid Squares (added in 2018)
Statisticsrefer refer
world grid square codes
identify
refer
世界メッシュコードをLODで提供
25
(lat-NW,
long-NW)
(lat-SE,
long-SE)
span-EWN
span-EWS
・世界メッシュコードをLODを定義(世界メッシュコードをURIで使用)・緯度経度情報及び区間距離を属性として定義・統計データからは地域属性としてリンク
http://data.e-stat.go.jp/lod/gridCode/G2052353561
Cell ID
gsc:G2052353561
cd-dimension:sex
cd-code:
sex-all
sdmx-dimension:refArea
8
gsc:wgsCode
cd-dimension:timePriod
2015
2052353561
52353561
gsc:jgsCode
34.975
gsc:lat-NW
135.6375
gsc:long-NW
34.966667
gsc:lat-SE
135.65
gsc:long-SE1.141449
gsc:span-EWN
World grid square code
1.141565
gsc:span-EWS
estat-measure:population
統計LODの地理情報検索
26* Oracle provides a full implementation of GeoSPARQL
2つの主要な統計調査である国勢調査と経済センサスの小地域とメッシュのデータを2018年に公開。
境界データをLODで定義。
統計データをGeoSPARQLを使用して取得可能。
Example of GeoSPARQL FILTER expression
FILTER (
ogcf:sfWithin(
?wkt,
"POLYGON(…)"^^geo:wktLiteral
)
)
Observation_id
Value of
Population
population
sdmx-dimension:
refArea
String of
World Grid Code
GRID_code
worldGridCode
geo:
hasGeometry
geo:
asWKTPolygon
Cell ID
Target
Location Info
Population in
target area
Query population info
WITHIN a search polygon
メッシュデータの活用(統計GIS)
27
ダウンロード 以下の5調査のメッシュデータがダウンロード可能
国勢調査 事業所・企業統計調査 経済センサス基礎調査 経済センサス活動調査 農林業センサス
メッシュデータの活用(統計GIS)
28
データ取り込み
MeshStats 夜間光データをjSTAT MAPに取り込み
海外での事例紹介
29
日本の統計システムの紹介とともに世界メッシュの事例を海外でも紹介
ISWC2017(International Semantic Web Conference)Workshop(SemStats)2017-10-22 ウィーンセマンティックウェブ関連で最大の国際カンファレンスで開催される統計関連のワークショップ
タイトル:Geographic Area Representations in Statistical Linked Open Data of Japan
世界メッシュなど統計LODで提供している地域に関する内容を紹介。
Workshop on Integrating Geospatial and Statistical Standards2017-11-7 ストックホルムUNECE(国連欧州経済委員会:United Nations Economic Commission for Europe)とUN-GGIM(国連地理空間情報専門家会議:United Nations Committee of Experts on Global Geospatial Information Management)の共同ワークショップ
タイトル:World Grid Square Statistics and their application to data analytics
世界メッシュコードを活用したデータの分析事例(統計GIS、MESHSTATS、統計LOD等)を紹介
National Government Geospatial Executive Forum @ Esri UC2018-7-10 サンディエゴ米国Esriが主催するGIS関連で最大のユーザカンファレンスで開催される政府機関向けのフォーラム
タイトル:Utilizing Grid Square Statistics
日本のメッシュの概要、メリット、世界メッシュ、統計LOD等を紹介
世界メッシュでデータを集約
30
世界メッシュコード
Linking Open Data cloud diagram 2014, by Max Schmachtenberg, Christian Bizer, Anja Jentzsch and Richard Cyganiak. http://lod-cloud.net/ CC BY-SA
GIS
BIツール
EBPM
MESHSTATS
e-Stat
Linked Open Data