藤沢市 議事録の研究

Post on 03-Jan-2016

19 views 2 download

description

藤沢市 議事録の研究. 総合政策学部 3 年 飯塚直 総合政策学部 3 年 臼杵憲一 環境情報学部 4 年 黒崎伸夫. 当初の研究目的. 藤沢市の議事録を年度ごとに集計し、  どんなことが話し合われているのかを分析する  経年で話題の変化が見られるのか?  「 TextImi 」による話し言葉の分析⇒形態素分析 手法 ①出現語頻度表     ②係り受け頻度表     ③基礎意味チャンク集計表. 分析以前にしたこと. データの収集 議事録データ  1995 年度~ 2003 年度 各年度のデータを 4 ~ 5 のファイルに分割 - PowerPoint PPT Presentation

Transcript of 藤沢市 議事録の研究

藤沢市 議事録の研究

総合政策学部 3年 飯塚直総合政策学部 3年 臼杵憲一環境情報学部 4年 黒崎伸夫

当初の研究目的 藤沢市の議事録を年度ごとに集計し、

 どんなことが話し合われているのかを分析する

 経年で話題の変化が見られるのか?

 「 TextImi」による話し言葉の分析⇒形態素分析

手法 ①出現語頻度表    ②係り受け頻度表    ③基礎意味チャンク集計表

 

分析以前にしたこと データの収集議事録データ  1995年度~ 2003年度各年度のデータを 4~ 5のファイルに分割1ファイルのデータ数  10000件 データの整形システムに載せるために CSVデータに置き換える

時間のかかった作業①プログラミングによってデータを整形  数値への変換、「発言内容」や「期間」などの分類②アップロードのエラーに対処する  元データにあるカンマの削除等

データ入手藤沢市議会 会議録検索システムhttp://www02.gijiroku.com/fujisawa/index.html

問題:データの一括ダウンロードができない

ダウンロードスクリプトを作成

ダウンロード完了(全 843ファイル)

ファイルの書式

CSVファイルのフォーマットを伺う

ID, 日付 , 会議名 , 発言者名 , 発言本文

CSVへの変換スクリプト作成

とりあえず CSVファイルを生成完了

CSVファイルの作成から解析可能段階に至るまでの経緯授業でアドバイザーの方に CSVファイルの作成要領を伺う( 12/5)CSV作成→アドバイザーの方にお願いする( 12/13)→指示を頂き、ダブルクオーテーションを削除するように改良( 12/17)→IDなどフォーマットエラー多数によりアップロードできず、指示を頂く( 12/1

7)→中間発表で助言を頂き、再度 CSV生成( 12/19)→1件に対する発言文が多すぎるため、文単位で区切るようにとの指示( 12/20)→再度スクリプト作成し CSV生成、アップロード作業をお願いする( 12/28)→件数が多すぎてシステムで扱えないことが判明し、村木さんに CSVファイルを

1万件ごとに分割して頂く( 12/30)→件数が多すぎてアドバイザーの方が対応できず、自分達でアップロードするようにとの指示( 1/7)

→アップロードおよび解析用 URLについて連絡を受ける( 1/7)→3人で分担してアップロード作業を進める→件数が多いせいかシステムがうまく作動しないことが多かったため中野さんに相談したところ別のサーバーを用意して頂いたためそちらで解析開始( 1/14)

完成した CSVファイル

現時点で分析は途中 データ数が膨大すぎたため、 データの整形やエラーの対処に時間がかかった

現時点では、出現語頻度表しかできていない

水曜日のレポート提出までには、集計結果を載せる

出現語頻度表    分析方法1. 全ての年度に共通して出てくるような名詞 「子ども」や「高齢者」などを 18語選択し、 出現語頻度表の 100位までで出現数を集計する 

2. 各年度で特徴的な珍しい名詞。  多年度には出現しない⇒その年度の TOPIX 出現語頻度表の 200位までで出現数を集計する

 

年度ごとの会議数・発言者数・件数

0

10000

20000

30000

40000

50000

60000

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

2005

発言者数件数

会議数

0

20

40

60

80

100

120

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

2005

会議数

集計結果 黄色は集計途中

  年度 ごみ

子ども 高齢者 環境 健康 福祉 道路 病院 教育 介護保険 学校

1995                      

1996 381 505 0 0 0 88 0 0 0 0 0

1997 832 286 90202 89 0

441 0 0 0

365

1998 832 106 81 0 0 76 0 0 0 0 97

1999103

1 655 222293

299

275

149

128

153 225

533

2000 835 654 323279

100 0 61 0 0 172

372

2001 373 854 251176 87 0

149 88 0 182

652

2002 275 841 0 0 0 0 59 0 58 98798

各年度で特徴的な名詞頻度表 200位までに出現した名詞「その年に話題になった TOPIX」

1995年    「市民病院」 「難病」1996年    「漁港」 「市民参加」1997年    「児童クラブ」1998年    「下水道」 「保育園」 1999年  「ダイオキシン」「寒川町」「 NPO」2000年  「ダイオキシン」「エネルギーセンター」「井戸」

2001年  「ダイオキシン」「荏原」2002年       「個人情報」

解釈 2000年に社会問題となった「ダイオキシン問題」は、「 1999年」 から市議会の議題に挙がっていて、頻出の出現語として確認することができた。( 200位以内)

最も出現頻度が多かった年は「 2001年」で、他にも、問題となった企業名「荏原」の出現頻度が高かった。