藤 沢 市 観光振興計画 - Fujisawa...大庭城址公園 遊行寺いろは坂 江の島シヸキャンドル(湘南の宝石) ふじさわ江の島花火大 藤 沢 市
藤沢市 議事録の研究
-
Upload
brock-holder -
Category
Documents
-
view
19 -
download
2
description
Transcript of 藤沢市 議事録の研究
藤沢市 議事録の研究
総合政策学部 3年 飯塚直総合政策学部 3年 臼杵憲一環境情報学部 4年 黒崎伸夫
当初の研究目的 藤沢市の議事録を年度ごとに集計し、
どんなことが話し合われているのかを分析する
経年で話題の変化が見られるのか?
「 TextImi」による話し言葉の分析⇒形態素分析
手法 ①出現語頻度表 ②係り受け頻度表 ③基礎意味チャンク集計表
分析以前にしたこと データの収集議事録データ 1995年度~ 2003年度各年度のデータを 4~ 5のファイルに分割1ファイルのデータ数 10000件 データの整形システムに載せるために CSVデータに置き換える
時間のかかった作業①プログラミングによってデータを整形 数値への変換、「発言内容」や「期間」などの分類②アップロードのエラーに対処する 元データにあるカンマの削除等
データ入手藤沢市議会 会議録検索システムhttp://www02.gijiroku.com/fujisawa/index.html
問題:データの一括ダウンロードができない
ダウンロードスクリプトを作成
ダウンロード完了(全 843ファイル)
ファイルの書式
CSVファイルのフォーマットを伺う
ID, 日付 , 会議名 , 発言者名 , 発言本文
CSVへの変換スクリプト作成
とりあえず CSVファイルを生成完了
CSVファイルの作成から解析可能段階に至るまでの経緯授業でアドバイザーの方に CSVファイルの作成要領を伺う( 12/5)CSV作成→アドバイザーの方にお願いする( 12/13)→指示を頂き、ダブルクオーテーションを削除するように改良( 12/17)→IDなどフォーマットエラー多数によりアップロードできず、指示を頂く( 12/1
7)→中間発表で助言を頂き、再度 CSV生成( 12/19)→1件に対する発言文が多すぎるため、文単位で区切るようにとの指示( 12/20)→再度スクリプト作成し CSV生成、アップロード作業をお願いする( 12/28)→件数が多すぎてシステムで扱えないことが判明し、村木さんに CSVファイルを
1万件ごとに分割して頂く( 12/30)→件数が多すぎてアドバイザーの方が対応できず、自分達でアップロードするようにとの指示( 1/7)
→アップロードおよび解析用 URLについて連絡を受ける( 1/7)→3人で分担してアップロード作業を進める→件数が多いせいかシステムがうまく作動しないことが多かったため中野さんに相談したところ別のサーバーを用意して頂いたためそちらで解析開始( 1/14)
完成した CSVファイル
現時点で分析は途中 データ数が膨大すぎたため、 データの整形やエラーの対処に時間がかかった
現時点では、出現語頻度表しかできていない
水曜日のレポート提出までには、集計結果を載せる
出現語頻度表 分析方法1. 全ての年度に共通して出てくるような名詞 「子ども」や「高齢者」などを 18語選択し、 出現語頻度表の 100位までで出現数を集計する
2. 各年度で特徴的な珍しい名詞。 多年度には出現しない⇒その年度の TOPIX 出現語頻度表の 200位までで出現数を集計する
年度ごとの会議数・発言者数・件数
0
10000
20000
30000
40000
50000
60000
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
発言者数件数
会議数
0
20
40
60
80
100
120
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
会議数
集計結果 黄色は集計途中
年度 ごみ
子ども 高齢者 環境 健康 福祉 道路 病院 教育 介護保険 学校
1995
1996 381 505 0 0 0 88 0 0 0 0 0
1997 832 286 90202 89 0
441 0 0 0
365
1998 832 106 81 0 0 76 0 0 0 0 97
1999103
1 655 222293
299
275
149
128
153 225
533
2000 835 654 323279
100 0 61 0 0 172
372
2001 373 854 251176 87 0
149 88 0 182
652
2002 275 841 0 0 0 0 59 0 58 98798
各年度で特徴的な名詞頻度表 200位までに出現した名詞「その年に話題になった TOPIX」
1995年 「市民病院」 「難病」1996年 「漁港」 「市民参加」1997年 「児童クラブ」1998年 「下水道」 「保育園」 1999年 「ダイオキシン」「寒川町」「 NPO」2000年 「ダイオキシン」「エネルギーセンター」「井戸」
2001年 「ダイオキシン」「荏原」2002年 「個人情報」
解釈 2000年に社会問題となった「ダイオキシン問題」は、「 1999年」 から市議会の議題に挙がっていて、頻出の出現語として確認することができた。( 200位以内)
最も出現頻度が多かった年は「 2001年」で、他にも、問題となった企業名「荏原」の出現頻度が高かった。