紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

24
國立政治大學 語言學研究所、資訊科學系 劉昭麟 2015320

Transcript of 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

Page 1: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

國立政治大學

語言學研究所、資訊科學系

劉昭麟

2015年3月20日

Page 2: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

這一份研習資料,以紅樓夢的內容來說明taiwandh的一些功能

以下練習步驟所舉的例子只是便利於舉例,並不是為了進行學術研究而使用的關鍵詞彙

在實際學術研究或者應用中,研究者當自行選擇所關注的關鍵詞彙

您可以分析其他「臺灣數位人文小小讚」上的語料,例如,三國演義、論語、孟子

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.2

Page 3: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

taiwandh包含數個以Java程式語言所撰寫的文本分析軟體工具

您的電腦必須事先安裝了可以執行Java程式的Java Runtime Environment (JRE)才能使用taiwandh

絕大多數電腦都預先安裝了JRE,所以實際上您不須擔心這一問題

雖然我們的程式應該可以在 iOS作業系統上執行,但是因為我們沒有相關設備,因此從未切實測試 一些Apple機器還需要確認是否安裝了JDK

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.3

Page 4: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

自「台灣數位人文小小讚」的「範例資料」下載「紅樓夢」

台灣數位人文小小讚網址資訊 https://sites.google.com/site/taiwandigitalhumanities/

您下載的檔案是一個壓縮檔案,裡面是一個包含紅樓夢文本資料的資料夾,請先解壓縮。並且請把所下載的資料放在一個資料夾裡面。這一個資料可以在任何您選擇的地方

以下將假設您稱呼這一個資料夾為「實習區」2015年3月20日 taiwandh.紅樓夢.4國立政治大學劉昭麟

Page 5: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

自「台灣數位人文小小讚」的「軟體工具」下載最新版本的taiwandh

台灣數位人文小小讚網址資訊 https://sites.google.com/site/taiwandigitalhumanities/

請把所下載的檔案解壓縮,放到「實習區」。

請務必把壓縮檔案解壓縮,不要直接在壓縮檔案中執行我們的程式

2015年3月20日 taiwandh.紅樓夢.5國立政治大學劉昭麟

Page 6: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

在「實習區」資料夾中,編輯一份新的文件檔案

假設您使用的檔名是「三要角.txt」

請把“寶玉”、“黛玉”和“寶釵”分別放在三行文字裡面

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.6

寶玉黛玉寶釵

Page 7: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

以滑鼠左鍵雙擊「實習區」裡面的ui.jar檔案

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.7

Page 8: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

如果工具軟體啟動成功,您應該會看到以下的一個小視窗

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.8

Page 9: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

以滑鼠左鍵點擊中文檔案內碼查驗

您應該會看到下面這一個小視窗,請點選請選擇,然後選擇三要角.txt,然後點選開始查驗

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.9

Page 10: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

如果您的檔案所使用的不是UTF8內碼,那麼您會看到右側的畫面

如果您的檔案所使用的是UTF8內碼,那麼您會看到右側的畫面

如果你的Java不是最新版本,或者您的檔案包含一些可疑的內碼,則會看到其他警訊

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.10

Page 11: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

國內許多Windows作業系統預設的內碼都是BIG5

因為我們的軟體工具現在只處理以UTF8內碼的中文資料,所以我們可能需要使用BIG5轉換為UTF8

請點選請選擇,然後選擇三要角.txt,假設您使用三要角UTF8.txt來儲存轉換結果,然後點選開始轉換

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.11

Page 12: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

點選關鍵詞彙時序分析

確認看到下面的視窗

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.12

Page 13: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

在下面的視窗中 選擇維基文庫紅樓夢資料夾 選擇三要角UTF8.txt作為關鍵詞檔案 選擇目前資料夾(或者輸入資料夾名稱;請注意說明)

填寫DRCbasic作為輸出檔案名稱 然後開始分析

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.13

Page 14: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

如果您的機器有上網,您應該看到下列的折線圖。(請注意:IE可能需要再經授權看到)

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.14

Page 15: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

剛剛的折線圖是透過Google Chart來繪製的,有很多時候,您需要得知和應用所找到的頻率的數據。請用EXCEL看「實習區」中的DRCbasic.csv。

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.15

Page 16: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

點選功能區域中的關鍵詞彙語境分析 選擇維基文庫紅樓夢資料夾 選擇三要角UTF8.txt作為關鍵詞檔案 選擇目前資料夾(請參照步驟九之一的說明) 填寫三要角語境分析作為輸出檔案名稱 選擇20作為前後文長度 (20是自訂的語境長度) 然後開始分析

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.16

Page 17: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.17

關鍵詞彙時序分析結果csv

Page 18: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

假設我們想要研究三要角跟十位金陵十二金釵何時、為何一起出現。

準備一份金陵十二金釵的資料

跟前面的步驟類似,我們必須確保這一個檔案的中文內碼是UTF8

假設您是用十二金釵utf8.txt來儲存這一檔案。

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.18

元春探春湘雲妙玉迎春惜春熙鳳巧姐李紈可卿

Page 19: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

點選功能區域中的關鍵詞組總頻率分析 選擇維基文庫紅樓夢資料夾 選擇三要角UTF8.txt作為關鍵詞檔案 選擇十二金釵utf8.txt作為共現詞檔案 選擇目前資料夾(請參照步驟九之一說明) 選擇20作為前後文長度 填寫共現頻率分析作為輸出檔案名稱 然後開始分析

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.19

Page 20: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

右側是所得的部分數據

這一些數據可以用來進行社會網路分析(social network analysis)

參考:NodeXL

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.20

寶玉,探春,57

黛玉,探春,52

寶釵,探春,51

寶玉,李紈,43

寶玉,湘雲,38

寶釵,李紈,37

寶釵,湘雲,35

寶玉,妙玉,32

黛玉,李紈,30

寶釵,迎春,25

Page 21: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

點選功能區域中的關鍵詞組時序與語境分析 選擇維基文庫紅樓夢資料夾 選擇共現頻率分析.txt作為關鍵詞組檔案 選擇目前資料夾(請參照步驟九之一說明) 以 10作為最低共現頻率 (10 是一個可變、自訂的選項) 選擇20作為前後文長度 (20 是一個可變、自訂的選項) 填寫共現語境分析作為輸出檔案名稱 然後開始分析

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.21

Page 22: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

語境前後文:共現語境分析.20.html

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.22

Page 23: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

以EXCEL開啟共現時序的數據資料:共現語境分析.20.csv

這一些數據也可以用來進行社會網路分析

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.23

Page 24: 紅樓夢線上研習 (Textual Analysis of the Dream of the Red Chamber)

點選功能區域中的單一文本檔案分割 選擇維基文庫紅樓夢前四十回UTF8.txt 選擇目前資料夾(請注意說明) 填寫前四十回作為分割結果資料夾 選擇文字檔名 填寫“第[一二三四五六七八九十零百]+回 ”作為分割標示

上面這一行文字中的空白是必要的

選擇正則表示然後開始分析

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.24