計量文献学の技法を用いた...

25
計量文献学の技法を用いた 歌詞の通時的分析 小林 雄一郎 (日本大学) Text Mining 2018 201869日、同志社大学 1

Transcript of 計量文献学の技法を用いた...

計量文献学の技法を用いた歌詞の通時的分析

小林雄一郎(日本大学)TextMining2018

2018年6月9日、同志社大学1

本発表は、以下の論文の内容に基づいています。

Kobayashi,Y.,Amagasa,M.,&Suzuki,T.(2017).Investigatingthechronologicalvariationofpopular

songlyricsthroughlexicalindices.JournaloftheJapaneseAssociationforDigital

Humanities,2(1),90-107.

https://www.jstage.jst.go.jp/article/jjadh/2/1/2_90/_article

2

はじめに• 流行歌は、その楽曲を生み出した時代や社会の表象

– 個々の歌手や楽曲によって、音楽のテーマやスタイルは異なるが、ポピュラー作品の表現は、個別的な関心によって一見異なる形式を取りながらも、その時代を生きた人々の価値観を反映し、何らかの時代性を帯びているもの(南田,2010)

3

• 歌詞の重要性– 書き手の内面を窺い知る手がかり– 聞き手が自分を映す鏡(見崎,2002)

↓– 歌詞を分析することは、その時代の背景や人々の心理を理解する上で重要な意義を持つ

4

先行研究• 社会学的研究– 歌謡曲や流行歌の歌詞を題材として、特定の時代における文化や社会思想を議論

– 見田(1968)• 明治元年から昭和38年までの451曲を対象• 怒り、喜び、孤独、あこがれなどのモチーフ因子を分析• 戦前から戦後にかけての日本人の心情の変化を調査

– 久保(1995)• 1965年から1989年までの間に発表された302曲• 1960年代に見られた「若者モノ」が1975年以降に減少し、「恋愛モノ」が台頭していく過程を明らかに

5

• 計量文体論的研究– 歌謡曲や流行歌の歌詞を題材として、新たな分析手法の模索・確立

– 水谷(1982)• 昭和初期の歌謡曲における語彙使用の類似度を調査• 数量化III類など

– 細谷・鈴木(2010)、小林・狩野・鈴木(2013)• 女性歌手の歌詞• 主成分分析、ランダムフォレストなど

6

• 英語圏の歌詞分析– 古くは、ジェンダー研究など– 現在は、より広範な文化研究

7

http://seatsmart.com/blog/lyric-intelligence/

8

http://seatsmart.com/blog/lyric-intelligence/

研究の目的• 計量文体論の技法を用いて、流行歌を通時的に分析し、歌詞における言語使用の時系列変化を明らかにすること

9

分析データ• 歌詞の通時コーパス– 1976年から2015年までの40年間– オリコン年間チャートのシングルトップ20位以内– 両A面シングルは、2曲とも分析対象– 複数年にわたってランクインした曲は、最初にランクインした年のデータ

– 2016年7月の時点で、「歌ネット」 および「うたまっぷ」 で歌詞が入手できなかった14曲は対象外

↓– 合計858曲

• 総文字数:611244• 総語数:314267• 総文数:7505

10

分析対象とする言語項目• 従来研究– 単語の表層形

• 全ての出現語彙(小林・狩野・鈴木,2013)• 高頻度語(金城,2013;細谷・鈴木,2010)• 名詞(茅根,2002)• 動詞(茅根,2002)• 人称代名詞(茅根,2002;藤掛・西村・菅沼・田賀・澤柳,1994;藤川,1999)

• 文末表現(鈴木・山口,2000)• コロケーション(塚本,2014)• 漢字とルビの組み合わせ(鈴木・山口,2000)• 英語表現(藤掛・西村・菅沼・田賀・澤柳,1994)

11

• 本研究– 26種類の語彙指標

• 品詞、語種、文字種、語彙レベルから構成• 日本語文章難易度判別システムjReadabilityによって算出• 計量文体分析において、品詞構成率や語種の有効性は古くから認識(樺島・寿岳,1965;安本,1958;安本,1965)

↓– 総語数の極めて少ない「歌詞」というテキストにおいても安定した頻度情報

– 文章の内容による影響を軽減し、文体の違いを明らかに(Tabata,2002)

12

分析手法• 相関分析

– 変数間の相関関係(予備的分析)• 重回帰分析

– 複数の説明変数を用いて、目的変数を予測・説明(豊田,2012)

– 品詞、語種、文字種、語彙レベルから成る26種類の語彙指標を説明変数とし、楽曲が流行した年を目的変数

– 赤池情報量基準(AIC)に基づくステップワイズ法による変数選択

– Tsukamoto(2004)• 回帰分析を用いて、16世紀から20世紀までの英語の散文の執筆年とwh限定詞、been、形容詞の頻度の関係を明らかに

– 金(2009)• 回帰分析を用いて、芥川龍之介の作品の執筆年と格助詞や接続助詞などの頻度の関連を明らかに

13

結果と考察• 相関分析– 語彙指標間で相関の高い組み合わせは、和語と漢語、助詞と「その他」の品詞、外来語とカタカナ

– 楽曲が流行した年と高い相関を持つ語彙指標は漢字

14

変数間の相関関係(上位10位)

Rank Variable1 Variable2 r1 Japanese-origin Chinese-origin -0.992 Particle Other -0.983 Foreign-origin Katakana 0.894 Verb Other -0.895 Verb Particle 0.876 Pronoun Other -0.857 Particle Pronoun 0.838 Auxiliary verb Other -0.789 Kanji Year 0.7810 Particle Auxiliary verb 0.75

• 重回帰分析(データ構造の説明)

15

決定係数:0.93調整済み決定係数:0.83F :21.98

Estimate Standard Error t value p (>|t|) Significan

ce(Intercept) -2.900e+04 1.304e+04 -2.23 0.04 *Adjectival noun -7.820e+00 3.623e+00 -2.16 0.04 *Auxiliary verb 3.072e+00 1.047e+00 2.93 0.01 **Conjunction -3.879e+01 1.672e+01 -2.32 0.03 *Pronoun -2.577e+00 1.795e+00 -1.44 0.16Verb -1.917e+00 9.938e-01 -1.93 0.07Adverb 4.255e+00 2.470e+00 1.72 0.10Adnominal 6.195e+00 5.343e+00 1.16 0.26Level 2 1.544e+02 5.981e+01 2.58 0.02 *Level 3 1.902e+02 7.471e+01 2.55 0.02 *Level 4 1.301e+02 7.347e+01 1.77 0.09Hiragana -1.502e+00 9.226e-01 -1.63 0.12Katakana -2.263e+00 9.060e-01 -2.50 0.02 *Japanese-origin 3.099e+02 1.298e+02 2.39 0.03 *Chinese-origin 3.132e+02 1.309e+02 2.39 0.03 *Foreign-origin 3.115e+02 1.306e+02 2.39 0.03 *Hybrid 3.010e+02 1.299e+02 2.32 0.03 *

• 重回帰分析(発表年の予測)– 楽曲が実際に流行した年(実測値)と回帰式によって予測された年(推定値)の差の平均は、5.75

↓– 発表年の予測に寄与する言語項目

• 語種(和語、漢語、外来語)(文字種の頻度は、語種の頻度と密接に関連)

16

• 漢語と漢字– 年代が進むごとに増加傾向– J-POP日本語回帰説?(伊藤,2014)

17

漢語 漢字

• 外来語とカタカナ– 年代が進むごとに減少傾向

18

外来語 カタカナ

• 1980年代の歌詞– ジュリアに傷心(チェッカーズ、1985年1位)

• キャンドル・ライトが/ガラスのピアスに反射けて滲む/お前彼の腕の中踊る/傷心(ハートブレイク) SaturdayNight/悲しいキャロルがショーウインドウで/銀の雪に変わったよ

– CHA-CHA-CHA(石井明美、1986年1位)• 街で噂の 辛くち セクシー・ギャル/甘い誘い はねつける スパイシー・ギャル/花の金曜日(ウィークエンド)匂いもファンキー・ナイト

19

• 2000年代の歌詞– タイトルが英語表記であるにもかかわらず、歌詞に外来語や外国語を殆ど含まないものが多い• Believe(嵐、2009年1位)• Beginner(AKB48、2010年1位)

– 浜崎あゆみ• 1999年から2005年までの間に年間チャートのトップ20位以内にランクインさせた17曲のタイトルは全て英語表記

• 歌詞における外来語や外国語の比率は意外と小さい• 古風な作風(見崎,2002)

20

• 1990年頃に語種の使用率が大きく変化

21

漢語 外来語

昭和と平成の違い? バブル崩壊? 湾岸戦争?西洋文化への憧れの交代? 若者の右傾化?予測変換などの技術発展?

なぜ??

• 品詞– 連体詞や副詞が増加– 固有名詞や普通名詞が減少

• 語彙レベル– 初級後半語が増加– 上級後半語が減少

22

おわりに• 結果のまとめ– 1976年から2015年までの40年間に発表された858曲の歌詞における26種類の語彙指標の時系列変化を分析

↓– 1990年頃を境に、語種と文字種の頻度が大きく変化– 特に、外来語とカタカナの頻度の減少と、漢語と漢字の頻度の増加

– 本研究の知見は体系的な歌詞データと計量文献学の技法に基づくものであり、日本の現代文化を対象とする社会学研究に客観的な資料を与え得るもの

23

• 今後の展開– 機械学習(ランダムフォレストやLASSOなど)による、より精度の高いデータの記述と予測を実現し、より有益な知見を導き出すこと

– 楽曲のジャンルや歌手のジェンダーによる歌詞の違い(北川,1999)を考慮し、各年代におけるジャンルやジェンダーの割合を調査すること

– 個々の楽曲の歌詞に関する質的分析– 楽曲が作られた背景の仔細な検討

24

25