Mult An App

8

description

 

Transcript of Mult An App

Page 1: Mult An App

Âåðèôèêàöèÿ àâòîðîâ, èñïîëüçóÿ

ìíîãîìåðíûé ïîäõîä

Authorship Veri�cation, using the Multivariate Analysis Approach

c© Å.Ñâåðäëîâ

2009

Àííîòàöèÿ

Îïèñàí ìåòîä ðåøåíèÿ çàäà÷è âåðèôèêàöèè àâòîðîâ ïî ðóññêèì òåêñòàì,

èñïîëüçóÿ ìíîãîìåðíûé ïîäõîä (Multivariate Analysis Approach).

1 Ïîñòàíîâêà çàäà÷è

Êîðîòêî � çàäà÷à ñòàâèòñÿ òàê: èìååòñÿ ñïèñîê àâòîðîâ è íàïèñàííûõ èìè òåêñòîâ.Ïðèõîäÿùèé íîâûé òåêñò ïîäïèñàí îäíèì èç èìåí â ñïèñêå. Íóæíî âûÿñíèòü,äåéñòâèòåëüíî ëè óêàçàííûé àâòîð íàïèñàë ýòîò òåêñò? Îïèñàíèå ýòîé çàäà÷è ìîæíîâèäåòü òàêæå â [1, 2, 3, 4, 5, 6, 7] è ìíîãèõ äðóãèõ èñòî÷íèêàõ.

2 Ìåòîä

2.1 Îáùåå îïèñàíèå

Ìåòîä çàêëþ÷àåòñÿ â êîìáèíèðîâàíèè ðàçëè÷íûõ ñâîéñòâ òåêñòà ñ öåëüþ ðàçðåøåíèÿïðîáëåìû àâòîðñòâà òåêñòà (â äàííîì ñëó÷àå, âåðèôèêàöèÿ àâòîðîâ). Ýòîò ìåòîä áûëîïèñàí â [1].

2.2 Îïèñàíèå âèäà òåêñòîâ

Îöåíêà ìåòîäà ïðîèçâîäèëàñü òàê æå êàê è â [7]. Äëÿ ýêñïåðèìåíòîâ áûëè âçÿòû 261ðóññêèé òåêñò (ôàíòàñòèêà), êàæäûé ≈100kB, ≈25 ñòðàíèö. Èç íèõ 180 ñ ñàéòà:http://www.lib.ru/ � áèáëèîòåêà Ìàêñèìà Ìîøêîâà. Îñòàëüíûå, èç ñâîáîäíîðàñïðîñòðàíÿåìîãî èñòî÷íèêà òåêñòîâ. Ñîçäàíû áûëè 200 ìîäåëåé äëÿ 100 àâòîðîâ,à òàêæå ìîäåëü ÿçûêà. Âî âñåõ òåêñòàõ ðåãèñòð áóêâ íå ó÷èòûâàëñÿ, áîëüøèå áóêâûáûëè çàìåíåíû ìàëåíüêèìè, à òàêæå áûëà ñäåëàíà çàìåíà âñåõ ¼, � íà å.

Page 2: Mult An App

2.3 Òèïû ïàðàìåòðîâ

2.3.1 Óíèãðàììû áóêâ

Ðàññìîòðèì 10 íàèáîëåå ÷àñòîòíûõ áóêâ - íàéäåíû, èñïîëüçóÿ ìîäåëü ÿçûêà, è îäèíçíàê:à, â, ä, å, è, ê, ë, ì, í, î, ∇,ãäå∇ - âñå áóêâû, êðîìå óêàçàííûõ - ÷àñòîòà (ñîîòâåòñòâåííî, è âåðîÿòíîñòü ïîÿâëåíèÿâ òåêñòå) ðàâíà ñóììå ÷àñòîò(âåðîÿòíîñòåé) âñåõ áóêâ, êðîìå óêàçàííûõ.

Ïóñòü DUA - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà1, âçÿòûé íàðàñïðåäåëåíèÿõ ýòèõ 11 çíàêîâ ó "ïîäîçðèòåëüíîãî" è "èçâåñòíîãî" òåêñòîâ.

2.3.2 Áèãðàììû áóêâ

Ðàññìîòðèì 46 íàèáîëåå ÷àñòîòíûõ ïàð áóêâ - íàéäåíû, èñïîëüçóÿ ìîäåëü ÿçûêà (¼ñ÷èòàåì ðàâíûì å, ïîýòîìó âñåãî 1024 ïàðû áóêâ) è îäèí çíàê:òî, íî, ñò, íà, íå, ïî, àë, ðà, êî, ðî, íè, ãî, ëè, åí, îò, åð, îâ, ïð, êà, îñ, ëî,ðå, îë, âî, åë, òü, îð, îì, îí, ëà, çà, åò, èë, òà, âà, òå, âå, îä, îã, äå, ëå, ñÿ,äà, àò, åñ, ðè, ∇,ãäå∇ - âñå ïàðû, êðîìå óêàçàííûõ - ÷àñòîòà (ñîîòâåòñòâåííî, è âåðîÿòíîñòü ïîÿâëåíèÿâ òåêñòå) ðàâíà ñóììå ÷àñòîò(âåðîÿòíîñòåé) âñåõ ïàð áóêâ, êðîìå óêàçàííûõ.

Ïóñòü DBA - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà, âçÿòûé íàðàñïðåäåëåíèÿõ ýòèõ 47 çíàêîâ ó "ïîäîçðèòåëüíîãî" è "èçâåñòíîãî" òåêñòîâ.

2.3.3 Óíèãðàììû ÷àñòåé ðå÷è

Ðàññìîòðèì 5 íàèáîëåå ÷àñòîòíûõ ÷àñòåé ðå÷è (êðîìå ñîþçà) - íàéäåíû, èñïîëüçóÿìîäåëü ÿçûêà, è îäèí çíàê:ñóùåñòâèòåëüíîå, ãëàãîë, ïðè÷àñòèå, ïðåäëîã, ÷àñòèöà, ∇,ãäå ∇ - âñå ÷àñòè ðå÷è, êðîìå óêàçàííûõ - ÷àñòîòà (ñîîòâåòñòâåííî, è âåðîÿòíîñòüïîÿâëåíèÿ â òåêñòå) ðàâíà ñóììå ÷àñòîò(âåðîÿòíîñòåé) âñåõ ÷àñòåé ðå÷è, êðîìåóêàçàííûõ.

Ïóñòü DUP - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà, âçÿòûé íàðàñïðåäåëåíèÿõ ýòèõ 6 çíàêîâ ó "ïîäîçðèòåëüíîãî" è "èçâåñòíîãî" òåêñòîâ.

2.3.4 Áèãðàììû ÷àñòåé ðå÷è

Ðàññìîòðèì 23 íàèáîëåå ÷àñòîòíûå ïàðû ÷àñòåé ðå÷è - íàéäåíû, èñïîëüçóÿ ìîäåëüÿçûêà, è îäèí çíàê:ïðåäëîã-ñóùåñòâèòåëüíîå, ïðèëàãàòåëüíîå-ñóùåñòâèòåëüíîå,ñóùåñòâèòåëüíîå-ãëàãîë, ÷àñòèöà-ãëàãîë, ñóùåñòâèòåëüíîå-÷àñòèöà,ñóùåñòâèòåëüíîå-ñóùåñòâèòåëüíîå, ãëàãîë-ïðåäëîã, ñóùåñòâèòåëüíîå-ïðåäëîã,

1 Ïóñòü P è G - äâà àáñîëþòíî íåïðåðûâíûõ ðàñïðåäåëåíèÿ îòíîñèòåëüíî ìåðû µ. Èõ ïëîòíîñòèðàâíû, ñîîòâåòñòâåííî, p(x) è g(x). NP - íîñèòåëü ðàñïðåäåëåíèÿ P : NP = {x : p(x) > 0}. Òîãäàðàññòîÿíèåì Êóëüáàêà-Ëåéáëåðà ìåæäó ðàñïðåäåëåíèÿìè P è G íàçûâàåòñÿ âåëè÷èíà%(P,G) =

∫NP

ln (p(x)/g(x))P (dx) =∫

NP

ln (p(x)/g(x))p(x) · µ(dx) [8]

Ñîîòâåòñòâåííî, äëÿ äèñêðåòíûõ ðàñïðåäåëåíèé, çàäàííûõ íà ìíîæåñòâå {xi} èç N ýëåìåíòîâàíàëîãîì ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà ìåæäó ðàñïðåäåëåíèÿìè P è G ÿâëÿåòñÿ âåëè÷èíà%(P,G) =

∑Ni=1 [ln (p(xi)/g(xi)) p(xi)], ãäå ∀i = 1 . . . N p(xi) 6= 0, g(xi) 6= 0.

2

Page 3: Mult An App

ãëàãîë-ñóùåñòâèòåëüíîå, ìåñòîèìåíèå-ãëàãîë, ãëàãîë-÷àñòèöà,íàðå÷èå-ãëàãîë, ÷àñòèöà-ñóùåñòâèòåëüíîå, ÷àñòèöà-÷àñòèöà,(ìåñòîèìåíèå_ïðèëàãàòåëüíîå)-ñóùåñòâèòåëüíîå, ïðåäëîã-ïðèëàãàòåëüíîå,ãëàãîë-ãëàãîë, ãëàãîë-ìåñòîèìåíèå, ÷àñòèöà-íàðå÷èå, ÷àñòèöà-ìåñòîèìåíèå,ïðåäëîã-ìåñòîèìåíèå, ñóùåñòâèòåëüíîå-íàðå÷èå,ñóùåñòâèòåëüíîå-ïðèëàãàòåëüíîå, ∇,2ãäå∇ - âñå ïàðû ÷àñòåé ðå÷è, êðîìå óêàçàííûõ - ÷àñòîòà(ñîîòâåòñòâåííî, è âåðîÿòíîñòüïîÿâëåíèÿ â òåêñòå) ðàâíà ñóììå ÷àñòîò(âåðîÿòíîñòåé) âñåõ ïàð ÷àñòåé ðå÷è, êðîìåóêàçàííûõ.

Ïóñòü DBP - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà, âçÿòûé íàðàñïðåäåëåíèÿõ ýòèõ 24 çíàêîâ ó "ïîäîçðèòåëüíîãî" è "èçâåñòíîãî" òåêñòîâ.

2.3.5 Ðàñïðåäåëåíèå äëèí ñëîâ â áóêâàõ

Âñå ñëîâà ðàçáèâàåì íà 10 ãðóïï, èñïîëüçóÿ èõ äëèíó â áóêâàõ(äëèíû îò 1 äî 9 - íàèáîëåå ÷àñòûå â ÿçûêå � íàéäåíû, èñïîëüçóÿ ìîäåëü ÿçûêà):äëèíà = 1, äëèíà = 2, äëèíà = 3, äëèíà = 4, äëèíà = 5,äëèíà = 6, äëèíà = 7, äëèíà = 8, äëèíà = 9, äëèíà > 10

Ïóñòü DWC - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà, âçÿòûé íàðàñïðåäåëåíèÿõ ýòèõ 10 ãðóïï "ïîäîçðèòåëüíîãî" è "èçâåñòíîãî" òåêñòîâ.

2.3.6 Ðàñïðåäåëåíèå äëèí ïðåäëîæåíèé â ñëîâàõ

Âñå ïðåäëîæåíèÿ ðàçáèâàåì íà 25 ãðóïï, èñïîëüçóÿ èõ äëèíó â ñëîâàõ(äëèíû îò 1 äî 24 - íàèáîëåå ÷àñòûå â ÿçûêå � íàéäåíû, èñïîëüçóÿ ìîäåëü ÿçûêà):äëèíà = 1, äëèíà = 2, äëèíà = 3, äëèíà = 4, äëèíà = 5,äëèíà = 6, äëèíà = 7, äëèíà = 8, äëèíà = 9, äëèíà = 10,äëèíà = 11, äëèíà = 12, äëèíà = 13, äëèíà = 14, äëèíà = 15,äëèíà = 16, äëèíà = 17, äëèíà = 18, äëèíà = 19, äëèíà = 20,äëèíà = 21, äëèíà = 22, äëèíà = 23, äëèíà = 24, äëèíà > 25

Ïóñòü DSW - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà, âçÿòûé íàðàñïðåäåëåíèÿõ ýòèõ 25 ãðóïï "ïîäîçðèòåëüíîãî" è "èçâåñòíîãî" òåêñòîâ.

2.3.7 Ðàñïðåäåëåíèå äëèí ïàðàãðàôîâ â ïðåäëîæåíèÿõ

Âñå ïàðàãðàôû ðàçáèâàåì íà 7 ãðóïï, èñïîëüçóÿ èõ äëèíó â ñëîâàõ(äëèíû îò 1 äî 6 - íàèáîëåå ÷àñòûå â ÿçûêå � íàéäåíû, èñïîëüçóÿ ìîäåëü ÿçûêà):äëèíà = 1, äëèíà = 2, äëèíà = 3, äëèíà = 4, äëèíà = 5,äëèíà = 6, äëèíà > 7

Ïóñòü DPS - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà, âçÿòûé íàðàñïðåäåëåíèÿõ ýòèõ 7 ãðóïï "ïîäîçðèòåëüíîãî" è "èçâåñòíîãî" òåêñòîâ.

2ïðèëàãàòåëüíîå èìååò 3 ñòåïåíè ñðàâíåíèÿ: íàïðèìåð, ïðî÷íûé, ïðî÷íåå, ïðî÷íåéøèé.Çäåñü, ïðèëàãàòåëüíûå â ñðàâíèòåëüíîé è ïðåâîñõîäíîé ñòåïåíÿõ ìû íå áåðåì. Ìåñòîèìåíèå ìîæåòáûòü êàê ìåñòîèìåíèåì_ñóùåñòâèòåëüíûì(îí), òàê è ìåñòîèìåíèåì_ïðèëàãàòåëüíûì(íèêàêîé).

3

Page 4: Mult An App

2.3.8 Ïðîñòåéøèå õàðàêòåðèñòèêè ñëîâ

• Ýìîöèîíàëüíûå ñëîâà.DE = |ES − EK |/EL, ãäå ES, EK , EL - âåðîÿòíîñòè ïîÿâëåíèÿ ýìîöèîíàëüíûõñëîâ [9] â "ïîäîçðèòåëüíîì" , "èçâåñòíîì" òåêñòàõ è ÿçûêå, ñîîòâåòñòâåííî.

• Âîçâðàòíûå ãëàãîëû.DV = |VS−VK |/VL, ãäå VS, VK , VL - âåðîÿòíîñòè ïîÿâëåíèÿ âîçâðàòíûõ ãëàãîëîâ[9] â "ïîäîçðèòåëüíîì" , "èçâåñòíîì" òåêñòàõ è ÿçûêå, ñîîòâåòñòâåííî.

• Ãëàãîëû ñîâåðøåííîãî âèäà.DP = |PS−PK |/PL, ãäå PS, PK , PL - âåðîÿòíîñòè ïîÿâëåíèÿ ãëàãîëîâ ñîâåðøåííîãîâèäà â "ïîäîçðèòåëüíîì" , "èçâåñòíîì" òåêñòàõ è ÿçûêå, ñîîòâåòñòâåííî.

2.3.9 Ëåêñè÷åñêèé çàïàñ

Õîòåëîñü áû îöåíèòü ëåêñè÷åñêèé çàïàñ ÷åëîâåêà, èñõîäÿ èç äàííîãî òåêñòà. (Âäàííîì ñëó÷àå ïðåäñòàâëÿåòñÿ âîçìîæíûì îöåíèòü òîëüêî êîëè÷åñòâî ñëîâ, êîòîðîåìîæåò áûòü óïîòðåáëåíî â òåêñòàõ îïðåäåëåííîãî òèïà. Çäåñü - ðóññêèé ÿçûê,ôàíòàñòèêà). Ôîðìàëüíî, ýòî ìîæíî ñôîðìóëèðîâàòü òàê:Ïóñòü M - êîíå÷íîå ìíîæåñòâî. Èç ýòîãî ìíîæåñòâà ïîñëåäîâàòåëüíî âûáèðàåì èâîçâðàùàåì ïî îäíîìó ýëåìåíòó (äëÿ êàæäîãî ýëåìåíòà âåðîÿòíîñòü âûáîðà ðàâíà1/|M | � ýëåìåíòû ìîãóò áûòü âûáðàíû ðàâíîâåðîÿòíî), ò.å. åñòü ñëó÷àéíàÿ ôóíêöèÿèç íàòóðàëüíûõ3 ÷èñåë â M � ξ : N → M . Ïóñòü f : N → N - ÷èñëî ðàçëè÷íûõýëåìåíòîâ, âûáðàííûõ èç M íà êàæäîì øàãå, à g : N → N - ìèíèìàëüíîå ÷èñëîøàãîâ, ïîñëå êîòîðûõ âûáðàíî íóæíîå ÷èñëî ðàçëè÷íûõ ýëåìåíòîâ.Òîãäà f(n) ≈ |M | · (1− e−n/|M |), g(n) ≈ −|M | · ln(1− n/|M |)Ïîêàæåì ýòî:4

Ñïåðâà ñäåëàåì ýòî äëÿ g. Äîïóñòèì g : R → N, ò.å. äëèíà òåêñòà íåîáÿçàòåëüíîäîëæíà áûòü öåëûì ÷èñëîì, çàìåíèì âñå íàòóðàëüíûå ÷èñëà íà âåùåñòâåííûå.Èìåííî ýòî ïðèâîäèò íå ê ñòðîãîìó(=), à ïðèáëèæåííîìó(≈) ðàâåíñòâó. Ëåãêîïîíÿòü, ÷òî

dg(x)

dx=

1

1− x/|M |Ïîëó÷èëè î÷åíü ïðîñòîå äèôôåðåíöèàëüíîå óðàâíåíèå. Åãî ðåøåíèåì ÿâëÿåòñÿg(x) = |M | · ln(1 − x/|M |); ïåðåõîäÿ îáðàòíî ê öåëûì ÷èñëàì ïîëó÷àåì âòîðîåïðèáëèæåííîå ðàâåíñòâî. f(x) = g(x)−1 � îòñþäà, ïåðâîå ïðèáëèæåííîå ðàâåíñòâî.Ãðàôèê ôóíêöèè f(n) âûãëÿäèò ïðèìåðíî òàê: (Ðèñ. 1). Áóäåì ñ÷èòàòü, ÷òî òåêñòûñëó÷àéíû. Åñëè ïðèíÿòü çà M ìíîæåñòâî âñåõ ñëîâ5, òî ïîÿâëÿåòñÿ âîçìîæíîñòüîöåíèòü ëåêñè÷åñêèé çàïàñ ÷åëîâåêà (íà ñàìîì äåëå, òîëüêî êîëè÷åñòâî ñëîâ, êîòîðûå÷åëîâåê ñìîã áû óïîòðåáèòü â ïîäîáíîãî ðîäà òåêñòå) - ïîëó÷èì ÷èñëî L6. Àíàëîãè÷íî,ìîæíî îöåíèòü ÷èñëî ñóùåñòâèòåëüíûõ - S, ãëàãîëîâ - V, ïðèëàãàòåëüíûõ1

7 - A1,

3çäåñü íàòóðàëüíûå ÷èñëà íóìåðóþòñÿ ñ 1, ò.å N = {1, 2, 3, . . .}.4ýòî íå "àêêóðàòíûé" âûâîä, à òîëüêî åãî "ñõåìà" , íî ïðè íåîáõîäèìîñòè ìîæíî ïåðåâåñòè ýòó

"ñõåìó" â "àêêóðàòíûé" âûâîä.5ïîä ñëîâîì ïîíèìàåì ëåêñåìó.6çäåñü ñëîâàðíûé çàïàñ ñîñòàâèë ≈ 5000 ñëîâ.7íå â ñðàâíèòåëüíîé èëè ïðåâîñõîäíîé ñòåïåíè

4

Page 5: Mult An App

Ðèñ. 1: Ãðàôèê ôóíêöèè f(n)

ïðèëàãàòåëüíûõ28 - A2, íàðå÷èé - D, ïðè÷àñòèé - P, ïðåäëîãîâ - R, ÷àñòèö - M,

êîëè÷åñòâåííûõ ÷èñëèòåëüíûõ -C, ïîðÿäêîâûõ ÷èñëèòåëüíûõ -O, ìåñòîèìåíèé_ïðèëàãàòåëüíûõ- J. Íîðìèðóåì ýòè 12 ÷èñåë, ïðîñòî ïîäåëèâ êàæäîå èç íèõ íà èõ ñóììó.

ÏóñòüDCH - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Õåëëèíãåðà9, âçÿòûé íà ýòèõ ðàñïðåäåëåíèÿõó "ïîäîçðèòåëüíîãî" è "èçâåñòíîãî" òåêñòîâ.

3 Ðåçóëüòàò

Èñïîëüçóÿ îïèñàííûå â 2.3 ïàðàìåòðû, ìîæíî çàäàòü ôóíêöèþ:

D(t1, t2) = 2·DUA(t1, t2)+2·DBA(t1, t2)+0,3DUP (t1, t2)+0,15·DBP (t1, t2)+0,03·DWC(t1, t2)+

+0,06·DSW (t1, t2)+0,03·DPS(t1, t2)+0,01·DE(t1, t2)+0,03·DV (t1, t2)+0,02·DP (t1, t2)+

+ 0,5 ·DCH(t1, t2)

(1)

t1, t2 � "ïîäîçðèòåëüíûé" è "èçâåñòíûé" òåêñòû, ñîîòâåòñòâåííî.Èëè â 11-ìåðíîì ïðîñòðàíñòâå, ãäå êàæäîé ðàçìåðíîñòè ñîîòâåòñâóþòDUA, DBA, DUP , DBP , DWC , DSW , DPS, DE, DV , DP , DCH �

8â ñðàâíèòåëüíîé èëè ïðåâîñõîäíîé ñòåïåíè9 Ïóñòü P è G - äâà àáñîëþòíî íåïðåðûâíûõ ðàñïðåäåëåíèÿ îòíîñèòåëüíî ìåðû µ. Èõ ïëîòíîñòè

ðàâíû, ñîîòâåòñòâåííî, p(x) è g(x). NP - íîñèòåëü ðàñïðåäåëåíèÿ P : NP = {x : p(x) > 0}.,NG - íîñèòåëü ðàñïðåäåëåíèÿ G : NG = {x : g(x) > 0}. Òîãäà ðàññòîÿíèåì Õåëëèíãåðà ìåæäóðàñïðåäåëåíèÿìè P è G íàçûâàåòñÿ âåëè÷èíà%(P,G) =

∫NP

⋃NG

(√p(x)−

√g(x))2 · µ(dx)[8]

Ñîîòâåòñòâåííî, äëÿ äèñêðåòíûõ ðàñïðåäåëåíèé, çàäàííûõ íà ìíîæåñòâå {xi} èç N ýëåìåíòîâàíàëîãîì ðàññòîÿíèåì Õåëëèíãåðà ìåæäó ðàñïðåäåëåíèÿìè P è G ÿâëÿåòñÿ âåëè÷èíà%(P,G) =

∑Ni=1 (

√p(x)−

√g(x))2, ãäå ∀i = 1 . . . N p(xi) 6= 0, g(xi) 6= 0.

5

Page 6: Mult An App

ãèïåðïëîñêîñòü ~N · ~X = Θ ÿâëÿåòñÿ îòäåëÿþùåé, ãäå ~N =

22

0,30,150,030,060,030,010,030,020,5

,

à ~X = D(T1, T2), ãäå T1 è T2 - "ïîäîçðèòåëüíûé" è "èçâåñòíûé" òåêñòû.10 Ïðîâåäÿ,àíàëîãè÷íî [7] ýêñïåðèìåíò, ïîëó÷èì ROC11, èçîáðàæåííóþ íà ðèñóíêå 2.

Èñïîëüçóÿ îöåíêó äîâåðèòåëüíûõ èíòåðâàëîâ [10] �

c âåðîÿòíîñòüþ 0,95 EER = 0,16± 0,04, Θ = 0,036± 0,007.

4 Çàêëþ÷åíèå

Áûëè ñäåëàíû ñëåäóþùèå äîïóùåíèÿ:

• ïðåäïîëàãàåì, ÷òî ðàññìàòðèâàåìûå òåêñòû ñëó÷àéíû.

• ïðåäïîëàãàåì, ÷òî îòäåëÿþùèì àâòîðîâ ìíîæåñòâîì ÿâëÿåòñÿ ãèïåðïëîñêîñòü~N · ~X = Θ.

• ïðåäïîëàãàåì, ÷òî ðàçìåðû òåêñòîâ ≈25 ñòðàíèö, ò.å. òåêñòû áîëüøèå.

Êðîìå òîãî, âåêòîð íîðìàëè ãèïåðïëîñêîñòè ~N , áûë íàéäåí "ðóêàìè" , ïîýòîìóðåçóëüòàò íå ÿâëÿåòñÿ ëó÷øèì. Âîçìîæíî, ïðè áîëåå "êà÷åñòâåííîì" âûáîðåîòäåëÿþùåãî ìíîæåñòâà ðåçóëüòàò áûë áû ëó÷øå. Îäíîé èç âîçìîæíîñòåé ïîèñêàýòîãî ìíîæåñòâà áûëî áû èñïîëüçîâàíèå ñàìîîáó÷àþùèõñÿ ñèñòåì. Ñóùåñòâóåò áîëüøîåêîëè÷åñòâî ðàáîò â ýòîé îáëàñòè � [11, 12, 13, 14, 15] è äð.Øèðîêî ïðèìåíÿþòñÿ ñàìîîáó÷àþùèåñÿ ñèñòåìû è â îáëàñòèAuthorship Attribution � [1, 16, 17] è äð.Èíòåðåñ ïðåäñòàâëÿåò, òàêæå, óìåíüøåíèå ðàçìåðîâ òåêñòîâ.Âîçìîæíî òàêæå, óäàñòñÿ óëó÷øèòü ðåçóëüòàò, óñèëèâ àíàëèç âíóòðåííåé ñòðóêòóðûòåêñòà, ò.ê. â ðåàëüíîñòè òåêñòû íå ÿâëÿþòñÿ ñëó÷àéíûìè.

10Åñëè ~N · ~X 6 Θ, òî ñ÷èòàåì, ÷òî "ïîäîçðèòåëüíûé" è "èçâåñòíûé" òåêñòû íàïèñàíû îäíèìàâòîðîì, â ïðîòèâíîì ñëó÷àå � ðàçíûìè.

11ROC(Region of operating curve) - êðèâàÿ çàâèñèìîñòè FAR îò FRR.FAR (False Acceptance Rate) � "ïðîïóñê öåëè" èëè âåðîÿòíîñòü òîãî, ÷òî "÷óæîé" áóäåò ïðèíÿò çà"ñâîåãî".FRR (False Rejection Rate) � "ëîæíàÿ òðåâîãà" èëè âåðîÿòíîñòü òîãî, ÷òî "ñâîé" áóäåò ïðèíÿò çà"÷óæîãî".EER (Equal Error Rate) � òî÷êà ðàâåíñòâà FAR è FRR.

6

Page 7: Mult An App

Ðèñ. 2: ROC

7

Page 8: Mult An App

Ñïèñîê ëèòåðàòóðû

[1] Moshe Koppel, Jonathan Schler, Shlomo Argamon. Computational Methods inAuthorship Attribution. 2009.

[2] Hans van Halteren. Linguistic Pro�ling for Author Recognition and Veri�cation.

[3] Moshe Koppel, Jonathan Schler. Authorship Veri�cation as a One-Class Classi�cationProblem.

[4] Daniel Pavelec, Luiz S. Oliveira, Edson Justino, Leonardo V. Batista. UsingConjunctions and Adverbs for Author Veri�cation. 2008.

[5] Benno Stein, Nedim Lipka, Sven Meyer zu Eissen. Meta Analysis within AuthorshipVeri�cation. 2008.

[6] Kim Luyckx, Walter Daelemans. Authorship Attribution and Veri�cation with ManyAuthors and Limited Data. 2008.

[7] Ñâåðäëîâ Å. Âåðèôèêàöèÿ àâòîðîâ ïðè ïîìîùè ñðàâíåíèÿ ñòàòèñòè÷åñêèõõàðàêòåðèñòèê òåêñòîâ. 2009.

[8] Áîðîâêîâ À.À. Ìàòåìàòè÷åñêàÿ ñòàòèñòèêà. Ì., Èçä-âî ôèçèêî-ìàòåìàòè÷åñêîéëèòåðàòóðû, 1984.

[9] http://www.artint.ru/projects/frqlist.asp.×àñòîòíûéñëîâàðü(Øàðîâ Ñ.À.). 2001.

[10] Øàïîðåâ Ñ.Ä. Ïðèêëàäíàÿ ñòàòèñòèêà. ÑÏá, Áàëòèéñêèé ãîñóäàðñòâåííûéòåõíè÷åñêèé óíèâåðñèòåò, 2003.

[11] Vladimir N. Vapnik. The Nature of Statistical Learning Theory. Second Edition.Springer-Verlag New York, Inc. 1999.

[12] Vladimir N. Vapnik. Statistical learulng theory. Second Edition. Jolm Wiley & Sons,Inc. 1998.

[13] Òàðõîâ Ä.À. Íàó÷íàÿ ñåðèÿ "Íåéðîêîìïüþòåðû è èõ ïðèìåíåíèå".Íåéðîííûåñåòè, ìîäåëè è àëãîðèòìû. Ì., ÈÏÐÆÐ, 2005.

[14] Ãàëóøêèí À.È. Íàó÷íàÿ ñåðèÿ "Íåéðîêîìïüþòåðû è èõ ïðèìåíåíèå".Òåîðèÿíåéðîííûõ ñèñòåì. Ì., ÈÏÐÆÐ, 2000.

[15] Ãîëîâêî Â.À. Íåéðîííûå ñåòè: îáó÷åíèå, îðãàíèçàöèÿ è ïðèìåíåíèå. Ì.,ÈÏÐÆÐ, 2000.

[16] Daniel Pavelec, Edson Justino, and Luiz S. Oliveira. Author Identi�cation usingStylometric Features. Inteligencia Arti�cial, Revista Iberoamericana de InteligenciaArti�cial. Vol 11, No 36 (2007), pp. 59-65.

[17] Patrick Juola. Authorship Attribution. Foundations and Trendsr in InformationRetrieval Vol. 1, No. 3 (2006), 233�334.

8