Modulul 5 Analiza automata a discursului stiintific ... - Analiza automata [Compatibility... ·...
Transcript of Modulul 5 Analiza automata a discursului stiintific ... - Analiza automata [Compatibility... ·...
Modulul 5 Analiza automata a discursului stiintific
-Teorie, programe, aplicatii -
Programele considerate:Tropes: Software de analiza a textelor: clasificare semantica, analiza Tropes: Software de analiza a textelor: clasificare semantica, analiza
calitativa, analiza discursului, extragerea de cuvinte cheie; constructia de thesauri si ontologii.
Zoom: Motor de cautare, de clasificare si filtrare semantica, dotat cu un nucleu de indexare in limbaj natural.
Prof. Dr. Dan CARAGEAProf. Dr. Dan CARAGEA
Preliminarii
Analiza discursului este un demers multidisciplinar, calitativ si cantitativ, care studiaza continutul si contextul discursului (oral si scris).
Analiza discursului se sprijina pe concepte imprumutate din retorica, lingvistica, stiintele comunicarii, psihologie, sociologie, istorie, informatica etc.informatica etc.
Discursul este considerat o realitate in sine, si nu un reflex al realitatii, asa cum se afirma in analiza continutului.
Analiza evidentiaza o serie de comentarii textuale care sunt relatii de putere, incluziune, excluziune...
Automatizarea acestui tip de analiza este posibila, programele propuse de noi fiind, probabil, dintre cele mai complexe de pe piata.
Cronologie
Anii 80: Rodolphe Ghiglione si laboratorul sau (le Groupe de Recherche sur la Parole, Universitatea Paris VIII) lucreaza la Analiza Propozitionala a Discursului (APD). Aceste cercetari incercau sa fundeze stiintific interpretarea textelor bazata pe teoria «subiectului comunicant».bazata pe teoria «subiectului comunicant».
1985: Publicarea cartii «Dires analysés», PUV, de catre Ghiglione et alli. Prima carte asupra noii metode de analiza a continuturilor, APD.
1991: Publicarea cartii «Analyse de contenu et contenus d’analyse», Dunod, de catre Ghiglione si Blanchet. Teoria analizei propozitionale a discursului este finalizata.
Cronologie
1991: Rodolphe Ghiglione si Pierre MoletteUn psiholog si un informatician lucreaza impreuna la automatizarea analizei textelor.
1994: Crearea firmei ACETIC si comercializarea programului Tropes V1.0Tropes V1.0Primul program de analiza a textelor bazat pe APD. Versiunea 1.4 putea sa trateze pana la 30 000 de documente, fiind primul program care rezolva automat ambiguitatiile limbii.
1995: «L’Analyse cognitivo-discursive», PUG, de catre Ghiglione et alli. Se naste o noua teorie, analiza cognitivo-discursiva, care include APD.
Cronologie
1997: Acetic lanseaza Tropes V3.0Primul program care automatizeaza ACD (fraze remarcabile) si analiza cronologica a textului (rafale si episoade), plecand de la lucrari provenind din Stiintele Politice.
1998: «Discours politique et télévision», PUF, de catre Ghiglione et 1998: «Discours politique et télévision», PUF, de catre Ghiglione et alli.Analiza cu Tropes a integralitatii articolelor din Le Figaro,Libérationsi Le Mondein timpul campaniei prezidentiale.
1998: Publicarea cartii «L’analyse automatique des contenus», Dunod, de catre Ghiglione et alli. Teoria analizei cognitive a discursului este finalizata.
Cronologie
1998: Cartografierea semantica a continuturilor pe WanadooPrima analiza tematica a cautarilor intr-un motor de indexare si cautare international.
1999: Indexarea Enciclopediei HachettePrima aplicare a unei tehnici de cercetare in limbaj natural pentru a Prima aplicare a unei tehnici de cercetare in limbaj natural pentru a imbunatati cercetarea pe CD-ROM-ul unei enciclopedii pentru marele public.
1999: Acetic lanseaza Index V4 Primul motor capabil sa faca o analiza morfologica si semantica a totalitatii Web-ului (francez/englez).
Cronologie2001: Acetic este considerata o societate de referinta de catre Ministerul francez al CercetariiTropes intra in invatamantul secundar (Litere, Istorie, Geografie).
2002: Gama Tropes Zoom V6 functioneaza in patru limbi (franceza, engleza, portugheza, spaniola)
2003: Crearea societatii Cyberlex (Portugalia)Premiul Fundatiei Marchizul de Pombal pentru Inovatie si Tehnologie. Program pe termen lung de colaborare stiintifica cu societatea Acetic.
Fundamentul teoretic
ACD este o teorie care se bazeaza pe: • decuparea textului in propozitii; • clasificarea semantica a cuvintelor utile; • identificarea de clase paradigmatice de substantive (referinte nodale);• obtinerea unui model propozitional simplificat din punct de vedere • obtinerea unui model propozitional simplificat din punct de vedere formal (structura fundamentala de semnificare).
Rezumand, este vorba de extragerea din text a unei serii de variabile, tratate apoi statistic, pentru a obtine rezultate obiective de analiza (identificabile sau nu la o lectura mai profunda a textului).
Functionarea interna
• Lanturi de caractere >> ANALIZA MORFOLOGICA
• Forme lexicale >> ANALIZA LEXICALA
• Fraze >> ANALIZA SINTACTICA
• Cuvinte, propozitii >> ANALIZA SEMANTICA• Cuvinte, propozitii >> ANALIZA SEMANTICA
• Sensuri >> ANALIZA COGNITIVO-DISCURSIVA
• SFS >> STATISTICI
Categorii gramaticale
• SUBSTANTIVE (comune si proprii)• ADJECTIVE (subiective, obiective, numerice)• VERBE (factive, stative, declarative, performative)• PRONUME (personale; altele)• MODALIZARI (timp, loc, mod, afirmatie, indoiala, negatie, • MODALIZARI (timp, loc, mod, afirmatie, indoiala, negatie, intensitate)• CONECTORI (conditie, cauza, scop, aditie, disjunctie, opozitie, comparatie, timp, loc)
Retele Semantice
• REFERINTE UTILIZATE («Bucuresti, Cluj, Iasi»)
• UNIVERSUL DE REFERINTA 2 («Romania»)
• UNIVERSUL DE REFERINTA 1 («Geografie»)
Structura Fundamentala de Semnificare
• Relatii (inter-referentiale)
• Episoade si rafale
• Fraze remarcabile (triaj)
• Stil
• Statistici
Caracteristici
• Metode confirmate, bazate pecercetarea universitara.
• O preocupare permanenta pentruobiectivitate: Tropes isi «justifica» analizele,
prezentand indicatorii luati in considerare in diagnosicul sau.
• O ergonomiesimpla, pentru unsoftware interactiv, destinatat analistilor de orice nivel,
mai ales celor obisnuiti cu suportul hartie.
• O logica de inteligenta artificiala capabila sa rezolve ambiguitatile (lexicale si
semantice) si sa clasifice majoritatea cuvintelor unei limbi.
• Dictionare enciclopedice pragmatice: suporta peste 500.000 de clasificari semantice,
inclusiv marci si nume de firme...
• Un motor de analiza lingvisticafoarte rapid, capabil sa trateze (in fiecare zi) mii de
documente intr-un computer obisnuit.
Procesul de analiza
•Relatii inter-referentiale
•ACD: Episoade si Rafale
• Fraze remarcabile (triaj)
•Stil
•Statistici
Functionarea Tropes-Zoom
•Relatii inter-referentiale
•ACD: Episoade si Rafale
• Fraze remarcabile (triaj)
•Stil
•Statistici
Aplicatii
Gestiunea Informatiei si a CunoasteriiIndexarea si clasificarea bazelor documentare. Crearea de
thesauri.
Marketing, sondaje si chestionare Analiza calitativa/cantitativa a datelor textuale. Studiul Analiza calitativa/cantitativa a datelor textuale. Studiul
concurentei. Analiza presei.
Comunicarea in Relatii Publice, MarketingStudiul imaginii de marca al unei firme. Analiza mesajelor
strategice. Analiza mailing-ului.
Alte domenii Inteligenta economica. Informatica decizionala. Studii
sociologice. Analiza discursului politic. Invatamant.