Informatica Umanistica A.A. 2005/2006 LEZIONE 6 Ripasso XML – DTD XSL.
Informatica Umanistica
description
Transcript of Informatica Umanistica
![Page 1: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/1.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
1
Informatica Umanistica
LM - Scienze del Testo
Docente Alessia Scacchi
![Page 2: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/2.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
2
Analisi automatica di un testo. Metodi e strumenti
Informatica e Analisi del testo letterario: un binomio, non un paradosso
Lezione 7
![Page 3: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/3.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
3
Il testo.Questa è la domanda…Poi che, tacendo, si mostrò spedita
l’anima santa di metter la tramain quella tela ch’io le porsi ordita.
Dante Alighieri, Paradiso, XVII, vv. 100-2
Definizione:Dal latino textus, il cui uso in relazione al discorso linguistico viene sperimentato con Quintiliano
E… il punto di vista?
![Page 4: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/4.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
4
Segre: il testoIl testo è• serie di collegamenti, contenutistici e grammaticali
Il testo letterario è:• Comunicazione sui generis• facile delimitazione (suggerita o esplicitamente indicata nella
trascrizione o stampa)• indeterminazione di contesto (l’emittente ignora per lo più le
condizioni in cui il testo sarà letto)• mancanza di tratti soprasegmentali
![Page 5: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/5.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
5
Corti: il testo
il testo è • enunciato di natura polisemica; • ipersegno (complesso di segni verbali con Eco, “super-funzione
segnica”) • unità semiotica superiore al testo = macrotesto.
il testo letterario è• per sua natura costruito, più che tutti gli altri testi verbali, in
maniera da offrire diversi percorsi significativi e comunicativi
![Page 6: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/6.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
6
Il testo di riferimento: tradizione
– il percorso dei testi dall’originale all’edizione a stampa è la tradizione
< traditio < trado, consegna, insegnamento, lezione.
Analisi della tradizione Scelta della fonte
![Page 7: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/7.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
7
Il testo di riferimento: fonte
– il testo su supporto cartaceo (stampato, manoscritto…)
• memorizzato su supporto magnetico• acquisito (tramite lo scanner o “a mano”) • Codificato
è la fonte
![Page 8: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/8.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
8
Esempio di testo di riferimento
– Il nostro esempio, scegliere il tipo di edizione:– originale Vaticano Latino 3195: fonte diretta– del Vat 3195: edizioni meccaniche, diplomatiche,
interpretative– scelta dell’edizione secondo i criteri:
» a) valore scientifico edizione » b) autorevolezza e diffusione dell’edizione» Contini 1964 (a voler essere pignoli riedizione Parigi,
Tallone, 1949!)
![Page 9: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/9.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
9
Storia della tradizione
• [abbozzi e stesure precedenti alla sistemazione]
• [raccolta di testi non definitivi (Vaticano latino 3196)]
• Vaticano latino 3195• edizione Contini del 1949• edizione Contini del 1964• testo elettronico
![Page 10: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/10.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
10
Conservazione o Perdita?
• ogni passaggio prevede una perdita di informazioni:
– la lezione del testo, ovvero errori di copia nelle parole (per chi ha fatto filologia, varianti sostanziali e varianti formali)
– gli elementi grafici che indicano la struttura del testo: titolo, sottotitolo, capitolo, paragrafo ecc. Ad esempio, l’andata a capo indica la fine di un verso; anticamente si usava un punto… noi useremo <l></l>
![Page 11: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/11.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
11
Edizione elettronica di un testo letterario
![Page 12: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/12.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
12
Processo di scansione1. Fotocopie del testo di riferimento 2. Lo scanner digitalizza il testo come immagine3. L’OCR (Optical Character Recognize) tramite
algoritmi tenta di identificare e trasformare l’immagine in carattere
4. Prima scansione: errori di impostazione dell’OCR.
5. Seconda scansione con impostazioni ad hoc6. Individuazione degli errori e correzione del testo.
![Page 13: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/13.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
13
Edizione di un testo:techné
• Scansione e riconoscimento caratteri tramite OCR:
![Page 14: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/14.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
14
Edizione di un testo:techné
• Controllo e correzione su eventuali errori di trascrizione:
![Page 15: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/15.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
15
Altri esempi di errori di riconoscimento
![Page 16: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/16.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
16
Dichiarazione di responsabilità: TEI-HEADER
• E la responsabilità del testo?Viene dichiarata nella TEI-HEADER
1. Individuazione del testo elettronico attraverso indicazioni bibliografiche (titolo, autore, luogo e data di edizione, etc.)
2. Certificazione della responsabilità editoriale del testo (anche nel caso in cui la codifica ha avuto diversi responsabili)
3. Indicazione della fonte del testo elettronico (edizioni di testi già editi su stampa o trascrizioni di manoscritti)
4. Documentazione accurata delle metodologie di rappresentazione dei vari fenomeni testuali,
5. Documentazione delle scelte di approcci disciplinari o teorici che permettano di interpretare correttamente i simboli usati nella codifica del testo
6. Documentazione delle eventuali correzioni e modifiche introdotte rispetto alla fonte.
![Page 17: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/17.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
17
Le parti della TEI-Header
![Page 18: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/18.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
18
Le parti della TEI-Header
![Page 19: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/19.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
19
1. TEI-Header del 268<!DOCTYPE TEI.2 PUBLIC "-//TIL//DTD TIL 1.0//EN"><tei.2><teiHeader type="ISBD"><fileDesc>
<titleStmt><title>Il canzoniere</title><author><persName><surname>Francesco</surname><forename>Petrarca</forename></persName></author><respStmt><resp>Prima edizione elettronica TIL a cura di </resp><name>Liber Liber</name><resp>Codifica a cura di </resp><name>Maria Mataluno</name></respStmt>
</titleStmt><editionStmt>
<edition>Prima Edizione TIL</edition></editionStmt>
![Page 20: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/20.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
20
2. TEI-Header del 268<publicationStmt>
<publisher>Progetto Testi Italiani in Linea (TIL)</publisher><pubPlace>Roma</pubPlace><idno type="TIL">%numero di serie%</idno><availability>&libero;</availability><date value="%YYYY%">%data di edizione%</date>
</publicationStmt><seriesStmt>
<title>&liber-til;</title></seriesStmt><sourceDesc>
<biblFull><titleStmt>
<title>Il canzoniere</title><author>
<persName><surname>Petrarca </surname><forename>Francesco</forename></persName>
</author><editor><name>Gianfranco Contini</name></editor>
</titleStmt><editionStmt>
<edition></edition></editionStmt><publicationStmt>
<publisher>Einaudi</publisher><pubPlace>Torino</pubPlace><date value="$AAAA$">1964</date>
</publicationStmt><seriesStmt>
<title></title></seriesStmt>
</biblFull></sourceDesc>
</fileDesc>
![Page 21: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/21.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
21
3. TEI-Header del 268<encodingDesc>
<projectDesc>&progTIL;</projectDesc><editorialDecl>&liv1EdDec;</editorialDecl>
</encodingDesc><revisionDesc>
<change><date>19 gennaio 1997</date><respStmt><resp>Digitalizzazione e correzione</resp><name>Giovanna Surace</name></respStmt><item>Digitalizzazione e correzione del testo in base alla edizione di riferimento</item>
</change><change>
<date></date><respStmt><resp>Codifica TIL livello 1</resp><name></name></respStmt><item>Codifica SGML del testo in base al livello 1 del Progetto TIL</item>
</change><change>
<date>19/12/2000</date><respStmt><resp>Revisione testo</resp><name>Rita Pancaldo</name></respStmt><item>Revisione testo in base alla edizione critica di Contini</item>
</change></revisionDesc></teiHeader><text>
![Page 22: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/22.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
22
Potenzialità del testo elettronico
• Cdrom LIZ (Letteratura Italiana Zanichelli)
• CDrom LIE (Letteratura Italiana Einaudi)
• BIBIT (www.bibliotecaitaliana.it)• LIBER LIBER (www.liberliber.it)
![Page 23: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/23.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
23
La codifica: prassi
![Page 24: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/24.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
24
Elementi comuni: <front>
Avantesto: serie di documenti che introducono un testo nelle edizioni a
stampa (pagina del titolo, frontespizio, introduzioni e prefazioni)
• <front> contiene i materiali di avantesto che precede il testo vero e proprio </front>
![Page 25: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/25.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
25
Elementi comuni: <body>
Corpo del testo: è il testo così come presumibilmente è stato concepito
dall’autore
•<body> contiene l’intero corpo del testo </body>
composto di capitoli (<div></div>), paragrafi (<div></div>), capoversi (<p></p>), testo
![Page 26: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/26.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
26
Elementi comuni: <head>
Titolo: ogni titolo di ogni suddivisione strutturale del testo
•<head> contiene il titolo di una suddivisione strutturale </head>
Possono essere presenti nel testo titolazioni complesse allo stesso livello strutturale possono essere utilizzati differenti elementi <head>
![Page 27: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/27.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
27
Elementi specifici dellacodifica dei testi - PROSA
Capoverso: (paragraph) unità testuale di tipo testuale; è la porzione di testo di
senso compiuto delimitato da indentazioni e/o salti di linea
• <p> Contiene e delimita il testo vero e proprio in blocco distinto </p>
![Page 28: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/28.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
28
Elementi specifici dellacodifica dei testi - PROSA
Citazione: è parte integrante di un capoverso sia come testo delimitato da caporali sia come parte distinta
organizzata in blocco di testo
•<q> contiene una citazione di qualunque tipo </q>
Per specificare la natura della citazione si utilizzano gli attributi:
•<q rend=‘block’> contiene una citazione organizzata in blocco di testo </q>
![Page 29: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/29.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
29
Elementi specifici dellacodifica dei testi - PROSA
Enfasi: alcune porzioni di testo possono essere evidenziate dall’autore del testo con il corsivo
•<hi rend=‘italic’> contiene la porzione di testo in corsivo </hi>
•<emph> contiene la porzione di testo enfatizzato dall’autore </emph>
![Page 30: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/30.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
30
Elementi specifici dellacodifica dei TESTI DRAMMATICIBattuta: in un testo drammatico è la porzione di
testo pronunciata da uno dei personaggi
• <sp> contiene la battuta pronunciata da un personaggio del testo drammatico </sp>
questo elemento può contenere <speaker></speaker>; <p></p>
![Page 31: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/31.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
31
Elementi specifici dellacodifica dei TESTI DRAMMATICIPersonaggio: il protagonista della porzione di
dialogo rappresentata dalla battuta
• <speaker> contiene il nome del personaggio che pronuncia la battuta </speaker>
Questo elemento può contenere indicazioni sul font utilizzato per la rappresentazione es: <hi rend=‘italic’></hi>
![Page 32: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/32.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
32
Elementi specifici dellacodifica dei TESTI DRAMMATICI
Didascalie: Indicazioni di scena fornite dall’autore
<stage> contiene le indicazioni di scena e le didascalie fornite dall’autore</stage>
![Page 33: Informatica Umanistica](https://reader036.fdocument.pub/reader036/viewer/2022062316/56816864550346895ddeba4b/html5/thumbnails/33.jpg)
CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
33
DUBBI?
http://crilet.wordpress.com
Ricevimento studenti ed esercitazioni:Martedì ore 14-16 Studio “210” DSFLL - Vetrerie Sciarra