NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ
description
Transcript of NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ
![Page 1: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/1.jpg)
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ
ΜΠΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ
ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ: 2007 - 2008
NewsMinerΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ
ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ
Επιβλέπων Γιάννης Θεοδωρίδης, Αναπληρωτής ΚαθηγητήςΝίκος Πελέκης, Διδάσκων ΠΔ 407/80
Φοιτητής Διονύσης Νινιός
![Page 2: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/2.jpg)
ΣΚΟΠΟΣ
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
ΤΟ ΣΥΣΤΗΜΑ NEWSMINER
CASE STUDY
ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ
ΚΥΡΙΑ ΣΗΜΕΙΑ
![Page 3: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/3.jpg)
ΚΥΡΙΑ ΣΗΜΕΙΑ
ΣΚΟΠΟΣ
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
ΤΟ ΣΥΣΤΗΜΑ NEWSMINER
CASE STUDY
ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ
![Page 4: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/4.jpg)
Διαδίκτυο
ΣΚΟΠΟΣ
Πολλές χρήσεις
Τεράστιος όγκος αδόμητης πληροφορίας
Δυσκολία εύρεσης χρήσιμης πληροφορίας
Ενημέρωση Δημοφιλής χρήση Διαδικτύου
Πολλοί Διαδικτυακοί φορείς ενημέρωσης
Διαφορετικές ειδήσεις και όψεις ειδήσεων
![Page 5: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/5.jpg)
Η ανάπτυξη ενός συστήματος
Ολοκληρωμένου
Αυτοματοποιημένου
Εύρεση άρθρων από Διαδίκτυο
Ομαδοποίηση άρθρων σε θέματα
Παρουσίαση θεμάτων - άρθρων
ΣΚΟΠΟΣ
![Page 6: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/6.jpg)
ΚΥΡΙΑ ΣΗΜΕΙΑ
ΣΚΟΠΟΣ
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
ΤΟ ΣΥΣΤΗΜΑ NEWSMINER
CASE STUDY
ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ
![Page 7: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/7.jpg)
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
Εύρεση δομημένης πληροφορίας [1], [2]
Κατηγοριοποίηση σελίδων [3], [4], [5]
Συγκέντρωση πολλών πηγών [6], [7]
Στοιχεία χρήστη [8], [9]
Κοινωνιολογικά δεδομένα [10], [11]
![Page 8: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/8.jpg)
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
Διάχυση πληροφορίας σε κοινωνικά δίκτυα [12], [13], [14]
Εύρεση κοινοτήτων σε κοινωνικά δίκτυα [15], [16]
Παρουσίαση δεδομένων [17]
![Page 9: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/9.jpg)
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
CEBIL
![Page 10: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/10.jpg)
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
PALO
![Page 11: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/11.jpg)
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
NEEMO
![Page 12: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/12.jpg)
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
GOOGLE NEWS
![Page 13: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/13.jpg)
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ
Εξαγωγή πληροφορίας από WEB σελίδες
Ερευνητικές Εργασίες
Εφαρμογή σε μεγάλο όγκο δεδομένων
Λήψη ικανοποιητικών αποτελεσμάτων
NewsMiner
Εφαρμογή σε περιορισμένο όγκο δεδομένων
Λήψη αποτελεσμάτων με μεγάλη ακρίβεια
![Page 14: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/14.jpg)
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ
Κατηγοριοποίηση σελίδων
Ερευνητικές Εργασίες
Χρήση περιεχομένου σελίδας
Ταξινόμηση σε γενικές κατηγορίες
NewsMiner
Χρήση επεξεργασμένου περιεχομένου σελίδας
Ταξινόμηση σε βάθος
![Page 15: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/15.jpg)
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ
Cebil - PaloΊδιο στόχο με NewsMiner
Άγνωστες τεχνικές λειτουργίας
NeemoΠαρόμοιο στόχο - τεχνικές με NewsMiner
Google NewsΤαξινόμηση σε γενικές κατηγορίες
![Page 16: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/16.jpg)
ΚΥΡΙΑ ΣΗΜΕΙΑ
ΣΚΟΠΟΣ
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
ΤΟ ΣΥΣΤΗΜΑ NEWSMINER
CASE STUDY
ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ
![Page 17: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/17.jpg)
ΔΟΜΗ NEWSMINER
NC1
NC2
NCK
ΕΥΡΕΣΗ ΝΕΩΝ
ΑΡΘΡΩΝ
ΤΑΞΙΝΟΜΗΣΗΝΕΩΝ ΑΡΘΡΩΝ
ΒΑΣΗΑΡΘΡΩΝ
ΕΠΙΚΑΙΡΟΤΗΤΑΣ
ΑΠΟΘΗΚΗΠΑΛΑΙΩΝΑΡΘΡΩΝ
ΔΙΕΠΑΦΗ ΧΡΗΣΤΗΝEWSCHANNELS
NEWS MINER
![Page 18: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/18.jpg)
ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ
Γενικά χαρακτηριστικά
Εννοιολογικός – Λογικός – Φυσικός
Σχεδιασμός
Υλοποίηση ρουτινών στη βάση δεδομένων
![Page 19: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/19.jpg)
ΓΕΝΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ
Εκμετάλλευση RSS FEEDS
Εξαγωγή στοιχείων άρθρου
Αυτοματοποίηση
Ταχύτητα εκτέλεσης
![Page 20: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/20.jpg)
RSS_URLS OLD_CATEGORIESCat_Urls NEWS_CATEGORIESOld-New
NC-Url
Tags
Tag_Url Tag_Title Tag_Cat
Tag_Date Tag_New
Rss_Url
Order-Nr CD Dscr CD Dscr
RSS_DATA
Data-Url
RSS_EXTRACT_DATAData-
ExtrData
AA
Rss
Dt_Insert
Dt_Update
Flg_Done
Html_Text
DescrDt_Update_html_Data
Dt_Update_Html_Text
Dt_Insert
Pubdate
AA
Flg_Done
Title
Html_Data
Link_Url
Cat-ExtrData
LOAD_ERRORS
AA
Dt
Proc_Name
AA_Proc
Descr
Err_Code
NEWS_CARRIERS
Pattern_Start
Pattern_End
Flg_Kind
Old_Pattern
New_Pattern
Tag
Flg_KindCD
Url_Name
Name
Tags
Tag_Start1
Tag_Start2
Tag_Start3
Patterns_OutTitle_Replace Tags_Out
Patterns_End
Charset
Patterns_Replace
Pattern_Old
Pattern_New
AA
![Page 21: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/21.jpg)
RSS_URLS
CD_CARRIERRSS_URL ORDER_NRTAG_NEWTAG_DATETAG_TITLETAG_URLTAG_CATDEFAULT_CAT
PATTERNS_OUT
AACD_CARRIERPATTER_STARTPATTERN_ENDFLG_KIND
NEWS_CARRIERS
CD NAMEURL_NAMETAG_START1TAG_START2TAG_START3CHARSET
RSS_DATA
AARSSRSS_URLFLG_DONEDT_INSERTDT_UPDATE
NEWS_CATEGORIES
CD DSCR
LOAD_ERRORS
AA DTPROC_NAMEAA_PROCDESCRERR_CODE
TAGS_OUT
CD_CARRIERTAGFLG_KIND
PATTERNS_REPLACE
CD_CARRIERPATTERN_OLDPATTERN_NEW
PATTERNS_END
CD_CARRIERPATTERN_END
RSS_EXTRACT_DATA
AAAA_RSS_DATACD_CARRIERTITLELINK_URLPUBDATECATDESCRHTML_DATAHTML_TEXTFLG_DONEDT_INSERTDT_UPDATE_HTML_DATADT_UPDATE_HTML_TEXTCD_CAT
TITLE_REPLACE
CD_CARRIER OLD_PATTERNNEW_PATTERN
: Primary Key
: Foreign Key
OLD_CATEGORIES
CD DSCRCD_CAT_NEW
![Page 22: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/22.jpg)
ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ
ΕΙΣΑΓΩΓΗ RSS
ΕΞΑΓΩΓΗ ΠΛΗΡΟΦΟΡΙΑΣ ΑΠO
RSS
ΑΠΟΘΗΚΕΥΣΗ HTML ΑΡΘΡΟΥ
ΕΞΑΓΩΓΗ ΚΑΙ ΑΠΟΘΗΚΕΥΣΗ
ΚΕΙΜΕΝΟΥ ΑΡΘΡΟΥ
Χρήση RSS Feeds
Really Simple Syndication
XML τυποποίηση
Αναπαράσταση πληροφοριών συνεχώς μεταβαλλόμενων
Βασικές πληροφορίες είδησης (URL, τίτλος, δημοσίευση κ.α.)
![Page 23: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/23.jpg)
ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ
<item rdf:about="http://www.in.gr/news/article.asp?lngEntityID=1025323"> <title>Δύο κορίτσια εννέα ετών πνίγηκαν σε πισίνα κατασκήνωσης στη Λάρισα</title> <link>http://www.in.gr/news/article.asp?lngEntityID=1025323</link> <description>Σε ένα τραγικό όσο και πρωτοφανές περιστατικό, δύο 9χρονα κοριτσάκια πνίγηκαν το απόγευμα της Παρασκευής σε πισίνα ιδιωτικής κατασκήνωσης στο νομό Λάρισας, κάτω από αδιευκρίνιστες συνθήκες. Συνελήφθησαν οι ιδιοκτήτες της κατασκήνωσης και διενεργείται προανάκριση από τις Αρχές.</description> <dc:date>Fri, 19 Jun 2009 19:21:00 UTC</dc:date> <dc:source>ΑΠΕ-ΜΠΕ</dc:source> </item>
Δομή RSS Feeds
![Page 24: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/24.jpg)
Επιλογή γενικών κατηγοριών άρθρων
ΕΛΛΑΔΑ ΟΙΚΟΝΟΜΙΑ
ΑΘΛΗΤΙΚΑ ΚΟΣΜΟΣ
ΕΠΙΣΤΗΜΗ ΠΟΛΙΤΙΣΜΟΣ
ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ
![Page 25: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/25.jpg)
ΕΥΡΕΣΗ ΕΠΟΜΕΝΟΥ RSS ΥΠΑΡΧΕΙ; ΤΕΛΟΣ
ΕΥΡΕΣΗ ΣΥΝΟΛΟΥ ΧΑΡΑΚΤΗΡΩΝ
ΠΡΟΒΛΗΜΑ;
ΔΙΑΒΑΣΜΑ ΚΑΙ ΑΠΟΘΗΚΕΥΣΗ
ΠΕΡΙΕΧΟΜΕΝΟΥ RSS
ΠΡΟΒΛΗΜΑ;
ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ
OXI
NAI
NAI
OXI
NAI
OXI
![Page 26: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/26.jpg)
ΕΥΡΕΣΗ ΕΠΟΜΕΝΟΥ RSS ΥΠΑΡΧΕΙ; ΤΕΛΟΣ
ΕΥΡΕΣΗ ΕΠΟΜΕΝΗΣ
ΕΙΔΗΣΗΣ ΣΕ RSS
OXI
NAI
ΕΞΑΓΩΓΗ ΠΛΗΡΟΦΟΡΙΑΣ
ΑΠΌ RSS
ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΗΜΕΡΟΜΗΝΙΑΣ
ΠΡΟΒΛΗΜΑ;
ΕΠΕΞΕΡΓΑΣΙΑ ΤΙΤΛΟΥ
ΥΠΑΡΧΕΙ;
ΠΡΟΒΛΗΜΑ;
ΕΥΡΕΣΗ ΝΕΑΣ ΚΑΤΗΓΟΡΙΑΣ
ΠΡΟΒΛΗΜΑ;
ΕΧΕΙ ΕΙΣΑΧΘΕΙ
ΞΑΝΑ;
ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ
ΕΙΣΑΓΩΓΗ ΕΙΔΗΣΗΣ
ΠΡΟΒΛΗΜΑ;
NAI
OXI
NAI
OXI
OXI
NAI
NAI
NAI
OXI
OXI
NAI
OXI
![Page 27: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/27.jpg)
ΕΥΡΕΣΗ ΕΠΟΜΕΝΟΥ ΑΡΘΡΟΥ ΥΠΑΡΧΕΙ;
ΔΙΑΒΑΣΜΑ ΣΥΝΟΛΟΥ
ΧΑΡΑΚΤΗΡΩΝ
OXI
NAI
ΠΡΟΒΛΗΜΑ;
ΔΙΑΒΑΣΜΑ ΚΑΙ ΑΠΟΘΗΚΕΥΣΗ HTML ΑΡΘΡΟΥ
ΠΡΟΒΛΗΜΑ;
ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ
ΕΛΕΓΧΟΣ ΕΠΙΤΥΧΟΥΣ
ΟΛΟΚΛΗΡΩΣΗΣ
ΠΡΟΒΛΗΜΑ;
ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ
ΤΕΛΟΣ
NAI
NAI
NAI
OXI
OXI
OXI
![Page 28: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/28.jpg)
ΕΥΡΕΣΗ ΕΠΟΜΕΝΟΥ ΑΡΘΡΟΥ ΥΠΑΡΧΕΙ;
ΑΦΑΙΡΕΣΗ ΕΙΔΙΚΩΝ ΧΑΡΑΚΤΗΡΩΝ
OXI
NAI
ΠΡΟΒΛΗΜΑ;ΕΝΗΜΕΡΩΣΗ
ΠΙΝΑΚΑ ΛΑΘΩΝ
ΕΛΕΓΧΟΣ ΕΠΙΤΥΧΟΥΣ
ΟΛΟΚΛΗΡΩΣΗΣ
ΠΡΟΒΛΗΜΑ;
ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ
ΤΕΛΟΣ
NAI
NAI
OXI
OXI
ΑΦΑΙΡΕΣΗ ΣΥΝΕΧΟΜΕΝΩΝ ΚΕΝΩΝ
ΕΥΡΕΣΗ ΑΡΧΗΣ-ΤΕΛΟΥΣ ΚΕΙΜΕΝΟΥ ΑΡΘΡΟΥ
ΑΦΑΙΡΕΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΒΑΣΗ PATTERNS
ΑΦΑΙΡΕΣΗ ΜΙΣΩΝ TAGS
ΑΦΑΙΡΕΣΗ TAGS ΚΑΙ ΠΕΡΙΕΧΟΜΕΝΩΝ ΤΟΥΣ
ΑΦΑΙΡΕΣΗ ΟΛΩΝ ΤΩΝ TAGS
ΑΦΑΙΡΕΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΒΑΣΗ PATTERNS
ΑΝΤΙΚΑΤΑΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ
ΑΦΑΙΡΕΣΗ ΣΥΝΕΧΟΜΕΝΩΝ ΚΕΝΩΝ
ΑΦΑΙΡΕΣΗ ΚΕΝΟΥ ΣΕ ΑΡΧΗ - ΤΕΛΟΣ
ΑΦΑΙΡΕΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΟ ΤΕΛΟΣ ΑΡΘΡΟΥ
ΕΙΣΑΓΩΓΗ ΚΕΙΜΕΝΟΥ ΑΡΘΡΟΥ
ΠΡΟΒΛΗΜΑ;OXI NAI
![Page 29: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/29.jpg)
ΤΑΞΙΝΟΜΗΣΗ ΝΕΩΝ ΑΡΘΡΩΝ
NEWS_TOPICS
AA_TOPIC Κωδικός θέματος (συστάδας)
AA_FIRST Κωδικός ενός σχετικού άρθρου
RELATIVE Πλήθος σχετικών άρθρων
NEWS_TOPICS_DTL
AA_TOPIC Κωδικός θέματος
AA_ITEM Κωδικός άρθρου
OLD_ITEMS
AA_OLD Παλαιό άρθρο
AA_NEW Σχετικό ενεργό άρθρο
![Page 30: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/30.jpg)
ΤΑΞΙΝΟΜΗΣΗ ΝΕΩΝ ΑΡΘΡΩΝ
ΤΕΛΟΣ
ΕΥΡΕΣΗ ΝΕΩΝ ΑΡΘΡΩΝ
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΑΡΘΡΩΝ
ΕΝΗΜΕΡΩΣΗ ΤΕΛΙΚΩΝ ΠΙΝΑΚΩΝ
ΕΥΡΕΣΗ ΥΠΟΛΟΙΠΩΝ
ΑΡΘΡΩΝ
ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΑΡΘΡΩΝ
ΕΝΗΜΕΡΩΣΗ ΤΕΛΙΚΩΝ ΠΙΝΑΚΩΝ
ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ
ΕΓΓΡΑΦΩΝ
ΕΚΠΑΙΔΕΥΣΗ ΜΟΝΤΕΛΟΥ
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ
![Page 31: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/31.jpg)
Δημιουργία διαδικασίας συνολικής ενημέρωσης
Χρήση jobs ORACLE
Ωριαία ενημέρωση συστήματος
Ημερήσια διαγραφή παλαιών άρθρων (3:00 π.μ.)
ΑΥΤΟΜΑΤΟΠΟΙΗΣΗ
![Page 32: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/32.jpg)
ΣΚΟΠΟΣ
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
ΤΟ ΣΥΣΤΗΜΑ NEWSMINER
CASE STUDY
ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ
ΚΥΡΙΑ ΣΗΜΕΙΑ
![Page 33: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/33.jpg)
CASE STUDYΕπισκόπηση περιβάλλοντος εργασίας
Προετοιμασία διαδικασίας
Κατηγοριοποίηση
Συσταδοποίηση
Ένταξη σε παραγωγική λειτουργία
Ανάπτυξη Διεπαφής
![Page 34: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/34.jpg)
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
ORACLE 11G
ORACLE TEXT
ORACLE APPLICATION EXPRESS
![Page 35: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/35.jpg)
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
ORACLE 11G
Δημοφιλές εμπορικό ΣΔΒΔ
Ενσωματωμένες διαδικασίες Data Mining
Πακέτο UTL_HTTP για HTTP requests
Τύπος δεδομένων CLOB
Δυνατότητες αυτοματοποίησης διαδικασιών
![Page 36: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/36.jpg)
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
ORACLE TEXT
Αναζήτηση σε μεγάλες στατικές συλλογές εγγράφων: CONTEXT ευρετήριο
Αναζήτηση μικρότερων μεταβαλλόμενων συλλογών εγγραφών: CTX_CAT ευρετήριο
Ομαδοποίηση εγγράφων
![Page 37: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/37.jpg)
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
Ομαδοποίηση εγγράφων
Βάσει κανόνων
Με επίβλεψη (κατηγοριοποίηση)
Χωρίς επίβλεψη (συσταδοποίηση)
![Page 38: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/38.jpg)
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
Βάσει κανόνων
Δημιουργία κλάσεων και κανόνων από χρήστη
Ευρετήριο CTX_RULE σε κανόνες
Κατηγοριοποίηση νέου εγγράφου με τελεστή MATCHES
![Page 39: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/39.jpg)
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
Με επίβλεψη
Δημιουργία κλάσεων από χρήστη και κανόνων από σύστημα
Ευρετήριο CTX_RULE σε κανόνες και CONTEXT σε εκπαιδευτικό σύνολο
Κατηγοριοποίηση νέου εγγράφου με τελεστή MATCHES
Δέντρα Απόφασης και SVM
![Page 40: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/40.jpg)
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
Χωρίς επίβλεψη
Δημιουργία κλάσεων και κανόνων από σύστημα
K-MEANS
![Page 41: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/41.jpg)
ORACLE APPLICATION EXPRESS
Εργαλείο ανάπτυξης WEB database centric εφαρμογών
Αποθηκευμένο σε βάση δεδομένων (215 πίνακες και 200 PLS/SQL αντικείμενα)
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
![Page 42: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/42.jpg)
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
![Page 43: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/43.jpg)
ΠΡΟΕΤΟΙΜΑΣΙΑ
In.gr, Καθημερινή, Ελεύθερος Τύπος
Παραμετροποίηση συστήματος
Χρήση διαδικασίας ενημέρωσης
Δημιουργία δεδομένων εκπαίδευσης και ελέγχου (12 μέρες, 766 άρθρα ΕΛΛΑΔΑ, 315 θέματα)
![Page 44: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/44.jpg)
ΠΡΟΕΤΟΙΜΑΣΙΑ
ΣΥΣΤΑΔΟΠΟΙΗΣΗ
ΤΕΛΟΣ
ΕΞΑΓΩΓΗ ΝΕΩΝ ΟΡΩΝ
ΕΝΗΜΕΡΩΣΗ ΛΙΣΤΑΣ
OXI
NAIΚΟΙΝΕΣ ΛΕΞΕΙΣ;
Δημιουργία λίστας κοινών λέξεων
![Page 45: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/45.jpg)
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ
ΤΕΛΙΚΗ;ΕΥΡΕΣΗ
ΕΠΟΜΕΝΗΣ ΗΜΕΡΟΜΗΝΙΑΣ
NAI
ΑΠΟΘΗΚΕΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ
ΔΗΜΙΟΥΡΓΙΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ
ΔΕΔΟΜΕΝΩΝ
ΕΠΟΜΕΝΗ ΤΙΜΗ ΠΑΡΑΜΕΤΡΟΥ
OXI
ΤΕΛΟΣ
ΥΠΑΡΧΕΙ;
NAI
OXI
ΔΗΜΙΟΥΡΓΙΑ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ ΜΟΝΤΕΛΟΥ
ΑΡΧΙΚΟΠΟΙΗΣΗ
![Page 46: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/46.jpg)
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
ΔΕΝΤΡΑ ΑΠΟΦΑΣΗΣ
Επιλογή ανάμεσα σε δυο εναλλακτικές αποφάσεις
Ορατοί κανόνες
Μετασχηματίζονται σε ειδικές αναζητήσεις
Αντιστοίχηση εγγράφων με κατηγορίες
Συγκεκριμένες παράμετροι
![Page 47: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/47.jpg)
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.THRESHOLD Ελάχιστο όριο εμπιστοσύνης κανόνων
MAX_TERMSΜέγιστος αριθμός όρων κανόνων ανά κλάση
MEMORY_SIZEΧρησιμοποιούμενη μνήμη
NT_THRESHOLDΕλάχιστο όριο αρχικής επιλογής όρων
TERM_THRESHOLDΕλάχιστο όριο τελικής επιλογής όρων
PRUNE_LEVELΕπίπεδο κλαδέματος δέντρου απόφασης
![Page 48: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/48.jpg)
ΚΡΙΤΗΡΙΑ ΑΞΙΟΛΟΓΗΣΗΣ ΔΟΚΙΜΩΝ
Συνολικό ποσοστό επιτυχίας
Ποσοστό επιτυχίας ενεργών θεμάτων
Ποσοστό επιτυχίας νέων θεμάτων
Πολλαπλές κατηγοριοποιήσεις
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
![Page 49: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/49.jpg)
MAX_TERMS(20-200, βήμα 10)
<=
MAX_TERMS(30-50, βήμα 1)
=>
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
![Page 50: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/50.jpg)
NT_THRESHOLD(0.05-0.9, βήμα 0.05)
<=
TERM_THRESHOLD(10-100, βήμα 5)
=>
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
![Page 51: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/51.jpg)
TERM_THRESHOLD(25-35, βήμα 1)
<=
THRESHOLD(5-95, βήμα 5)
=>
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
![Page 52: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/52.jpg)
THRESHOLD(5-20, βήμα 1)
<=
PRUNE_LEVEL(5-100, βήμα 5)
=>
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
![Page 53: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/53.jpg)
PRUNE_LEVEL(5-80, βήμα 1)
<=
ΣΥΝΟΛΟ ΕΝΕΡΓΑ ΝΕΑ ΠΟΛΛΑΠΛΕΣ
70% 55% 80% 3%
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
![Page 54: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/54.jpg)
SUPPORT VECTOR MACHINE
Μηχανική μάθηση (στατιστική εκπαίδευση)
Αόρατοι κανόνες
Μετασχηματίζονται σε ειδικές αναζητήσεις
Αντιστοίχηση εγγράφων με κατηγορίες (πιθανότητα)
Συγκεκριμένες παράμετροι
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM
![Page 55: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/55.jpg)
MAX_DOCTERMSΜέγιστος αριθμός όρων ανά κείμενο
MAX_FEATURESΜέγιστος συνολικός αριθμός διακριτών χαρακτηριστικών
THEME_ON – TOKEN_ON – STEM_ONΓλωσσολογικές παράμετροι
MEMORY_SIZEΧρησιμοποιούμενη μνήμη
SECTION_WEIGHTΒάρη σε τμήματα του εγγράφου (HTML, XML)
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM
![Page 56: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/56.jpg)
MAX_FEATURES(1.000-30.000, βήμα 1.000)
<=
Όριο πιθανότητας 30%
=>
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM
![Page 57: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/57.jpg)
Όριο πιθανότητας 25%<=
Όριο πιθανότητας 35%
=>
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM
![Page 58: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/58.jpg)
MAX_DOCTERMS100
<=
MAX_DOCTERMS120
=>
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM
![Page 59: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/59.jpg)
ΑΛΟΓΡΙΘΜΟΣ ΣΥΝΟΛΟ ΕΝΕΡΓΑ ΝΕΑ ΠΟΛΛΑΠΛΕΣ
DECISION TREE
70% 55% 80% 3%
SVM 75% 65% 81.5% 9%
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM
![Page 60: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/60.jpg)
ΣΥΣΤΑΔΟΠΟΙΗΣΗ
K – MEANS
Μέτρηση απόστασης μεταξύ σημείων
Ιεραρχική συσταδοποίηση
Εύρεση κλάσεων και εγγράφων (ποσοστό)
Συγκεκριμένες παράμετροι
![Page 61: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/61.jpg)
MAX_DOCTERMSΜέγιστος αριθμός όρων ανά κείμενο
MAX_FEATURESΜέγιστος συνολικός αριθμός διακριτών χαρακτηριστικών
THEME_ON – TOKEN_ON – STEM_ONΓλωσσολογικές παράμετροι
MEMORY_SIZEΧρησιμοποιούμενη μνήμη
SECTION_WEIGHTΒάρη σε τμήματα του εγγράφου (HTML, XML)
CLUSTER_NUM
Πλήθος τελικών συστάδων
ΣΥΣΤΑΔΟΠΟΙΗΣΗ
![Page 62: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/62.jpg)
MAX_FEATURES(1.000 – 30.000, βήμα 1.000)
<=
MAX_FEATURES(100 – 2.000, βήμα 100)
=>
ΣΥΣΤΑΔΟΠΟΙΗΣΗ
![Page 63: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/63.jpg)
MAX_DOCTERMS 40<=
MAX_DOCTERMS 60 =>
ΣΥΣΤΑΔΟΠΟΙΗΣΗ
![Page 64: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/64.jpg)
MAX_DOCTERMS 70<=
MAX_FEATURES(1 – 100, βήμα 5)
=>
ΣΥΣΤΑΔΟΠΟΙΗΣΗ
![Page 65: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/65.jpg)
ΕΝΤΑΞΗ ΣΕ ΠΑΡΑΓΩΓΗ
Επιλογή μοντέλων
SVM (MAX_FEATURES = 1000, MAX_DOCTERMS = 100)
K – MEANS (CLUSTER_NUM = 20, MAX_DOCTERMS = 70
MAX_FEATURES = 80)
Ενημέρωση διαδικασιών συστήματος
![Page 66: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/66.jpg)
ΔΙΕΠΑΦΗ
![Page 67: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/67.jpg)
ΔΙΕΠΑΦΗ
![Page 68: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/68.jpg)
ΔΙΕΠΑΦΗ
![Page 69: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/69.jpg)
ΔΙΕΠΑΦΗ
![Page 70: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/70.jpg)
ΔΙΕΠΑΦΗ
![Page 71: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/71.jpg)
ΣΥΜΠΕΡΑΣΜΑΤΑΕξόρυξη γνώσης από WEB Δύσκολη και χρονοβόρα διαδικασία
Προετοιμασία δεδομένων
Ταξινόμηση δεδομένων
Αξιολόγηση συστήματος
Διαδικασία ενημέρωσης: Εξαιρετικά
Ταξινόμηση άρθρων: Ικανοποιητικά
![Page 72: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/72.jpg)
ΣΥΜΠΕΡΑΣΜΑΤΑΔυσκολίες σε ταξινόμηση άρθρων Αδόμητη πληροφορία
Γλωσσολογικές δυσκολίες
Ταξινόμηση σε βάθος
Μικρός αριθμός άρθρων ανά κατηγορία
Μεταβαλλόμενα δεδομένα και κατηγορίες
![Page 73: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/73.jpg)
Χρήση λεξικού συνωνύμων
Δημιουργία stemmer βάσει κανόνων
Εμπλουτισμός λίστας κοινών λέξεων
Περιεκτικότερη αναπαράσταση άρθρων
Χρήση του τίτλου της είδησης
Περαιτέρω δοκιμές σε αλγόριθμους
ΕΠΕΚΤΑΣΕΙΣ
![Page 74: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/74.jpg)
ΑΝΑΦΟΡΕΣ[1] Davi de Castro Reis, Paulo B. Golgher, Altigran S. da Silva, Alberto H.
F. Laender: Automatic Web News Extraction Using Tree Edit Distance. International Conference on World Wide Web, (2004)
[2] Cai-Nicolas Ziegler, Michal Skubacz: Content Extraction from News Pages Using Particle Swarm Optimization on Linguistic and Structural Features. IEEE / WIC / ACM International Conference on Web Intelligence, (2007)
[3] Smriti Bhagat, Irina Rozenbaum, Graham Cormode: Applying Link-based Classification to Label Blogs. WEBKDD International Conference, (2007)
[4] Eric Glover, Kostas Tsioutsiouliklis, Steve Lawrence, David Pennock, Gary Flake: Using Web Structure for Classifying and Describing Web Pages. International Conference on World Wide Web, (2002)
[5] Beibei Li, Beibei Li, Jun Zhang: Enhancing Clustering Blog Documents by Utilizing Author / Reader Comments. ACMSE International Conference (2007)
![Page 75: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/75.jpg)
ΑΝΑΦΟΡΕΣ[6] Ismail Sengor Altingovde, Rifat Ozcan, Suleyman Cetintas, Hakan
Yilmaz, Özgür Ulusoy: An Automatic Approach to Construct Domain-Specific Web Portals. CIKM International Conference, (2007)
[7] Benjamin E. Teitler, Michael D. Lieberman, Daniele Panozzo, Jagan Sankaranarayanan, Hanan Samet, Jon Sperling: NewsStand: A New View on News. ACM GIS International Conference, (2008)
[8] Riddhiman Ghosh, Mohamed Dekhil: Discovering User Profiles. International Conference on World Wide Web, (2009)
[9] Evgeniy Gabrilovich, Susan Dumais, Eric Horvitz: Newsjunkie: Providing Personalized Newsfeeds via Analysis of Information Novelty. International Conference on World Wide Web, (2004)
[10] Matthew S. Smith: Social Capital in Online Communities. PIKM International Workshop, (2008)
[11] Xin Li, Lei Guo, Yihong (Eric) Zhao: Tag-based Social Interest Discovery. International Conference on World Wide Web, (2008)
![Page 76: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/76.jpg)
ΑΝΑΦΟΡΕΣ[12] Lei Zhang, Wanqing Tu: Six Degrees of Separation in Online Society.
WebSci International Conference, (2009)
[13] S. Navlakha, R. Rastogi, and N. Shrivastava: Graph summarization with bounded error. ACM SIGMOD International Conference, (2008)
[14] Masahiro Kimura, Hiroshi Motoda: Blocking Links to Minimize Contamination Spread in a Social Network. ACM Transactions on Knowledge Discovery from Data: Vol. 3, (2009)
[15] J.M. Kleinberg: Authoritative sources in a hyperlinked environment. ACM: Vol. 46.
[16] M. Toyoda, M. Kitsuregawa: Extracting evolution of web communities from a series of web archives. ACM Conference on Hypertext and Hypermedia, (2003)
[17] Marc Smith, Vladimir Barash: Social SQL: Tools for exploring social databases. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, (2008)
![Page 77: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ](https://reader036.fdocument.pub/reader036/viewer/2022062301/56814621550346895db329aa/html5/thumbnails/77.jpg)
NEWS MINER
ΕΡΩΤΗΣΕΙΣ ;