Đề tài: Mô hình chủ đề ẩn trích xuất thực thể y sinh

23
Nhóm: Trần Thắng Bình Ngô Mạnh Quyền Chu Thị Phương Thảo Hà nội, tháng 11 năm 2013 Đề tài: Mô hình chủ đề ẩn trích xuất thực thể y sinh 1

description

Đề tài: Mô hình chủ đề ẩn trích xuất thực thể y sinh. Nhóm: Trần Thắng Bình Ngô Mạnh Quyền Chu Thị Phương Thảo Hà nội, tháng 11 năm 2013. Nội dung. Mô hình chủ để: LSA, LDA Nguồn dữ liệu và tài nguyên: Pubmed Central, UMLS Công cụ: Mallet Mô hình Kết quả - PowerPoint PPT Presentation

Transcript of Đề tài: Mô hình chủ đề ẩn trích xuất thực thể y sinh

Nhm:Trn Thng BnhNg Mnh QuynChu Th Phng Tho

H ni, thng 11 nm 2013 ti: M hnh ch n trch xut thc th y sinh11M hnh ch : LSA, LDANgun d liu v ti nguyn: Pubmed Central, UMLSCng c: MalletM hnhKt qunh gi cht lng cm t ngHng nghin cu tip

Ni dung2Mc ch nghin cu:Xy dng cc cm t vng(word clusters) lin quan n nhau thuc min d liu y sinh da vo m hnh hc khng gim stNghin cu cc phng php sinh ra cc cm t vng:M hnh ch : LSA, LDA (thc tp chuyn ngnh)Gom cm t vng (Word clustering)Phng php biu din t vng Word2vectorTm hiu ngun d liu v cc ti nguyn ngn ng trong min d liu y sinhXy dng m hnh nh gi cht lng cc cm t vng t ngnh hng nghin cu3L mt m hnh ch c s dng phn tch ti liu a ra nhng ngha ca ti liu . [ls]Cc bc thc hin:To ma trn ch - t (m s ln xut hin ca t trong ti liu)S dng gi tr tf-idf nh trng s cho tng tLoi b nhng t nhiu v to li ma trn.Gom cm ti liu, gom cm t.

LSA (Latent Semantic Analysis)4Mt s hn ch ca m hnh LSA:LSA s dng phn phi Gaussian c th khng ph hp vi nhiu trng hp. V d nh cc t trong ti liu thng c phn phi tun theo phn phi Poisson hn.LSA khng th x l trng hp a ngha (mt t c nhiu ngha)Kh cp nht li khi c mt ti liu mi xut hin.LSA (Latent Semantic Analysis)5LDA gi s m hnh sinh cho mi ti liu Sinh ngu nhin ra phn b ch ca vn bn Vi mi t trong vn bnChn ngu nhin ch t phn b ch trnChn ngu nhin t trong phn b t ca ch .

Input: Tp cc ti liuOutput: Ma trn T - Ch Ma trn Ch - Ti liuLDA (Latent Dirichlet Allocation)6LDA (Latent Dirichlet Allocation)LDA bao gm cc bc lp v sau mi vng lp s ti u ha li cc gi tr xc sut trong 2 ma trn T - Ch v Ch - Ti liu [bl11]Vng lp s dng li khi hi t hoc chy ht s vng lp cho trc

7Pubmed CentralPMC l kho lu tr ti liu y sinh v tp ch khoa hc ti Th vin y khoa quc gia Hoa k(NLM) th vin y khoa ln nht th gii. Cc bi bo u l full text (cc bi y )[pm]

Cch thu thp d liu:Ly cc tt c cc bi bo theo tn tp ch v nh dng tgz: ftp://ftp.ncbi.nlm.nih.gov/pub/pmcLy bi bo bng id: http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?id=PMC13901Ly theo ngy: http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?from=2013-01-01Ly 1000 bi tip theo trong mt tp kt qu: http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?resumptionToken=843921!20120101000000!!!6e8a2c112f595273Ly nhng bi c nh dng PDFs : http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?from=2013-01-01&format=pdf

Ngun d liu v ti nguyn8Pubmed CentralS lng d liu thu thp: 623.989 bi bo y sinh t PMC( 02/10/2013)X l d liu:D liu down v di dng nn tar.gz cha cc file dng nxmlNgun d liu v ti nguyn

9Pubmed CentralX l d liu:Ngun d liu v ti nguyn

10UMLS:UMLS l tp cc file v phn mm a ra nhiu tp t vng v y sinh [um]3 cng c UMLS:Metathesaurus: Thut ng v m s t nhiu tp t vng nh CPT, ICD-10-CM, MeSH,Semantic Network: cc loi ng ngha v quan h gia chng.SPECIALIST lexicon v Lexical Tools: cng c x l ngn ng t nhin.S liu thng k: UMLS c 133 nhn v lnh vc hoc ch y sinh gm khong 6 triu t vng.

Ngun d liu v ti nguyn11UMLS c cu trc r rng:Ngun d liu v ti nguyn

12UMLS:Thu thp: Web browsers: Tm kim d liu thng qua cc ng dng.Local Installation: Ci t UMLS trn my tnh v down cc file v. C th lu d liu ti v vo h thng c s d liu nh MySQL, Oracle.Web Services APIs: S dng giao din chng trnh ng dng yu cu UMLS trong ng dng. X l d liu: T 623.989 bi bo y sinh trn, lc qua t vng UMLS thu c 2 triu t c trong UMLS v cng c trong d liu. Ngun d liu v ti nguyn13 Mallet c vit bi: Andrew McCallum v cng s. Trang ch: http://mallet.cs.umass.edu/index.php Mallet l cng c cho x l ngn ng t nhin, phn loi ti liu, gom cm, m hnh ch , trch xut thng tin v cc ng dng hc my khc bng thng k. B cng c Mallet cho m hnh ch hot ng da trn s thi hnh ca Latent Dirichlet Allocation, Pachinko Allocation, and Hierarchical LDA.Cng c 14InputFile d liu text u vo vi mi dng l mt document.Tham s k(s ch mun sinh ra t tp d liu u vo).OutputMa trn t/ch

Cng c

15M hnhPMCWebsite Tin x lDocsWeb UMLSUMLSTin x lDictLongest matchingUMLS termMalletModelMa trn t/ch Ma trn ti liu/ch DownloadLoi b t c trng s thpK=20016Kt qu

Bng 1Bng 217Da vo t tng ca phn cm vn bn Khong cch gia cc vn bn trong cm th gn nhau hn khong cch n cc vn bn trong cm khc

17Kt qu cc cm t

18Da vo t tng ca phn cm vn bn Khong cch gia cc vn bn trong cm th gn nhau hn khong cch n cc vn bn trong cm khc

18Kt qu cc cm tBig question: Lm th no nh gi cht lng cm t vng ?Phng php thng thng: nh gi th cng da trn t tngMt cm c nh gi l tt nu tp chung vo mt vi ch c lin quan n nhau (1)Key: Mi mt t trong UMLS s thuc mt s nhn ng ngha.Da trn (1),(2) C th s dng cc nhn ng ngha ca UMLS nh gi cht lng cm t vng

19Kt quCm ttCc t hng n mt hoc mt s t cc nhn (biu ch c mt s tct ni tri).

20Kt quCm nhiuCc t trong 1 cm hng n nhiu nhn.(khng xut hin cc ct ni tri)

21Hon thnh nh gi cht lng cm c sinh ra bi m hnh ch Hon thnh thc tp chuyn ngnh (20/11/2013)Vit mt bo co gi Workshop sinh vin ti EACL 2013 (deadline: 22/11/2013)Nghin cu tip 2 nhm phng php v sinh cm t vngp dng cc cm t vng cho mt bi ton c th (d kin: active re-ranking model for biomedical search engine)

Cng vic tip theo22[bl03] 03_#Latent Dirichlet Allocation_BleiNgJordan2003[bl11] Blei2011_Probabilistic topic models [ls] http://www.puffinwarellc.com/index.php/news-and-articles/articles/33-latent-semantic-analysis-tutorial.html?start=5[pm] http://www.ncbi.nlm.nih.gov/pmc/[um] http://www.nlm.nih.gov/research/umls/Ti liu tham kho23