THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

44
1

description

THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008. Tính cấp thiết World Wide Web đã xâm nhập vào cuộc sống hàng ngày Giao diện cho Web tiến triển từ duyệt đến tìm kiếm DL là một trong những hướng nghiên cứu chính về công nghệ thông tin trên thế giới - PowerPoint PPT Presentation

Transcript of THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

Page 1: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

1

 

Page 2: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

2

THƯ VIỆN SỐ

QUÁCH TUẤN

NGỌC

ĐỖ QUANG VINH

HÀ NỘI - 2008

Page 3: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

3

Tính cấp thiết World Wide Web đã xâm nhập vào cuộc sống

hàng ngày Giao diện cho Web tiến triển từ duyệt đến tìm

kiếm DL là một trong những hướng nghiên cứu

chính về công nghệ thông tin trên thế giới Tổng quan hoạt động nghiên cứu DL Sự bùng nổ về nghiên cứu DL, các dự án và

chương trình DL ở Mỹ và trên thế giới Trọng tâm của các dự án DL Về công nghệ: các phương pháp và công nghệ

mới về lưu trữ và tìm kiếm thông tin

Page 4: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

4

(tiếp)

Về xã hội: khảo sát CSDL tài liệu và các vấn đề

xã hội liên quan tới DL Hoạt động nghiên cứu DL ở Mỹ Có nhiều hoạt động và chương trình nghiên

cứu DL đang được tiến hành ở Mỹ và số lượng tăng nhanh

2 dự án DL được tài trợ bởi chính phủ Mỹ là Dự án thư viện số - giai đoạn 2 (DLI-2) và Dự án thư viện số quốc tế

Dự án thư viện số DLI: Dự án thư viện video số Informedia của Đại học

Carnegie Mellon CMU

Page 5: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

5

(tiếp) Dự án dịch vụ thông tin số của Đại học

California ở Berkeley Dự án Alexandria của Đại học California ở

Santa Barbara Dự án Interspace của Đại học Illinois ở Urbana-

Champaign Dự án UMDL của Đại học Michigan

Dự án InfoBus của Đại học Stanford Các dự án DL chủ yếu khác ở Mỹ: Thư viện quốc hội (Library of Congress) Dự án công nghệ thư viện số DLT của NASA Dự án FedStats của hơn 70 cơ quan chính phủ

khác nhau của Mỹ

Page 6: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

6

(tiếp)

Dự án thư viện số của IBM Dự án thư viện số California CDL Chương trình thư viện số D-Lib của DARPA

(the Defence Advanced Researh Project Agency)

Dự án MOA của hai Đại học Cornel và Michigan Dự án Open Book của Đại học Yale Dự án hợp tác Red Sage của Đại học California

ở San Francisco, Công ty AT&T Laboratories và Springer-Verlag

Dự án TULIP của nhà xuất bản Elsevier Science Publisher

Page 7: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

7

(tiếp)

Hoạt động DL ở các nước khác:

Tập trung vào các CSDL tài liệu, nói riêng vào nâng cao truy cập tới các CSDL tài liệu về lịch sử, văn hoá và nghệ thuật:

Canada, Anh, Pháp, Đức, Nhật, Hàn quốc, Singapore, Trung quốc, Hồng Kông, Đài loan, Australia, New Zealand

Page 8: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

8

(tiếp)

Việt Nam Nhu cầu nghiên cứu DL bắt đầu từ khi hoạch

định chiến lược phát triển thông tin - thư viện cho đến năm 2010, 2020, trước xu thế của sự chuyển hướng toàn cầu sang xã hội thông tin

Xây dựng DL lý tưởng, độc lập, với vốn tư liệu hoàn toàn số hoá, với toàn bộ dịch vụ chuyển sang phương thức điện tử, là không khả thi

Xu hướng sẽ xuất hiện nhiều thư viện điện tử là kết quả của quá trình tin học hoá, là các cổng vào thông tin và là một bộ phận của các thư viện lớn truyền thống ở Việt Nam

Page 9: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

9

(tiếp)

Con đường mà đại bộ phận thư viện sẽ đi là: kết hợp các nguồn tin truyền thống với hiện đại, bổ sung thêm các tạp chí điện tử toàn văn trên CD-ROM, đặt mua các tạp chí điện tử toàn văn trên mạng, số hoá một phần vốn tư liệu, tự động hoá các dịch vụ và tạo điều kiện cho NSD chủ động khai thác thông tin

Hiện nay, một số phần mềm được cài đặt: Giải pháp thư viện điện tử ILIB của công ty

CMC ở Thư viện Quốc gia Việt Nam Giải pháp thư viện điện tử LIBOL của công ty

Tinh vân ở Trung tâm Thông tin khoa học và công nghệ Quốc gia

Hệ phần mềm thư viện số Greenstone của dự án New Zealand Digital Library ở thư viện Đại học Khoa học tự nhiên TP Hồ Chí Minh

Page 10: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

10

I. TỔNG QUAN VỀ THƯ VIỆN SỐ1. ĐỊNH NGHĨA Định nghĩa 1.1 (Arms W.Y.): DL là một kho thông

tin có quản lý với các dịch vụ liên kết, trong đó thông tin được lưu trữ ở dạng số và có thể truy cập qua một mạng.

Định nghĩa 1.2 (Chen H., Houston A.L.): DL là một thực thể liên quan tới sự tạo ra các nguồn tin và sự hoạt động thông tin qua các mạng toàn cầu.

Định nghĩa 1.3 (Reddy R., Wladawsky-Berger I.): DL là các kho dữ liệu mạng về tài liệu văn bản số, ảnh, âm thanh, dữ liệu khoa học và phần mềm là lõi của Internet hiện nay và các kho dữ liệu số có thể truy cập phổ biến về tất cả tri thức của loài người trong tương lai.

Page 11: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

11

(tiếp)

Định nghĩa 1.4 (Sun Microsystems): DL là sự mở rộng điện tử về các chức năng điển hình NSD thực hiện và các tài nguyên NSD truy cập trong thư viện truyền thống.

Định nghĩa 1.5 (Witten I.H., Bainbridge D.): DL là các kho đối tượng số, bao gồm văn bản, video và audio cùng với các phương pháp truy cập và tìm kiếm, lựa chọn, tổ chức và bảo trì.

Tóm lại, thư viện số là một kho thông tin số khổng lồ có tổ chức với các dịch vụ liên kết qua mạng.

LÝ DO CHÍNH XÂY DỰNG DLThư viện số phân phát thông tin tốt hơn thư viện truyền thống

Page 12: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

12

(tiếp) LỢI ÍCH CỦA DL

1. Thư viện số mang thư viện đến người sử dụng2. Máy tính được sử dụng để tìm kiếm và duyệt3. Thông tin có thể được chia sẻ 4. Thông tin dễ dàng cập nhật hơn5. Thông tin luôn sẵn có6. Các dạng thông tin mới trở thành thực hiện được 7. Giá của DL

4 lĩnh vực kỹ thuật nổi bật đối với DL1. Lưu trữ điện tử trở nên rẻ hơn giấy2. Hiển thị máy tính cá nhân trở nên dùng thích hợp

hơn3. Mạng tốc độ cao trở nên phổ biến4. Máy tính trở nên di động

Page 13: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

13

(tiếp) NGHIÊN CỨU TIN HỌC TRONG DL

1. Mô hình đối tượng

2. Giao diện NSD

3. Chỉ mục và Tìm kiếm thông tin

4. Quản trị và bảo trì CSDL

5. Tính liên tác CHỈ MỤC & TÌM KIẾM THÔNG TIN

1. Siêu dữ liệu mô tả

2. Chỉ mục tự động

3. Xử lý ngôn ngữ tự nhiên

4. Tài liệu phi văn bản

Page 14: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

14

(tiếp) Hình - Máy tính trong thư viện số (W.Y.Arms)

NSD

Kho lưu trữ

Hệ thống định vị Hệ thống tìm kiếm

Page 15: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

15

(tiếp)

2. Mô hình hình thức cho DL 1. Cơ sở toán học 2. Dòng

Định nghĩa 1.14: Một dòng là một dãy có miền giá trị là một tập không rỗng.

3. Cấu trúcĐịnh nghĩa 1.15: Một cấu trúc là một bộ (G, L, F), trong đó G = (V, E) là một dồ thị có hướng với tập đỉnh V và tập cạnh E, L là một tập giá trị nhãn và F là một hàm gán nhãn F : (V E) L

4. Không gian Định nghĩa 1.23: Một không gian là một không gian đo được, không gian độ đo, không gian xác suất, không gian vector hoặc một không gian topo

Page 16: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

16

(tiếp)

5. Kịch bản Định nghĩa 1.26: Một kịch bản là một dãy sự kiện chuyển trạng thái liên quan (e1, e2, ... , en) trên tập trạng thái S sao cho ek = (sk, sk+1) đối với 1 k n

6. Cộng đồngĐịnh nghĩa 1.29: Một cộng đồng là một bộ (C, R), trong đó: C = {c1 , c2, ... , cn} là một tập của các cộng đồng khái niệm, mỗi một cộng đồng quy về một tập cá thể có cùng lớp hoặc kiểu; R = {r1 , r2, ... , rn} là một tập quan hệ, mỗi một quan hệ là một bộ rj = (ej, ij) trong đó ej là một tích Đề các ck1 x ck2 x ... x cknj , 1 k1 < k2 < ... < knj n, định rõ các cộng đồng bị dính vào quan hệ và ij là một hoạt động mô tả tương tác hoặc truyền thông giữa các cá thể

Page 17: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

17

(tiếp)

7. Định nghĩa hình thức thư viện số

Định nghĩa 1.41: Một thư viện số là một bộ bốn (R, MC, DV, XH)

trong đó:

R là một kho;

MC là một mục lục siêu dữ liệu;

DV là một tập dịch vụ chứa tối thiểu các dịch vụ chỉ mục, tìm kiếm và duyệt;

XH là một cộng dồng NSD thư viện số.

Page 18: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

18

II. CHỈ MỤC TÀI LIỆU VĂN BẢN

2.1 MỞ ĐẦU Định nghĩa 2.1 (từ để nhận dạng đối với chỉ mục): là

một dãy cực đại của các ký tự chữ và số, nhưng giới hạn tối đa 256 ký tự và tối đa 4 ký tự số

Bảng 2.1 - CSDL TREC

Số tài liệu N 741856

Số thuật ngữ F 333338738

Số thuật ngữ riêng biệt n 535346

Số con trỏ chỉ mục f 134994414

Kích thước tổng (MB) 2070.29

Page 19: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

19

(tiếp)2.2 CHỈ MỤC TỆP ĐẢO IFID Định nghĩa 2.2 (Đỗ Trung Tuấn): Chỉ mục là bảng dữ liệu hay

cấu trúc dữ liệu dùng để xác định vị trí của các dòng trong tệp theo điều kiện nào đó

Định nghĩa 2.3 (Folk M.J., Zoellick B., Riccardi G.): Chỉ mục là một cách tìm kiếm thông tin

Định nghĩa 2.4: Chỉ mục là một cơ chế nhằm định vị thuật ngữ cho trước trong văn bản

Định nghĩa 2.5 (chỉ mục tệp đảo IFID): Đối với mỗi một thuật ngữ trong từ điển, một IF chứa một danh sách đảo (IL) lưu trữ một danh sách con trỏ tới tất cả xuất hiện của thuật ngữ đó trong văn bản chính, trong đó mỗi một con trỏ trong thực tế là số tài liệu mà thuật ngữ đó xuất hiện. IL đôi khi được coi là một danh sách mục lục và các con trỏ là mục lục

Đây là phương pháp chỉ mục tự nhiên nhất, gần tương ứng với chỉ mục của một cuốn sách và với cách dùng mục lục truyền thống

Page 20: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

20

(tiếp)

Bảng 2.2 - Văn bản mẫu; mỗi dòng là một tài liệu

TÀI LIỆU VĂN BẢN

1 Information retrieval is searching and indexing

2 Indexing is building an index

3 An inverted file is an index

4 Building an inverted file is indexing

Page 21: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

21

(tiếp)

Bảng 2.3 - IF đối với văn bản của bảng 2.2Số Thuật ngữ IL(tài liệu; vị trí)1 an (2;4), (3;1), (3;5), (4;2)2 and (1;5)3 building (2;3), (4;1)4 file (3;3), (4;4)5 index (2;5), (3;6)6 indexing (1;6), (2;1), (4;6)7 information (1;1)8 inverted (3;2), (4;3)9 is (1;3), (2;2), (3;4), (4;5)10 retrieval (1;2)11 searching (1;4)

Page 22: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

22

(tiếp) Định nghĩa 2.6: Độ hạt (granularity) của một chỉ mục là tính

chính xác để nhận dạng vị trí của thuật ngữ Bảng 2.4 - IF mức từ đối với văn bản của bảng 2.2

Số Thuật ngữ (Tài liệu; từ)1 an <4; (2;4), (3;1), (3;5), (4;2)>2 and <1; (1;5)>3 building <2; (2;3), (4;1)>4 file <2; (3;3), (4;4)>5 index <2; (2;5), (3;6)>6 indexing <3; (1;6), (2;1), (4;6)>7 information <1; (1;1)>8 inverted <2; (3;2), (4;3)>9 is <4; (1;3), (2;2), (3;4), (4;5)>10 retrieval <1; (1;2)>11 searching <1; (1;4)>

Page 23: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

23

(tiếp)

2.3 CHỈ MỤC TỆP KÝ SỐ SFIDBảng 2.5 – Mã hoá chồng lên của tài liệu 2 đối với SF

Thuật ngữ Ký số thuật ngữ indexing 0001 0000 1100 0100is 0100 0100 0001 0000building 0101 0011 0000 0000an 0000 0100 0100 1100index 1100 1000 0010 0000Ký số bloc 1101 1111 1111 1110

Tệp ký số SF: là một phương pháp xác suất để chỉ mục văn bản. Mỗi một tài liệu có một ký số liên kết, một xâu bit bắt nội dung tài liệu theo một nghĩa nào đó

Tệp ký số bitslice: Sự truy cập SF có thể được tăng nhanh hơn bằng cách dùng kỹ thuật bitslicing, tức là kỹ thuật chuyển vị ma trận bit

Page 24: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

24

(tiếp)

2.4 SO SÁNH CÁC PHƯƠNG PHÁP CHỈ MỤC Phương pháp chỉ mục tệp đảo IFID và chỉ mục tệp ký số

SFID là hai phương pháp chỉ mục chính tài liệu trong thư viện số.

Quy luật chỉ mục tài liệu trong DL: Ở hầu hết các ứng dụng, IF thực hiện tốt hơn SF trong phạm vi của cả hai kích thước chỉ mục và tốc độ truy vấn. IF nén là phương pháp chỉ mục hữu ích nhất một CSDL lớn các tài liệu văn bản có độ dài có thể thay đổi.

2.5 CÁC MÔ HÌNH NÉN IFID 2.5.1 Đặt vấn đề

Khảo sát các mô hình và phương pháp mã hoá để nén IFID CSDL tài liệu trong thư viện số.Chìa khoá của bài toán nén là nhận xét mỗi một IL có thể được lưu trữ như một dãy số nguyên tăng dần.

Page 25: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

25

(tiếp)

2.5.2 Mô hình nén toàn cục

Mô hình không tham số Mô hình Bernoulli toàn cục

2.5.3 Các mô hình nén cục bộ

Mô hình hyperbol cục bộ Mô hình Bernoulli cục bộ Mô hình Bernoulli lệch Mô hình nén nội suy

Page 26: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

26

(tiếp)

2.5.4 Hiệu năng của các mô hình nén chỉ mụcBảng 2.9 - Nén IF bằng số bit/con trỏ đối với TREC

Mô hình Số bit/con trỏMô hình toàn cụcĐơn nguyên 1918Nhị phân 20.00Bernoulli 12.30 6.63 6.38Mô hình cục bộHyperbol 5.89 Bernoulli 5.84Bernoulli lệch 5.44Nội suy 5.18

Page 27: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

27

(tiếp)

NHẬN XÉT: các mô hình cục bộ có xu hướng thực hiện nén tốt hơn mô hình toàn cục và không hiệu quả hơn về thời gian xử lý đòi hỏi trong khi giải mã, vì chúng có xu hướng cài đặt phức tạp hơn. Đối với mục đích thực hành, mô hình nén chỉ mục phù hợp nhất là phương pháp Bernoulli cục bộ, cài đặt dùng kỹ thuật mã hoá Golomb

2.6 CÁC HIỆU ỨNG Gộp dạng chữ Truy gốc từ Từ bỏ qua

Page 28: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

28

III. TÌM KIẾM THÔNG TIN 3.1 MỞ ĐẦU

Khảo sát hai kiểu truy vấn: Truy vấn Boole BQ truyền thống Truy vấn xếp hạng RQ

3.2 TRUY VẤN BOOLE BQ

3.2.1 Truy vấn BQ hộiDạng t1 AND t2 AND ... AND tr

3.2.2 Truy vấn BQ không hộiDạng phổ biến khác là một phép hội của các phép tuyển:(text OR data OR information) AND(search OR seek) AND(retrieval OR indexing)

Page 29: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

29

(tiếp)

3.3 TRUY VẤN XẾP HẠNG RQ

3.3.1 So khớp toạ độĐếm số thuật ngữ truy vấn xuất hiện trong mỗi một tài liệu

3.3.2 Tích trong độ tương tựQuá trình được hình thức hoá bằng một tích trong của một vectơ truy vấn với một tập vectơ tài liệuĐộ tương tự của truy vấn Q với tài liệu Dd được biểu diễn như sau:

S(Q, Dd) = Q . Dd (3.1)

trong đó: phép toán . là phép tích trongTích trong của hai n-vectơ X = <xi> và Y = <yi> được định nghĩa:

(3.2)

n

1iiiyxY.X

Page 30: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

30

(tiếp)

Ví dụ:S(indexing, D1) = (0, 0, 0, 1, 0, 0, 0, 0) . (1, 1, 1, 1, 0, 0, 0, 0) = 1

Cách tiếp cận so khớp toạ độ có 3 hạn chế:1. không tính đến tần suất thuật ngữ2. không tính đến sự khó tìm thuật ngữ3. các tài liệu dài với nhiều thuật ngữ

Định nghĩa tần suất bên trong tài liệu của thuật ngữ fd,t : Số đếm chỉ thị số lần thuật ngữ xuất hiện trong tài liệu

Ví dụ:Tính độ tương tự đối với truy vấn mẫu trở thànhS(information retrieval, D1) = (1, 1, 0, 0, 0, 0, 0, 0,) . (1, 1, 1, 1, 0, 0, 0, 0)

= 2

Page 31: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

31

(tiếp)

Tổng quát hơn, thuật ngữ t trong tài liệu d có thể được gán một trọng số tài liệu - thuật ngữ, ký hiệu là wd,t và trọng số khác wq,t trong vectơ truy vấn

S(Q, Dd) = Q . Dd = (3.3)

Độ tương tự là tích trong của hai trọng số

S(Q, Dd) = (3.4)

Nếu hạng được coi là một độ đo tầm quan trọng thì trọng số wt của một thuật ngữ t được tính như sau:

(3.5)

trong đó: ft là số tài liệu chứa thuật ngữ t

n

1ttd,tq, ww

∑ w wQ∈t

t,dt,q

tt f

1w

n a

Page 32: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

32

(tiếp)

Nhân tử chuẩn hoá để không kể đến phần đóng góp của các tài liệu dài. Do đó, luật tích trong đánh giá độ tương tự bằng

(3.10)

trong đó là độ dài của tài liệu Dd

3.3.3 Mô hình không gian vectơ Độ tương tự đối với một cặp vectơ là khoảng cách Euclide:

(3.11)

d

t,dt,qQtd D

ww)D,Q(S

i,did fD

n

1t

2

t,dt,qd ww)D,Q(S

Page 33: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

33

(tiếp)

Hướng chỉ thị bởi 2 vectơ

(3.14)

Công thức có 2 hàm ý:1. Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ dài Euclide của tài liệu2. Cung cấp một sự trực quan rõ ràng của luật xếp hạng

n

1i

2

i

n

1i

2

i

n

1iii

yx

yx

YXYX

cos

Page 34: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

34

(tiếp)

Luật cosin đối với xếp hạng:

(3.15)

Độ tương tự:

(3.18)

d

dd DQ

DQ)D,Qcos(

t,d

n

1tt,q

dq

w∑wWW

1

dDQtt

et,de

qd

d fN

1log)flog1(WW1

)D,Qcos(

Page 35: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

35

(tiếp)

3.4 ĐÁNH GIÁ HIỆU SUẤT TÌM KIẾM3.4.1 Độ chính xác và độ phục hồi

Độ chính xác P của một phương pháp xếp hạng đối với điểm cắt nào đó r là một phần trong số tài liệu xếp hạng cao nhất r có liên quan đến truy vấn:

(3.19)

Độ phục hồi R của một phương pháp tại giá trị r nào đó là tỷ lệ của tổng số tài liệu có liên quan được tìm kiếm trong r cao nhất:

(3.20)

quanlien colieu taiso tong

kiem timduocquan lien colieu taisoR

kiem lieu tim taiso tong

quanlien co kiem lieu tim taisoP

Page 36: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

36

3 (tiếp)

3.4.2 Đường cong độ phục hồi-độ chính xác Hình 3.1 – Đường cong P-R đối với hạng của bảng 3.2

Do thi hieu suat tinh toan

0

50

100

150

200

R

P

do chinh xac

do phuc hoi

Đuong cong P-R doi voi hang

0

20

40

60

80

100

120

R

P

R (%)

P (%)

Page 37: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

37

(tiếp)

3.5 ĐỘ ĐO COSIN

3.5.1 Tần suất bên trong tài liệu

3.5.2 Tính độ đo cosinXét lại công thức (3.18) đối với độ đo cosin:

dDQt tet,de

qdd f

N1log)flog1(

WW

1)D,Qcos(

Page 38: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

38

(tiếp)

Tìm kiếm r tài liệu dùng độ đo cosin,1. Đặt A { }. A là tập thanh tích luỹ.2. Đối với mỗi một thuật ngữ truy vấn t Q,

(a) Truy gốc từ t.(b) Tìm kiếm từ vựng.

(c) Ghi ft và địa chỉ của It , mục vào IF đối với t.

(d) Đặt wt 1 + loge(N / ft).

(e) Đọc mục vào IF It.

(f) Đối với mỗi một cặp (d, fd,t) thuộc It ,

i> Nếu Ad A thì

Đặt Ad 0 ,

Đặt A A + {Ad}.

ii> Đặt Ad Ad + loge(1 + fd,t) * wt.

Page 39: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

39

(tiếp)

3. Đối với mỗi một Ad A,

Đặt Ad Ad / Wd.

Bây giờ Ad tỉ lệ với giá trị cos(Q, Dd).4. Đối với 1 i r,

(a) Lựa chọn d sao cho Ad = max{A}.(b) Dò tìm địa chỉ của tài liệu d.(c) Tìm kiếm tài liệu d và trình bày với NSD.

(d) Đặt A A - {Ad}.Giải thuật 3.2 Tìm kiếm r tài liệu dùng độ đo cosin.

Giải thuật nêu lên 3 điểm như sau:

1. Wq bị bỏ qua vì Wq là một hằng số 2. lượng lớn bộ nhớ được sử dụng 3. chỉ r << N tài liệu có mặt

Page 40: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

40

KẾT LUẬN

1. Đưa ra một mô hình hình thức cho thư viện số dựa vào đại số hiện đại: Một thư viện số là một bộ bốn (R, MC, DV, XH)trong đó:

R là một kho;MC là một mục lục siêu dữ

liệu;DV là một tập dịch vụ chứa tối

thiểu các dịch vụ chỉ mục, tìm kiếm và duyệt;

XH là một cộng đồng NSD thư viện số.

Page 41: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

41

2. Phân tích chi tiết các phương pháp chỉ mục tài liệu văn bản trong DL: phương pháp chỉ mục tệp đảo IFID và phương pháp chỉ mục ký số SFID, so sánh 2 phương pháp chỉ mục, rút ra quy luật chỉ mục tài liệu trong DL:Ở hầu hết ứng dụng, IF thực hiện tốt hơn SF trong phạm vi của cả hai kích thước chỉ mục và tốc độ truy vấn. IF nén chắc chắn là phương pháp chỉ mục hữu ích nhất một CSDL lớn các tài liệu văn bản có độ dài có thể thay đổi. Phân tích các mô hình nén toàn cục và mô hình nén cục bộ hyperbol, từ đó, đề xuất mô hình nén cục bộ Bernoulli và nén nội suy đối với IFID dựa vào các phương pháp xác suất và thống kê toán học, phương pháp mã hóa, phương pháp nén dữ liệu.

KẾT LUẬN

Page 42: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

42

3. Phân tích chi tiết mô hình tìm kiếm thông tin kinh điển dựa vào truy vấn Boole BQ hiện đang được sử dụng trong hầu hết các hệ thư viện, chỉ ra nhược điểm của truy vấn BQ. Từ đó, luận án đề xuất một mô hình tìm kiếm văn bản dựa vào truy vấn xếp hạng RQ có đánh giá hiệu suất dựa vào độ chính xác P và độ phục hồi R.

4. Phân tích chi tiết các giải thuật kinh điển: giải thuật đảo danh sách móc nối và giải thuật đảo dựa vào sắp xếp, chỉ ra hạn chế của chúng là chỉ thích hợp với các CSDL tài liệu văn bản cỡ nhỏ và vừa. Từ đó, luận án đề xuất hai giải thuật trộn nhiều đường tại chỗ dựa vào sắp xếp và giải thuật phân chia dựa vào văn bản phù hợp với CSDL tài liệu văn bản cỡ lớn trong DL.

KẾT LUẬN

Page 43: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

43

1. Nghiên cứu các phương pháp chỉ mục và tìm kiếm ảnh;

2. Nghiên cứu các phương pháp chỉ mục và tìm kiếm video;

3. Nghiên cứu các phương pháp chỉ mục và tìm kiếm audio;

4. Nghiên cứu bài toán tóm tắt và trích rút tài liệu văn bản trong DL.

ĐỊNH HƯỚNG NGHIÊN CỨU TƯƠNG LAI

Page 44: THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

44

Chân thành cám ơn !

KẾT THÚC