NGHIÊN C ì U XÂY DỰNG HỆ THỐNG TÌM KIẾM VIDEO DỰA …

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ VĂN HÀO

NGHIÊN CỨU XÂY DỰNG HỆ THỐNG

TÌM KIẾM VIDEO DỰA TRÊN NỘI DUNG

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Mã số: 60.48.01.04

TÓM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2016

1

MỤC LỤC

MỤC LỤC ................................................................................1 BẢNG CHỮ CÁI VIẾT TẮT ..................................................3 DANH MỤC CÁC BẢNG BIỂU ............................................4 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ..................................5 MỞ ĐẦU ..................................................................................7 CHƯƠNG 1: GIƠI THIÊU ......................................................9

1.1. Giới thiệu về công cụ tìm kiếm .................................... 9 1.2. Lịch sử phát triển của công cụ tìm kiếm ....................... 9 1.3. Kiến trúc của công cụ tìm kiếm .................................. 10

1.3.1. Quá trình đánh chỉ mục ....................................... 10 1.3.2. Quá trình truy vấn ............................................... 10

1.4. Công cụ tìm kiếm video trên mạng internet ............... 10 1.5. Tông quan của đề tai va các vấn đề cân giai quyết ..... 10

1.5.1. Tông quan đề tai ................................................. 10 1.5.2. Các vấn đề cân giai quyết ................................... 11

1.6. Y nghia khoa hoc va thưc tiên của đề tai nghiên cưu . 11 1.6.1. Y nghia khoa hoc ................................................ 11 1.6.2. Y nghia thưc tiên ................................................. 11

1.7. Kết luận ...................................................................... 11 CHƯƠNG 2: BÀI TOÁN TÌM KIẾM ...................................12 VIDEO BÀI GIẢNG DƯA TRÊN NỘI DUNG ....................12

2.1. Phát biểu bài toán ....................................................... 12 2.2. Các nghiên cưu về tìm kiếm video dưa trên nôi dung 13 2.3. Hướng nghiên cưu của tác gia .................................... 13 2.4. Bai toán phân đoạn video thanh anh ........................... 13

2.4.1. Khái niệm ............................................................ 13 2.4.2. Phương pháp tiếp cận .......................................... 14

2.5. Bai toán trich xuất văn ban ......................................... 15 2.5.1. Bai toán nhận dạng ki tư quang hoc .................... 15 2.5.2. Bài toán xử lý trùng lặp văn ban ......................... 15 2.5.3. Bài toán sửa lỗi chính ta văn ban ........................ 17

2.6. Bai toán đánh chỉ mục và tìm kiếm ............................ 18 2.6.1. Khái niệm ............................................................ 18 2.6.2. Phương pháp tiếp cận .......................................... 19 2.6.3. Kiến trúc của Elasticsearch ................................. 19

2.7. Kết luận ...................................................................... 19

2

3.1. Bai toán phân đoạn video thanh định dạnh anh .......... 20 3.1.1. Phát biểu bai toán ................................................ 20 3.1.2. Giai pháp thưc hiện ............................................. 20

3.2. Bai toán trich xuất văn ban ......................................... 20 3.2.1. Bài toán nhận dạng kí tư quang hoc băng công cụ

Tesseract-OCR .............................................................. 20 3.2.2. Bài toán xử lý trùng lặp văn ban băng ki thuật

Shingling ....................................................................... 21 3.2.3. Bài toán sửa lỗi chính ta văn ban tiếng Việt ....... 23

3.3. Bai toán đánh chỉ mục và tìm kiếm ............................ 25 3.3.1. Phát biểu bai toán ................................................ 25 3.3.2. Lập chỉ mục và tìm kiếm băng Elasticsearch ...... 25

CHƯƠNG 4: KẾT QUẢ THƯC NGHIÊM, ĐÁNH GIÁ VÀ

KẾT LUẬN ............................................................................27 4.1. Công cụ, môi trường thưc nghiệm .............................. 27 4.2. Kết qua thưc nghiệm, đánh giá ................................... 28 4.3. Kết luận ...................................................................... 29

4.3.1. Kết qua đạt đươc ................................................. 29 4.3.2. Định hướng phát triển ......................................... 30

TÀI LIÊU THAM KHẢO ......................................................31

3

BẢNG CHỮ CÁI VIẾT TẮT

STT Từ

viết

tắt

Ý nghĩa

1 ASR Automatic Speech Recognition – Nhận dạng tiếng noi

tư đông

2 FPS Frame Per Second – Số khung hình trên môt giây

3 FTP File Transfer Protocol – Giao thưc truyền tệp tin

4 GNU General Public License – Giấy phép công công

5 OCR Optical Character Recognition – Nhận dạng kí tư quang

hoc

6 PDF Portable Document Format – Định dạng tai liệu di

đông.

7 NDD Near Duplicate Detection – Phát hiện gân trùng lặp

8 TIFF Tagged Image File Format – Định dạng tệp tin trên

máy tinh để lưu trư các hình anh.

9 UTF-8 Unicode Transformation Format - Định dạng chuyển

đôi Unicode.

4

DANH MỤC CÁC BẢNG BIỂU

Bang 3.1. Kết qua Bigram tập dư liệu ......................................... 24 Bang 4.1. Thông số phân cưng ................................................... 27 Bang 4.2. Danh sách công cụ phân mềm .................................... 27 Bang 4.3. Kết qua thưc hiện trich xuất khung hình tư video ...... 28 Bang 4.4. Kết qua thưc hiện Tesseract-OCR đối với tập khung

hình thu đươc .............................................................................. 28 Bang 4.5. Kết qua thưc hiện NDD với ki thuật Shingling .......... 28 Bang 4.6. Kết qua quá trình phát hiện lỗi chinh ta dung Aspell kết

hơp Bi-gram ................................................................................ 29 Bang 4.7. Kết qua quá trình sửa lỗi chinh ta ............................... 29

5

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1. Quá trình đánh chỉ mục ............................................... 10 Hình 2.1. Kiến truc tông quan hệ thống tìm kiếm video dưa trên

nôi dung ...................................................................................... 12 Hình 2.2. Kiến truc hệ thống tìm kiếm video tác gia đề xuất...... 13 Hình 2.3. Sử dụng FFMpeg để chuyển đôi video thành anh ....... 14 Hình 2.4. Kiến trúc của Tesseract – OCR ................................... 15 Hình 2.5. Văn ban gốc ................................................................ 16 Hình 2.6. Văn ban trùng lặp của văn ban trong hình 2.5 ............ 16 Hình 2.7. Văn ban gân trùng lặp của văn ban trong hình 2.5. ..... 16 Hình 2.8 [15]. Đô chinh xác va đô hồi tưởng của đô đo tương tư

cho phương pháp fuzzy-fingerprinting (FF), localitysensitive

hashing (LSH), supershingling (SSh), shingling (Sh), and hashed

breakpoint chunking (HBC). ....................................................... 17 Hình 2.9. Ki thuật phát hiện lỗi chính ta dưa vào tra cưu tư điển18 Hình 2.10. Ki thuật phát hiện lỗi chính ta dưa vào phân tích N-

gram ............................................................................................ 18 Hình 2.11. Thư hạng của 17 công cụ tìm kiếm. Nguồn http://db-

engines.com ................................................................................ 19 Hình 2.12. Kiến trúc cluster-node-shard của Elasticsearch ........ 19 Hình 3.1. Mô ta quá trình biến đôi video nguồn thành dạng anh 20 Hình 3.2. Chuyển đôi anh màu thành anh đa cấp xám ................ 20 Hình 3.3. Ảnh màu ...................................................................... 20 Hình 3.4. Ảnh đa cấp xám .......................................................... 21 Hình 3.5. Quá trình OCR anh trong hình 3.4 băng Tesseract-OCR

.................................................................................................... 21 Hình 3.6. Kết qua sau khi hoàn thành OCR băng Tesseract-OCR

.................................................................................................... 21 Hình 3.7. Thưc hiện OCR tất ca anh trong thư mục băng

Tesseract-OCR ............................................................................ 21 Hình 3.8. Quá trình xử lý trùng lặp văn ban ............................... 22 Hình 3.9. Hệ số Jaccard của tài liệu d1 và d2 .............................. 22 Hình 3.10[4]. Bốn quá trình tính toán shingle của hai tài liệu. ..... 22 Hình 3.11. Sơ đồ khối quá trình trich xuất tập văn ban đại diện . 23 Hình 3.12. Quá trình phát hiện và sửa lỗi chính ta văn ban ........ 23 Hình 3.13. Sơ đồ khối sửa lỗi chinh ta sử dụng tư điển Aspell ... 24 Hình 3.14. Sơ đồ khối sửa lỗi chinh ta sử dụng Bigram ............. 24 Hình 3.15. Mô ta quá trình lập chỉ mục tài liệu .......................... 25

6

Hình 3.16. Kiểm tra khởi đông Elasticsearch ............................. 25 Hình 3.17. Danh sách các chỉ mục hiện co. Tên chỉ mục la

lectures, số tai liệu docs.count hiện tại co giá trị băng 0 (do chưa

tạo tai liệu cho chỉ mục nay). ...................................................... 25 Hình 3.18. Tạo type va document cho chỉ mục........................... 25 Hình 3.19. Tạo type va document băng lệnh POST. Id của

document đươc Elasticsearch gán tư đông. ................................. 25 Hình 3.20. Cập nhật lại document cho chỉ mục với id đa tồn tại.

.................................................................................................... 26 Hình 3.21. Thưc hiện cập nhật lại document băng câu lệnh

UPDATE ..................................................................................... 26 Hình 3.22. Tìm kiếm document trên chỉ mục ............................. 26

7

MỞ ĐẦU Cùng với sư phát triển của công nghệ thông tin, tốc đô

internet đang cai thiện đáng kể. Số lương video bài giang, diên

thuyết… phục vụ hoc tập cho moi lưa tuôi đang đươc tai lên

và chia sẻ trên internet nhanh chóng. Mỗi ngày, hàng triệu

video như vậy trên thế giới đươc đăng tai lên các ưng dụng

internet như Youtube, Facebook, Yahoo. Đối với lương video

đang tăng trưởng tưng ngay nay, cơ chế tô chưc lưu trư phục

vụ cho việc tra cưu, tìm kiếm là môt thách thưc.

Giáo dục trưc tuyến hay E-Learning không còn là khái

niệm mới lạ va đang phát triển mạnh mẽ. Số lương video bài

giang, diên thuyết cũng vì thế ngay cang đươc tăng trưởng.

Nhu câu tìm kiếm của người hoc càng yêu câu khắt khe hơn:

ca về đô chính xác và thời gian tìm kiếm. Tuy nhiên, các chưc

năng tìm kiếm bài giang cho của các hệ thống hiện tại thông

thường chỉ cho phép người dùng tìm kiếm với tên bài giang,

tên hoc phân, hoặc tên giang viên... Các chưc năng nay thường

cho kết qua co đô chinh xác không cao, va các kết qua tra về

có nhiều nôi dung không liên quan đến mục đich tìm kiếm

thưc sư của người dùng. Do đo, cân có môt hệ thống mà có thể

“hiểu” đươc nôi dung của tưng video bài giang để phục vụ cho

việc tìm kiếm của người dùng.

Nhưng công cụ tìm kiếm phô biến hiện nay - như

Google, Yahoo, Bing…, la nhưng hệ thống tìm kiếm dưa trên

“tư khoa”, va tìm kiếm trên dư liệu văn ban (text). Chính vì

thế, nếu video không có bất kỳ siêu dư liệu (metadata) ví dụ

như ngay, tác gia, tư khóa, hoặc mô ta thì không thể tìm kiếm

đươc băng cách sử dụng các công cụ nêu trên. Siêu dư liệu

thường đươc thêm băng tay, quá trình này sẽ rất tốn thời gian.

Hơn nưa, ngay ca khi môt đoạn video có thể đươc tìm thấy

băng siêu dư liệu của nó, công cụ tìm kiếm thông thường

không có kha năng tìm kiếm môt đoạn bài giang, slide cụ thể

trong video ma người dùng quan tâm.

Mục tiêu chính của của Luận văn la tập trung nghiên

cứu xây dựng một hệ thống tìm kiếm các bài giảng, thuyết

trình, trình diễn bằng slide dưới dạng video. Hệ thống sẽ cho

phép người dùng chỉ cân nhập vào môt phân nôi dung của bài

8

giang, kết qua tra về sẽ là nhưng video bài giang có liên quan

đến chuỗi truy vấn. Ngoài ra, với giai pháp nay cũng cho phép

các hệ thống tìm kiếm có thể truy vấn dư liệu video mà không

cân có siêu dư liệu. Xuất phát tư quan điểm nêu trên, ngoài

phân mở đâu và kết luận, luận văn đươc chia lam 4 chương

đươc tóm tắt như sau:

- Chương 1: Giới thiệu về công cụ tìm kiếm trên mạng

internet, các khái niệm và kiến trúc của công cụ tìm kiếm. Các

vấn đề cân giai quyết trong luận văn va y nghia khoa hoc, thưc

tiên của luận văn.

- Chương 2: Trình bày về các bài toán cân giai quyết

trong khuôn khô tìm kiếm video bài giang dạng slide. Môt số

khái niệm, mô hình các bài toán con cân giai quyết. Các

phương pháp tiếp cận để giai quyết vấn đề.

- Chương 3: La chương quan trong nhất của Luận văn.

Nôi dung chính của chương nay là tập trung trình bày giai

pháp thưc hiện của tác gia, các ki thuật áp dụng để trích xuất

văn ban, xử ly văn ban va đánh chỉ mục tìm kiếm cho video

bài giang.

- Chương 4: Là phân trình bày các kết qua thưc nghiệm

va đánh giá. Ở mỗi bài toán tác gia đều có nhưng thưc nghiệm

để kiểm chưng và đánh giá về đô chính xác.

Tác gia xin bày tỏ lòng biết ơn chân thanh tới PGS.TS.

Nguyên Trí Thành, thây đa luôn ân cân, chỉ bao, đông viên,

giup đỡ tác gia trong suốt quá trình thưc hiện Luận văn. Tác

gia xin chân thành cam ơn gia đình, bạn bè, đồng nghiệp đa

luôn tin tưởng, đông viên va giup đỡ về nhiều mặt trong thời

gian qua. Tác gia xin chân thành cam ơn các thây, cô giáo

trong khoa Công nghệ Thông tin và Truyền thông, trường Đại

hoc Hồng Đưc đa đông viên và tạo điều kiện giup đỡ tác gia

hoàn thành tốt nhất luận văn nay.

9

CHƯƠNG 1: GIƠI THIỆU

1.1. Giới thiệu về công cụ tìm kiếm Nếu bạn đa tưng truy cập địa chỉ www.google.com.vn,

nhập nôi dung cân tra cưu và bấm vao “tìm với google”. Môt

danh sách kết qua liên quan đến nôi dung tìm kiếm đươc liệt

kê trên màn hình cho phép người dung lưa chon các nôi dung

phù hơp với yêu câu. Nhưng công cụ cho phép người dùng tìm

kiếm các thông tin trên mạng như Google, Bing, Yahoo… như

vậy goi là các công cụ tìm kiếm (web search engine).

Thuật ngư “web search engine” đươc định nghia: “Môt

công cụ tìm kiếm là các ưng dụng thưc tế của các ki thuật truy

hồi thông tin trên miền dư liệu văn ban qui mô lớn”[5].

1.2. Lịch sử phát triển của công cụ tìm kiếm Năm 1990, Archie là công cụ tìm kiếm đâu tiên đươc

phát triển bởi Alan Emtage, Bill Heelan and J. Peter Deutsch,

hai sinh viên chuyên ngành khoa hoc máy tính của trường

McGill University tại Montreal (Canada).

Năm 1991, môt công cụ tương tư Archie là Gopher của

tác gia Mark McCahill tại University of Minnesota, có chưc

năng tìm kiếm theo tên tệp tin va tiêu đề đươc lưu trư trong hệ

thống Gopher đa lập chỉ mục.

Năm 1993, đánh dấu nhưng bước tiến mới về công cụ

tìm kiếm như World Wide Web Wanderer bởi Matthew Gray,

đây đươc xem là môt web robot đâu tiên đo lường đươc dung

lương của trang web.

Năm 1994, với sư ra đời của WebCrawler công cụ tìm

kiếm đâu tiên chỉ mục toan trang web va cho phép người dùng

tìm kiếm va thu thập với bất kỳ tư nao môt cách tư đông.

Năm 1995, công cụ tìm kiếm yahoo đươc tạo bởi David

Filo và Jerry Yang. Sử dụng danh bạ web thay vì đánh chỉ

mục toan văn ban.

Năm 1996-nay, với sư phát triển mạnh mẽ của internet

các công cụ tìm kiếm phát triển mạnh mẽ hơn, tối ưu hơn

nhiều so với các công cụ trước đây. Năm 1998, Google đươc

phát triển bởi Larry và Sergey đưa ra khái niệm về PageRank

đánh dấu sư phát triển vươt bậc và hiện đang la công cụ tìm

kiếm có thị phân lớn nhất hiện nay.

http://www.google.com.vn/

10

1.3. Kiến trúc của công cụ tìm kiếm

1.3.1. Quá trình đánh chỉ mục

Hình 1.1. Quá trình đánh chỉ mục

Các thành phân chính bao gồm việc thu thập văn ban,

chuyển đôi văn ban và tạo chỉ mục.

1.3.2. Quá trình truy vấn Phân còn lại của công cụ tìm kiếm là quá trình truy vấn.

Quá trình truy vấn thông thường bao gồm ba thành phân chính

la tương tác người dùng, xếp hạng va đánh giá.

1.4. Công cụ tìm kiếm video trên mạng internet Công cụ tìm kiếm video cho phép người dùng thuận tiện

trong quá trình tìm kiếm phục vụ nhiều mục đich khác nhau

như giai trí, giáo trục và truyền thông. Nếu chia theo linh vưc

thì video cũng rất đa dạng như video truyền hình, video quang

cáo, video bài giang, hoc thuyết… Trong nôi dung của luận

văn nay tác gia chỉ đề cập đến thể loại video bài giang dạng

slide, cách tiếp cận va hướng giai quyết để xây dưng môt công

cụ tìm kiếm video bài giang dạng slide. Việc tìm kiếm yêu câu

băng cách duyệt qua tập các video kết qua.

1.5. Tông quan của đề tai va các vấn đề cân giai quyết

1.5.1. Tông quan đề tai Trong đề tai nay, tác gia hướng tới xây dưng môt hệ

thống tìm kiếm các video bài giang, thuyết trình, trình diên

băng silde dưới dạng video… Cho phép tìm thấy nhưng video

băng văn ban xuất hiện trong đo. Với giai pháp nay, đơn gian

băng cách nhập tư khóa tìm kiếm, người dùng có thể tìm kiếm

các video bài giang và nhưng canh trong đo ma thuật ngư xuất

11

hiện. Giai pháp nay cũng cho phép người dùng tìm kiếm các

video không cân có siêu dư liệu.

1.5.2. Các vấn đề cân giai quyết Vấn đề cân giai quyết ở trong đề tài này là giai pháp xử

ly video đâu vao. Phân tich va đánh chỉ mục cho video. Đâu

tiên, các đoạn video tinh trong môt thời gian nhất định đươc

xác định là các slide và trích xuất tư video. Tiếp theo, các dư

liệu văn ban chưa trong hình anh của slide đươc trich xuất

băng cách sử dụng ki thuật nhận dạng ki tư quang hoc. Các

văn ban trích xuất sẽ đươc xử ly trung lặp, sửa lỗi chinh ta và

đươc đánh chỉ mục tương ưng với video gốc lưu trư trong cơ

sở dư liệu.

1.6. Ý nghĩa khoa hoc va thưc tiên của đề tai nghiên cưu

1.6.1. Ý nghĩa khoa hoc

- Đề tai đa tông quát đươc các phương pháp khoa hoc để

giai quyết vấn đề lập chỉ mục video bai giang, phục vụ quá

trình truy hồi thông tin.

- Đề tai cung cấp các cơ sở khoa hoc, định hướng cho

các nghiên cưu về xử ly lập chỉ mục cho video bai giang.

- Tư kết qua nghiên cưu của đề tai, gop phân lam cơ sở

thưc tiên va ly luận để phát triển hệ thống tìm kiếm video dưa

trên nôi dung.

1.6.2. Ý nghĩa thưc tiên

- Hướng tiếp cận mới cho các máy tìm kiếm, truy hồi

thông tin video dưa trên nôi dung.

- Gop phân nâng cao chất lương của các máy tìm kiếm.

Kết qua tra về co đô liên quan cao hơn so với phương pháp tìm

kiếm dưa trên tư khoa hiện nay.

1.7. Kết luận Trong chương nay, luận văn đa giới thiệu khái quát môt

số khái niệm, lịch sử và kiến trúc của môt công cụ tìm kiếm

nói chung. Ngoài ra, luận văn cũng giới thiệu tông quan các

vấn đề cân giai quyết của đề tai. Y nghia khoa hoc va y nghia

thưc tiên của đề tai nghiên cưu xây dưng hệ thống tìm kiếm

video dưa trên nôi dung.

12

CHƯƠNG 2: BÀI TOÁN TÌM KIẾM

VIDEO BÀI GIẢNG DỰA TRÊN NỘI DUNG

2.1. Phát biểu bài toán Tác gia sẽ xây dưng công cụ tìm kiếm cho phép nhận

nôi dung truy vấn là chuỗi văn ban và kết qua tra về là các

video bài giang mà nôi dung co liên quan đến chuỗi văn ban

người dùng truy vấn. Bai toán đươc chia thanh hai bai toán

con như sau:

Bai toán 1: Xử ly video đâu vao, trich xuất văn ban tư

video.

Đâu vào:

- Tập videos bai giang dạng slide.

Đâu ra:

- Văn ban trich xuất nôi dung tư video đâu vao.

Bai toán 2: Lập chỉ mục va tìm kiếm video dưa trên nôi

dung bai giang.

Đâu vao:

- Truy vấn tư người dung.

Đâu ra:

- Danh sách kết qua videos co nôi dung liên quan đến

truy vấn.

Kiến truc chung của môt hệ thống tìm kiếm video dưa

vao nôi dung đươc miêu ta trong hình 2.1.

Hình 2.1. Kiến truc tông quan hệ thống tìm kiếm video dưa

trên nôi dung

13

Hình 2.1 cho thấy quá trình lập chỉ mục cho video đươc

trai qua ba bước la phân đoạn video, trich xuất nôi dung tư

video va lập chỉ mục cho video.

2.2. Các nghiên cưu về tìm kiếm video dưa trên nội dung

Liška et al va công sư đa đề xuất môt hệ thống tư đông

cho việc lập chỉ mục video bai giang [8].

Hunter et al đề xuất môt hệ thống lập chỉ mục cho các

bai thuyết trình đa phương tiện[7].

Yang et al sử dụng công cụ nhận dạng giong noi tư

đông ASR để trich xuất nôi dung video thanh văn ban[8].

Lienhart et al đề xuất môt phương pháp phát hiện văn

ban trong video va hình anh[8].

2.3. Hướng nghiên cưu của tác gia

Dưa vao các phương pháp tiếp cận nghiên cưu đa nêu

trong phân 2.2, tác gia lưa chon phương pháp tiếp cận để trich

xuất văn ban tư video băng công nghệ OCR thay vì sử dụng

ASR.

Kiến truc của công cụ tìm kiếm video dưa vao nôi dung

ma tác gia đề xuất đươc mô ta trong hình 2.2.

Hình 2.2. Kiến truc hệ thống tìm kiếm video tác gia đề xuất

2.4. Bai toán phân đoạn video thanh anh

2.4.1. Khái niệm

Về mặt ban chất thì video mà chung ta thấy trên tivi,

máy tinh, điện thoại… đươc cấu thành tư nhưng anh tinh.

Nhưng anh nay sau đo đươc sắp xếp liên tiếp nhau và cùng

trình diên trong môt đơn vị thời gian đủ nhỏ để làm cho mắt

của chúng ta cam nhận răng các đối tương nay đang chuyển

14

đông. Thông thường thì các video đươc quay ở khoang 24-30

hình mỗi giây. Mỗi hình nay đươc goi là môt frame. Số frame

trên môt giây đươc đo băng môt số nguyên đươc kí hiệu FPS.

2.4.2. Phương pháp tiếp cận

FFMpeg là môt thư viện có rất nhiều tiện ích cho việc

xử lý video. Tinh năng nôi bật nhất có lẽ là kha năng

encode/decode nhiều video định dạng khác nhau, giup chuyển

đôi qua lại nhiều định dạng video. Ngoai ra, chung ta cũng co

thể dung FFMpeg để chia cắt môt đoạn video, chụp lại các

frame và xuất ra dạng hình anh.

Công cụ mã nguồn mở Ffmpeg đươc tác gia quan tâm bởi ba

lý do chính:

- Hỗ trơ nhiều định dạng video khác nhau, ví dụ .mp4, avi,

flv…

- Điều chỉnh đươc FPS.

- Mã nguồn mở.

Hình 2.3. Sử dụng FFMpeg để chuyển đôi video thành anh

15

2.5. Bai toán trich xuất văn ban

2.5.1. Bai toán nhận dạng ki tư quang hoc

2.5.1.1. Khái niệm OCR

OCR là công nghệ cho phép chuyển đôi các loại tài liệu

khác nhau, vi dụ như các tai liệu giấy, anh chụp hoặc các tập

tin PDF băng môt máy anh kỹ thuật số thành dư liệu văn ban

có thể chỉnh sửa và tìm kiếm. Nhưng hình anh này có thể là

các chư viết tay hoặc đánh máy. Đây la môt kỹ thuật phô biến

của việc số hoa các văn ban in để có thể tìm kiếm băng điện

tử, lưu trư gon gàng, hiển thị trên mạng.

2.5.1.2. Phương pháp tiếp cận

Tác gia sử dụng Tesseract- OCR để thưc hiện trích xuất

nôi dung văn ban tư anh. Tesseract là môt công cụ nhận diện

kí tư quang hoc mã nguồn mở và hiện nay đươc phát triển bởi

Google[8]. Hình 2.4 mô ta các bước mà công cụ Tesseract-

OCR thưc hiện.

Hình 2.4. Kiến trúc của Tesseract – OCR

2.5.2. Bài toán xử lý trùng lặp văn ban

2.5.2.1. Khái niệm

Khi hai văn ban mà nôi dung đều giống hệt nhau thì

chung đươc coi là các văn ban trùng lặp hay goi là ban sao của

nhau. Trong nhiều trường hơp, hai tài liệu mà không phai

giống nhau hoàn toàn vẫn có thể chưa cùng môt nôi dung thì

đươc goi la các văn ban gân trùng lặp.

Với đặc thu la các văn ban đươc trích xuất tư các khung

hình video bài giang liên tiếp theo nhau thời gian. Chinh vì thế

tập hơp văn ban thu đươc tồn tại ca hai loại đo la trung lặp và

16

gân trùng lặp văn ban. Hình 2.6 la vi dụ về nôi dung văn ban

trùng lặp với hình 2.5, hình 2.7 là gân trùng lặp của hình 2.5.

Hình 2.5. Văn ban gốc

Hình 2.6. Văn ban trùng lặp của văn ban trong hình 2.5

Hình 2.7. Văn ban gân trùng lặp của văn ban trong hình 2.5.


Dưa trên các kết qua nghiên cưu [2], [6], [9], [13],[15]

thì phương pháp shingling cho kết qua đô chính xác cao và

phù hơp với kiểu dư liệu đâu vao như tập dư liệu của tác gia.

Chính vì thế, trong luận văn nay, tác gia lưa chon va cai đặt

17

thuật toán phát hiện trùng lặp văn ban dưa vao ki thuật

Shingling của Broder và công sư. Hình 3.12 bang kết qua đô

chinh xác va đô hồi tưởng của các ki thuật tìm trùng lặp văn

ban theo nghiên cưu [15].

Hình 2.8 [15]. Đô chính xác va đô hồi tưởng của đô đo tương tư

cho phương pháp fuzzy-fingerprinting (FF), localitysensitive

hashing (LSH), supershingling (SSh), shingling (Sh), and

hashed breakpoint chunking (HBC).

2.5.3. Bài toán sửa lỗi chính ta văn ban

2.5.3.1. Khái niệm

Nhưng lỗi chinh ta phát sinh la do quá trình nhận dạng

OCR phát sinh các lỗi chính ta cho tư nhận diện đươc. Bài

toán này gồm ba bước chính là tiền xử lý tập văn ban đâu vào,

phát hiện lỗi chính ta và sửa lỗi chính ta.

Lỗi chinh ta đươc chia làm hai loại là non-word và real-

word.

Lỗi non-word đươc hiểu là nhưng tư lỗi không tìm thấy

trong tư điển.

Lỗi real-word là nhưng tư lỗi có trong tư điển nhưng

không đung trong ngư canh của câu.


Đối với vấn đề phát hiện lỗi chính ta thì thường có hai

phương pháp tiếp cận chính [17].

Ki thuật tra cưu dùng tư điển: Ki thuật đơn gian là kiểm

tra sư hiện diện tưng tư của văn ban đâu vào. Nếu tư đo co

trong tư điển thì tư đo đươc coi là tư đung chinh ta, ngươc lại

thì tư đo đươc coi là lỗi chính ta. Ki thuật phô biến nhất và

nhanh chong để phát hiện tư bị lỗi chính ta. Tư điển đươc xây

dưng băng cách sử dụng bang băm để cai thiện tốc đô tra cưu.

18

Hình 2.9 mô ta quá trình kiểm tra lỗi chính ta băng ki thuật

dùng tư điển.

Hình 2.9. Ki thuật phát hiện lỗi chính ta dưa vào tra cưu tư

điển

Ki thuật phân tích N-gram: N-gram là môt chuỗi con

gồm n tư, thường thì là hai, ba hoặc năm tư. Ki thuật này thưc

hiện băng cách chia văn ban đâu vào thành n-gram tương ưng,

đối với mỗi n-gram đâu vào, tìm kiếm trong bang thống kê n-

gram tinh trước. Kết hơp thêm tân suất xuất hiện của n-gram

trong bang thống kê để kiểm tra sư tồn tại hoặc mưc đô phô

biến của n-gram đâu vào nhăm xác định lỗi chính ta. Hình

2.10 mô ta quá trình kiểm tra lỗi chính ta băng ki thuật sử

dụng N-gram.

Hình 2.10. Ki thuật phát hiện lỗi chính ta dưa vào phân tích

N-gram

2.6. Bai toán đánh chỉ mục và tìm kiếm

2.6.1. Khái niệm

Lập chỉ mục tài liệu là công việc sắp xếp tài liệu nhăm

đáp ưng nhanh chóng yêu câu tìm kiếm thông tin của người sử

19

dụng. Quá trình lập chỉ mục đươc hiểu la giai đoạn phân tích

tập văn ban đa xử ly va thu đươc để xác định các chỉ mục biểu

diên nôi dung của tệp văn ban này.

2.6.2. Phương pháp tiếp cận

Có nhiều công cụ để thưc hiện lập chỉ mục cho tài liệu

như Apache Sorl, Lucence, Sphinx. Nhưng đối với bài toán

đánh chỉ mục tài liệu tác gia sử dụng công cụ Elasticsearch.

Hình 2.11. Thư hạng của 17 công cụ tìm kiếm. Nguồn

http://db-engines.com

2.6.3. Kiến trúc của Elasticsearch

- Cluster - Node

- Index - Type

- Document - Shard & Replicas

Hình 2.12. Kiến trúc cluster-node-shard của Elasticsearch

2.7. Kết luận Kết thuc chương nay, tác gia đa trình bay khái quát các

bài toán cân giai quyết trong nôi dung luận văn nay. Các

phương pháp tiếp cận để giai quyết vấn đề. Tiếp theo, chương

ba tác gia xin trình bày chi tiết về các giai pháp ki thuật tiến

hành của tác gia để thưc hiện các bai toán đa nêu trong chương

hai.

20

CHƯƠNG 3: KĨ THUẬT ĐỂ GIẢI QUYẾT CÁC BÀI

TOÁN TRONG KHUÔN KHỔ LUẬN VĂN

3.1. Bài toán phân đoạn video thanh định dạnh anh

3.1.1. Phát biểu bai toán

Hình 3.1 mô ta quá trình biến đôi video bài giang thành

tập anh.

Hình 3.13. Mô ta quá trình biến đôi video nguồn thành dạng

anh

3.1.2. Giai pháp thưc hiện

Sau khi cai đặt phân mềm Ffmpeg, sử dụng dòng lệnh

“ffmpeg -i lecture001.mp4 -r 1 %d.tif” trong đo:

- i la video đâu vào với đường dẫn của tệp tin video.

Trong ví dụ nay video đươc định dạng là .mp4 với tên tệp tin

là lecture001.

- r là số khung hình trên giây.

- %d.tif la định dạng tên tệp tin hình anh để lưu với tên

là số nguyên va định dạng là .tif. Ví dụ 1.tif, 2.tif, 3.tif…

- Sử dụng số FPS la 1 (môt khung hình môt giây).

3.2. Bai toán trich xuất văn ban

3.2.1. Bài toán nhận dạng kí tư quang hoc băng công cụ

Tesseract-OCR

Hình 3.14. Chuyển đôi anh màu thành anh đa cấp xám

Hình 3.15. Ảnh màu

21

Hình 3.16. Ảnh đa cấp xám

Hình 3.17. Quá trình OCR anh trong hình 3.4 băng Tesseract-

OCR

Hình 3.18. Kết qua sau khi hoàn thành OCR băng Tesseract-

OCR

Hình 3.19. Thưc hiện OCR tất ca anh trong thư mục băng

Tesseract-OCR

3.2.2. Bài toán xử lý trùng lặp văn ban băng kĩ thuật

Shingling

3.2.2.1. Phát biểu bai toán

Mục tiêu của quá trình này sẽ là phát hiện và loại bỏ

nhưng tệp văn ban có nôi dung gân trùng nhau (các tệp đươc

22

trích xuất tư môt slide). Quá trình này trai qua hai bước đươc

trình bay trong hình.

Hình 3.20. Quá trình xử lý trùng lặp văn ban

3.2.2.2. Giai thuật Shingling

Goi tập S(dj) là tập shingles của tài liệu dj. Sư tương

đồng của hai tài liệu đươc đo băng cách sử dụng hệ số Jaccard

giưa các vector shingles. Gia sử với hai tập d1 và d2 thì hệ số

Jaccard đươc tính theo công thưc hình 3.9.

𝐽(𝑆(𝑑1), 𝑆(𝑑2)) =|𝑆(𝑑1) ∩ 𝑆(𝑑2)|

|𝑆(𝑑1) ∪ 𝑆(𝑑2)|

Hình 3.21. Hệ số Jaccard của tài liệu d1 và d2

Hình 3.22[4]. Bốn quá trình tính toán shingle của hai tài liệu.

3.2.2.3. Kĩ thuật tiến hành

Dưa trên các cơ sở của phương pháp shingling, tác gia

đa xác định và kết luận đươc hai tệp văn ban bất kỳ có phai là

gân trùng lặp nhau hay không, căn cư vào môt giá trị ngưỡng

của đô đo Jaccard trong hình 3.13. Bai toán tiếp theo trong nôi

dung nay la xác định đươc tệp các văn ban đại diện cho video

bài giang. Bai toán đươc mô ta dưới dạng mã gia như sau:

Đâu vào: Cho tập D là tập tất ca văn ban đươc trích xuất

OCR tư video, giá trị d1, d2,… dn la các văn ban đươc thuôc

tập D.

Đâu ra: Tập D’ la tập văn ban đại diện cho tập D.

Giai thuật

23

Hình 3.23. Sơ đồ khối quá trình trich xuất tập văn ban đại diện

3.2.3. Bài toán sửa lỗi chính ta văn ban tiếng Việt

3.2.3.1. Phát biểu bai toán

Hình 3.12 mô ta các bước để thưc hiện phát hiện và sửa

lỗi chính ta văn ban.

Hình 3.24. Quá trình phát hiện và sửa lỗi chính ta văn ban

3.2.3.2. Làm sạch dữ liệu trước khi sửa lỗi chính ta

- Bước 1: Loại bỏ các kí tư khoang trắng thưa ở đâu,

giưa, và cuối câu. Ví dụ “bai giang ” sẽ đươc thay băng

“bai giang”.

- Bước 2: Bỏ qua các chuỗi la địa chỉ email, địa chỉ

website.

- Bước 3: Loại bỏ các kí tư đặc biệt, các dấu chấm, kí tư

số, ngay tháng…

3.2.3.3. Kĩ thuật sửa lỗi chính ta dạng non-word

Trong luận văn nay tác gia sẽ sử dụng công cụ mã

nguồn mở Aspell để cai đặt chương trình sửa lỗi chính ta đối

với dạng lỗi non-word.

24

Hình 3.25. Sơ đồ khối sửa lỗi chinh ta sử dụng tư điển Aspell

3.2.3.4. Kĩ thuật sửa lỗi chính ta dạng real-word

Dưới đây la mô ta về ki thuật kiểm tra và sửa lỗi chính

ta dùng bigram.

Bang 3.1. Kết qua Bigram tập dư liệu Kích thước tệp

tin trước khi

tách Bigram

Số Bigram

tách được

Kich thước sau khi

tách Bigram

Bigram 66 MB 4.836.571 82 MB

Thuật toán phát hiện và sửa lỗi chính ta văn ban dưa vào

ki thuật N-gram đươc tác gia cai đặt và mô ta như sau:

Hình 3.26. Sơ đồ khối sửa lỗi chinh ta sử dụng Bigram

25

3.3. Bai toán đánh chỉ mục và tìm kiếm

3.3.1. Phát biểu bai toán

Hình 3.15 mô ta các bước để lập chỉ mục tài liệu.

Hình 3.27. Mô ta quá trình lập chỉ mục tài liệu

3.3.2. Lập chỉ mục và tìm kiếm băng Elasticsearch

Hình 3.28. Kiểm tra khởi đông Elasticsearch

Hình 3.29. Danh sách các chỉ mục hiện co. Tên chỉ mục la

lectures, số tai liệu docs.count hiện tại co giá trị băng 0 (do

chưa tạo tai liệu cho chỉ mục nay).

Hình 3.30. Tạo type va document cho chỉ mục.

Hình 3.31. Tạo type va document băng lệnh POST. Id của

document đươc Elasticsearch gán tư đông.

26

Hình 3.32. Cập nhật lại document cho chỉ mục với id đa tồn

tại.

Hoặc co thể sử dụng lệnh UPDATE trưc tiếp đươc mô

ta trong hình 3.21.

Hình 3.33. Thưc hiện cập nhật lại document băng câu lệnh

UPDATE

Hình 3.34. Tìm kiếm document trên chỉ mục

27

CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM, ĐÁNH GIÁ

VÀ KẾT LUẬN

4.1. Công cụ, môi trường thưc nghiệm

Để phục vụ cho quá trình thưc nghiệm, tác gia sử dụng

cấu hình phân cưng va các công cụ phân mềm thể hiện trong

hai bang 4.1 va bang 4.2 như sau:

Bang 4.1. Thông số phân cưng STT Thanh phân Thông số kĩ thuật

1 CPU Intel ® Pentium ® Dual core T3200

2.00GHz

2 RAM DDR II - 3GB

3 Hệ điều hanh Ubuntu 14.04 LTS

4 Bô nhớ ngoai 150 GB

Bang 4.2. Danh sách công cụ phân mềm STT Tên công cụ Chưc năng Nguôn tai

1 Sublime Text 3 Trình soạn thao va bẫy

lỗi chương trình.

https://www.subli

metext.com

2 PHP 5.0 Ngôn ngư lập trình

dung thưc nghiệm.

http://php.net/dow

nloads.php

3 FFMpeg Công cụ xử ly video. https://ffmpeg.org

/download.html

4 Imagemagick

Công cụ chuyển đôi anh

mau thanh anh đa cấp

xám.

http://www.image

magick.org/script/

binary-

releases.php

5 Tesseract -OCR Công cụ nhận dạng ki

tư quang hoc.

https://github.com

/tesseract-ocr

6 Aspell Công cụ kiểm tra lỗi

chinh ta. http://aspell.net/

7 Pspell

Thư viện lập trình sửa

lỗi chinh ta trên nguôn

ngư PHP.

http://php.net/man

ual/en/intro.pspell

.php

8 Vietnamese

Dictionary

Tư điển tư vưng của

Tiếng Việt.

https://github.com

/1ec5/hunspell-

vi/tree/master/dict

ionaries

9 Teleport Pro

Công cụ hỗ trơ tai dư

liệu trên mạng.

http://www.tenma

x.com/teleport/pro

/download.htm

10 Elasticsearch

Công cụ hỗ trơ đánh chỉ

mục va tìm kiếm tai

liệu.

https://www.elasti

c.co/

https://www.sublimetext.com/

https://www.sublimetext.com/

http://php.net/downloads.php

http://php.net/downloads.php

https://ffmpeg.org/download.html

https://ffmpeg.org/download.html

http://www.imagemagick.org/script/binary-releases.php




https://github.com/tesseract-ocr

https://github.com/tesseract-ocr

http://aspell.net/

http://php.net/manual/en/intro.pspell.php



https://github.com/1ec5/hunspell-vi/tree/master/dictionaries




http://www.tenmax.com/teleport/pro/download.htm



https://www.elastic.co/

https://www.elastic.co/

28

4.2. Kết qua thưc nghiệm, đánh giá

Bang 4.3. Kết qua thưc hiện trich xuất khung hình tư video

STT Định

dạng

Kích thước

(MB)

Thời gian

(phút:giây)

Số khung

hình thu

được

Kích

thước

(MB)

1 mp4 23,8 6:22 382 404,6

2 mp4 48,1 6:38 398 450,7

3 mp4 32,1 3:07 187 174,8

4 mp4 137,6 28:27 1707 1740,8

5 mp4 19,6 2:35 155 139,4

Bang 4.4. Kết qua thưc hiện Tesseract-OCR đối với tập khung

hình thu đươc

STT Số lượng Kich thước tập

kết qua (KB)

Độ chính

xác (%)

Độ hôi

tưởng

(%)

Độ F1

(%)

1 382 136,3 71,2 81,8 76,13

2 398 100,5 71,1 82,0 76,16

3 187 33,7 76,4 67,0 71,39

4 1707 529,1 66,4 76,2 70,96

5 155 45,0 77,5 66,3 71,46

Trung bình 72,52 74,66 73,22

Bang 4.5. Kết qua thưc hiện NDD với ki thuật Shingling

STT Tập

đâu

vào

Số văn

ban đại

diện thu

được

Số slide

thưc tế

Số văn

ban đại

diện

đúng

Độ

chính

xác

(%)

Độ hôi

tưởng

(%)

Độ F1

(%)

1 382 14 22 12 85,7 54,5 66,63

2 398 24 25 22 91,6 88,0 89,76

3 187 42 35 34 80,1 97,1 87,78

4 1707 14 18 13 92,8 72,2 81,21

5 155 21 24 18 85,7 75,0 79,99

Trung bình 87,18 77,36 81,07

29

Bang 4.6. Kết qua quá trình phát hiện lỗi chinh ta dung Aspell

kết hơp Bi-gram

STT Tập đâu

vào

(số từ)

Tông số

lỗi thưc

tế

Số lỗi

phát

hiện

được

Số lỗi

phát hiện

đúng

Độ

chính

xác

(%)

Độ hôi

tưởng

(%)

Độ F1

(%)

1 946 77 71 66 92,9 85,7 89,15

2 1365 121 112 96 85,7 79,3 82,38

3 2482 43 33 18 54,54 41,8 47,33

4 786 96 91 85 93,4 88,54 90,91

5 1520 31 26 22 84,6 70,9 77,15

Trung bình 82,23 73,25 77,38

Bang 4.7. Kết qua quá trình sửa lỗi chinh ta

STT Số lỗi

phát hiện

Số lỗi

sữa

Số lỗi sửa

đúng

Độ chính

xác

(%)

Độ hôi

tưởng

(%)

Độ F1

(%)

1 71 69 49 71,0 69,0 69,99

2 112 102 62 65,8 55,4 57,97

3 33 16 9 56,3 27,3 36,77

4 91 84 43 51,2 50,5 49,17

5 26 28 18 64,3 69,2 66,66

Trung bình 60,72 53,64 56,11

Như đa trình bay ở mục 3.4 về kho khăn khi sửa lỗi

chinh ta Tiếng Việt. Vì vậy trong luận văn nay, tác gia đa cố

gắng để nhăm cai thiện chất lương của quá trình sửa lỗi. Đô

chinh xác trung bình xấp xỉ khoang 60,72%.

4.3. Kết luận

4.3.1. Kết qua đạt được

Trong luận văn nay, tác gia hướng tới mục đich la tìm

hiểu và nghiên cưu phương pháp để xây dưng môt hệ thống tra

cưu video dưa trên nôi dung. Video tác gia quan tâm la các

video bai giang dạng silde. Nôi dung của truy vấn sẽ la các tư

hoặc các cụm tư co liên quan đến nôi dung văn ban bên trong

các video bai giang.

30

Qua bốn chương, luận văn đa trình bay về các khái niệm

liên quan đến công cụ tìm kiếm. Các phương pháp tiếp cận, ki

thuật áp dụng để giai quyết các bai toán về xây dưng công cụ

tìm kiếm video. Ưng dụng các phương pháp, ki thuật để thưc

nghiệm xây dưng môt hệ thống tìm kiếm video bai giang dưa

trên nôi dung.

Các đong gop chinh của luận văn:

- Hệ thống lại kiến thưc, khái niệm liên quan va kiến

truc của công cụ tìm kiếm.

- Trình bày mô hình các bai toán cân xử ly trong quá

trình xây dưng công cụ tìm kiếm video.

- Phân tich các phương pháp tiếp cận để giai quyết các

bai toán va lưa chon ki thuật để thưc nghiệm.

- Xây dưng thử nghiệm ưng dụng tìm kiếm video bai

giang dạng slide dưa trên nôi dung.

4.3.2. Định hướng phát triển

Với nhưng kết qua đạt đươc trong luận văn nay, tác gia

hy vong trong tương lai sẽ:

- Thử nghiệm với dư liệu đa dạng hơn va lớn hơn. Thu

thập va xử ly đươc với nhiều định dạng video.

- Nghiên cưu các phương pháp, ki thuật để nâng cao

chất lương chương trình sửa lỗi chinh ta Tiếng Việt.

- Cai tiến va nghiên cưu để nâng cao chất lương, giam

thời gian xử ly video đâu vao.

31

TÀI LIỆU THAM KHẢO

1. Andrei Z. Broder. (2000), “Identifying and Filtering Near-

Duplicate Documents”, 11th Annual Symposium on

Combinatorial Pattern Matching ,Springer-Verlag London,

pp.1-10.

2. Bassma S. Alsulami. (2012), “Near Duplicate Document

Detection Survey”, International Journal of Computer Science

& Communication Networks, pp. 147-151.

3. Chirag Patel, Atul Patel, Dharmendra Patel. (2012),

“Optical Character Recognition by Open Source OCR Tool

Tesseract: A Case Study”, International Journal of Computer

Applications, Volume 55 –No.10, pp. 50-56.

4. Christopher D. Manning, Prabhakar Raghavan, Hinrich

Schütze. (2009), Introduction to Information Retrieval,

Cambridge University Press, Cambridge University.

5. David C. Gibbon. (2012), Introduction to Video Search

Engines, Springer Verlag Berlin Heidelberg, Spinger.

6. Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma.

(2007), “Detecting Near Duplicates for Web Crawling”, 16th

International Conference on World Wide Web, pp. 141-150.

7. Haojin Yang, Maria Siebert, Patrick Lühne, Harald Sack,

Christoph Meinel. (2011), “Automatic Lecture Video Indexing

Using Video OCR Technology”, 2011 IEEE International

Symposium on, pp. 111 – 116.

8. Haojin Yang. (2011), “Lecture Video Indexing and Analysis

Using Video OCR Technology”, 7th International Conference

IEEE Dijon France, pp. 54-61.

9. Hannaneh Hajishirzi, Wen-tau Yih, Aleksander Kolcz.

(2010), “Adaptive Near-Duplicate Detection via Similarity

Learning”, ACM SIGIR conference on Research and

development in information retrieval, pp. 419-426.

10. Nguyen Thi Xuan Huong, Tran-Thai Dang, The-Tung

Nguyen, Anh-Cuong Le. (2015), “Using Large N-gram for

Vietnamese Spell Checking”, Advances in Intelligent Systems

and Computing, pp. 617-627.

32

11. Kukich, Karen. (1992), “Techniques for Automatically

Correcting Words in Text”, 24th ACM Computing Surveys, pp.

377–439.

12. Kurt Hornik, Duncan Murdoch. (2011), “Watch Your

Spelling”, The R Journal Vol. 3, pp. 22-28.

13. Kyle Williams, C. Lee Giles. (2013), “Near Duplicate

Detection in an Academic Digital Library” , 2013 ACM

Symposium on Document Engineering, pp. 91-94.

14. Martin Røst Halvorsen. (2007), Content-based lecture

video indexing, Master’s Thesis, Department of Computer

Science and Media Technology Gjøvik University College.

15. Martin Potthast, Benno Stein. (2008), “New Issues in

Near-duplicate Detection”, 31th Conf. of the German

Classification Society, pp. 601-609.

16. Pratip Samanta, Bidyut B. Chaudhuri. (2013), “A simple

real-word error detection and correction using local word

bigram and trigram”, Association for Computational

Linguistics and Chinese Language Processing, pp. 211-220.

17. Ritika Mishra, Navjot Kaur. (2013), “A Survey of Spelling

Error Detection and Correction Techniques”, International

Journal of Computer Trends and Technology, pp. 372-374.

18. Radu Gheorghe, Matthew Lee Hinman, Roy Russo.

(2016), Elasticsearch in Action, Manning Publications Co,

Shelter Island.

19. Smith, R. (2007), An Overview of the Tesseract OCR

Engine, In proceedings of Document analysis and

Recognition. IEEE Ninth International Conference.

20. Suzan Verberne. (2002), Context-sensitive spellchecking

based on word trigram probabilities, Master thesis Taal,

Spraak & Informatica University of Nijmegen.

21. Youssef Bassil, Mohammad Alwani. (2012), “Context-

sensitive Spelling Correction Using Google Web 1T 5-Gram

Information”, Computer and Information Science, Vol. 5, No.

3, May 2012, pp. 37-48.

NGHIÊN C ì U XÂY DỰNG HỆ THỐNG TÌM KIẾM VIDEO DỰA …

Documents

Transcript of NGHIÊN C ì U XÂY DỰNG HỆ THỐNG TÌM KIẾM VIDEO DỰA …