NGHIÊN C ì U XÂY DỰNG HỆ THỐNG TÌM KIẾM VIDEO DỰA …
Transcript of NGHIÊN C ì U XÂY DỰNG HỆ THỐNG TÌM KIẾM VIDEO DỰA …
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LÊ VĂN HÀO
NGHIÊN CỨU XÂY DỰNG HỆ THỐNG
TÌM KIẾM VIDEO DỰA TRÊN NỘI DUNG
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04
TÓM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2016
1
MỤC LỤC
MỤC LỤC ................................................................................1 BẢNG CHỮ CÁI VIẾT TẮT ..................................................3 DANH MỤC CÁC BẢNG BIỂU ............................................4 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ..................................5 MỞ ĐẦU ..................................................................................7 CHƯƠNG 1: GIƠI THIÊU ......................................................9
1.1. Giới thiệu về công cụ tìm kiếm .................................... 9 1.2. Lịch sử phát triển của công cụ tìm kiếm ....................... 9 1.3. Kiến trúc của công cụ tìm kiếm .................................. 10
1.3.1. Quá trình đánh chỉ mục ....................................... 10 1.3.2. Quá trình truy vấn ............................................... 10
1.4. Công cụ tìm kiếm video trên mạng internet ............... 10 1.5. Tông quan của đề tai va các vấn đề cân giai quyết ..... 10
1.5.1. Tông quan đề tai ................................................. 10 1.5.2. Các vấn đề cân giai quyết ................................... 11
1.6. Y nghia khoa hoc va thưc tiên của đề tai nghiên cưu . 11 1.6.1. Y nghia khoa hoc ................................................ 11 1.6.2. Y nghia thưc tiên ................................................. 11
1.7. Kết luận ...................................................................... 11 CHƯƠNG 2: BÀI TOÁN TÌM KIẾM ...................................12 VIDEO BÀI GIẢNG DƯA TRÊN NỘI DUNG ....................12
2.1. Phát biểu bài toán ....................................................... 12 2.2. Các nghiên cưu về tìm kiếm video dưa trên nôi dung 13 2.3. Hướng nghiên cưu của tác gia .................................... 13 2.4. Bai toán phân đoạn video thanh anh ........................... 13
2.4.1. Khái niệm ............................................................ 13 2.4.2. Phương pháp tiếp cận .......................................... 14
2.5. Bai toán trich xuất văn ban ......................................... 15 2.5.1. Bai toán nhận dạng ki tư quang hoc .................... 15 2.5.2. Bài toán xử lý trùng lặp văn ban ......................... 15 2.5.3. Bài toán sửa lỗi chính ta văn ban ........................ 17
2.6. Bai toán đánh chỉ mục và tìm kiếm ............................ 18 2.6.1. Khái niệm ............................................................ 18 2.6.2. Phương pháp tiếp cận .......................................... 19 2.6.3. Kiến trúc của Elasticsearch ................................. 19
2.7. Kết luận ...................................................................... 19
2
3.1. Bai toán phân đoạn video thanh định dạnh anh .......... 20 3.1.1. Phát biểu bai toán ................................................ 20 3.1.2. Giai pháp thưc hiện ............................................. 20
3.2. Bai toán trich xuất văn ban ......................................... 20 3.2.1. Bài toán nhận dạng kí tư quang hoc băng công cụ
Tesseract-OCR .............................................................. 20 3.2.2. Bài toán xử lý trùng lặp văn ban băng ki thuật
Shingling ....................................................................... 21 3.2.3. Bài toán sửa lỗi chính ta văn ban tiếng Việt ....... 23
3.3. Bai toán đánh chỉ mục và tìm kiếm ............................ 25 3.3.1. Phát biểu bai toán ................................................ 25 3.3.2. Lập chỉ mục và tìm kiếm băng Elasticsearch ...... 25
CHƯƠNG 4: KẾT QUẢ THƯC NGHIÊM, ĐÁNH GIÁ VÀ
KẾT LUẬN ............................................................................27 4.1. Công cụ, môi trường thưc nghiệm .............................. 27 4.2. Kết qua thưc nghiệm, đánh giá ................................... 28 4.3. Kết luận ...................................................................... 29
4.3.1. Kết qua đạt đươc ................................................. 29 4.3.2. Định hướng phát triển ......................................... 30
TÀI LIÊU THAM KHẢO ......................................................31
3
BẢNG CHỮ CÁI VIẾT TẮT
STT Từ
viết
tắt
Ý nghĩa
1 ASR Automatic Speech Recognition – Nhận dạng tiếng noi
tư đông
2 FPS Frame Per Second – Số khung hình trên môt giây
3 FTP File Transfer Protocol – Giao thưc truyền tệp tin
4 GNU General Public License – Giấy phép công công
5 OCR Optical Character Recognition – Nhận dạng kí tư quang
hoc
6 PDF Portable Document Format – Định dạng tai liệu di
đông.
7 NDD Near Duplicate Detection – Phát hiện gân trùng lặp
8 TIFF Tagged Image File Format – Định dạng tệp tin trên
máy tinh để lưu trư các hình anh.
9 UTF-8 Unicode Transformation Format - Định dạng chuyển
đôi Unicode.
4
DANH MỤC CÁC BẢNG BIỂU
Bang 3.1. Kết qua Bigram tập dư liệu ......................................... 24 Bang 4.1. Thông số phân cưng ................................................... 27 Bang 4.2. Danh sách công cụ phân mềm .................................... 27 Bang 4.3. Kết qua thưc hiện trich xuất khung hình tư video ...... 28 Bang 4.4. Kết qua thưc hiện Tesseract-OCR đối với tập khung
hình thu đươc .............................................................................. 28 Bang 4.5. Kết qua thưc hiện NDD với ki thuật Shingling .......... 28 Bang 4.6. Kết qua quá trình phát hiện lỗi chinh ta dung Aspell kết
hơp Bi-gram ................................................................................ 29 Bang 4.7. Kết qua quá trình sửa lỗi chinh ta ............................... 29
5
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1. Quá trình đánh chỉ mục ............................................... 10 Hình 2.1. Kiến truc tông quan hệ thống tìm kiếm video dưa trên
nôi dung ...................................................................................... 12 Hình 2.2. Kiến truc hệ thống tìm kiếm video tác gia đề xuất...... 13 Hình 2.3. Sử dụng FFMpeg để chuyển đôi video thành anh ....... 14 Hình 2.4. Kiến trúc của Tesseract – OCR ................................... 15 Hình 2.5. Văn ban gốc ................................................................ 16 Hình 2.6. Văn ban trùng lặp của văn ban trong hình 2.5 ............ 16 Hình 2.7. Văn ban gân trùng lặp của văn ban trong hình 2.5. ..... 16 Hình 2.8 [15]. Đô chinh xác va đô hồi tưởng của đô đo tương tư
cho phương pháp fuzzy-fingerprinting (FF), localitysensitive
hashing (LSH), supershingling (SSh), shingling (Sh), and hashed
breakpoint chunking (HBC). ....................................................... 17 Hình 2.9. Ki thuật phát hiện lỗi chính ta dưa vào tra cưu tư điển18 Hình 2.10. Ki thuật phát hiện lỗi chính ta dưa vào phân tích N-
gram ............................................................................................ 18 Hình 2.11. Thư hạng của 17 công cụ tìm kiếm. Nguồn http://db-
engines.com ................................................................................ 19 Hình 2.12. Kiến trúc cluster-node-shard của Elasticsearch ........ 19 Hình 3.1. Mô ta quá trình biến đôi video nguồn thành dạng anh 20 Hình 3.2. Chuyển đôi anh màu thành anh đa cấp xám ................ 20 Hình 3.3. Ảnh màu ...................................................................... 20 Hình 3.4. Ảnh đa cấp xám .......................................................... 21 Hình 3.5. Quá trình OCR anh trong hình 3.4 băng Tesseract-OCR
.................................................................................................... 21 Hình 3.6. Kết qua sau khi hoàn thành OCR băng Tesseract-OCR
.................................................................................................... 21 Hình 3.7. Thưc hiện OCR tất ca anh trong thư mục băng
Tesseract-OCR ............................................................................ 21 Hình 3.8. Quá trình xử lý trùng lặp văn ban ............................... 22 Hình 3.9. Hệ số Jaccard của tài liệu d1 và d2 .............................. 22 Hình 3.10[4]. Bốn quá trình tính toán shingle của hai tài liệu. ..... 22 Hình 3.11. Sơ đồ khối quá trình trich xuất tập văn ban đại diện . 23 Hình 3.12. Quá trình phát hiện và sửa lỗi chính ta văn ban ........ 23 Hình 3.13. Sơ đồ khối sửa lỗi chinh ta sử dụng tư điển Aspell ... 24 Hình 3.14. Sơ đồ khối sửa lỗi chinh ta sử dụng Bigram ............. 24 Hình 3.15. Mô ta quá trình lập chỉ mục tài liệu .......................... 25
6
Hình 3.16. Kiểm tra khởi đông Elasticsearch ............................. 25 Hình 3.17. Danh sách các chỉ mục hiện co. Tên chỉ mục la
lectures, số tai liệu docs.count hiện tại co giá trị băng 0 (do chưa
tạo tai liệu cho chỉ mục nay). ...................................................... 25 Hình 3.18. Tạo type va document cho chỉ mục........................... 25 Hình 3.19. Tạo type va document băng lệnh POST. Id của
document đươc Elasticsearch gán tư đông. ................................. 25 Hình 3.20. Cập nhật lại document cho chỉ mục với id đa tồn tại.
.................................................................................................... 26 Hình 3.21. Thưc hiện cập nhật lại document băng câu lệnh
UPDATE ..................................................................................... 26 Hình 3.22. Tìm kiếm document trên chỉ mục ............................. 26
7
MỞ ĐẦU Cùng với sư phát triển của công nghệ thông tin, tốc đô
internet đang cai thiện đáng kể. Số lương video bài giang, diên
thuyết… phục vụ hoc tập cho moi lưa tuôi đang đươc tai lên
và chia sẻ trên internet nhanh chóng. Mỗi ngày, hàng triệu
video như vậy trên thế giới đươc đăng tai lên các ưng dụng
internet như Youtube, Facebook, Yahoo. Đối với lương video
đang tăng trưởng tưng ngay nay, cơ chế tô chưc lưu trư phục
vụ cho việc tra cưu, tìm kiếm là môt thách thưc.
Giáo dục trưc tuyến hay E-Learning không còn là khái
niệm mới lạ va đang phát triển mạnh mẽ. Số lương video bài
giang, diên thuyết cũng vì thế ngay cang đươc tăng trưởng.
Nhu câu tìm kiếm của người hoc càng yêu câu khắt khe hơn:
ca về đô chính xác và thời gian tìm kiếm. Tuy nhiên, các chưc
năng tìm kiếm bài giang cho của các hệ thống hiện tại thông
thường chỉ cho phép người dùng tìm kiếm với tên bài giang,
tên hoc phân, hoặc tên giang viên... Các chưc năng nay thường
cho kết qua co đô chinh xác không cao, va các kết qua tra về
có nhiều nôi dung không liên quan đến mục đich tìm kiếm
thưc sư của người dùng. Do đo, cân có môt hệ thống mà có thể
“hiểu” đươc nôi dung của tưng video bài giang để phục vụ cho
việc tìm kiếm của người dùng.
Nhưng công cụ tìm kiếm phô biến hiện nay - như
Google, Yahoo, Bing…, la nhưng hệ thống tìm kiếm dưa trên
“tư khoa”, va tìm kiếm trên dư liệu văn ban (text). Chính vì
thế, nếu video không có bất kỳ siêu dư liệu (metadata) ví dụ
như ngay, tác gia, tư khóa, hoặc mô ta thì không thể tìm kiếm
đươc băng cách sử dụng các công cụ nêu trên. Siêu dư liệu
thường đươc thêm băng tay, quá trình này sẽ rất tốn thời gian.
Hơn nưa, ngay ca khi môt đoạn video có thể đươc tìm thấy
băng siêu dư liệu của nó, công cụ tìm kiếm thông thường
không có kha năng tìm kiếm môt đoạn bài giang, slide cụ thể
trong video ma người dùng quan tâm.
Mục tiêu chính của của Luận văn la tập trung nghiên
cứu xây dựng một hệ thống tìm kiếm các bài giảng, thuyết
trình, trình diễn bằng slide dưới dạng video. Hệ thống sẽ cho
phép người dùng chỉ cân nhập vào môt phân nôi dung của bài
8
giang, kết qua tra về sẽ là nhưng video bài giang có liên quan
đến chuỗi truy vấn. Ngoài ra, với giai pháp nay cũng cho phép
các hệ thống tìm kiếm có thể truy vấn dư liệu video mà không
cân có siêu dư liệu. Xuất phát tư quan điểm nêu trên, ngoài
phân mở đâu và kết luận, luận văn đươc chia lam 4 chương
đươc tóm tắt như sau:
- Chương 1: Giới thiệu về công cụ tìm kiếm trên mạng
internet, các khái niệm và kiến trúc của công cụ tìm kiếm. Các
vấn đề cân giai quyết trong luận văn va y nghia khoa hoc, thưc
tiên của luận văn.
- Chương 2: Trình bày về các bài toán cân giai quyết
trong khuôn khô tìm kiếm video bài giang dạng slide. Môt số
khái niệm, mô hình các bài toán con cân giai quyết. Các
phương pháp tiếp cận để giai quyết vấn đề.
- Chương 3: La chương quan trong nhất của Luận văn.
Nôi dung chính của chương nay là tập trung trình bày giai
pháp thưc hiện của tác gia, các ki thuật áp dụng để trích xuất
văn ban, xử ly văn ban va đánh chỉ mục tìm kiếm cho video
bài giang.
- Chương 4: Là phân trình bày các kết qua thưc nghiệm
va đánh giá. Ở mỗi bài toán tác gia đều có nhưng thưc nghiệm
để kiểm chưng và đánh giá về đô chính xác.
Tác gia xin bày tỏ lòng biết ơn chân thanh tới PGS.TS.
Nguyên Trí Thành, thây đa luôn ân cân, chỉ bao, đông viên,
giup đỡ tác gia trong suốt quá trình thưc hiện Luận văn. Tác
gia xin chân thành cam ơn gia đình, bạn bè, đồng nghiệp đa
luôn tin tưởng, đông viên va giup đỡ về nhiều mặt trong thời
gian qua. Tác gia xin chân thành cam ơn các thây, cô giáo
trong khoa Công nghệ Thông tin và Truyền thông, trường Đại
hoc Hồng Đưc đa đông viên và tạo điều kiện giup đỡ tác gia
hoàn thành tốt nhất luận văn nay.
9
CHƯƠNG 1: GIƠI THIỆU
1.1. Giới thiệu về công cụ tìm kiếm Nếu bạn đa tưng truy cập địa chỉ www.google.com.vn,
nhập nôi dung cân tra cưu và bấm vao “tìm với google”. Môt
danh sách kết qua liên quan đến nôi dung tìm kiếm đươc liệt
kê trên màn hình cho phép người dung lưa chon các nôi dung
phù hơp với yêu câu. Nhưng công cụ cho phép người dùng tìm
kiếm các thông tin trên mạng như Google, Bing, Yahoo… như
vậy goi là các công cụ tìm kiếm (web search engine).
Thuật ngư “web search engine” đươc định nghia: “Môt
công cụ tìm kiếm là các ưng dụng thưc tế của các ki thuật truy
hồi thông tin trên miền dư liệu văn ban qui mô lớn”[5].
1.2. Lịch sử phát triển của công cụ tìm kiếm Năm 1990, Archie là công cụ tìm kiếm đâu tiên đươc
phát triển bởi Alan Emtage, Bill Heelan and J. Peter Deutsch,
hai sinh viên chuyên ngành khoa hoc máy tính của trường
McGill University tại Montreal (Canada).
Năm 1991, môt công cụ tương tư Archie là Gopher của
tác gia Mark McCahill tại University of Minnesota, có chưc
năng tìm kiếm theo tên tệp tin va tiêu đề đươc lưu trư trong hệ
thống Gopher đa lập chỉ mục.
Năm 1993, đánh dấu nhưng bước tiến mới về công cụ
tìm kiếm như World Wide Web Wanderer bởi Matthew Gray,
đây đươc xem là môt web robot đâu tiên đo lường đươc dung
lương của trang web.
Năm 1994, với sư ra đời của WebCrawler công cụ tìm
kiếm đâu tiên chỉ mục toan trang web va cho phép người dùng
tìm kiếm va thu thập với bất kỳ tư nao môt cách tư đông.
Năm 1995, công cụ tìm kiếm yahoo đươc tạo bởi David
Filo và Jerry Yang. Sử dụng danh bạ web thay vì đánh chỉ
mục toan văn ban.
Năm 1996-nay, với sư phát triển mạnh mẽ của internet
các công cụ tìm kiếm phát triển mạnh mẽ hơn, tối ưu hơn
nhiều so với các công cụ trước đây. Năm 1998, Google đươc
phát triển bởi Larry và Sergey đưa ra khái niệm về PageRank
đánh dấu sư phát triển vươt bậc và hiện đang la công cụ tìm
kiếm có thị phân lớn nhất hiện nay.
10
1.3. Kiến trúc của công cụ tìm kiếm
1.3.1. Quá trình đánh chỉ mục
Hình 1.1. Quá trình đánh chỉ mục
Các thành phân chính bao gồm việc thu thập văn ban,
chuyển đôi văn ban và tạo chỉ mục.
1.3.2. Quá trình truy vấn Phân còn lại của công cụ tìm kiếm là quá trình truy vấn.
Quá trình truy vấn thông thường bao gồm ba thành phân chính
la tương tác người dùng, xếp hạng va đánh giá.
1.4. Công cụ tìm kiếm video trên mạng internet Công cụ tìm kiếm video cho phép người dùng thuận tiện
trong quá trình tìm kiếm phục vụ nhiều mục đich khác nhau
như giai trí, giáo trục và truyền thông. Nếu chia theo linh vưc
thì video cũng rất đa dạng như video truyền hình, video quang
cáo, video bài giang, hoc thuyết… Trong nôi dung của luận
văn nay tác gia chỉ đề cập đến thể loại video bài giang dạng
slide, cách tiếp cận va hướng giai quyết để xây dưng môt công
cụ tìm kiếm video bài giang dạng slide. Việc tìm kiếm yêu câu
băng cách duyệt qua tập các video kết qua.
1.5. Tông quan của đề tai va các vấn đề cân giai quyết
1.5.1. Tông quan đề tai Trong đề tai nay, tác gia hướng tới xây dưng môt hệ
thống tìm kiếm các video bài giang, thuyết trình, trình diên
băng silde dưới dạng video… Cho phép tìm thấy nhưng video
băng văn ban xuất hiện trong đo. Với giai pháp nay, đơn gian
băng cách nhập tư khóa tìm kiếm, người dùng có thể tìm kiếm
các video bài giang và nhưng canh trong đo ma thuật ngư xuất
11
hiện. Giai pháp nay cũng cho phép người dùng tìm kiếm các
video không cân có siêu dư liệu.
1.5.2. Các vấn đề cân giai quyết Vấn đề cân giai quyết ở trong đề tài này là giai pháp xử
ly video đâu vao. Phân tich va đánh chỉ mục cho video. Đâu
tiên, các đoạn video tinh trong môt thời gian nhất định đươc
xác định là các slide và trích xuất tư video. Tiếp theo, các dư
liệu văn ban chưa trong hình anh của slide đươc trich xuất
băng cách sử dụng ki thuật nhận dạng ki tư quang hoc. Các
văn ban trích xuất sẽ đươc xử ly trung lặp, sửa lỗi chinh ta và
đươc đánh chỉ mục tương ưng với video gốc lưu trư trong cơ
sở dư liệu.
1.6. Ý nghĩa khoa hoc va thưc tiên của đề tai nghiên cưu
1.6.1. Ý nghĩa khoa hoc
- Đề tai đa tông quát đươc các phương pháp khoa hoc để
giai quyết vấn đề lập chỉ mục video bai giang, phục vụ quá
trình truy hồi thông tin.
- Đề tai cung cấp các cơ sở khoa hoc, định hướng cho
các nghiên cưu về xử ly lập chỉ mục cho video bai giang.
- Tư kết qua nghiên cưu của đề tai, gop phân lam cơ sở
thưc tiên va ly luận để phát triển hệ thống tìm kiếm video dưa
trên nôi dung.
1.6.2. Ý nghĩa thưc tiên
- Hướng tiếp cận mới cho các máy tìm kiếm, truy hồi
thông tin video dưa trên nôi dung.
- Gop phân nâng cao chất lương của các máy tìm kiếm.
Kết qua tra về co đô liên quan cao hơn so với phương pháp tìm
kiếm dưa trên tư khoa hiện nay.
1.7. Kết luận Trong chương nay, luận văn đa giới thiệu khái quát môt
số khái niệm, lịch sử và kiến trúc của môt công cụ tìm kiếm
nói chung. Ngoài ra, luận văn cũng giới thiệu tông quan các
vấn đề cân giai quyết của đề tai. Y nghia khoa hoc va y nghia
thưc tiên của đề tai nghiên cưu xây dưng hệ thống tìm kiếm
video dưa trên nôi dung.
12
CHƯƠNG 2: BÀI TOÁN TÌM KIẾM
VIDEO BÀI GIẢNG DỰA TRÊN NỘI DUNG
2.1. Phát biểu bài toán Tác gia sẽ xây dưng công cụ tìm kiếm cho phép nhận
nôi dung truy vấn là chuỗi văn ban và kết qua tra về là các
video bài giang mà nôi dung co liên quan đến chuỗi văn ban
người dùng truy vấn. Bai toán đươc chia thanh hai bai toán
con như sau:
Bai toán 1: Xử ly video đâu vao, trich xuất văn ban tư
video.
Đâu vào:
- Tập videos bai giang dạng slide.
Đâu ra:
- Văn ban trich xuất nôi dung tư video đâu vao.
Bai toán 2: Lập chỉ mục va tìm kiếm video dưa trên nôi
dung bai giang.
Đâu vao:
- Truy vấn tư người dung.
Đâu ra:
- Danh sách kết qua videos co nôi dung liên quan đến
truy vấn.
Kiến truc chung của môt hệ thống tìm kiếm video dưa
vao nôi dung đươc miêu ta trong hình 2.1.
Hình 2.1. Kiến truc tông quan hệ thống tìm kiếm video dưa
trên nôi dung
13
Hình 2.1 cho thấy quá trình lập chỉ mục cho video đươc
trai qua ba bước la phân đoạn video, trich xuất nôi dung tư
video va lập chỉ mục cho video.
2.2. Các nghiên cưu về tìm kiếm video dưa trên nội dung
Liška et al va công sư đa đề xuất môt hệ thống tư đông
cho việc lập chỉ mục video bai giang [8].
Hunter et al đề xuất môt hệ thống lập chỉ mục cho các
bai thuyết trình đa phương tiện[7].
Yang et al sử dụng công cụ nhận dạng giong noi tư
đông ASR để trich xuất nôi dung video thanh văn ban[8].
Lienhart et al đề xuất môt phương pháp phát hiện văn
ban trong video va hình anh[8].
2.3. Hướng nghiên cưu của tác gia
Dưa vao các phương pháp tiếp cận nghiên cưu đa nêu
trong phân 2.2, tác gia lưa chon phương pháp tiếp cận để trich
xuất văn ban tư video băng công nghệ OCR thay vì sử dụng
ASR.
Kiến truc của công cụ tìm kiếm video dưa vao nôi dung
ma tác gia đề xuất đươc mô ta trong hình 2.2.
Hình 2.2. Kiến truc hệ thống tìm kiếm video tác gia đề xuất
2.4. Bai toán phân đoạn video thanh anh
2.4.1. Khái niệm
Về mặt ban chất thì video mà chung ta thấy trên tivi,
máy tinh, điện thoại… đươc cấu thành tư nhưng anh tinh.
Nhưng anh nay sau đo đươc sắp xếp liên tiếp nhau và cùng
trình diên trong môt đơn vị thời gian đủ nhỏ để làm cho mắt
của chúng ta cam nhận răng các đối tương nay đang chuyển
14
đông. Thông thường thì các video đươc quay ở khoang 24-30
hình mỗi giây. Mỗi hình nay đươc goi là môt frame. Số frame
trên môt giây đươc đo băng môt số nguyên đươc kí hiệu FPS.
2.4.2. Phương pháp tiếp cận
FFMpeg là môt thư viện có rất nhiều tiện ích cho việc
xử lý video. Tinh năng nôi bật nhất có lẽ là kha năng
encode/decode nhiều video định dạng khác nhau, giup chuyển
đôi qua lại nhiều định dạng video. Ngoai ra, chung ta cũng co
thể dung FFMpeg để chia cắt môt đoạn video, chụp lại các
frame và xuất ra dạng hình anh.
Công cụ mã nguồn mở Ffmpeg đươc tác gia quan tâm bởi ba
lý do chính:
- Hỗ trơ nhiều định dạng video khác nhau, ví dụ .mp4, avi,
flv…
- Điều chỉnh đươc FPS.
- Mã nguồn mở.
Hình 2.3. Sử dụng FFMpeg để chuyển đôi video thành anh
15
2.5. Bai toán trich xuất văn ban
2.5.1. Bai toán nhận dạng ki tư quang hoc
2.5.1.1. Khái niệm OCR
OCR là công nghệ cho phép chuyển đôi các loại tài liệu
khác nhau, vi dụ như các tai liệu giấy, anh chụp hoặc các tập
tin PDF băng môt máy anh kỹ thuật số thành dư liệu văn ban
có thể chỉnh sửa và tìm kiếm. Nhưng hình anh này có thể là
các chư viết tay hoặc đánh máy. Đây la môt kỹ thuật phô biến
của việc số hoa các văn ban in để có thể tìm kiếm băng điện
tử, lưu trư gon gàng, hiển thị trên mạng.
2.5.1.2. Phương pháp tiếp cận
Tác gia sử dụng Tesseract- OCR để thưc hiện trích xuất
nôi dung văn ban tư anh. Tesseract là môt công cụ nhận diện
kí tư quang hoc mã nguồn mở và hiện nay đươc phát triển bởi
Google[8]. Hình 2.4 mô ta các bước mà công cụ Tesseract-
OCR thưc hiện.
Hình 2.4. Kiến trúc của Tesseract – OCR
2.5.2. Bài toán xử lý trùng lặp văn ban
2.5.2.1. Khái niệm
Khi hai văn ban mà nôi dung đều giống hệt nhau thì
chung đươc coi là các văn ban trùng lặp hay goi là ban sao của
nhau. Trong nhiều trường hơp, hai tài liệu mà không phai
giống nhau hoàn toàn vẫn có thể chưa cùng môt nôi dung thì
đươc goi la các văn ban gân trùng lặp.
Với đặc thu la các văn ban đươc trích xuất tư các khung
hình video bài giang liên tiếp theo nhau thời gian. Chinh vì thế
tập hơp văn ban thu đươc tồn tại ca hai loại đo la trung lặp và
16
gân trùng lặp văn ban. Hình 2.6 la vi dụ về nôi dung văn ban
trùng lặp với hình 2.5, hình 2.7 là gân trùng lặp của hình 2.5.
Hình 2.5. Văn ban gốc
Hình 2.6. Văn ban trùng lặp của văn ban trong hình 2.5
Hình 2.7. Văn ban gân trùng lặp của văn ban trong hình 2.5.
2.5.2.2. Phương pháp tiếp cận
Dưa trên các kết qua nghiên cưu [2], [6], [9], [13],[15]
thì phương pháp shingling cho kết qua đô chính xác cao và
phù hơp với kiểu dư liệu đâu vao như tập dư liệu của tác gia.
Chính vì thế, trong luận văn nay, tác gia lưa chon va cai đặt
17
thuật toán phát hiện trùng lặp văn ban dưa vao ki thuật
Shingling của Broder và công sư. Hình 3.12 bang kết qua đô
chinh xác va đô hồi tưởng của các ki thuật tìm trùng lặp văn
ban theo nghiên cưu [15].
Hình 2.8 [15]. Đô chính xác va đô hồi tưởng của đô đo tương tư
cho phương pháp fuzzy-fingerprinting (FF), localitysensitive
hashing (LSH), supershingling (SSh), shingling (Sh), and
hashed breakpoint chunking (HBC).
2.5.3. Bài toán sửa lỗi chính ta văn ban
2.5.3.1. Khái niệm
Nhưng lỗi chinh ta phát sinh la do quá trình nhận dạng
OCR phát sinh các lỗi chính ta cho tư nhận diện đươc. Bài
toán này gồm ba bước chính là tiền xử lý tập văn ban đâu vào,
phát hiện lỗi chính ta và sửa lỗi chính ta.
Lỗi chinh ta đươc chia làm hai loại là non-word và real-
word.
Lỗi non-word đươc hiểu là nhưng tư lỗi không tìm thấy
trong tư điển.
Lỗi real-word là nhưng tư lỗi có trong tư điển nhưng
không đung trong ngư canh của câu.
2.5.3.2. Phương pháp tiếp cận
Đối với vấn đề phát hiện lỗi chính ta thì thường có hai
phương pháp tiếp cận chính [17].
Ki thuật tra cưu dùng tư điển: Ki thuật đơn gian là kiểm
tra sư hiện diện tưng tư của văn ban đâu vào. Nếu tư đo co
trong tư điển thì tư đo đươc coi là tư đung chinh ta, ngươc lại
thì tư đo đươc coi là lỗi chính ta. Ki thuật phô biến nhất và
nhanh chong để phát hiện tư bị lỗi chính ta. Tư điển đươc xây
dưng băng cách sử dụng bang băm để cai thiện tốc đô tra cưu.
18
Hình 2.9 mô ta quá trình kiểm tra lỗi chính ta băng ki thuật
dùng tư điển.
Hình 2.9. Ki thuật phát hiện lỗi chính ta dưa vào tra cưu tư
điển
Ki thuật phân tích N-gram: N-gram là môt chuỗi con
gồm n tư, thường thì là hai, ba hoặc năm tư. Ki thuật này thưc
hiện băng cách chia văn ban đâu vào thành n-gram tương ưng,
đối với mỗi n-gram đâu vào, tìm kiếm trong bang thống kê n-
gram tinh trước. Kết hơp thêm tân suất xuất hiện của n-gram
trong bang thống kê để kiểm tra sư tồn tại hoặc mưc đô phô
biến của n-gram đâu vào nhăm xác định lỗi chính ta. Hình
2.10 mô ta quá trình kiểm tra lỗi chính ta băng ki thuật sử
dụng N-gram.
Hình 2.10. Ki thuật phát hiện lỗi chính ta dưa vào phân tích
N-gram
2.6. Bai toán đánh chỉ mục và tìm kiếm
2.6.1. Khái niệm
Lập chỉ mục tài liệu là công việc sắp xếp tài liệu nhăm
đáp ưng nhanh chóng yêu câu tìm kiếm thông tin của người sử
19
dụng. Quá trình lập chỉ mục đươc hiểu la giai đoạn phân tích
tập văn ban đa xử ly va thu đươc để xác định các chỉ mục biểu
diên nôi dung của tệp văn ban này.
2.6.2. Phương pháp tiếp cận
Có nhiều công cụ để thưc hiện lập chỉ mục cho tài liệu
như Apache Sorl, Lucence, Sphinx. Nhưng đối với bài toán
đánh chỉ mục tài liệu tác gia sử dụng công cụ Elasticsearch.
Hình 2.11. Thư hạng của 17 công cụ tìm kiếm. Nguồn
http://db-engines.com
2.6.3. Kiến trúc của Elasticsearch
- Cluster - Node
- Index - Type
- Document - Shard & Replicas
Hình 2.12. Kiến trúc cluster-node-shard của Elasticsearch
2.7. Kết luận Kết thuc chương nay, tác gia đa trình bay khái quát các
bài toán cân giai quyết trong nôi dung luận văn nay. Các
phương pháp tiếp cận để giai quyết vấn đề. Tiếp theo, chương
ba tác gia xin trình bày chi tiết về các giai pháp ki thuật tiến
hành của tác gia để thưc hiện các bai toán đa nêu trong chương
hai.
20
CHƯƠNG 3: KĨ THUẬT ĐỂ GIẢI QUYẾT CÁC BÀI
TOÁN TRONG KHUÔN KHỔ LUẬN VĂN
3.1. Bài toán phân đoạn video thanh định dạnh anh
3.1.1. Phát biểu bai toán
Hình 3.1 mô ta quá trình biến đôi video bài giang thành
tập anh.
Hình 3.13. Mô ta quá trình biến đôi video nguồn thành dạng
anh
3.1.2. Giai pháp thưc hiện
Sau khi cai đặt phân mềm Ffmpeg, sử dụng dòng lệnh
“ffmpeg -i lecture001.mp4 -r 1 %d.tif” trong đo:
- i la video đâu vào với đường dẫn của tệp tin video.
Trong ví dụ nay video đươc định dạng là .mp4 với tên tệp tin
là lecture001.
- r là số khung hình trên giây.
- %d.tif la định dạng tên tệp tin hình anh để lưu với tên
là số nguyên va định dạng là .tif. Ví dụ 1.tif, 2.tif, 3.tif…
- Sử dụng số FPS la 1 (môt khung hình môt giây).
3.2. Bai toán trich xuất văn ban
3.2.1. Bài toán nhận dạng kí tư quang hoc băng công cụ
Tesseract-OCR
Hình 3.14. Chuyển đôi anh màu thành anh đa cấp xám
Hình 3.15. Ảnh màu
21
Hình 3.16. Ảnh đa cấp xám
Hình 3.17. Quá trình OCR anh trong hình 3.4 băng Tesseract-
OCR
Hình 3.18. Kết qua sau khi hoàn thành OCR băng Tesseract-
OCR
Hình 3.19. Thưc hiện OCR tất ca anh trong thư mục băng
Tesseract-OCR
3.2.2. Bài toán xử lý trùng lặp văn ban băng kĩ thuật
Shingling
3.2.2.1. Phát biểu bai toán
Mục tiêu của quá trình này sẽ là phát hiện và loại bỏ
nhưng tệp văn ban có nôi dung gân trùng nhau (các tệp đươc
22
trích xuất tư môt slide). Quá trình này trai qua hai bước đươc
trình bay trong hình.
Hình 3.20. Quá trình xử lý trùng lặp văn ban
3.2.2.2. Giai thuật Shingling
Goi tập S(dj) là tập shingles của tài liệu dj. Sư tương
đồng của hai tài liệu đươc đo băng cách sử dụng hệ số Jaccard
giưa các vector shingles. Gia sử với hai tập d1 và d2 thì hệ số
Jaccard đươc tính theo công thưc hình 3.9.
𝐽(𝑆(𝑑1), 𝑆(𝑑2)) =|𝑆(𝑑1) ∩ 𝑆(𝑑2)|
|𝑆(𝑑1) ∪ 𝑆(𝑑2)|
Hình 3.21. Hệ số Jaccard của tài liệu d1 và d2
Hình 3.22[4]. Bốn quá trình tính toán shingle của hai tài liệu.
3.2.2.3. Kĩ thuật tiến hành
Dưa trên các cơ sở của phương pháp shingling, tác gia
đa xác định và kết luận đươc hai tệp văn ban bất kỳ có phai là
gân trùng lặp nhau hay không, căn cư vào môt giá trị ngưỡng
của đô đo Jaccard trong hình 3.13. Bai toán tiếp theo trong nôi
dung nay la xác định đươc tệp các văn ban đại diện cho video
bài giang. Bai toán đươc mô ta dưới dạng mã gia như sau:
Đâu vào: Cho tập D là tập tất ca văn ban đươc trích xuất
OCR tư video, giá trị d1, d2,… dn la các văn ban đươc thuôc
tập D.
Đâu ra: Tập D’ la tập văn ban đại diện cho tập D.
Giai thuật
23
Hình 3.23. Sơ đồ khối quá trình trich xuất tập văn ban đại diện
3.2.3. Bài toán sửa lỗi chính ta văn ban tiếng Việt
3.2.3.1. Phát biểu bai toán
Hình 3.12 mô ta các bước để thưc hiện phát hiện và sửa
lỗi chính ta văn ban.
Hình 3.24. Quá trình phát hiện và sửa lỗi chính ta văn ban
3.2.3.2. Làm sạch dữ liệu trước khi sửa lỗi chính ta
- Bước 1: Loại bỏ các kí tư khoang trắng thưa ở đâu,
giưa, và cuối câu. Ví dụ “bai giang ” sẽ đươc thay băng
“bai giang”.
- Bước 2: Bỏ qua các chuỗi la địa chỉ email, địa chỉ
website.
- Bước 3: Loại bỏ các kí tư đặc biệt, các dấu chấm, kí tư
số, ngay tháng…
3.2.3.3. Kĩ thuật sửa lỗi chính ta dạng non-word
Trong luận văn nay tác gia sẽ sử dụng công cụ mã
nguồn mở Aspell để cai đặt chương trình sửa lỗi chính ta đối
với dạng lỗi non-word.
24
Hình 3.25. Sơ đồ khối sửa lỗi chinh ta sử dụng tư điển Aspell
3.2.3.4. Kĩ thuật sửa lỗi chính ta dạng real-word
Dưới đây la mô ta về ki thuật kiểm tra và sửa lỗi chính
ta dùng bigram.
Bang 3.1. Kết qua Bigram tập dư liệu Kích thước tệp
tin trước khi
tách Bigram
Số Bigram
tách được
Kich thước sau khi
tách Bigram
Bigram 66 MB 4.836.571 82 MB
Thuật toán phát hiện và sửa lỗi chính ta văn ban dưa vào
ki thuật N-gram đươc tác gia cai đặt và mô ta như sau:
Hình 3.26. Sơ đồ khối sửa lỗi chinh ta sử dụng Bigram
25
3.3. Bai toán đánh chỉ mục và tìm kiếm
3.3.1. Phát biểu bai toán
Hình 3.15 mô ta các bước để lập chỉ mục tài liệu.
Hình 3.27. Mô ta quá trình lập chỉ mục tài liệu
3.3.2. Lập chỉ mục và tìm kiếm băng Elasticsearch
Hình 3.28. Kiểm tra khởi đông Elasticsearch
Hình 3.29. Danh sách các chỉ mục hiện co. Tên chỉ mục la
lectures, số tai liệu docs.count hiện tại co giá trị băng 0 (do
chưa tạo tai liệu cho chỉ mục nay).
Hình 3.30. Tạo type va document cho chỉ mục.
Hình 3.31. Tạo type va document băng lệnh POST. Id của
document đươc Elasticsearch gán tư đông.
26
Hình 3.32. Cập nhật lại document cho chỉ mục với id đa tồn
tại.
Hoặc co thể sử dụng lệnh UPDATE trưc tiếp đươc mô
ta trong hình 3.21.
Hình 3.33. Thưc hiện cập nhật lại document băng câu lệnh
UPDATE
Hình 3.34. Tìm kiếm document trên chỉ mục
27
CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM, ĐÁNH GIÁ
VÀ KẾT LUẬN
4.1. Công cụ, môi trường thưc nghiệm
Để phục vụ cho quá trình thưc nghiệm, tác gia sử dụng
cấu hình phân cưng va các công cụ phân mềm thể hiện trong
hai bang 4.1 va bang 4.2 như sau:
Bang 4.1. Thông số phân cưng STT Thanh phân Thông số kĩ thuật
1 CPU Intel ® Pentium ® Dual core T3200
2.00GHz
2 RAM DDR II - 3GB
3 Hệ điều hanh Ubuntu 14.04 LTS
4 Bô nhớ ngoai 150 GB
Bang 4.2. Danh sách công cụ phân mềm STT Tên công cụ Chưc năng Nguôn tai
1 Sublime Text 3 Trình soạn thao va bẫy
lỗi chương trình.
https://www.subli
metext.com
2 PHP 5.0 Ngôn ngư lập trình
dung thưc nghiệm.
http://php.net/dow
nloads.php
3 FFMpeg Công cụ xử ly video. https://ffmpeg.org
/download.html
4 Imagemagick
Công cụ chuyển đôi anh
mau thanh anh đa cấp
xám.
http://www.image
magick.org/script/
binary-
releases.php
5 Tesseract -OCR Công cụ nhận dạng ki
tư quang hoc.
https://github.com
/tesseract-ocr
6 Aspell Công cụ kiểm tra lỗi
chinh ta. http://aspell.net/
7 Pspell
Thư viện lập trình sửa
lỗi chinh ta trên nguôn
ngư PHP.
http://php.net/man
ual/en/intro.pspell
.php
8 Vietnamese
Dictionary
Tư điển tư vưng của
Tiếng Việt.
https://github.com
/1ec5/hunspell-
vi/tree/master/dict
ionaries
9 Teleport Pro
Công cụ hỗ trơ tai dư
liệu trên mạng.
http://www.tenma
x.com/teleport/pro
/download.htm
10 Elasticsearch
Công cụ hỗ trơ đánh chỉ
mục va tìm kiếm tai
liệu.
https://www.elasti
c.co/
28
4.2. Kết qua thưc nghiệm, đánh giá
Bang 4.3. Kết qua thưc hiện trich xuất khung hình tư video
STT Định
dạng
Kích thước
(MB)
Thời gian
(phút:giây)
Số khung
hình thu
được
Kích
thước
(MB)
1 mp4 23,8 6:22 382 404,6
2 mp4 48,1 6:38 398 450,7
3 mp4 32,1 3:07 187 174,8
4 mp4 137,6 28:27 1707 1740,8
5 mp4 19,6 2:35 155 139,4
Bang 4.4. Kết qua thưc hiện Tesseract-OCR đối với tập khung
hình thu đươc
STT Số lượng Kich thước tập
kết qua (KB)
Độ chính
xác (%)
Độ hôi
tưởng
(%)
Độ F1
(%)
1 382 136,3 71,2 81,8 76,13
2 398 100,5 71,1 82,0 76,16
3 187 33,7 76,4 67,0 71,39
4 1707 529,1 66,4 76,2 70,96
5 155 45,0 77,5 66,3 71,46
Trung bình 72,52 74,66 73,22
Bang 4.5. Kết qua thưc hiện NDD với ki thuật Shingling
STT Tập
đâu
vào
Số văn
ban đại
diện thu
được
Số slide
thưc tế
Số văn
ban đại
diện
đúng
Độ
chính
xác
(%)
Độ hôi
tưởng
(%)
Độ F1
(%)
1 382 14 22 12 85,7 54,5 66,63
2 398 24 25 22 91,6 88,0 89,76
3 187 42 35 34 80,1 97,1 87,78
4 1707 14 18 13 92,8 72,2 81,21
5 155 21 24 18 85,7 75,0 79,99
Trung bình 87,18 77,36 81,07
29
Bang 4.6. Kết qua quá trình phát hiện lỗi chinh ta dung Aspell
kết hơp Bi-gram
STT Tập đâu
vào
(số từ)
Tông số
lỗi thưc
tế
Số lỗi
phát
hiện
được
Số lỗi
phát hiện
đúng
Độ
chính
xác
(%)
Độ hôi
tưởng
(%)
Độ F1
(%)
1 946 77 71 66 92,9 85,7 89,15
2 1365 121 112 96 85,7 79,3 82,38
3 2482 43 33 18 54,54 41,8 47,33
4 786 96 91 85 93,4 88,54 90,91
5 1520 31 26 22 84,6 70,9 77,15
Trung bình 82,23 73,25 77,38
Bang 4.7. Kết qua quá trình sửa lỗi chinh ta
STT Số lỗi
phát hiện
Số lỗi
sữa
Số lỗi sửa
đúng
Độ chính
xác
(%)
Độ hôi
tưởng
(%)
Độ F1
(%)
1 71 69 49 71,0 69,0 69,99
2 112 102 62 65,8 55,4 57,97
3 33 16 9 56,3 27,3 36,77
4 91 84 43 51,2 50,5 49,17
5 26 28 18 64,3 69,2 66,66
Trung bình 60,72 53,64 56,11
Như đa trình bay ở mục 3.4 về kho khăn khi sửa lỗi
chinh ta Tiếng Việt. Vì vậy trong luận văn nay, tác gia đa cố
gắng để nhăm cai thiện chất lương của quá trình sửa lỗi. Đô
chinh xác trung bình xấp xỉ khoang 60,72%.
4.3. Kết luận
4.3.1. Kết qua đạt được
Trong luận văn nay, tác gia hướng tới mục đich la tìm
hiểu và nghiên cưu phương pháp để xây dưng môt hệ thống tra
cưu video dưa trên nôi dung. Video tác gia quan tâm la các
video bai giang dạng silde. Nôi dung của truy vấn sẽ la các tư
hoặc các cụm tư co liên quan đến nôi dung văn ban bên trong
các video bai giang.
30
Qua bốn chương, luận văn đa trình bay về các khái niệm
liên quan đến công cụ tìm kiếm. Các phương pháp tiếp cận, ki
thuật áp dụng để giai quyết các bai toán về xây dưng công cụ
tìm kiếm video. Ưng dụng các phương pháp, ki thuật để thưc
nghiệm xây dưng môt hệ thống tìm kiếm video bai giang dưa
trên nôi dung.
Các đong gop chinh của luận văn:
- Hệ thống lại kiến thưc, khái niệm liên quan va kiến
truc của công cụ tìm kiếm.
- Trình bày mô hình các bai toán cân xử ly trong quá
trình xây dưng công cụ tìm kiếm video.
- Phân tich các phương pháp tiếp cận để giai quyết các
bai toán va lưa chon ki thuật để thưc nghiệm.
- Xây dưng thử nghiệm ưng dụng tìm kiếm video bai
giang dạng slide dưa trên nôi dung.
4.3.2. Định hướng phát triển
Với nhưng kết qua đạt đươc trong luận văn nay, tác gia
hy vong trong tương lai sẽ:
- Thử nghiệm với dư liệu đa dạng hơn va lớn hơn. Thu
thập va xử ly đươc với nhiều định dạng video.
- Nghiên cưu các phương pháp, ki thuật để nâng cao
chất lương chương trình sửa lỗi chinh ta Tiếng Việt.
- Cai tiến va nghiên cưu để nâng cao chất lương, giam
thời gian xử ly video đâu vao.
31
TÀI LIỆU THAM KHẢO
1. Andrei Z. Broder. (2000), “Identifying and Filtering Near-
Duplicate Documents”, 11th Annual Symposium on
Combinatorial Pattern Matching ,Springer-Verlag London,
pp.1-10.
2. Bassma S. Alsulami. (2012), “Near Duplicate Document
Detection Survey”, International Journal of Computer Science
& Communication Networks, pp. 147-151.
3. Chirag Patel, Atul Patel, Dharmendra Patel. (2012),
“Optical Character Recognition by Open Source OCR Tool
Tesseract: A Case Study”, International Journal of Computer
Applications, Volume 55 –No.10, pp. 50-56.
4. Christopher D. Manning, Prabhakar Raghavan, Hinrich
Schütze. (2009), Introduction to Information Retrieval,
Cambridge University Press, Cambridge University.
5. David C. Gibbon. (2012), Introduction to Video Search
Engines, Springer Verlag Berlin Heidelberg, Spinger.
6. Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma.
(2007), “Detecting Near Duplicates for Web Crawling”, 16th
International Conference on World Wide Web, pp. 141-150.
7. Haojin Yang, Maria Siebert, Patrick Lühne, Harald Sack,
Christoph Meinel. (2011), “Automatic Lecture Video Indexing
Using Video OCR Technology”, 2011 IEEE International
Symposium on, pp. 111 – 116.
8. Haojin Yang. (2011), “Lecture Video Indexing and Analysis
Using Video OCR Technology”, 7th International Conference
IEEE Dijon France, pp. 54-61.
9. Hannaneh Hajishirzi, Wen-tau Yih, Aleksander Kolcz.
(2010), “Adaptive Near-Duplicate Detection via Similarity
Learning”, ACM SIGIR conference on Research and
development in information retrieval, pp. 419-426.
10. Nguyen Thi Xuan Huong, Tran-Thai Dang, The-Tung
Nguyen, Anh-Cuong Le. (2015), “Using Large N-gram for
Vietnamese Spell Checking”, Advances in Intelligent Systems
and Computing, pp. 617-627.
32
11. Kukich, Karen. (1992), “Techniques for Automatically
Correcting Words in Text”, 24th ACM Computing Surveys, pp.
377–439.
12. Kurt Hornik, Duncan Murdoch. (2011), “Watch Your
Spelling”, The R Journal Vol. 3, pp. 22-28.
13. Kyle Williams, C. Lee Giles. (2013), “Near Duplicate
Detection in an Academic Digital Library” , 2013 ACM
Symposium on Document Engineering, pp. 91-94.
14. Martin Røst Halvorsen. (2007), Content-based lecture
video indexing, Master’s Thesis, Department of Computer
Science and Media Technology Gjøvik University College.
15. Martin Potthast, Benno Stein. (2008), “New Issues in
Near-duplicate Detection”, 31th Conf. of the German
Classification Society, pp. 601-609.
16. Pratip Samanta, Bidyut B. Chaudhuri. (2013), “A simple
real-word error detection and correction using local word
bigram and trigram”, Association for Computational
Linguistics and Chinese Language Processing, pp. 211-220.
17. Ritika Mishra, Navjot Kaur. (2013), “A Survey of Spelling
Error Detection and Correction Techniques”, International
Journal of Computer Trends and Technology, pp. 372-374.
18. Radu Gheorghe, Matthew Lee Hinman, Roy Russo.
(2016), Elasticsearch in Action, Manning Publications Co,
Shelter Island.
19. Smith, R. (2007), An Overview of the Tesseract OCR
Engine, In proceedings of Document analysis and
Recognition. IEEE Ninth International Conference.
20. Suzan Verberne. (2002), Context-sensitive spellchecking
based on word trigram probabilities, Master thesis Taal,
Spraak & Informatica University of Nijmegen.
21. Youssef Bassil, Mohammad Alwani. (2012), “Context-
sensitive Spelling Correction Using Google Web 1T 5-Gram
Information”, Computer and Information Science, Vol. 5, No.
3, May 2012, pp. 37-48.