NÂNG CAO ĐỘ U NH D A VÀO NỘ Ử D THU T U CHỈNH TRỌ Ố …

123
BGIÁO DỤC VÀ ĐÀO TẠO VIN HÀN LÂM KHOA HC VÀ CÔNG NGHVIT NAM HC VIN KHOA HC VÀ CÔNG NGH----------------------------- ĐÀO THỊ THÚY QUNH NÂNG CAO ĐỘ CHÍNH XÁC TRA CU NH DA VÀO NI DUNG SDNG KTHUT ĐIỀU CHNH TRNG SHÀM KHONG CÁCH LUN ÁN TIN SCÔNG NGHTHÔNG TIN HÀ NI 2019

Transcript of NÂNG CAO ĐỘ U NH D A VÀO NỘ Ử D THU T U CHỈNH TRỌ Ố …

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-----------------------------

ĐÀO THỊ THÚY QUỲNH

NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH

DỰA VÀO NỘI DUNG SỬ DỤNG KỸ THUẬT

ĐIỀU CHỈNH TRỌNG SỐ HÀM KHOẢNG CÁCH

LUẬN ÁN TIẾN SỸ CÔNG NGHỆ THÔNG TIN

HÀ NỘI – 2019

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-----------------------------

ĐÀO THỊ THÚY QUỲNH

NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH

DỰA VÀO NỘI DUNG SỬ DỤNG KỸ THUẬT

ĐIỀU CHỈNH TRỌNG SỐ HÀM KHOẢNG CÁCH

LUẬN ÁN TIẾN SỸ CÔNG NGHỆ THÔNG TIN

Chuyên ngành: Khoa học máy tính

Mã số: 62 48 01 01

Ngƣời hƣớng dẫn khoa học:

1. PGS.TS. Ngô Quốc Tạo

2. PGS.TS. Nguyễn Hữu Quỳnh

Hà Nội – 2019

i

LỜI CAM ĐOAN

Tôi xin cam đoan luận án “Nâng cao độ chính xác tra cứu ảnh dựa vào nội

dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách” là công trình

nghiên cứu của riêng tôi. Các số liệu, kết quả được trình bày trong luận án hoàn

toàn trung thực và chưa từng được công bố trong bất kỳ một công trình nào

khác.

Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên

quan trong nước và quốc tế. Ngoại trừ các tài liệu tham khảo này, luận án hoàn

toàn là công việc của riêng tôi.

Trong các công trình khoa học được công bố trong luận án, tôi đã thể hiện

rõ ràng và chính xác đóng góp của các đồng tác giả và những gì do tôi đã đóng

góp.

Luận án được hoàn thành trong thời gian tôi làm Nghiên cứu sinh tại

phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ thông tin, Viện Hàn

lâm Khoa học và Công nghệ Việt Nam.

Tác giả luận án

NCS. Đào Thị Thúy Quỳnh

ii

LỜI CẢM ƠN

Luận án Tiến sĩ ―Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung

sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách‖ được hoàn thiện

bằng sự cố gắng của bản thân và sự giúp đỡ của Thầy hướng dẫn khoa học, Ban

lãnh đạo Học viện Khoa học và Công nghệ Việt Nam, Ban lãnh đạo Khoa Toán-

Tin, trường Đại học Khoa học - Đại học Thái Nguyên, Ban lãnh đạo Khoa Công

nghệ thông tin 1, Học viện Công nghệ Bưu chính Viễn thông, các chuyên gia và

các nhà khoa học, đồng nghiệp, bạn bè và những người thân trong gia đình.

Trước tiên, nghiên cứu sinh xin được bày tỏ lòng biết ơn chân thành đến

Thầy hướng dẫn khoa học PGS.TS. Ngô Quốc Tạo và PGS.TS. Nguyễn Hữu

Quỳnh. Nghiên cứu sinh đã nhận được những định hướng khoa học, những bài

học quý báu, sự hướng dẫn tận tình và kinh nghiệm nghiên cứu khoa học quý giá

trong nghiên cứu.

Tôi xin chân thành cảm ơn phòng Nhận dạng và Công nghệ tri thức, Viện

Công nghệ thông tin, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa

học và Công nghệ Việt Nam đã tạo điều kiện thuận lợi trong suốt quá trình

nghiên cứu và thực hiện luận án.

Tôi xin chân thành cảm ơn Ban giám đốc Học viện Công nghệ Bưu chính

Viễn thông, Ban lãnh đạo Khoa, Bộ môn Khoa học máy tính và các Thầy Cô

Khoa Công nghệ thông tin 1 đã quan tâm giúp đỡ để tôi hoàn thành nhiệm vụ

học tập. Xin chân thành cảm ơn sự quan tâm, động viên và những đóng góp quý

báu của quý đồng nghiệp.

Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn tới mọi thành viên trong gia

đình, sự khuyến khích động viên của gia đình là động lực để tôi hoàn thành luận

án này.

iii

MỤC LỤC

MỞ ĐẦU............................................................................................. ix

CHƢƠNG 1 .......................................................................................... 1

TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG ...................... 1

1.1. Giới thiệu ........................................................................................ 1

1.1.1. Tra cứu dựa vào văn bản ............................................................... 2

1.1.2. Tra cứu ảnh dựa vào nội dung ........................................................ 2

1.2. Trích rút đặc trƣng trong tra cứu ảnh .............................................. 5

1.2.1 Đặc trƣng mầu ............................................................................... 5

1.2.2. Đặc trƣng kết cấu .......................................................................... 8

1.2.3. Đặc trƣng hình ............................................................................ 11

1.2.4. Thông tin không gian ................................................................... 13

1.3. Đo khoảng cách ............................................................................. 15

1.4. Phân cụm ...................................................................................... 19

1.5. Một số nghiên cứu liên quan về giảm khoảng cách ngữ nghĩa trong tra

cứu ảnh ............................................................................................... 20

1.6. Đánh giá hiệu năng ........................................................................ 24

1.7. Kết luận Chƣơng 1 và định hƣớng nghiên cứu ................................. 25

CHƢƠNG 2 PHƢƠNG PHÁP TRA CỨU ẢNH ..................................... 27

LIÊN QUAN NGỮ NGHĨA .................................................................. 27

2.1. Giới thiệu ...................................................................................... 27

2.2. Sơ đồ và ý tƣởng phƣơng pháp đề xuất ............................................ 32

2.3. Phản hồi liên quan với truy vấn đa điểm .......................................... 36

2.4. Thuật toán tra cứu ảnh đề xuất ....................................................... 38

iv

2.4.1. Phân cụm tập ảnh phản hồi .......................................................... 38

2.4.2. Thuật toán đề xuất cho phân cụm gia tăng .................................... 42

2.4.3. Công thức đề xuất cho tính khoảng cách cải tiến ............................ 47

2.4.4. Công thức đề xuất cho tính trọng số ngữ nghĩa của truy vấn ........... 47

2.4.5. Thuật toán đề xuất cho tính độ quan trọng đặc trƣng..................... 48

2.4.6. Thuật toán đề xuất cho gộp các danh sách kết quả ......................... 50

2.4.7. Thuật toán đề xuất chung cho tra cứu ảnh liên quan ngữ nghĩa ...... 52

2.5. Đánh giá thực nghiệm .................................................................... 56

2.5.1. Môi trƣờng thực nghiệm .............................................................. 56

2.5.2. Chiến lƣợc mô phỏng phản hồi liên quan ...................................... 58

2.5.3. Thực hiện truy vấn và đánh giá .................................................... 58

2.6. Kết luận Chƣơng 2 ......................................................................... 61

CHƢƠNG 3 PHƢƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG TRỌNG SỐ

THÍCH NGHI ..................................................................................... 63

3.1. Giới thiệu ...................................................................................... 63

3.2. Thuật toán xác định điểm truy vấn tối ƣu và bộ trọng số thích nghi của

hàm khoảng cách cải tiến. ..................................................................... 68

3.3. Đề xuất thuật toán tra cứu ảnh sử dụng bộ trọng số thích nghi .......... 73

3.4. Thử nghiệm và đánh giá kết quả ..................................................... 75

3.4.1. Môi trƣờng thực nghiệm .............................................................. 75

3.4.2. Các kết quả thực nghiệm và thảo luận .......................................... 76

3.5. Kết luận Chƣơng 3 ......................................................................... 83

KẾT LUẬN ......................................................................................... 84

v

DANH MỤC HÌNH VẼ

Hình 1.1. Khoảng cách ngữ nghĩa ...................................................................... 3

Hình 1.2. Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung. ............................... 4

Hình 1.3: Sơ đồ phản hồi liên quan. ................................................................... 5

Hình 2.1. Hình dạng truy vấn. (a) Dịch chuyển điểm truy vấn. (b) Hình dạng lồi

(đa điểm). (c) Hình dạng lõm (đa điểm) ........................................................... 29

Hình 2.2. Ba cụm khác nhau (mầu đỏ, mầu vàng và mầu trắng) cho cùng một

chủ đề hoa hồng ............................................................................................... 30

Hình 2.3: Khoảng cách từ một điểm đến một truy vấn ..................................... 31

Hình 2.4: Các điểm dữ liệu trên không gian hai chiều. ..................................... 32

Hình 2.5. Cấu trúc phương pháp đề xuất. ......................................................... 33

Hình 2.6. Bốn biểu diễn của cùng một ảnh ....................................................... 35

Hình 2.7. Không gian đặc trưng ảnh xám. ........................................................ 36

Hình 2.8. Minh họa tính trọng số ngữ nghĩa từ một ảnh đến 3 truy vấn. ........... 48

Hình 2.9. Mô hình hệ thống. ............................................................................. 59

Hình 2.10. So sánh độ chính xác. ..................................................................... 61

Hình 3.1: Giao diện điển hình của hệ thống CBIR với phản hồi liên quan. ....... 64

Hình 3.2. Minh họa vùng truy vấn tối ưu ngang bằng nhau. (a) Hình bên trái:

điểm truy vấn thứ nhất. (b) Hình bên phải: điểm truy vấn thứ hai. .................... 64

Hình 3.3. Sơ đồ của tra cứu ảnh sử dụng các trọng số thích nghi. ..................... 66

Hình 3.4. Một hình ellip sinh ra từ các mẫu phản hồi dương ............................ 71

Hình 3.5. Minh họa đưa danh sách kết quả bao gồm nhiều ảnh ........................ 72

không liên quan ................................................................................................ 72

Hình 3.6. Minh họa tính toán hàm khoảng cách từ một điểm trong hình ellip

tương ứng với điểm truy vấn tối ưu. ................................................................. 72

Hình 3.7. So sánh độ chính xác của 5 phương pháp. ......................................... 79

Hình 3.8. So sánh độ lệch chuẩn của 5 phương pháp ........................................ 79

Hình 3.9. So sánh độ chính xác trung bình của phương pháp Aweight với tập

thực sự và Aweight sử dụng nhận thức trực quan của sinh viên ........................ 80

vi

Hình 3.10. So sánh độ chính xác trung bình của phương pháp Aweight,

Aweight_WLNR, Aweight_WIDF và FGSSH. ................................................ 81

Hình 3.11. Thời gian thực hiện tra cứu của phương pháp đề xuất với hai trường

hợp ................................................................................................................... 82

Hình B.1. Giao diện frm_Class_Images. ........................................................ 100

Hình B.2.Giao diện frm_Type_of_Features. ................................................... 100

Hình B.3. Giao diện frm_Images_Database.................................................... 101

Hình B.4. Giao diện frm_Upload_Images. ..................................................... 101

Hình B.5. Giao diện frm_Trainning. ............................................................... 102

Hình B.6. Giao diện frm_Features. ................................................................. 102

Hình B.7. Giao diện bước biến đổi ảnh và tra cứu đa biểu diễn. ..................... 103

Hình B.8. Giao diện bước gộp và phản hồi lần 1. ........................................... 103

Hình B.9. Giao diện bước phân cụm và tra cứu trên mỗi cụm. ....................... 104

Hình B.10. Giao diện bước gộp kết quả tra cứu phản hồi lần 1. ...................... 104

Hình B.11. Giao diện chính của hệ thống ....................................................... 105

Hình B.12. Giao diện Load Dataset ................................................................ 105

Hình B.13. Giao diện đưa vào ảnh truy vấn và chọn số lượng ảnh trả về ........ 106

Hình B.14. Kết quả truy vấn khởi vào và người dùng phản hồi (ảnh có viền mầu

đỏ) .................................................................................................................. 107

Hình B.15. Thực hiện phân cụm tập ảnh người dùng chọn và hiển thị tập ảnh của

cụm 1 ............................................................................................................. 107

Hình B.16. Thực hiên tra cứu với trọng số thích nghi lần lặp thứ nhất ............ 108

Hình B.17. Thực hiên tra cứu với trọng số thích nghi lần lặp thứ hai.............. 108

Hình B.18. Thực hiên tra cứu với trọng số thích nghi lần lặp thứ ba ............... 109

vii

DANH MỤC BẢNG BIỂU

Bảng 2.1: Kết quả phân cụm của ba phương pháp. ........................................... 46

Bảng 2.2. Các loại đặc trưng ............................................................................ 57

Bảng 2.3. Bảng kết quả của 3 phương pháp theo số truy vấn trong một lần phản

hồi. ................................................................................................................... 60

Bảng 3.1. Các loại đặc trưng ............................................................................ 75

Bảng 3.2. Bảng kết quả trung bình độ chính xác của 5 phương pháp theo số điểm

truy vấn trong ba lần phản hồi. ......................................................................... 78

Bảng A1. Độ chính xác trung bình của 34 loại truy vấn với một lần lặp phản hồi

của phương pháp SRIR đề xuất ở chương 2...................................................... 94

Bảng A2. Độ chính xác trung bình của 80 loại truy vấn với 3 lần lặp phản hồi

của phương pháp đề xuất ở chương 3. .............................................................. 96

viii

TỪ VIẾT TẮT

Dạng viết tắt Diễn giải

ARP Average Retrieval Precision (Độ chính xác trung bình)

AWEIGHT

An efficient image retrieval method using adaptive

weights (Phương pháp tra cứu ảnh sử dụng trọng số thích

nghi)

CBIR Cotent-based image retrieval (Tra cứu ảnh dựa vào nội

dung)

CLUE Cluster-based Retrieval of Images by Unsupervised

Learning

CSDL Cơ sở dữ liệu

EM Expectation maximization

FQM

Finding an Optimal Query Point and Weight Matrix of

the Distance Function (xác định truy vấn tối ưu và ma

trận trọng số của hàm khoảng cách)

GMM Gaussian mixture models

IF Importance of Feature (độ quan trọng đặc trưng)

INC Incremental Clustering (phân cụm gia tăng)

Phương pháp JF Phương pháp đề xuất bởi tác giả Jin&French

Precision Độ chính xác

Recall Độ triệu hồi

RF Relevant feedback (Phản hồi liên quan)

RGB Red, green, blue (Đỏ, xanh lá, xanh dương)

SRIR Semantic–Related Image Retrieval method (Phương pháp

tra cứu ảnh dựa vào ngữ nghĩa)

SVM Support Vector Machine (máy véc tơ hỗ trợ)

ix

MỞ ĐẦU

1. Tính cấp thiết của luận án

Cơ sở dữ liệu ảnh ngày càng trở nên phổ biến trong các lĩnh vực ứng dụng

khác nhau như viễn thám, thời trang, phòng chống tội phạm, xuất bản, y học, kiến

trúc,… Sự tiến triển của các kỹ thuật thu, truyền và lưu trữ ảnh đã cho phép xây

dựng các cơ sở dữ liệu ảnh rất lớn. Các nhân tố này đã thúc đẩy sự quan tâm

nghiên cứu các phương pháp khai thác hiệu quả cơ sở dữ liệu ảnh rất lớn này.

Tra cứu ảnh có thể được thực hiện dựa vào các mô tả ngắn của ảnh. Các

ảnh có thể được mô tả bởi một tập các thuộc tính độc lập nội dung (tên file,

khuôn dạng, loại, kích cỡ, tên tác giả, thiết bị thu nhận, ngày tạo và vị trí ổ đĩa)

mà có thể được quản lý thông qua hệ quản trị cơ sở dữ liệu truyền thống. Hạn

chế chính của cách tiếp cận này đó là các truy vấn bị giới hạn vào các thuộc tính

hiện có của tệp ảnh. Một cách tiếp cận thay thế là sử dụng các từ khóa hoặc các

chú thích ảnh. Trong cách tiếp cận này, trước tiên các ảnh được chú thích thủ

công bằng các từ khóa. Sau đó, các ảnh có thể được tra cứu bởi các chú thích

tương ứng của chúng. Cách tiếp cận này ít giới hạn hơn cách tiếp cận trước. Tuy

nhiên, có ba khó khăn chính với cách tiếp cận này, đó là yêu cầu số lượng lớn

các nhân công trong việc phát triển các chú thích, sự khác biệt trong giải thích

nội dung ảnh, và sự không nhất quán của cách gán từ khóa giữa những người

thực hiện chú thích khác nhau. Cách tiếp cận chú thích từ khóa này trở nên

không khả thi khi cỡ của các tập ảnh gia tăng nhanh chóng.

Để khắc phục các khó khăn của cách tiếp cận dựa vào chú thích, một cách

tiếp cận thay thế là tra cứu ảnh dựa vào nội dung đã được đề xuất từ đầu những

năm 1990. Bên cạnh sử dụng các từ khóa được con người gán, các hệ thống tra

cứu ảnh dựa vào nội dung sử dụng nội dung trực quan của các ảnh, như các đặc

trưng mầu sắc, kết cấu, và hình dạng, làm chỉ số ảnh. Điều này làm giảm đáng

kể những khó khăn của cách tiếp cận thuần túy dựa trên chú thích, bởi vì quá

trình trích rút đặc trưng có thể được thực hiện tự động. Kể từ khi ra đời, tra cứu

ảnh dựa vào nội dung đã thu hút sự quan tâm nghiên cứu rất lớn, phạm vi từ

x

nghiên cứu tới thương mại. Cho đến nay, một số hệ thống nguyên mẫu thực

nghiệm và các sản phẩm thương mại đã được đề xuất và xây dựng như QBIC

[71], MARS [85].

Đến nay, đã có nhiều thuật toán phức tạp được thiết kế để mô tả các đặc

trưng mầu, hình dạng và kết cấu, các thuật toán này không thể mô hình tương

đương các ngữ nghĩa ảnh và có nhiều giới hạn khi giải quyết cơ sở dữ liệu ảnh

nội dung rộng [61]. Các thực nghiệm trên các hệ thống CBIR chỉ ra rằng các nội

dung mức thấp thường thất bại trong mô tả các khái niệm ngữ nghĩa mức cao

của ảnh [111]. Do đó, hiệu năng của tra cứu ảnh dựa vào nội dung vẫn còn xa so

với kỳ vọng của người dùng.

Để khắc phục được hạn chế ở trên, những năm gần đây các hướng nghiên

cứu tập trung đi tìm các phương pháp giảm khoảng cách ngữ nghĩa giữa đặc

trưng mức thấp và khái niệm mức cao. Giảm khoảng cách ngữ nghĩa thường

được thực hiện thông qua phản hồi liên quan. Phản hồi liên quan (RF -

Relevance Feedback) là một quá trình học trực tuyến mà cố gắng học mục đích

của người dùng trong quá trình tương tác; RF là một công cụ mạnh được sử

dụng trong các hệ thống tra cứu thông tin [74,78]. Mục đích của nó là mang

người dùng vào lặp tra cứu để giảm khoảng cách ngữ nghĩa giữa những gì mà

truy vấn biểu diễn và những gì người dùng nghĩ. Bằng việc tiếp tục học thông

qua tương tác với người dùng, giảm khoảng cách thông qua phản hồi liên quan

đã được chỉ ra là cải tiến độ chính xác đáng kể trong các hệ thống tra cứu ảnh

dựa vào nội dung [58,59,64,80,90,118,119,126].

Tuy nhiên, hầu hết các phương pháp đề cập ở trên đều gặp phải các vấn

đề như sau: (1) yêu cầu người dùng phải cung cấp đồng thời nhiều ảnh truy vấn

đa dạng (các ảnh khác nhau nhưng cùng một chủ đề ), tức là, tăng gánh nặng cho

người dùng. (2) chưa tận dụng được thông tin phản hồi của người dùng vào việc

xác định độ quan trọng ngữ nghĩa của từng truy vấn và độ quan trọng của từng

đặc trưng. (3) sử dụng chung một véc tơ trọng số của hàm khoảng cách cho tất

cả các điểm truy vấn tối ưu mà không xét đến tính chất địa phương của các điểm

xi

truy vấn khác nhau (vị trí các điểm truy vấn khác nhau, tính chất dữ liệu của các

điểm lân cận của mỗi điểm truy vấn tương ứng cũng khác nhau). (4) mỗi lần lặp

phản hồi, phương pháp phải phân cụm lại từ đầu tất cả các ảnh. Bốn vấn đề này

dẫn đến hiệu năng của hệ thống tra cứu thấp.

Do đó, việc đề xuất các giải pháp tra cứu ảnh để khắc phục các hạn chế ở

trên là một nhu cầu cấp thiết. Đó cũng là lý do mà luận án chọn đề tài ―Nâng

cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh

trọng số hàm khoảng cách‖. Các phương pháp tra cứu ảnh trong luận án được

giới hạn trong phạm vi tìm các ảnh đa dạng cùng chủ đề với ảnh truy vấn, chẳng

hạn: tìm tất cả các ảnh thuộc chủ đề hoa hồng bao gồm cả ảnh hoa hồng đỏ, hoa

hồng trắng và hoa hồng vàng.

2. Mục tiêu của luận án

Mục tiêu chung của luận án:

Đề xuất được phương pháp tra cứu ảnh nhằm nâng cao độ chính xác tra

cứu.

Mục tiêu cụ thể của luận án:

- Đề xuất được phương pháp tra cứu các ảnh liên quan ngữ nghĩa nằm rải

rác trong không gian đặc trưng để nâng cao độ chính xác mà không tăng thời

gian thực hiện tra cứu.

- Tận dụng thông tin phản hồi của người dùng để xác định độ quan trọng

ngữ nghĩa của mỗi truy vấn, độ quan trọng của mỗi đặc trưng nhằm đề xuất

phương pháp tra cứu ảnh hiệu quả.

- Đề xuất phương pháp khai thác mức độ phản hồi của người dùng, tính

chất địa phương của mỗi vùng chứa điểm truy vấn điều chỉnh để nâng cao độ

chính xác tra cứu.

3. Các đóng góp của luận án

Trong luận án này, tác giả nghiên cứu đề xuất các phương pháp tra cứu

ảnh liên quan ngữ nghĩa gồm: phương pháp SRIR (Semantic–Related Image

xii

Retrieval method) [CT5], phương pháp AWEIGHT (An efficient image

retrieval method using adaptive weights) [CT6]:

- Phương pháp SRIR giải quyết được các hạn chế: (1) Chỉ sử dụng một

truy vấn để tạo ra kết quả tra cứu khởi tạo gồm các ảnh nằm trong các vùng khác

nhau; (2) Không thực hiện phân cụm lại tập ảnh phản hồi; (3) xác định được độ

quan trọng ngữ nghĩa của từng truy vấn và (4) xác định độ quan trọng theo từng

đặc trưng. Những đóng góp này làm cho độ chính xác được cải tiến đáng kể.

- Phương pháp AWEIGHT khai thác mức độ phản hồi để xác định các

điểm truy vấn tối ưu. Bên cạnh đó, phương pháp đề xuất cũng khai thác đầy đủ

tính chất địa phương của mỗi điểm truy vấn tối ưu. Ngoài ra, phương pháp trong

chương này tận dụng được nhiều phản hồi từ phía người dùng mà không tăng

tốc độ tính toán.

4. Bố cục của luận án

Luận án này được bố cục thành ba chương:

Chương 1 giới thiệu tổng quan về tra cứu ảnh dựa vào nội dung.

Chương 2 trình bày phương pháp tra cứu ảnh liên quan ngữ nghĩa được

tác giả để xuất, có tên là SRIR.

Chương 3 trình bày phương pháp tra cứu ảnh sử dụng trọng số thích nghi

được tác giả đề xuất, có tên là AWEIGHT.

Cuối cùng, luận án đưa ra một số kết luận và định hướng nghiên cứu trong

tương lai.

1

CHƢƠNG 1

TỔNG QUAN VỀ

TRA CỨU ẢNH DỰA VÀO NỘI DUNG

Chương này trình bày tổng quan về tra cứu ảnh dựa vào nội dung bao

gồm các đặc trưng mức thấp của ảnh, cấu trúc hệ thống tra cứu ảnh dựa vào đặc

trưng mức thấp và phân tích một số phương pháp tra cứu ảnh dựa vào đặc trưng

mức thấp. Bên cạnh đó, chương này trình bày một số nghiên cứu giảm khoảng

cách ngữ nghĩa theo cách tiếp cận phản hồi liên quan. Ngoài ra, chương này

cũng phân tích một số kỹ thuật tra cứu ảnh với ngữ nghĩa mức cao. Cuối cùng,

chương này đưa ra một số kết luận và định hướng cho nghiên cứu.

1.1. Giới thiệu

Các dạng nguồn đa phương tiện khác nhau (văn bản, tiếng nói, ảnh,

video) đang tăng lên nhanh chóng, chẳng hạn dữ liệu được trực quan trong các

điện thoại thông minh, các ứng dụng 2D/3D, nội dung web,... Thế giới đang

chứng kiến một sự tiến hóa về lượng, sự sẵn có, độ phức tạp, sự đa dạng và sự

quan trọng của các ảnh trong tất cả các lĩnh vực. Do đó, nhu cầu về các dịch vụ

ảnh trở nên quan trọng hơn bao giờ hết. Các ảnh đóng một vai trò quan trọng

trong một phạm vi rộng các ứng dụng và các lĩnh vực như giáo dục, chăm sóc y

tế, dự báo thời tiết, nghiên cứu về tội phạm, quảng cáo, thiết kế nghệ thuật, web,

phương tiện xã hội và giải trí. Tuy nhiên, phương tiện trực quan yêu cầu một

lượng xử lý và lưu trữ đáng kể, cần có các phương pháp hiệu quả cao để đánh

chỉ số, lưu trữ, phân tích và tra cứu thông tin trực quan từ các cơ sở dữ liệu ảnh.

Do đó, tra cứu các ảnh nhanh, chính xác và hiệu quả cho tất cả các loại tập ảnh

trở thành một trong những nhiệm vụ thách thức nhất.

2

1.1.1. Tra cứu dựa vào văn bản

Cách tiếp cận ban đầu cho tra cứu ảnh là dựa vào văn bản, trong đó các

ảnh được đánh chỉ số bằng các từ khóa, chủ đề hoặc mã phân loại. Các từ khóa,

chủ đề hoặc mã phân loại này được sử dụng trong quá trình tra cứu [41]. Tuy

nhiên, với cơ sở dữ liệu ảnh lớn và tăng lên nhanh chóng, các khó khăn phải đối

mặt của cách tiếp cận tra cứu dựa vào văn bản ngày càng trở nên nghiêm trọng

hơn. Bên cạnh đó, quá trình này tốn nhiều nhân lực và thời gian, từ khóa lại

mang tính chủ quan và không duy nhất, những người khác nhau có các nhận

thức khác nhau về cùng một ảnh.

Để khắc phục các vấn đề này, các nội dung của ảnh (gồm mầu, kết cấu và

hình dạng) được trích rút tự động từ bản thân các ảnh đã được sử dụng cho tra

cứu ảnh. Phương pháp này được gọi là tra cứu ảnh dựa vào nội dung (CBIR -

content-based image retrieval) [69]. CBIR cho phép loại đi các khó khăn của tra

cứu dựa vào văn bản trong các cơ sở dữ liệu ảnh lớn và hệ thống CBIR cung cấp

các kết quả chính xác hơn.

1.1.2. Tra cứu ảnh dựa vào nội dung

Tra cứu ảnh dựa vào nội dung (CBIR) là một ứng dụng của các kỹ thuật

thị giác máy tính đối với bài toán tra cứu ảnh [70]. Mục tiêu của hệ thống CBIR

là sử dụng nội dung trực quan của các ảnh để tìm các ảnh quan tâm từ một cơ sở

dữ liệu ảnh lớn. Tra cứu ảnh dựa vào nội dung có nghĩa là tra cứu sẽ phân tích

nội dung của ảnh thay vì dựa vào các siêu dữ liệu như từ khóa, thẻ và các mô tả

văn bản đi kèm với ảnh. Thuật ngữ nội dung ở đây được hiểu là mầu, hình dạng,

kết cấu hoặc bất cứ một thông tin nào mà có thể lấy ra từ bản thân ảnh.

Trong CBIR, các ảnh có thể được tra cứu thông qua việc sử dụng các đặc

trưng mức thấp (tức là mầu sắc, hình dạng, và kết cấu) hoặc sử dụng các đặc

trưng mức cao hay các đặc trưng ngữ nghĩa. Hình 1.1 chỉ ra khoảng cách ngữ

nghĩa của hai đối tượng ảnh. Như Hình 1.1 cho thấy, véc tơ đặc trưng (hai lược

đồ) của ảnh phía trên và véc tơ đặc trưng của ảnh phía dưới là rất giống nhau.

3

Do đó, nếu chỉ dựa vào đặc trưng mức thấp (véc tơ đặc trưng) thì hệ thống sẽ kết

luận ảnh phía trên và phía dưới là giống nhau. Tuy nhiên, khi ta nhìn vào hai ảnh

này thì lại thấy chúng rất khác nhau (ảnh phía trên là cây trong rừng còn ảnh

phía dưới là một bông hồng). Tra cứu ảnh dựa vào ngữ nghĩa đối sánh một truy

vấn người dùng dựa vào các nội dung nhận thức nào đó hơn là sự tương tự giữa

các đặc trưng.

Hình 1.1. Khoảng cách ngữ nghĩa

Thành phần chính của CBIR là kỹ thuật tra cứu ảnh được sử dụng để lấy

ra các ảnh tương tự nhất đối với ảnh truy vấn mà người dùng đưa vào [101]. Một

hệ thống tra cứu dựa vào nội dung tiêu biểu được chia thành hai pha: trích rút

đặc trưng ngoại tuyến và tra cứu ảnh trực tuyến. Trong pha ngoại tuyến, hệ

thống trích rút tự động các thuộc tính trực quan ở mức thấp (mầu, kết cấu và

hình dạng) hoặc ở mức cao. Trong pha tra cứu ảnh trực tuyến, người dùng có thể

cung cấp một ảnh mẫu cho hệ thống tra cứu để tìm kiếm các ảnh mong muốn.

Hệ thống tra cứu ảnh biểu diễn ảnh mẫu này bởi véc tơ đặc trưng và khoảng

cách (hoặc độ tương tự) giữa các véc tơ đặc trưng của ảnh mẫu và của ảnh trong

cơ sở dữ liệu đặc trưng được tính toán. Cuối cùng hệ thống phân hạng các ảnh

theo thứ tự tăng dần của khoảng cách hay giảm dần của độ tương tự và trả về tập

ảnh kết quả cho người dùng. Nếu không thỏa mãn với kết quả tra cứu, người

dùng có thể cung cấp phản hồi liên quan cho hệ thống tra cứu, hệ thống sẽ học

4

nhu cầu thông tin của người dùng. Kiến trúc của hệ thống tra cứu ảnh dựa vào

nội dung được chỉ ra trên Hình 1.2.

Tập ảnh

Ảnh truy vấn

Cơ sở dữ liệu

đặc trưng

Véc tơ

đặc trưng

Độ tương tự Kết quả tra cứu

Trích rút

đặc trưng

Trích rút

đặc trưng

Sắp xếp Đầu ra

Hình 1.2. Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung.

Phản hồi liên quan (RF - Relevance Feedback) là một quá trình trực tuyến

mà cố gắng học mục đích của người dùng trong quá trình tương tác. Phản hồi

liên quan được sử dụng rộng rãi trong các hệ thống tra cứu thông tin [74,78].

Mục đích của nó là mang người dùng vào lặp tra cứu để giảm khoảng cách ngữ

nghĩa giữa những gì mà truy vấn biểu diễn và những gì người dùng nghĩ. Bằng

việc tiếp tục học thông qua tương tác với các người dùng cuối, phản hồi liên

quan đã được chỉ ra là cung cấp cải tiến hiệu năng đáng kể trong các hệ thống tra

cứu ảnh dựa vào nội dung [103,104,119].

Hình 1.3 chỉ ra cơ chế hoạt động của phản hồi liên quan trong tra cứu ảnh

dựa vào nội dung [2,74,104]. Khi có kết quả tra cứu khởi tạo, người dùng chọn

các ảnh liên quan trong danh sách kết quả này để làm các mẫu có nhãn (dương

hay âm). Dựa trên tập mẫu huấn luyện này, một thuật toán máy học được thực

hiện để điều chỉnh các tham số. Dựa trên các tham số vừa được học, tra cứu ảnh

sẽ tiếp tục được thực hiện. Quá trình được lặp lại cho đến khi người dùng thỏa

mãn.

Phản hồi liên quan

5

Hình 1.3: Sơ đồ phản hồi liên quan.

Con người có thể mô tả và giải thích các nội dung ảnh một cách thích

hợp, bao gồm cấu trúc liên kết toàn bộ và các đối tượng sử dụng các khái niệm

ngữ nghĩa mức cao. Không giống như con người, máy tính xử lý các đặc trưng

mức thấp được trích rút từ các điểm ảnh, do đó nó cung cấp các mô tả của ảnh ít

ngữ nghĩa hơn so với mô tả của con người. Sự khác nhau giữa máy tính và con

người trong việc mô tả cùng một ảnh được gọi là ―khoảng cách ngữ nghĩa‖.

Người dùng tìm kiếm sự tương tự ngữ nghĩa nhưng cơ sở dữ liệu chỉ có thể cung

cấp các ảnh tương tự bởi một xử lý số. Ngoài ra, khoảng cách ngữ nghĩa giữa

các thuộc tính ảnh và các thuộc tính đối tượng giới hạn nhiều hiệu quả tra cứu.

1.2. Trích rút đặc trƣng trong tra cứu ảnh

1.2.1. Đặc trƣng mầu

Đặc trưng mầu là một trong những đặc trưng thị giác rộng nhất do quan

hệ chặt chẽ với các đối tượng ảnh, tiền cảnh và nền. Mầu cũng là một đặc trưng

trực quan mạnh do nó không phụ thuộc vào trạng thái của các nội dung ảnh như

6

hướng, cỡ và góc. Các biểu diễn mầu phổ biến là lược đồ mầu, mô men mầu

[34], tương quan mầu [43] và ma trận đồng hiện mầu [37].

Không gian mầu được phân lớp thành các không gian mầu tuyến tính (tức

RGB, XYZ, CMY, YIQ và YUV) và các không gian mầu phi tuyến [113] (tức

L*a*b, HSV, Nxyz và L*u*v). Không gian mầu RGB là một không gian mầu

cộng tính dựa vào ba mầu chính: đỏ, xanh lá cây và xanh lam. Các mầu khác có

thể được sinh ra bởi sử dụng các mầu chính, chẳng hạn, sử dụng đỏ với xanh

lam tạo ra đỏ tươi, xanh lá cây và xanh lam ta ra mầu lục và sự kết hợp của mầu

đỏ, xanh lá cây và mầu xanh lam ở cường độ tối đa tạo ra mầu trắng. Tuy nhiên,

không gian RGB không hiệu quả trong việc xử lý các ảnh trong thế giới thực, do

đó nó bị tránh trong nhiều thuật toán tra cứu ảnh vì nó thiếu khả năng đo lường

sự tương tự về nhận thức. Hơn nữa, khoảng cách trong không gian RGB có ít

thông tin ngữ nghĩa về mặt nhận thức thị giác của con người.

Theo đó, không gian mầu HSV được sử dụng thay cho không gian mầu

RGB vì các thành phần mầu sắc và độ bão hòa rất gần với nhận thức thị giác của

con người. Mô hình HSV có ba thành phần cấu thành: ―hue‖ đề cập đến mầu

sắc, ―saturation‖ đề cập đến độ sắc nét của mầu và ―value‖ là độ sáng của mầu

sắc.

Một không gian mầu khác, không gian mầu YCbCr được chia thành độ

chói (Y) và sắc độ (Cb, Cr), trong khi Cb và Cr lần lượt biểu thị sự khác biệt

mầu xanh-vàng và đỏ-lục. Không gian mầu L * a * b * cũng được lấy từ không

gian mầu XYZ để đạt được sự đồng nhất về nhận thức. Như trong YCbCr, L * a

* b bao gồm một chiều độ sáng (L) và hai chiều sắc độ (a *, b *) dựa trên quá

trình đối lập mầu.

Lược đồ mầu không có thông tin về sự phân bố không gian của mầu; do

đó, các biểu diễn khác đã được đề xuất như tương quan mầu sắc và sự tương

quan. Các phương pháp này cung cấp thông tin về tương quan không gian của

7

các cặp mầu thay đổi như thế nào đối với khoảng cách trong một ảnh, và chúng

đã cho thấy hiệu quả tra cứu tốt hơn so với lược đồ mầu [43].

Nhiều thuật toán đã được đề xuất và sử dụng trong lĩnh vực CBIR dựa

trên việc sử dụng các mô men mầu. Ý tưởng chính của các mô men mầu là sử

dụng độ lệch chuẩn và giá trị trung bình của các phân phối trong mỗi dải mầu

làm đặc trưng mầu. Điều này được xem là một đặc trưng nhỏ gọn do đó nó

thường được sử dụng như một quá trình tối ưu hóa cùng với các đặc trưng mầu

khác. Các mô men Pseudo-Zernike [10] có các thuộc tính tốt của tính bất biến

quay và trực giao. Hơn nữa, nó đã được xác nhận rằng các mô men Pseudo-

Zernike vượt trội hơn so với các mô men Zernike về mặt biểu diễn đặc trưng

[44]. Tác giả D.Xiaoyin [34] đã đề xuất một phương pháp tra cứu ảnh mầu mới

bằng cách sử dụng bất biến mô men mầu. Các mầu đại diện được tính cho từng

ảnh thay vì cố định trong một không gian mầu nhất định, do đó điều này cho

phép biểu diễn đặc trưng chính xác và gọn hơn.

Một phương pháp đã được phát triển là ma trận đồng hiện mầu (CCM)

[105] có tính đến mối quan hệ không gian giữa các kênh mầu. Một ảnh có thể

được coi là một thành phần của ―các cấu trúc cơ bản‖ phù hợp. Các phần tử của

các pixel đó mang các thuộc tính trực quan, tức mầu sắc, và các quan hệ sở hữu,

tức khoảng cách giữa chúng. Do đó, nội dung ảnh có thể được đặc trưng bởi

CCM m-chiều thích hợp trong đó các thuộc tính và mối quan hệ được biểu diễn

bằng các trục ma trận khác nhau. Jhanwar và cộng sự [79] đã sử dụng một

phương pháp, có tên là ma trận đồng hiện mầu (MCM), nó tương tự về mặt khái

niệm với CCM. Ảnh được chia thành các lưới 2 × 2 pixel và mỗi lưới được thay

thế bằng một mầu quét giúp cực tiểu gradient cục bộ trong khi duyệt qua lưới 2

× 2 và tạo thành một ảnh được biến đổi theo motif. Sau đó, ma trận MCM được

xây dựng như một ma trận 3D trong đó mục (i, j, k) chỉ ra xác suất tìm thấy một

mầu (i) ở khoảng cách (k) từ một mục (j) trong ảnh được biến đổi. Guoping [37]

đã đề xuất mã cắt khối (BTC) như một kỹ thuật mã ảnh khác mà được sử dụng

trong CBIR để nén ảnh mầu. Từ luồng nén BTC mà không cần giải mã, hai đặc

8

trưng mô tả nội dung ảnh thu được: ma trận đồng hiện mầu khối (BCCM) và

lược đồ mẫu khối (BPH). Cả BCCM và BPH đã được sử dụng để tính toán các

số đo tương tự của hình ảnh cho các ứng dụng CBIR.

Bộ mô tả mầu trội (DCD) [14] đã được áp dụng rộng rãi trong các ứng

dụng tra cứu ảnh như là một trong những bộ mô tả mầu MPEG-7, nó biểu diễn

thông tin mầu của toàn bộ ảnh bằng một số nhỏ các mầu đại diện. DCD mô tả

các đặc trưng mầu đại diện và các phân bố trong ảnh hoặc các vùng quan tâm

thông qua một khuôn dạng nén, hiệu quả và trực quan. Hong và cộng sự [72] đã

đề xuất một phương pháp dựa trên MPEG-7 DCD của số cố định. Quá trình trích

rút đặc trưng không yêu cầu một giá trị ngưỡng và sử dụng tám mầu trội cố

định. Thuật toán giao lược đồ được sử dụng để đo các đặc trưng và đơn giản hóa

độ phức tạp tính toán tương tự. Zeng và cộng sự [58] đã sử dụng véc tơ gắn kết

mầu mà dựa trên lược đồ khoảng cách. Họ cũng đề xuất một thuật toán véc tơ

gắn kết khoảng cách đa tỉ lệ phù hợp với các vấn đề mà ở đó các hình khác nhau

có cùng mô tả và hiệu năng chống nhiễu của thuật toán tra cứu ảnh thấp dựa trên

DCD.

1.2.2. Đặc trƣng kết cấu

Trong thị giác máy tính, không có định nghĩa chính xác về kết cấu ảnh,

nhưng nó có thể được xác định như tất cả những gì còn lại sau khi xem xét các

mầu và các hình, hoặc như một mô tả của cấu trúc ảnh, tính ngẫu nhiên

(randomness), hột (granulation), đường thẳng (linearity), độ nhám (roughness)

và tính đồng nhất (homogeneity). Kết cấu ảnh là một đặc trưng ảnh quan trọng

để mô tả các thuộc tính bề mặt của một đối tượng và mối quan hệ của nó với các

vùng xung quanh [80]. Do các đặc trưng kết cấu được xuất hiện trong nhiều ảnh

thực, chúng rất quan trọng và có lợi ích trong các nhiệm vụ tra cứu ảnh và nhận

dạng mẫu. Tuy nhiên, độ phức tạp tính toán và độ chính xác tra cứu là những

nhược điểm chính của các hệ thống tra cứu ảnh dựa vào kết cấu.

9

Nhiều phương pháp tra cứu ảnh dựa vào kết cấu đã được đề xuất và được

cải tiến trong ngữ cảnh CBIR. Một số thuật toán được sử dụng phổ biến như mô

tả kết cấu là lọc Gabor, biến đổi Wavelet, ma trận đồng hiện mức xám [95],

trường ngẫu nhiên Markov [38], mô tả lược đồ cạnh [35], phân rã tháp [31], và

các đặc trưng Tamura [45].

Lọc Gabor là tập hợp các wavelet và mỗi wavelet thu năng lượng ở một

tần số và hướng cụ thể. Các biển đổi Gabor wavelet có các thuộc tính đa hướng

và đa độ phân giải và điều này là tối ưu để đo các tần suất không gian cục bộ

[123]. Mở rộng một tín hiệu sử dụng cơ sở này cung cấp một mô tả tần suất cục

bộ và thu được các đặc trưng cục bộ/ các năng lượng của tín hiệu. Lianping và

cộng sự [67] đã thảo luận các ảnh hưởng của việc sử dụng một số tham số Gabor

(tức là số các mức/ các hướng và kích thước mặt nạ lọc) trên tra cứu ảnh dựa

vào kết cấu.

Nhiều kỹ thuật trích rút đặc trưng dựa vào biến đổi cũng được áp dụng,

bao gồm biến đổi wavelet rời rạc, biến đổi cosine rời rạc, biến đổi Walsh, biến

đổi Fourier và các mô men 2D. DWT là một trong các biến đổi phổ biến được áp

dụng vào xử lý ảnh và các ứng dụng tra cứu. Nó được sử dụng để trích rút các

đặc trưng mức thấp do ưu việt của nó trong phân tích đa phân giải và tần suất

không gian. Nhiều nghiên cứu gần đây trong CBIR sử dụng các thuật toán này

hoặc bởi sử dụng một mô tả hoặc kết hợp nhiều thuật toán để tạo ra một mô tả

mạnh cho kết cấu ảnh.

Xingyuan và Zongyu [120] đã đề xuất một mô tả thành phần cấu trúc để

trích rút và mô tả mầu và kết cấu ảnh. Các thành phần cấu trúc được xác định

bởi năm thành phần cấu trúc chỉ ra năm hướng tương ứng. Lược đồ thành phần

cấu trúc được tính toán bởi mô tả thành phần cấu trúc và ứng dụng không gian

mầu HSV mà được lượng hóa thành 72 bin. Lược đồ thành phần cấu trúc kết

hợp các ưu điểm của cả hai phương pháp mô tả kết cấu thống kê và cấu trúc, và

nó có thể biểu diễn tương quan không gian của mầu và kết cấu.

10

Liu và cộng sự [40] đã phát triển một cách tiếp cận tra cứu ảnh mới, có

tên bộ mô tả cấu trúc nhỏ. Các cấu trúc nhỏ (micro-structures) được xác định bởi

độ tương tự hướng cạnh với các mầu cơ bản mà có thể biểu diễn hiệu quả các

đặc trưng ảnh. Các mầu cơ bản là các mầu với hướng cạnh tương tự mà có thể

bắt chước nhận thức mầu của con người. Với một cầu nối của các cấu trúc nhỏ,

mô tả cấu trúc nhỏ có thể trích rút và mô tả các đặc trưng hình, mầu và kết cấu

một cách đồng thời. Bộ mô tả cấu trúc nhỏ tích hợp các ưu điểm của cả các cách

tiếp cận mô tả kết cấu thống kê và cấu trúc. Hơn nữa, thuật toán này mô phỏng

cơ chế của nhận thức trực quan của con người ở một mức độ nhất định nào đó.

Thuật toán mô tả cấu trúc nhỏ có hiệu năng đánh chỉ số và hiệu quả cao cho tra

cứu ảnh, nhưng với chiều thấp hơn của chỉ 72 bin cho các ảnh mầu đầy đủ.

Một cách tiếp cận được đề xuất bởi Chatzichristofis và cộng sự [100], có

tên lược đồ kết cấu và mầu mờ mà được tạo ra bởi tích hợp của ba hệ thống mờ.

Cỡ lược đồ kết cấu và mầu mờ được giới hạn với chỉ 72 byte trên một ảnh, vì

thế nó là phù hợp cho các cơ sở dữ liệu ảnh cỡ lớn. Đặc trưng đề xuất là thích

hợp cho tra cứu ảnh ngay cả trong các trường hợp như nhiễu, biến dạng và trơn.

Kwitt và cộng sự [96] đã giới thiệu một cách tiếp cận tra cứu kết cấu xác

suất. Nó được dựa trên biểu diễn ảnh trong miền wavelet phức tạp và một số mô

hình thống kê cho độ lớn của các hệ số biến đổi phức tạp. Ngoài ra, cách tiếp

cận này bao gồm các biểu thức dạng đóng cho phân kỳ KL giữa các mô hình

thống kê được đề xuất mà cho phép đo độ tương tự phức tạp hằng số.

Khuôn khổ của tra cứu ảnh kết cấu như một họ mới của mô hình đa biến

ngẫu nhiên được đề xuất mà dựa trên các phân rã wavelet và Gaussian copula.

Họ đã sử dụng lược đồ copula để phân tách một cấu trúc phụ thuộc từ một hành

vi lề và đưa ra hai mô hình đa biến sử dụng mật độ Gaussian và Weibull tổng

quát. Những mô hình này thu cả các phân phối lề băng con và mối tương quan

giữa các hệ số wavelet. Ngoài ra, họ đã thu được, như một độ đo tương tự, một

biểu thức dạng đóng của phân kỳ Jeffrey giữa các mô hình đa biến dựa trên

copula Gaussian.

11

Wang và cộng sự [115] đã trình bày một phương pháp tra cứu ảnh kết cấu

dựa trên đặc trưng ma trận đồng hiện mầu. Cách tiếp cận của họ thu được tập

vùng liên thông mầu cho một ảnh mầu, và sau đó trích rút ma trận đồng hiện cho

4 hướng (ngàng 00, đứng 90

0, chéo 45

0 và 135

0) cho mỗi vùng liên thông. Đặc

trưng thu được phản ảnh tương quan kết cấu cũng như biểu diễn thông tin mầu.

Do đó, phương pháp này được xem là vượt trội so với ma trận đồng hiện mức

xám và lược đồ mầu và cung cấp một hiệu năng tra cứu tốt hơn cho các ảnh kết

cấu.

Lai và cộng sự [26] đã trình bày một phương pháp khai thác thông tin

người dùng trong một hệ thống CBIR tương tác dựa trên thuật toán di truyền

tương tác. Các phân bố mầu, độ lệch chuẩn, giá trị trung bình và bản đồ ảnh

được sử dụng như một bộ mô tả mầu ảnh. Ngoài ra, entropy dựa vào mô tả lược

đồ hướng cạnh và ma trận đồng hiện mức xám được xem như một bộ mô tả kết

cấu cho đặc trưng ảnh. Đặc biệt, thuật toán gen tương tác có thể được sử dụng

như một cách tiếp cận khai thác bán tự động với sự trợ giúp của người dùng để

điều hướng và xác định một không gian ảnh phức tạp với sự thỏa mãn cực đại

của người dùng.

1.2.3. Đặc trƣng hình

Về cơ bản, đặc trưng hình dạng ảnh mang thông tin ngữ nghĩa và có thể

được phân thành hai loại: dựa trên đường bao và dựa trên vùng. Phương pháp

dựa trên đường bao trích rút các đặc trưng dựa trên đường bao ngoài của vùng

trong khi phương pháp dựa trên vùng trích rút các đặc trưng dựa trên toàn bộ

vùng [116]. Các phương pháp tra cứu dựa vào hình dạng bị các vấn đề liên quan

đến các bất biến dịch chuyển, tỉ lệ, quay và ổn định với các thay đổi nhỏ về hình

dạng. Do đó, các mô tả hình dạng thường được trích rút và được sử dụng với các

đặc trưng khác như mầu và kết cấu và có xu hướng là hiệu quả trong các ứng

dụng cụ thể như các đối tượng nhân tạo [73].

12

Bộ mô tả hình dạng có thể được biểu diễn bằng nhiều phương pháp phổ

biến như xấp xỉ đa giác, mô tả Fourier, các mô men bất biến, mẫu biến dạng, B-

splines, không gian tỷ lệ cong, tỷ lệ khía cạnh, tính tròn và phân đoạn đường bao

liên tiếp [65]. Liu và cộng sự [39] đã đề xuất một phương pháp biểu diễn đặc

trưng ảnh mới để tra cứu ảnh, cụ thể là lược đồ multi-texton. Cách tiếp cận lược

đồ multi-texton sử dụng các lợi ích của ma trận đồng hiện mầu và lược đồ bằng

cách biểu diễn thuộc tính của ma trận đồng hiện mầu sử dụng một lược đồ.

Phương pháp lược đồ multi-texton đề xuất dựa chính vào lý thuyết textons của

Julesz [15] và hiệu quả hơn các mô tả đặc trưng ảnh đại diện như ma trận đồng

hiện texton và tự tương quan hướng cạnh.

Một nghiên cứu được phát triển bởi Bronstein và cộng sự [73], có tên

Shape Google. Cách tiếp cận này đã được đề xuất trong ngữ cảnh của tra cứu

hình không cứng nhắc, và lấy cảm hứng từ phiên bản nghiên cứu của

Ovsjanikov và cộng sự [73]. Dựa trên các nhân của toán tử Laplace-Beltrami, họ

chỉ ra bộ mô tả và phát hiện đặc trưng mà được sử dụng để xây dựng từ vựng

của các từ hình học và các phân bố phục vụ biểu diễn hình dạng. Biểu diễn này

là mạnh dưới một lớp nhiễu rộng, bất biến đối với biến dạng kích thước và cho

phép so sánh các hình dạng trải qua các biến dạng khác nhau. Chiến lược này

xem các quan hệ không gian và biểu diễn các hình bằng các mà nhị phân nén mà

có thể được so sánh và đánh chỉ số hiệu quả sử dụng khoảng cách Hamming.

Xiang-Yang và cộng sự [116] đã đề xuất một lược đồ tra cứu ảnh bằng

việc kết hợp ba đặc trưng: kết cấu, mầu và thông tin hình dạng, để thu được hiệu

quả tra cứu cao hơn. Với bộ mô tả mầu, thuật toán lượng hóa mầu nhanh với

nhập các cụm được sử dụng để xác định trước ảnh, và sau đó nó thu một số nhỏ

các mầu trội với phần trăm của chúng. Với bộ mô tả kết cấu, các đặc trưng kết

cấu không gian được trích rút sử dụng phân rã lọc ổn định, là một phương pháp

xấp xỉ linh hoạt. Với bộ mô tả hình dạng, các mô men pseudo-Zernike của ảnh

được sử dụng để cung cấp một biểu diễn đặc trưng tốt hơn do độ mạnh của nó so

với nhiễu ảnh tốt hơn các biểu diễn mô men khác.

13

Nhìn chung, các phương pháp hình dạng dựa vào đường bao đòi hỏi thời

gian tính toán cao bởi vì thu sự tương ứng giữa các điểm bao từ hai hình tương

ứng sử dụng thông tin bao cục bộ. Để giải quyết vấn đề này, một số nghiên cứu

đã được đề xuất.

Shu và cộng sự [117] đã đề xuất một bộ mô tả dựa vào đường bao cho các

đường cong đóng, có tên lược đồ phân bố các điểm bao, mô tả tiềm năng biến

dạng tại mỗi điểm dọc theo một đường cong. Ngoài ra, họ đã phát triển một kỹ

thuật tính toán khoảng cách nền, được dựa trên khoảng cách EMD (Earth

Mover's Distance) dưới các tọa độ cực, cho đối sánh hình dạng để bất biến đối

với quay và tỉ lệ.

Một cách tiếp cận đã được phát triển bởi Chen và Xu [124], nó kết hợp

các phương pháp dựa vào vùng và dựa vào đường bao, có tên bộ mô tả rolling

penetrate. Phương pháp này cải tiến các phương pháp truyền thống bằng cách

thu bất kỳ thông tin mong muốn nào theo cách thống nhất thay vì một khía cạnh

cụ thể của các đặc trưng hình dạng. Bởi vì các hàm đặc trưng khác nhau biểu

diễn các đặc trưng hình dạng khác nhau, quá trình quét hoặc là 1) hoạt động như

một bộ mô tả đường bao khi hàm đặc trưng tính toán khoảng cách giữa điểm bao

và trọng tâm hoặc 2) mô tả quan hệ giữa mô men quan tính dọc theo đường quét

và góc θ khi hàm đặc trưng tích lũy tích của mỗi điểm và khoảng cách bình

phương của nó đến đường quét. Hàm đặc trưng không nhạy cảm với nhiễu, biến

dạng và giữ lại quá trình quét của nó không kể đến độ phức tạp hình [124].

1.2.4. Thông tin không gian

Hầu hết các đặc trưng mức thấp truyền thống được mô tả thiếu thông tin

không gian trong biểu diễn được trích rút của chúng, chẳng hạn, các lược đồ và

ACCs điểm hình dạng. Hai phần khác nhau trong cùng một ảnh có thể có cùng

lược đồ, nhưng với phân bố không gian khác nhau. Do đó, sử dụng một biểu

diễn trừu tượng là không đủ để biểu diễn nội dung ngữ nghĩa của các ảnh. Các

vùng quan tâm (ROIs) và các biểu diễn dựa vào đồ thị/cây gần đây đã được quan

14

tâm nhiều hơn do chúng cung cấp thông tin không gian quan trọng, đặc biệt cần

thiết trong tra cứu ảnh dựa vào vùng.

Các lược đồ dựa vào không gian khác đã được phát triển cho một số ứng

dụng CBIR như sử dụng các xâu để biểu diễn các quan hệ cấu trúc phức tạp giữa

các đối tượng [115], và sử dụng các ma trận để chỉ ra các quan hệ không gian và

các hướng giữa các đối tượng [103]. Nhiều phương pháp [87] chia toàn bộ ảnh

thành một tập các khối và cho phép xác định các vùng quan tâm, và chúng đã sử

dụng các cơ chế đánh chỉ số và chồng lắp khác nhau bằng việc lưu vị trí không

gian của mỗi khối hoặc vùng quan tâm như một chỉ số. Tuy nhiên, các phương

pháp này sử dụng một cỡ cố định cho các vùng và không xem xét nhiều vùng

quan tâm cho đối sánh tương tự giữa các vùng quan tâm khác nhau của các ảnh

khác nhau.

Nhiều vùng quan tâm [16] được sử dụng để cung cấp các vị trí tương đối

của nhiều vùng quan tâm, và nó xem xét các khối khác mà có các vị trí không

gian khác nhau từ các vùng quan tâm trong ảnh. Lee và Nang [59] đã sử dụng

mầu trội MPEG như đặc trưng được trích rút từ các khối ảnh, và lựa chọn các

khối có một vùng chồng lắp cao hơn để chồng lắp chúng với các vùng được

nhận diện bởi người dùng. Trọng số tương tự được dựa vào các vị trí tương đối

giữa ảnh truy vấn và các ảnh mục tiêu.

Để cung cấp một mức chi tiết hơn của độ tương tự vị trí tương đối,

Shrivastava và Tyagi [80] đã liên kết một phương pháp tra cứu dựa vào các mã

vùng cho các vùng khác nhau trong ảnh. Các mã vùng cùng với mầu trội và các

đặc trưng kết cấu được kết hợp và được đánh chỉ số. Các mã vùng được sử dụng

cho so sánh tương tự và được sử dụng tiếp theo để tìm các vị trí tương đối của

nhiều vùng quan tâm trong các ảnh truy vấn và mục tiêu.

Các biểu diễn không gian dựa vào đồ thị cũng được sử dụng rộng rãi

trong nhiều ứng dụng nhận dạng và tra cứu ảnh. Các đồ thị có thể được sử dụng

hiệu quả cho sự tương tự giữa các sắp xếp không gian, ở đó các đối tượng đơn lẻ

15

hoặc các vùng được biểu diễn bởi các nút đồ thị và các quan hệ của chúng được

biểu diễn bởi các cung giữa các nút [128]. Alajlan và cộng sự [82] đã phát triển

một khung dựa vào cây cho tra cứu ảnh dựa vào hình học. Nó bao gồm hình

dạng và cấu trúc của các đối tượng và các hố cấu tạo một ảnh. Kumar và cộng sự

[11] đã phát triển một khung dựa vào đồ thị được áp dụng trong CBIR y học,

biểu diễn các quan hệ của các nội dung ảnh đa phương thức trên một đồ thị hoàn

chỉnh. Độ tương tự giữa các ảnh truy vấn và cơ sở dữ liệu được tính toán trên

các vị trí không gian của các nội dung ảnh. Tuy nhiên, các biểu diễn không gian

dựa vào đồ thị có chi phí tính toán cao.

1.3. Đo khoảng cách

Việc lựa chọn xác định loại độ đo khoảng cách mà sử dụng để so sánh độ

tương tự của từng cặp ảnh còn phụ thuộc vào cấu trúc của các véc tơ đặc trưng

mô tả chúng. Độ đo khoảng cách được áp dụng chỉ ra độ tương tự giữa truy vấn

và mỗi ảnh trong cơ sở dữ liệu. Để thu được tra cứu chính xác hơn và hiệu năng

tốt hơn, hệ thống CBIR nên tận dụng độ đo đối sánh tương tự hiệu quả, mô tả và

định lượng tốt các tương tự nhận thức.

Các độ đo khoảng cách có thể được sử dụng cho đối sánh tương tự trong

lĩnh vực CBIR như:

Khoảng cách Minkowski: được sử dụng rộng rãi để đo sự tương tự trong

các hệ thống CBIR. Với hai ảnh X và Y được cho, được biểu diễn trong không

gian dữ liệu bởi hai véc tơ n chiều và tương ứng.

Khoảng cách Minkowski giữa X và Y, d(X,Y) được xác định như sau:

∑ | |

(1.1)

Ở đây r là nhân tố chuẩn hóa cho khoảng cách Minkowski, và . Khi

, và , nó trở thành Manhattan (tức ), Euclid (tức ) và

Chebyshev (tức ) tương ứng.

16

Khoảng cách Mahalanobis: với điểm A và phân bố B được cho,

Mahalanobis đo khoảng cách giữa A và B bằng việc tính bao nhiêu độ lệch

chuẩn từ A so với trung bình của B. Cho ma trận hiệp phương sai M, và hai ảnh

X và Y mà biểu diễn trong không gian dữ liệu bởi hai véc tơ n chiều

và . Khoảng cách Mahalanobis giữa X và Y được

xác định như sau:

∑ | |

(1.2)

Nếu và ma trận hiệp phương sai S là ma trận đơn vị thì nó tương

đương với khoảng cách Euclid, nhưng nếu S là ma trận trực giao thì nó tương

đương với khoảng cách Euclid chuẩn hóa.

Khoảng cách Cosine: Với hai ảnh X và Y được cho mà biểu diễn trong

không gian dữ liệu bởi hai véc tơ n chiều, khoảng cách được cho bởi góc giữa

các véc tơ sử dụng tích vô hướng và độ lớn là:

‖ ‖ ‖ ‖ (1.3)

Khoảng cách Hamming:

Một không gian dữ liệu hữu hạn F được cho với n thành phần, khoảng

cách Hamming giữa hai véc tơ là số các hệ số mà chúng

khác nhau, hoặc có thể được giải thích như số tối thiểu các cạnh trong một

đường kết nối hai đỉnh của không gian n chiều. Trong hệ thống CBIR, khoảng

cách Hamming được sử dụng để tính toán sự không giống nhau giữa các véc tơ

đặc trưng mà biểu diễn các ảnh cơ sở dữ liệu và ảnh truy vấn. Khoảng cách

Hamming mờ là một mở rộng của khoảng cách Hamming cho các véc tơ với các

giá trị thực.

Với các giá trị thực và , mức độ khác nhau giữa và , được điều

chỉnh bởi >0, biểu thị bởi được xác định bởi:

(1.4)

17

Khoảng cách Earth Mover:

Khoảng cách Earth Mover được dựa trên vấn đề vận chuyển từ tối ưu

tuyến tính, mục tiêu cực tiểu chi phí mà có thể được tả để biến đổi một phân

phối sang một phần phối khác. Với tra cứu ảnh, ý tưởng này được kết hợp với

một lược đồ biểu diễn của các phân bố mà dựa vào lượng hóa véc tơ để đo độ

tương tự nhận thức. Điều này có thể được phát biểu thành một bài toán qui

hoạch tuyến tính như sau: Cho {( )

} là dấu hiệu đầu

tiên với m cụm, ở đây là đại diện cụm và là trọng số cụm; và

{( )

} là dấu hiệu thứ hai với n cụm; và [ ] là ma trận

khoảng cách nền ở đây là khoảng cách nền giữa các cụm và . Để tính

một luồng [ ], ở đây là luồng giữa và , mà cực tiểu chi phí tổng

thể:

∑ ∑

(1.7)

Với các ràng buộc:

∑∑

(∑

)

Ràng buộc (1) cho phép dịch chuyển các nguồn cung theo một cách từ P

đến Q; Ràng buộc (2) giới hạn lượng nguồn cung mà có thể được gửi đến các

trọng số của nó bởi các cụm trong P; Ràng buộc (3) giới hạn các cụm trong Q

không nhận nhiều nguồn cung hơn trọng số của chúng; và ràng buộc (4) buộc

18

phải di chuyển lượng nguồn cung tối đa mà được gọi là luồng tổng. Ngay khi

luồng tối ưu F được tìm thấy và bài toán vận chuyển được giải, khoảng cách

Earth Mover được xác định như sau:

E ∑ ∑

∑ ∑

(1.8)

Khoảng cách Earth Mover mạnh hơn các kỹ thuật đối sánh dựa vào lược

đồ và có nhiều ưu điểm so với các xác định khác của các khoảng cách phân bố.

Đầu tiên, khoảng cách Earth Mover áp dụng đối với các dấu hiệu mà gộp các

lược đồ nào đó. Điều này giữ được các ưu điểm của nén và mềm dẻo của dấu

hiệu cũng như lợi ích của việc xử lý các cấu trúc có cỡ thay đổi bởi một độ đo

khoảng cách. Thứ hai, chi phí của Earth Mover phản ảnh đúng khái niệm gần mà

không cần sự tồn tại của các vấn đề lượng tử hóa của hầu hết các độ đo khác.

Thứ ba, khoảng cách Earth Mover đưa ra đối sánh từng phần, chẳng hạn, để xử

lý với các hỗn loạn và đút nút trong các ứng dụng tra cứu ảnh. Thứ tư, nếu

khoảng cách nền là một độ đo và với tổng các trọng số ngang bằng của hai dấu

hiệu, khoảng cách Earth Mover cho phép các không gian ảnh với một cấu trúc

độ đo.

Khoảng cách Kullback-Leibler và Jeffrey divergence:

Dựa trên lý thuyết thông tin, phân kỳ K-L đo lường mức độ trung bình

không hiệu quả của việc mã hóa một lược đồ bằng cách sử dụng một lược đồ

khác làm code-book. Cho hai lược đồ { } và { }, ở đây và là

các bin lược đồ, phân kỳ Kullback-Leibler (K-L) được xác định như sau:

∑ (

) (1.9)

Tuy nhiên, phân kỳ K-L nhạy cảm với việc tạo lược đồ và không đối

xứng. Phân kỳ Jeffrey có nguồn gốc thực nghiệm là một sự điều chỉnh của phân

kỳ K-L đối xứng về số, ổn định và mạnh với nhiều và kích thước của các bin

lược đồ. Khoảng cách này đo lường mức độ khó có thể xảy ra khi một phân phối

19

được lấy ra từ quần thể biểu diễn bởi một phân phối khác và được xác định như

sau:

∑ (

) (

) (1.10)

ở đây và với các thống kê:

(1.11)

1.4. Phân cụm

Tiếp nối quá trình biểu diễn và trích rút đặc trưng, các phương pháp phân

cụm nhằm nhóm các mô tả ảnh thành các cụm khác nhau với các ngữ nghĩa khác

nhau. Các phương pháp được sử dụng phổ biến là:

Phân cụm K-means:

Cho đến nay, K-means là phương pháp phân cụm được sử dụng phổ biến

nhất trong các ứng dụng khoa học và công nghiệp [106]. Các bước chính trong

phương pháp học không giám sát này gồm: (1) lựa chọn một số điểm khởi tạo từ

dữ liệu đầu vào làm các tâm cụm khởi tạo, (2) liên kết các điểm trong không

gian với trọng tâm gần nhất để tạo ra k cụm, (3) tính toán lại các trọng tâm cụm.

Lặp lại cho đến khi tất cả các điểm dữ liệu đầu vào được gán vào các cụm.

Mặc dù đơn giản và tốc độ, thuật toán K-means thường phải đối mặt với

một số vấn đề thách thức như khởi tạo centroid, nhạy cảm đối với các ngoại lai

và xác định một số điểm dữ liệu gần với nhiều cụm. Để giải quyết các cụm

chồng lên nhau, hai mở rộng của K-means đã được đề xuất và được sử dụng

rộng rãi: GMM (Gaussian mixture models) và phân cụm mờ (chẳng hạn fuzzy c-

means). GMM là một phương pháp xác suất, sử dụng thuật toán cực đại kỳ vọng

EM (expectation maximization) để gán các điểm dữ liệu vào các cụm. Mặt khác,

phân cụm mờ có thể liên kết mỗi điểm dữ liệu với nhiều hơn một cụm với mức

độ thuộc trong khoảng từ 0 đến 1 [18].

20

Phân cụm bán giám sát:

Phương pháp phân cụm chỉ tận dụng một lượng nhỏ dữ liệu có nhãn, nó

được biết như là phân cụm bán giám sát. Nói chung, các phương pháp bán giám

sát cải tiến quá trình phân cụm hoặc bằng điều chỉnh hàm mục tiêu để thỏa mãn

các nhãn hoặc điều chỉnh các ràng buộc, hoặc bằng việc huấn luyện độ đo

khoảng cách để thỏa mãn các nhãn hoặc các ràng buộc. Bilenko và cộng sự [19]

đã đề xuất một phân cụm bán giám sát cân bằng, K-means ràng buộc cặp độ đo

(MPCK-means). MPCK-means thực hiện huấn luyện độ đo khoảng cách tại mỗi

lần lặp phân cụm và học các độ đo riêng cho mỗi cụm và do đó cho phép các

cụm có các hình dạng khác nhau. Gần đây, Papagiannopoulou và cộng sự [8] đã

giới thiệu một kỹ thuật mới cho phân cụm ảnh bằng việc kết hợp một cách tiếp

cận dựa vào khái niệm của biểu diễn ảnh với các kỹ thuật phân cụm. Phương

pháp này sử dụng các bộ phát hiện khái niệm được huấn luyện để biểu diễn mỗi

ảnh bởi một véc tơ kết quả phát hiện khái niệm, sau đó nó được sử dụng làm đầu

vào cho các thuật toán phân cụm. Họ áp dụng các bộ phát hiện khái niệm được

huấn luyện vào tập ảnh và nhận các trọng số dự báo cho mỗi khái niệm. Mỗi ảnh

có thể được biểu diễn bằng một véc tơ thành phần của trọng số tin cậy. Sau quá

trình phân cụm, một tóm tắt của các tập ảnh và các sự kiện có thể được tạo ra.

1.5. Một số nghiên cứu liên quan về giảm khoảng cách ngữ nghĩa trong tra

cứu ảnh

Có nhiều cách tiếp cận để giảm khoảng cách ngữ nghĩa trong tra cứu ảnh

dựa vào nội dung. Do các kỹ thuật học máy được sử dụng trong luận án cho nên

phần này của luận án sẽ trình bày các nghiên cứu theo hướng tiếp cận học máy.

Một số nghiên cứu theo hƣớng tiếp cận học có giám sát:

Kỹ thuật học có giám sát như máy véc tơ hỗ tợ SVM [27,120], phân lớp

Bayes [130] thường được đưa vào các hệ thống tra cứu ảnh dựa vào nội dung

nhằm mục đích học khái niệm ngữ nghĩa mức cao từ đặc trưng mức thấp.

21

Với cơ sở lý thuyết vững chắc, thuật toán phân lớp SVM sử dụng để giải

quyết một số bài toán như nhận dạng đối tượng, phân lớp văn bản… và là một

thuật toán học tốt trong hệ thống tra cứu ảnh [2]. Ban đầu, SVM thiết kế để phân

lớp nhị phân. Giả sử, chúng ta có một tập dữ liệu huấn luyện {x1, x2, . . . , xn} là

các véc tơ trong không gian X ⊆ Rd thuộc hai lớp riêng biệt với tập nhãn {y1, y2,

. . . , yn} và yi {−1, 1}. Chúng ta muốn tìm một mặt để tách biệt dữ liệu, mặt

phân tách tối ưu (OSP) là một trong những lề cực đại (khoảng cách giữa mặt và

điểm dữ liệu của mỗi lớp). Để học đa khái niệm về tra cứu ảnh, một SVM được

huấn luyện cho mỗi khái niệm. Một phương pháp được dùng rộng rãi nữa là

phân lớp Bayesian [75]. Trong tài liệu [7], sử dụng phân lớp nhị phân Bayesian,

khái niệm mức cao về cảnh thiên nhiên thu được từ các đặc trưng mức thấp. Hệ

thống phân lớp tự động ảnh cơ sở dữ liệu thành một nhóm như trong nhà/ ngoài

trời, và hình ảnh ngoài trời được phân thành thành phố và cảnh quan.Trong [53],

mạng Bayesian được dùng để phân lớp ảnh trong nhà/ ngoài trời.

Các kỹ thuật học khác như mạng nơ ron được dùng cho học khái niệm.

Trong [21], đầu tiên tác giả lựa chọn 11 nhóm khái niệm: gạch, mây, lông, cỏ,

đá, kem, kính, đường, đá, cát, da, cây và nước. Sau đó, một lượng lớn dữ liệu

huấn luyện (đặc trưng mức thấp của các vùng) được đưa vào phân lớp mạng nơ

ron để thiết lập liên kết giữa đặc trưng trực quan mức thấp của một ảnh và ngữ

nghĩa mức cao của nó (nhãn loại). Một bất lợi của thuật toán này là đòi hỏi một

lượng lớn dữ liệu huấn luyện và cần những tính toán phức tạp.

Trong [42], đã chỉ ra rằng các thuật toán học thường có hai vấn đề: (1) cần

một lượng lớn các mẫu huấn luyện có nhãn (2) Tập huấn luyện được cố định

trong suốt quá trình học và ứng dụng. Vì thế, nếu ứng dụng thay đổi, các mẫu

nhãn mới cần phải cung cấp để đảm bảo độ chính xác phân lớp. Cách tiếp cận

bootstrapping trình bày trong [42] để giải quyết các vấn đề này. Nó bắt đầu từ

một tập nhỏ của các mẫu huấn luyến có nhãn. Bằng cách sử dụng kết hợp

phương pháp huấn luyện, hai thuật toán phân lớp thống kê được sử dụng để

22

huấn luyện và chú thích các mẫu không có nhãn, thuật toán chú thích thành công

một tập dữ liệu lớn.

Từ thực nghiệm chỉ ra rằng, hiệu quả tra cứu cải thiện lên 10% độ chính

xác tra cứu khi được so với SVM (400 ảnh có nhãn cho huấn luyện), với các

mẫu huấn luyện có nhãn ít hơn (chỉ có 20 nhãn). Bên cạnh các thuật toán được

đề cập ở đây, kỹ thuật decision tree (supervised learning) cũng được dùng để

sinh các đặc trưng ngữ nghĩa. Phương pháp Decision tree như ID3, C4.5, CART

xây dựng một cấu trúc cây bằng phân hoạch đệ quy không gian thuộc tính đầu

vào thành một tập hợp không gian không chồng chéo [102].

Mặc dù các nghiên cứu được mô tả ở trên đã thực hiện việc giảm khoảng

cách ngữ nghĩa, tuy nhiên các thuật toán có một số hạn chế sau:

- Đòi hỏi một lượng lớn dữ liệu huấn luyện có nhãn (đòi hỏi này khó có

được trong thực tế).

- Cần những tính toán phức tạp, tốn nhiều thời gian tra cứu (đòi hỏi này

khó được người dùng chấp nhận).

- Tập huấn luyện được cố định trong suốt quá trình học và ứng dụng. Như

vậy, nếu ứng dụng thay đổi, độ chính xác không được đảm bảo.

- Không tận dụng được thông tin phản hồi của người dùng vào việc xác

định độ quan trọng ngữ nghĩa của từng truy vấn và độ quan trọng của từng đặc

trưng.

- Sử dụng chung một véc tơ trọng số của hàm khoảng cách cho tất cả các

điểm truy vấn tối ưu mà không xét đến tính chất địa phương của các điểm truy

vấn khác nhau.

- Mỗi lần lặp phản hồi, phương pháp phải phân cụm lại từ đầu tất cả các

ảnh.

23

Những hạn chế này của phương pháp là động lực để luận án đề xuất các

phương pháp trong Chương 2 và Chương 3.

Một số nghiên cứu theo hƣớng tiếp cận học không giám sát:

Không giống với học có giám sát khi dữ liệu có nhãn hay có hướng dẫn

trong suốt quá trình học, với học không giám sát, dữ liệu không có nhãn, nhiệm

vụ từ những đặc trưng đầu vào như vậy cần tổ chức hoặc nhóm lại. Phân cụm

ảnh là kỹ thuật điển hình của học không giám sát đối với mục đích tra cứu. Nó

dự định nhóm một bộ hình ảnh theo cách tối đa hóa độ tương tự của các đối

tượng trong cụm và tối thiểu độ tương tự giữa các cụm khác nhau. Mỗi kết quả

phân cụm kết hợp một nhãn và ảnh trong cùng cụm là tương tự với nhau.

Thuật toán phân cụm K_means truyền thống và biến thể của nó thường

được dùng để phân cụm. Trong [32], áp dụng thuật toán phân cụm K-means trên

đặc trưng mầu mức thấp của tập ảnh huấn luyện. Sau đó, đo sự khác nhau trong

mỗi cụm để sinh ra một tập chỉ mục giữa đặc trưng trực quan mức thấp và đặc

tính văn bản tối ưu (từ khóa) của mỗi cụm tương ứng. Các luật chỉ mục được

sinh có thể được sử dụng thêm để lập chỉ mục cho ảnh không có nhãn thêm vào

ảnh cơ sở dữ liệu. Trong [107], đề xuất phương pháp chú thích ảnh cơ sở dữ liệu

tự động cho mục đích tra cứu, đầu tiên hệ thống phân cụm ảnh thành các vùng

sử dụng một biến thể của K-means (PCK-means) [19]. Số lượng các cụm được

thiết lập là 30. Sau đó, xác suất của mỗi khái niệm (59 khái niệm được định

nghĩa cho cơ sở dữ liệu ảnh được sử dụng) cho một vùng được sinh ra bằng cách

sử dụng Phương pháp Bayesian [107]. Do đó, một hình ảnh có thể được chú

thích bằng cách chọn khái niệm mà có xác suất cao nhất.

Do sự phân bố phức tạp của dữ liệu ảnh (các điểm dữ liệu được lấy mẫu

từ không gian đa tạp), các phương pháp truyền thống như phân cụm K-means

thường không thể phân tách ảnh tốt với nhiều khái niệm khác nhau [110]. Để

giải quyết vấn đề này, phương pháp phân cụm phổ [48] đề xuất và thành công

24

trên nhiều ứng dụng như phân đoạn ảnh, phân cụm ảnh. Một phiên bản mở rộng

của N_Cut có sẵn trong [1].

Trong [122], phương pháp CLUE được đề xuất để giảm ―khoảng cách

ngữ nghĩa‖ trong CBIR. Không giống với các hệ thống CBIR khác hiển thị danh

sách các ảnh kết quả ban đầu có độ tương tự cao tới người dùng, hệ thống này cố

gắng lấy các cụm ảnh ngữ nghĩa. Khi đưa vào một ảnh truy vấn, một tập các ảnh

mục tiêu tương tự với ảnh truy vấn được chọn là lân cận của ảnh truy vấn. Dựa

vào giả thuyết rằng các ảnh có cùng ngữ nghĩa có xu hướng nằm trong cùng một

cụm, phân cụm N_Cut được sử dụng để phân cụm ảnh mục tiêu thành các nhóm

ngữ nghĩa khác nhau. Sau đó hệ thống sẽ hiển thị các cụm ảnh đó và điều chỉnh

mô hình độ đo tương tự theo phản hồi của người dùng. Mặc dù rất thành công

trong phân cụm dữ liệu đa tạp, N_Cut không cung cấp một hàm chỉ mục hoàn

hảo nên phương CLUE chưa đem lại kết quả tốt.

Mặc dù các phương pháp tra cứu ảnh sử dụng học không giám sát có ưu

điểm không đòi hỏi tập dữ liệu huấn có nhãn, tuy nhiên, hầu hết các phương

pháp này không khai thác thông tin phản hồi của người dung, dẫn đến việc giảm

khoảng cách ngữ nghĩa còn thấp. Do đó, độ chính xác của các phương pháp học

không giám sát này bị giới hạn.

Các hạn chế của phương pháp tra cứu ảnh sử dụng học không giám sát là

động lực để luận án chọn cách tiếp cận học có giám sát với phản hồi liên quan

trong việc đề xuất các phương pháp tra cứu ảnh trong Chương 2 và Chương 3

của luận án.

1.6. Đánh giá hiệu năng

Nếu chúng ta đánh giá hiệu năng tra cứu của một phương pháp trên một

cơ sở dữ liệu, cần thiết có một tập thực sự. Điều này giúp chúng ta biết ảnh nào

trong tập kết quả thuộc về chủ đề nào. Trường hợp tốt nhất là tất cả các ảnh tra

cứu là các ảnh liên quan.

25

Có hai loại độ đo đánh giá, độ chính xác và độ triệu hồi, được sử dụng

rộng rãi để đánh giá hiệu quả tra cứu thông tin, đó là:

(1) Độ chính xác là tỷ lệ của số lượng ảnh liên quan được tra cứu và số

lượng tất cả ảnh được tra cứu trong một lần lặp. Nó được tính như sau:

(1.12)

(2) Độ triệu hồi là tỷ lệ số lượng ảnh liên quan được tra cứu trong một

lần tra cứu trên số lượng tất cả ảnh liên quan trong cơ sở dữ liệu ảnh:

(1.13)

Kết hợp độ chính xác và độ triệu hồi tạo ra một độ đo khác là Precision-

Recall curve (PR curve), để đánh giá hiệu quả của hệ thống CBIR. Cụ thể,

đường cong PR, trục x biểu diễn các mức độ triệu hồi đạt được bằng cách sử

dụng số lượng ảnh trả về khác nhau trong một phiên truy vấn và trục y tương

ứng với độ chính xác của mối mỗi lần triệu hồi.

Trong tra cứu ảnh, độ chính xác trung bình ARP (Average Retrieval

Precision) thường được sử dụng để đánh giá độ chính xác của phương pháp.

Hiệu quả tra cứu chung của một hệ thống được đo bằng trung bình tất cả độ

chính xác. ARP được tính toán như sau:

ARP = average (∑ ) (1.14)

Với là độ chính xác của mỗi truy vấn. Nó là một độ đo hiệu quả để biểu diễn

hiệu suất của hệ thống CBIR. Trong các thực nghiệm ở chương 2 và chương 3,

luận án sử dụng độ chính xác trung bình để đánh giá hiệu quả của các phương

pháp.

1.7. Kết luận Chƣơng 1 và định hƣớng nghiên cứu

Trong chương này, ngoài việc luận án đã trình bày về các đặc trưng mức

thấp của ảnh, cấu trúc hệ thống tra cứu ảnh dựa vào đặc trưng mức thấp và phân

26

tích một số phương pháp tra cứu ảnh dựa vào đặc trưng mức thấp. Luận án đã

tập trung trình bày một số phương pháp giảm khoảng cách ngữ nghĩa trong tra

cứu ảnh theo cách tiếp cận phản hồi liên quan. Chương này đã phân tích và làm

nổi bật lên một số hạn chế của các cách tiếp cận và các phương pháp tra cứu ảnh

dựa vào nội dung đã có.

Dựa trên nhu cầu của người dùng và các hạn chế của các phương pháp

được phân tích ở trên, luận án nhận thấy rằng, ở thời điểm hiện nay, khi chúng ta

đề xuất một thuật toán hiệu quả cho CBIR, một số vấn đề phải được giải quyết.

Vấn đề đầu tiên đó là giảm gánh nặng cho người dùng, tức là không yêu cầu

người dùng phải cung cấp đồng thời nhiều ảnh truy vấn đa dạng. Vấn đề thứ hai

đó là các ảnh liên quan ngữ nghĩa không thuộc về cùng một cụm mà nằm rải rác

trong không gian đặc trưng. Do đó để tăng độ chính xác, cần thiết phải có cách

thức lấy được các ảnh nằm rải rác trong không gian đặc trưng. Vấn đề thứ ba đó

là vùng chứa các điểm truy vấn tối ưu khác nhau có thể rất khác nhau. Do đó, để

nâng cao độ chính xác, cần khai thác thông tin địa phương của mỗi vùng.

Trong luận án này, tác giả sẽ tập trung vào vấn đề nâng cao độ chính xác

tra cứu ảnh theo hướng tiếp cận giảm khoảng cách ngữ nghĩa.

Thứ nhất, luận án sẽ đề xuất phương pháp tra cứu ảnh liên quan ngữ

nghĩa. Phương pháp không yêu cầu người dùng phải tạo truy vấn ảnh phức tạp

mà có thể thu được các ảnh nằm rải rác trong không gian đặc trưng [CT5].

Thứ hai, luận án sẽ đề xuất phương pháp tra cứu ảnh sử dụng bộ trong số

thích nghi. Thay vì sử dụng chung một bộ trọng số cho các cụm chứa ảnh truy

vấn tối ưu, phương pháp xác định trọng số cho từng cụm cụ thể [CT6].

Các phương pháp tra cứu ảnh được đề xuất trong luận án nằm trong phạm

vi tìm các ảnh đa dạng cùng chủ đề với ảnh truy vấn, chẳng hạn: tìm tất cả các

ảnh thuộc chủ đề hoa hồng bao gồm cả ảnh hoa hồng đỏ, hoa hồng trắng và hoa

hồng vàng.

27

CHƢƠNG 2

PHƢƠNG PHÁP TRA CỨU ẢNH

LIÊN QUAN NGỮ NGHĨA

Trong chương 1, luận án đã giới thiệu và phân tích một số ưu điểm và hạn

chế của cách tiếp cận tra cứu ảnh sử dụng đặc trưng mức thấp. Bên cạnh đó,

trong chương 1, luận án cũng đã phân tích một số ưu điểm và hạn chế của cách

tiếp cận giảm khoảng trống ngữ nghĩa thông qua phản hồi liên quan để cải thiện

hiệu quả tra cứu. Trên cơ sở các phân tích đó, chương 2 sẽ trình bày phương

pháp kế thừa các ưu điểm và khắc phục các hạn chế của các phương pháp đã có.

Phương pháp đề xuất giải quyết được các hạn chế: (1) Chỉ sử dụng một truy vấn

để tạo ra kết quả tra cứu gồm các ảnh nằm trong các vùng khác nhau; (2) Không

thực hiện phân cụm lại tập ảnh phản hồi; (3) Xác định được độ quan trọng ngữ

nghĩa của từng truy vấn và (4) Xác định độ quan trọng theo từng đặc trưng.

2.1. Giới thiệu

Các cách tiếp cận đối với CBIR giả thiết rằng, trong một không gian nào

đó, vị trí của các ảnh liên quan gần với ảnh truy vấn. Giả thiết này phù hợp với

bài toán mà ở đó người dùng chỉ muốn tìm những ảnh có cùng đặc trưng mức

thấp, chẳng hạn: tìm những bông hồng màu đỏ. Tuy nhiên, với bài toán mà ở đó

người dùng đặt ra yêu cầu là tìm ra những ảnh có thể có đặc trưng mức thấp

khác nhau nhưng cùng ngữ nghĩa, chẳng hạn: tìm tất cả những bông hồng (ba

gồm cả màu đỏ, màu vàng, màu trắng) trong cơ sở dữ liệu ảnh, thì giả thiết này

không phù hợp. Chương này và chương sau của luận án sẽ đề xuất các phương

pháp giải quyết bài toán tìm ra những ảnh có thể có đặc trưng mức thấp khác

nhau nhưng cùng ngữ nghĩa (tức là cùng một chủ đề).

Sự tương tự giữa các ảnh mà con người nhận thức (các ảnh liên quan về

mặt ngữ nghĩa) lại khác với sự tương tự giữa chúng trong không gian đặc trưng.

28

Tức là, các ảnh liên quan về mặt ngữ nghĩa có thể nằm phân tán trong toàn bộ

không gian đặc trưng và nằm rải rác ở một số cụm chứ không phải một cụm duy

nhất. Trong trường hợp này, cách tiếp cận phản hồi liên quan truyền thống

[2,29,61,74] không làm việc tốt (do họ sử dụng cách tiếp cận một điểm truy

vấn).

Thực hiện phản hồi liên quan đề cập đến việc tính toán một hoặc nhiều

điểm truy vấn mới trong không gian đặc trưng và thay đổi hàm khoảng cách.

Như được chỉ ra trong Hình 2.1(a), tại mỗi lần lặp phản hồi, các nghiên cứu theo

cách tiếp cận đơn điểm [2,29,42] biểu diễn một truy vấn mới bằng một điểm

truy vấn tối ưu (lý do gọi là điểm truy vấn tối ưu là vì, tại một lần lặp phản hồi

của người dùng, điểm này được xác định dựa vào các mẫu phản hồi của người

dùng và là tốt nhất) (Góp ý 4). Trong các nghiên cứu này, một điểm được tính

toán sử dụng trung bình trọng số của tất cả các ảnh liên quan trong không gian

đặc trưng. Các đường viền biểu diễn các đường có độ tương tự tương đương.

Các nghiên cứu theo cách tiếp cận đa điểm [84,89] biểu diễn một truy vấn

mới bằng nhiều điểm để xác định hình của đường viền như Hình 2.1(b). Cách

tiếp cận này sử dụng phương pháp phân cụm các ảnh liên quan [46,60,126] để

xác định các điểm truy vấn mới. Các cách tiếp cận này dựa trên giả thiết rằng

các ảnh liên quan được ánh xạ sang các điểm gần nhau trong không gian đặc

trưng. Một đường viền rộng được xây dựng để phủ tất cả các điểm truy vấn và

hệ thống tìm các ảnh tương tự với các truy vấn này.

Tuy nhiên, đặc trưng mức thấp của ảnh không phản ảnh đầy đủ thông tin

ngữ nghĩa của ảnh (rất khác so với nhận thức của người dùng), do đó các ảnh

liên quan sẽ được ánh xạ sang các vùng có hình dạng bất kỳ tách rời trong không

gian đặc trưng. Tức là, với một truy vấn đã cho, các ảnh liên quan có thể được

phân hạng phía dưới các ảnh không liên quan. Để hội tụ nhanh đến nhu cầu

thông tin của người dùng, hệ thống sẽ tìm các ảnh tương tự với bất kỳ các điểm

truy vấn nào như trong Hình 2.1(c) (một truy vấn mà tra cứu các ảnh tương tự

với bất kỳ các điểm truy vấn nào được gọi là truy vấn tách rời).

29

Hình 2.1. Hình dạng truy vấn. (a) Dịch chuyển điểm truy vấn.

(b) Hình dạng lồi (đa điểm). (c) Hình dạng lõm (đa điểm)

Các phương pháp được trình bày trong [49,112] theo cách tiếp cận truy

vấn tách rời này. Phương pháp có ưu điểm là cho ra kết quả là các ảnh liên quan

ngữ nghĩa nằm rải rác trong toàn bộ không gian đặc trưng. Tuy nhiên, các

phương pháp này có hạn chế:

(1) Yêu cầu người dùng phải cung cấp đồng thời các ảnh truy vấn đa dạng,

chẳng hạn, để truy vấn chủ đề hoa hồng, người dùng phải cung cấp các ảnh hoa

hồng đỏ, hoa hồng vàng, hoa hồng trắng,... làm truy vấn. Nếu điều kiện này

không được thỏa mãn, kết quả tra cứu khởi tạo sẽ là các ảnh nằm trong một

vùng nào đó chứ không bao gồm các ảnh liên quan nằm trong các vùng khác

nhau. Chẳng hạn, trên Hình 2.2, những ảnh hoa hồng sẽ được phân thành ba

cụm: cụm hoa mầu đỏ, cụm hoa mầu vàng và cụm hoa mầu trắng.

Như được thấy trên Hình 2.2, nếu người dùng cung cấp cho hệ thống các

ảnh truy vấn là các ảnh hoa hồng mầu vàng, kết quả tra cứu khởi tạo chỉ có thể

trả về các ảnh hoa hồng mầu vàng mà bỏ qua các ảnh hoa hồng mầu trắng và

mầu đỏ. Lý do của việc này là vì trong các hệ thống tra cứu ảnh truyền thống,

các ảnh có véc tơ đặc trưng mức thấp tương tự nhau sẽ nằm gần nhau (hay trong

cùng một cụm đặc trưng mức thấp). Trên danh sách kết quả khởi tạo gồm có các

bông hồng mầu vàng, người dùng chỉ có thể chọn được các bông hồng mầu

vàng. Hệ thống dựa vào các phản hồi là các bông hồng mầu vàng để tiếp tục tra

cứu. Các pha tra cứu tiếp theo sẽ dịch chuyển đến các vùng mầu vàng. Kết quả

của hệ thống chỉ có thể thu được các bông hồng mầu vàng. Vì vậy, các vùng hoa

30

hồng mầu đỏ và trắng sẽ bị bỏ qua, do đó độ chính xác của hệ thống sẽ bị giới

hạn cho dù pha tra cứu sau đó có ưu việt đến đâu.

Cụm ảnh hoa hồng mầu trắng

Cụm ảnh hoa hồng mầu đỏ

476043

476016

476050

476067

84037

476010

476016

476062

476079

476041

476028

476033

476009

476000

476009

Cụm ảnh hoa hồng mầu vàng

476004

476076

84060

84078

476025

476042

84095

Hình 2.2. Ba cụm khác nhau (mầu đỏ, mầu vàng và mầu trắng) cho cùng

một chủ đề hoa hồng

(2) Số điểm truy vấn cho lần lặp tiếp theo phụ thuộc vào số ảnh liên quan

do người dùng cung cấp, do đó có hai khả năng không thuận lợi xảy ra: Khả

năng thứ nhất, người dùng chọn quá ít ảnh phản hồi (ít hơn số cụm trong không

gian đặc trưng). Trong khả năng này, độ chính xác của hệ thống sẽ không được

đảm bảo vì theo lý thuyết phân cụm, nhiều truy vấn sẽ phủ nhiều cụm hơn. Khả

năng thứ hai là người dùng chọn quá nhiều ảnh phản hồi. Khả năng này sẽ làm

tăng gánh nặng cho pha gộp các danh sách kết quả (mỗi truy vấn sẽ có một danh

sách kết quả). Ngoài ra, quá nhiều truy vấn cũng không cải tiến nhiều độ chính

xác của hệ thống (thực nghiệm trong [49] đã chỉ ra rằng độ chính xác tăng nhanh

từ 1 đến 8 truy vấn và tăng chậm khi số truy vấn từ 8 đến 20). Chẳng hạn, trong

cơ sở dữ liệu Corel với chủ đề hoa hồng, mỗi ảnh truy vấn hoa hồng cũng chỉ

nằm rải rác trong 4 cụm (mỗi cụm tương ứng với một mầu của hoa hồng).

31

(3) Sử dụng các trọng số của các truy vấn ngang bằng nhau, tức là, độ quan

trọng của các truy vấn là như nhau cho dù mỗi truy vấn có lân cận khác nhau.

Hình 2.3 minh họa điều này. Trong hình này, điểm ảnh liên quan được ký hiệu

bởi hình tròn mầu xanh, hình tam giác biểu diễn điểm truy vấn, hình tròn ký

hiệu cho điểm ảnh cơ sở dữ liệu, đường viền nét đứt biểu thị một vùng chứa

điểm truy vấn và các điểm ảnh liên quan. Nếu coi các truy vấn có độ quan trọng

như nhau thì khoảng cách từ điểm ảnh cơ sở dữ liệu đến cả ba điểm truy vấn là

bằng nhau. Tuy nhiên, khoảng cách từ điểm ảnh cơ sở dữ liệu đến điểm truy vấn

thứ 2 nên là gần hơn bởi vì lân cận của điển truy vấn này có nhiều điểm ảnh liên

quan hơn hai truy vấn còn lại.

Hình 2.3: Khoảng cách từ một điểm đến một truy vấn

(4) Các đặc trưng có trọng số như nhau cho dù mỗi thành phần đặc trưng

có một độ quan trọng khác nhau. Hình 2.4 minh họa điều này. Trong Hình 2.4,

ký hiệu hình tròn biểu thị các điểm dữ liệu trong không gian đặc trưng hai chiều.

Nếu không quan tâm đến độ quan trọng của chiều đặc trưng thì trọng số của

chiều đặc trưng 1 và chiều đặc trưng hai là như nhau. Tuy nhiên, theo phân bố

của các điểm dữ liệu trên Hình 2.4, thì hai chiều đặc trưng này lại khác nhau, bởi

vì độ phân tán dữ liệu theo chiều đặc trưng 1 cao hơn chiều đặc trưng 2.

1

2

3

32

Những hạn chế này là nguyên nhân chính dẫn đến độ chính xác của hệ

thống tra cứu chưa cao.

Hình 2.4: Các điểm dữ liệu trên không gian hai chiều.

Trên cơ sở phân tích các hạn chế của các phương pháp đã có, đặc biệt là

phương pháp JF [49], luận án đề xuất một phương pháp tra cứu ảnh liên quan

ngữ nghĩa. Phương pháp đề xuất có ưu điểm là:

(1) Chỉ sử dụng một truy vấn để tạo ra kết quả tra cứu khởi tạo đa dạng,

gồm các ảnh nằm trong các vùng khác nhau (giảm gánh nặng cho người dùng

trong việc không phải chọn nhiều ảnh truy vấn).

(2) Phân cụm các ảnh liên quan với thời gian thấp.

(3) Xác định được độ quan trọng ngữ nghĩa của từng truy vấn.

(4) Xác định độ quan trọng theo từng đặc trưng.

Bốn ưu điểm này đã được thể hiện trong phương pháp đã được tác giả

công bố trong [CT5, CT6].

2.2. Sơ đồ và ý tƣởng phƣơng pháp đề xuất

Trên cơ sở các phân tích ở mục 2.1 ở trên, luận án đề xuất sơ đồ của

phương pháp như trên Hình 2.5.

ch

iều

đặ

c tr

ƣn

g 2

chiều đặc trƣng 1

33

Hình 2.5. Cấu trúc phƣơng pháp đề xuất.

Sơ đồ của phương pháp trên Hình 2.5 được thực hiện như sau:

Đầu tiên, ảnh truy vấn do người dùng cung cấp được chuyển đổi để được

các biểu diễn khác nhau. Sau đó, thủ tục trích rút đặc trưng sẽ được thực hiện

trên mỗi biểu diễn để được các véc tơ đặc trưng. Tiếp theo, độ tương tự giữa các

véc tơ đặc trưng của các biểu diễn ảnh truy vấn và các véc tơ đặc trưng của các

biểu diễn ảnh cơ sở dữ liệu sẽ được tính toán để có được danh sách các độ tương

tự. Trên cơ sở danh sách các độ tương tự vừa tính được, tiến hành sắp xếp các

ảnh theo thứ tự giảm dần của độ tương tự và lấy các ảnh ở trên cùng của danh

sách làm tập kết quả tra cứu. Với tập kết quả tra cứu vừa nhận được này, người

dùng sẽ phản hồi các ảnh liên quan đến ảnh truy vấn để có được tập phản hồi.

Thủ tục phân cụm gia tăng (nhằm giảm thời gian phân cụm) sẽ thực hiện trên tập

phản hồi để được các cụm. Trên cơ sở các cụm vừa có, các thủ tục tính độ quan

trọng chiều đặc trưng, tính độ quan trọng của mỗi truy vấn và tìm các đại diện

cụm được thực hiện để cho ra giá trị độ quan trọng chiều đặc trưng, giá trị độ

quan trọng của mỗi truy vấn và các đại diện cụm. Các giá trị này sẽ giúp cải tiến

việc tính toán ra các điểm truy vấn tối ưu. Các điểm truy vấn tối ưu ở trên sẽ

được dùng để truy vấn ra tập ảnh được tra cứu. Nếu người dùng thỏa mãn, tập

Tru

y vấn

Tín

h to

án

Tính toán

Phản hồi Sắp xếp Phân cụm

gia tăng Các cụm

Các điểm

truy vấn Độ quan trọng

đặc trưng

Độ quan trọng

truy vấn

Độ tương tự Tập ảnh được

tra cứu Tập phản hồi

Cơ sở dữ liệu đặc

trưng

Véc tơ đặc trưng

Ảnh truy vấn

Các biểu diễn

Đại diện cụm

Kết quả

34

ảnh được tra cứu sẽ là tập kết quả cuối cùng. Ngược lại, người dùng sẽ tiếp tục

phản hồi. Quá trình này có thể được lặp lại nhiều lần.

Phần tiếp theo của luận án sẽ trình bày chi tiết phương pháp đề xuất. Phần

tiếp theo cần có một số định nghĩa, do đó luận án đưa ra một số định nghĩa ở

đây.

Định nghĩa 2.1 (Tập đặc trƣng). Một tập đặc trưng F gồm có N bộ đặc

trưng, mỗi bộ gồm m thành phần, mỗi thành phần là một giá trị thực.

{ } (2.1)

Định nghĩa 2.2 (Không gian đặc trƣng). Một không gian đặc trưng FS

gồm m chiều, mỗi chiều tương ứng với một thành phần thực của bộ đặc trưng t

(t=1..N) thuộc tập đặc trưng F, mỗi điểm pt (t=1..N) trong không gian FS tương

ứng với một bộ đặc trưng trong F.

{ } (2.2)

Định nghĩa 2.3 (Không gian đặc trƣng thứ i). Một không gian đặc trưng

thứ i, ký hiệu là F , là một không gian đặc trưng gồm n chiều, mỗi điểm trong

không gian này được ký hiệu là (t=1..N) có n tọa độ.

{

} (2.3)

Định nghĩa 2.4 (Đo khoảng cách giữa hai điểm trong không gian đặc

trƣng FSi). Đo khoảng cách giữa hai điểm

và (k,l=1..N) và kl ,được ký

hiệu là D(

), là độ đo khoảng cách nào đó.

Ý tưởng chính của phương pháp đề xuất là không đặt các ảnh (bao gồm cả

ảnh cơ sở dữ liệu và ảnh truy vấn) trong cùng một không gian đặc trưng mà đặt

trong nhiều không gian đặc trưng (trong ngữ cảnh của chương này, luận án ánh

xạ mỗi một biểu diễn của ảnh vào một không gian đặc trưng), sau đó thực hiện

tra cứu bằng việc truy vấn trên mỗi không gian đặc trưng này và gộp các kết quả

tương ứng với các không gian đặc trưng thành một kết quả cuối cùng.

35

Hình 2.6. Bốn biểu diễn của cùng một ảnh

Hình 2.6 chỉ ra bốn biểu diễn của một ảnh có ID là 476043.jpg trong cơ sở

dữ liệu Corel. Ảnh này sẽ được biến đổi thành bốn biểu diễn là: biểu diễn mầu

C+, biểu diễn âm bản của ảnh mầu C-, diểu diễn ảnh xám G+ và và biểu diễn âm

bản của ảnh xám G-. Lưu ý ở đây là biểu diễn mầu chính là ảnh mầu gốc.

Lý do mà phương pháp trong luận án có thể lấy được các ảnh nằm rải rác

trong không gian đặc trưng mầu gốc được minh họa trên Hình 2.7. Trên hình

này, 22 ảnh trên Hình 2.2 được chuyển về biểu diễn xám G+. Theo biểu diễn

này, các đặc trưng hình dạng và kết cấu sẽ không bị át bởi mầu. Một ảnh hoa

hồng (biểu diễn xám) sẽ được ánh xạ thành một điểm trong không gian đặc

trưng G+. Trong không gian này, tính chất kết cấu sẽ không bị lấn át bởi mầu

cho nên 22 ảnh bông hoa hồng vàng, trắng và đỏ có vị trí gần nhau. Do vậy,

phương pháp đề xuất có thể lấy ra được các ảnh hoa hồng mầu đỏ, mầu hồng và

mầu vàng tương ứng với ảnh truy vấn mầu đỏ (476043.jpg trong cơ sở dữ liệu

Corel).

C+ C-

G+ G-

36

47604284078

476025476076

476004

84060

84095

476009

476000

476033

476009

476079

476028

476041

476062

476050

476016

476043

476010476067

84037

476024

Hình 2.7. Không gian đặc trƣng ảnh xám.

Đến đây, quá trình tra cứu sẽ đối sánh giữa ảnh truy vấn và ảnh cơ sở dữ

liệu trong mỗi một không gian đặc trưng riêng lẻ để có được một danh sách kết

quả. Như vậy, ta sẽ có 4 danh sách kết quả. Tiếp theo, bốn danh sách kết quả sẽ

được gộp lại để được một danh sách kết quả cuối cùng.

2.3. Phản hồi liên quan với truy vấn đa điểm

Các cách tiếp cận ban đầu đối với tra cứu ảnh dựa vào nội dung không

thích ứng với tra cứu dựa vào nhận thức của người dùng về độ tương tự trực

quan. Để khắc phục vấn đề này, một số kỹ thuật phản hồi liên quan [21,98] đã

được đề xuất. Các tác giả đã đánh giá sự liên kết giữa các khái niệm ngữ nghĩa

và các đặc trưng ảnh mức thấp và mô hình nhận thức chủ quan của người dùng

từ phản hồi của người dùng. Có hai thành phần để học phản hồi liên quan đó là

hàm khoảng cách và điểm truy vấn mới. Hàm khoảng cách sẽ thay đổi thông qua

việc học các trọng số của các thành phần đặc trưng và điểm truy vấn mới thu

được bằng việc học điểm mong muốn mà người dùng tìm kiếm.

Dịch chuyển điểm truy vấn đã được áp dụng vào các hệ thống tra cứu ảnh

như MARS [85] và MindReader [47] và FQPM [29]. Các hệ thống này biểu diễn

37

truy vấn bằng một điểm trong không gian đặc trưng và dịch chuyển điểm này

theo hướng các điểm liên quan và dịch ra xa các điểm không liên quan. Ý tưởng

này bắt nguồn từ thuật toán của Rocchio [88], đã được sử dụng thành công trong

tra cứu tài liệu.

Tiếp theo, các phương pháp điều chỉnh truy vấn sử dụng phản hồi liên

quan đa điểm đã được đưa ra. Cách tiếp cận mở rộng truy vấn [85,118] xây dựng

các cụm cục bộ cho các điểm liên quan. Trong cách tiếp cận này, tất cả các cụm

cục bộ được gộp lại để tạo ra một đường viền rộng phủ tất cả các điểm truy vấn.

Bên cạnh đó, cách tiếp cận dịch chuyển điểm truy vấn [52] bỏ qua các cụm và

coi tất cả các điểm liên quan là tương đương nhau. Tuy nhiên, cả hai cách tiếp

cận thất bại trong việc nhận biết các vùng thích hợp cho các truy vấn phức tạp.

Trong [108] đã trình bày FALCOM, mô hình khoảng cách toàn thể để thuận lợi

cho việc học các điểm truy vấn lõm và tách rời trong không gian véc tơ cũng

như trong không gian độ đo bất kỳ. Tuy nhiên, hàm khoảng cách gộp được đề

xuất phụ thuộc vào tri thức kinh nghiệm đặc thù và mô hình này giả thiết rằng

tất cả các điểm liên quan là các điểm truy vấn. Chen và cộng sự [122] cũng đưa

cách tiếp cận này vào sử dụng đa truy vấn hạt giống nhưng họ sử dụng chúng để

mở rộng đường biên xung quanh truy vấn tốt nhất và vẫn chủ yếu tìm kiếm

trong một vùng đơn của không gian đặc trưng.

Trong [49], Jin và cộng sự đã chỉ ra rằng trong hệ thống CBIR truy vấn đa

ảnh, các ảnh mẫu có liên quan về mặt ngữ nghĩa có thể rất khác nhau trong

không gian đặc trưng nào đó. Trong suốt phân tích các hiệu năng thực nghiệm,

các tác giả khẳng định rằng, tra cứu theo nhiều truy vấn có thể thu được các hiệu

quả khác nhau khi các truy vấn có vị trí trong một hoặc nhiều hơn một cụm. Nếu

các truy vấn có vị trí trong cùng một cụm, tâm truy vấn có thể giúp cải tiến hiệu

năng, nhưng nếu các truy vấn có vị trí ở nhiều cụm khác nhau, tâm truy vấn sẽ

giảm hiệu năng. Trong trường hợp này, nó có thể có hiệu quả khác nhau khi các

truy vấn có vị trí trong một hoặc nhiều hơn một cụm. Do đó, các tác giả đề xuất

phương pháp theo cách tiếp cận truy vấn tách rời (gọi là đa điểm [88]). Trong

38

phương pháp của họ, thay vì tìm một tâm truy vấn cho các mẫu dương được lựa

chọn, họ thực hiện các truy vấn riêng lẻ và sau đó nhập các kết quả tương ứng

với các truy vấn thành một danh sách tổng hợp. Phương pháp của họ đã thu

được kết quả tra cứu tốt mà bao gồm các ảnh liên quan ngữ nghĩa nằm rải rác

trong toàn bộ không gian đặc trưng hơn là trong lân cận của một truy vấn đơn

điểm. Họ sử dụng các ảnh phản hồi làm các truy vấn tiếp theo hơn là điều chỉnh

truy vấn gốc trong tìm kiếm truy vấn ―tốt‖ nhất. Họ tìm kiếm đồng thời trong

không gian đặc trưng và gộp kết quả đầu ra để hiển thị cho người dùng cuối.

Phương pháp có ưu điểm là cho ra kết quả là các ảnh liên quan ngữ nghĩa nằm

trong toàn bộ không gian đặc trưng. Tuy nhiên, phương pháp của họ ngoài việc

yêu cầu người dùng nhập đồng thời nhiều ảnh truy vấn đa dạng (gánh nặng cho

người dùng) còn chưa tận dụng tốt thông tin ngữ nghĩa của ảnh để nâng cao độ

chính xác của tra cứu.

2.4. Thuật toán tra cứu ảnh đề xuất

Định nghĩa 2.5 (Truy vấn đa điểm): Một truy vấn đa điểm MQ=<nMQ,

PMQ, WMQ, DMQ, DB, k>, với nMQ biểu thị số các điểm truy vấn trong MQ,

PMQ={PMQ1,…,PMQn} là tập nMQ điểm truy vấn trong không gian tìm kiếm DB,

WMQ={wMQ1,…,wMQn} là tập các trọng số được kết hợp với PMQ (luận án giả thiết

rằng các trọng số được chuẩn hóa tức là ∑ ), DMQ là khoảng cách mà

khi được cho hai điểm bất kỳ pi và pj trong không gian đặc trưng sẽ trả lại

khoảng cách giữa chúng và k là số các điểm được tra cứu trong mỗi lần lặp.

2.4.1. Phân cụm tập ảnh phản hồi

Biểu diễn dữ liệu là bước quan trọng đầu tiên để giải quyết bất cứ một bài

toán phân cụm nào. Trong lĩnh vực thị giác máy tính, hai loại biểu diễn được sử

dụng rộng rãi nhất [28]. Loại đầu tiên là biểu diễn hình học, trong đó các mục dữ

liệu được ánh xạ vào không gian véc tơ thực nào đó. Loại thứ hai là biểu diễn đồ

thị nhấn mạnh đến quan hệ cặp. Khi làm việc với các ảnh, biểu diễn hình học có

hạn chế: đòi hỏi các ảnh phải được ánh xạ thành các điểm trong không gian véc

39

tơ thực nào đó dẫn đến khó áp dụng cho các khoảng cách không độ đo

(nonmetric). Do đó, phương pháp đề xuất sử dụng biểu diễn đồ thị cho tập ảnh.

Định nghĩa 2.6 (Một biểu diễn đồ thị của các ảnh lân cận): Một tập

gồm n ảnh được biểu diễn bởi một đồ thị vô hướng có trọng số G = (V,E): các

nút V = {s1, s2,…, sn} biểu diễn các ảnh, các cạnh E = {(si,sj): si, sj V} được

tạo ra giữa mỗi cặp nút, và một trọng số không âm aij của một cạnh (si,sj) chỉ ra

độ tương tự giữa hai nút, là một hàm độ tương tự giữa các nút (các ảnh) si và sj.

Ma trận affinity A xác định như công thức:

‖ ‖

(2.4)

Ở đây tham số tỉ lệ 2 xác định mức độ aij giảm nhanh hay chậm theo

khoảng cách giữa si và sj.

Sau khi biểu diễn dữ liệu trên một đồ thị, phân cụm có thể được phát biểu

như một bài toán phân hoạch đồ thị. Trong các phương pháp phân hoạch đồ thị

phổ [48,121] đã được áp dụng thành công với nhiều lĩnh vực trong thị giác máy

tính gồm phân tích chuyển động [20], phân đoạn ảnh [48,121] và nhận dạng đối

tượng [97]. Có rất nhiều thuật toán phân hoạch đồ thị khác nhau, luận án sử

dụng k véc tơ riêng và tính trực tiếp phân hoạch k-way [1].

Mục tiêu của phương pháp phân hoạch đồ thị là tổ chức các nút thành các

nhóm sao cho độ tương tự trong phạm vi nhóm là cao, và/hoặc độ tương tự giữa

các nhóm là thấp. Với một đồ thị đã cho G = (V,E) có ma trận affinity A, một

cách đơn giản để xác định chi phí phân hoạch các nút thành hai tập rời nhau C1

và C2 (C1C2 = và C1C2 = V) là tổng trọng số của các cạnh kết nối giữa hai

tập. Thuật toán phân hoạch đồ thị sử dụng k véc tơ riêng và tính trực tiếp từ

phân hoạch k-way thực hiện như sau:

Đầu tiên, phương pháp xây dựng ma trận affinity A theo (2.4) và xây

dựng ma trận đường chéo D trong đó phần tử Dii (hàng i, cột i ) là tổng các phần

tử hàng thứ i của ma trận A.

40

Ma trận đường chéo D với:

∑ (2.5)

Tính ma trận Laplace chuẩn hóa:

(2.6)

Tìm k véc tơ riêng x1, x2, … xk lớn nhất của ma trận L, trong đó x1 = (x11,

x12, x13, …, x1n), x2 = (x21, x22, x23, …, x2n),…., xk = (xk1, xk2, xk3, …, xkn) và xây

dựng ma trận X = [x1T

,x2T

,…,xkT

] Є Rn x k

, cụ thể:

x1T

x2T

x3T

… xkT

X =

x11 x21 x31 … xk1

x12 x22 x32 … xk2

x13 x23 x33 … xk3

x1n x2n x3n xkn

Xây dựng ma trận Y từ X bằng việc chuẩn hóa mỗi dòng của X là chiều

dài đơn vị của ma trận Y:

Y =

y1 y11 y12 y13 … y1k

y2 y21 y22 y32 … y2k

y3 y31 y32 y33 … y3k

yk yn1 yn2 ynk

Mỗi dòng của ma trận Y được xem như là một điểm trong không gian véc

tơ k chiều. Đến đây, ta sẽ có n điểm trong không gian Rk, phân cụm (yi)i=1…n

trong không gian Rk thành k cụm C1, C2, …, Ck thông qua thuật toán K-Means.

41

Cuối cùng, gán điểm si tới cụm j nếu và chỉ nếu hàng thứ i của ma trận Y tưởng

ứng với cụm j.

Thuật toán 2.1 dưới đây là thuật toán phân cụm sử dụng k véc tơ riêng CISE

(Clustering Images Set using Eigenvectors) thực hiện việc phân cụm tập các ảnh

thành k cụm.

Thuật toán 2.1. Thuật toán phân cụm sử dụng k é ơ riêng

Input: - Tập các ảnh S = {s1,s2 sn} với si Rn

- Số cụm k

Output: k cụm: C1, C2 Ck

1. Xây dựng ma trận affinity

1.1. for i1 to n do

1.2 for j1 to n do

if (ij) ‖ ‖

else

2. Xây dựng ma trậ đường chéo và ma trận Laplace L

2.1. for i1 to n do

L D-1/2 A D-1/2

3. Tìm k é ơ riêng lớn nhất x1, x2 xk của ma trận Laplace L

3.2. for i1 to k do

X [x1T ,x2T xkT ]

4. Xây dựng ma trận Y từ X

4.1. for i1 to n do

4.2. for j1 to k do

yij xij/ ∑

)1/2

Y [y1 ,y2 yk ]

5. Phân thành k cụm thông qua K-Means

5.1.

5.2. for i1 to n do

42

K-Mean(P)

6. Gán các si vào các cụm

6.1. for i1 to n do

if

7. Return C1, C2 Ck

2.4.2. Thuật toán đề xuất cho phân cụm gia tăng

Có rất nhiều thuật toán phân cụm như K-means [30], K-medoid [62], ….

được sử dụng trong các thuật toán tra cứu ảnh. Tuy nhiên, trong các phương

pháp tra cứu ảnh sử dụng phân cụm [46,60,126] khi một ảnh mới được thêm

vào, thuật toán cần phân cụm lại từ đầu. Do đó, các thuật toán này không phù

hợp với trường hợp các yêu cầu trực tuyến, chẳng hạn, trường hợp mà áp dụng

với một tập nhỏ các ảnh phản hồi nhưng yêu cầu phân cụm tức thì và nhiều ảnh

vẫn cần được bổ sung và phân cụm tiếp theo không. Những thuật toán thỏa mãn

trường hợp trực tuyến này được gọi là ―gia tăng‖ hoặc ―phân cụm gia tăng‖.

Trong thuật toán phân cụm gia tăng, xác định cụm cho một đối tượng là công

việc quan trọng nhất.

Giả sử dữ liệu có phân phối Gauss. Trong thuật toán này, ta coi mỗi cụm

như một nhóm. Khi huấn luyện, ta sẽ ước lượng tâm và ma trận hiệp phương sai.

Công việc xác định cụm của một đối tượng được qui về bài toán tìm một ước

lượng | sao cho: với một đầu vào được cho , nhãn cụm của nó sẽ được

xác định theo:

0 | (2.8)

Tuy nhiên, | rất khó tính toán, do đó thay vì tính toán | , ta sẽ

ước lượng qua | và . Theo luật Bayes, với i là nhãn của nhóm, ta có

công thức:

43

| |

(2.9)

|

∑ | (2.10)

(các véc tơ đặc trưng x là độc lập tuyến tính)

Giả sử rằng | là phân phối chuẩn đa biến với hàm mật độ:

|∑ |

|∑ | (2.11)

Trong đó:

Trung bình của nhóm i

∑ : ma trận hiệp phương sai gộp chung của tất cả các nhóm

Giả sử rằng ta biết:

(2.12)

{ }

(2.13)

Lưu ý: công thức (2.13) là tỉ số của các mẫu huấn luyện của nhóm i trên

tổng số mẫu huấn luyện.

Đến đây, chúng ta thu được công thức:

|

(2.14)

Vì mẫu số trong (2.14) không phụ thuộc vào i, nên chúng ta có thể coi nó

là một hằng số C và thu được công thức.

| (2.15)

Thay từ (2.11) vào (2.15), ta được:

|

|∑ |

|∑ | (2.16)

44

Vì |∑ | trong (2.16) không phụ thuộc vào i nên ta đặt

|∑ | bằng hằng số và ta có:

|

|∑ | (2.17)

và lấy logarit của cả hai vế của (2.17), ta được:

|

(2.18)

Giá trị của vế phải (2.18) đúng với mọi nhóm i nên ta chỉ quan tâm

đến:

∑ (2.19)

=

[ ∑

] ∑

(2.20)

Như vậy, mục tiêu của ta là cực đại công thức (2.20) theo i.

Do ∑

trong (2.20) không phụ thuộc vào i nên ta coi nó là một

hằng số nên (2.20) biến đổi thành

(2.21)

Bỏ qua hằng số , ta có hàm mục tiêu:

(2.22)

Với một đầu vào x, chúng ta dự đoán nhãn của nó là i nếu cao nhất.

Thuật toán 2.2 dưới đây, có tên là INC - Incremental Clustering (phân

cụm gia tăng), thực hiện việc xác định một đối tượng mới sẽ thuộc cụm nào.

Thuật toán INC có đầu vào là một tập ví dụ huấn luyện D và một ảnh cần xác

định cụm. Ở phần xử lý, thuật toán thực hiện tính toán giá trị và lấy giá

trị i mà có đạt cực đại. Đầu ra của thuật toán là cụm i chứa ảnh .

45

Thuật toán 2.2. Thuật toán INC

Input: - D={ N { } }: tập huấn luyện

- : ảnh

Output: - i: cụm chứa ảnh mới

1. Tách D thành g cụm dựa vào số ượng cụm trong Y

2. Tính trung bình của mỗi cụm { } và của cả tập D

3. Tính ma trận hiệ ươ ủa nhóm { } và ma trận hiệp

ươ ộp chung.

4. Tí é ơ ế xác suất tiền nghiệm theo (2.13)

5. Tính , , theo công thức (2.22)

6. Return

Để đánh giá tính hiệu quả của thuật toán gia tăng đề xuất, luận án chia làm

hai trường hợp. Trường hợp đầu tiên, dựa trên tập dữ liệu Iris (Iris flower

dataset) để đánh giá tính hiệu quả về độ chính xác. Trường hợp thứ hai, đánh giá

hiệu quả về thời gian dựa trên phương pháp tra cứu ảnh AWEIGHT.

Trường hợp 1 (đánh giá độ chính xác):

Tập dữ liệu IRIS1 cho thực nghiệm: Tập dữ liệu này bao gồm thông tin

của ba loại hoa Iris khác nhau (một loài hoa lan). Ba loại hoa gồm: Iris setosa,

Iris virginica và Iris versicolor. Mỗi trong ba loại này có 50 bông hoa. Dữ liệu

gồm 4 thông tin: chiều dài, chiều rộng đài hoa (sepal) và chiều dài, chiều rộng

cánh hoa (petal). Mỗi điểm dữ liệu trong tập này là một vector 4 chiều.

Luận án thực hiện ba phương pháp phân cụm trên tập dữ liệu IRIS gồm:

K-means [106], phổ Spectral [1] và thuật toán đề xuất INC. Phương pháp k-

mean được thực hiện 3 lần trên 150 mẫu (lý do là hiệu quả của thuật toán K-

mean phụ thuộc một phần vào tâm khởi tạo) và kết quả là trung bình của ba lần

phân cụm. Phương pháp phổ Spectral được thực hiện 1 lần trên 150 mẫu.

Phương pháp đề xuất INC được thực hiện theo 3 vòng: vòng 1 là phân cụm khởi

1 https://archive.ics.uci.edu/ml/datasets/iris

46

tạo với phân cụm phổ trên 50 mẫu; vòng 2 là phân cụm gia tăng lần thứ nhất trên

50 mẫu và vòng 3 là phân cụm trên 50 mẫu còn lại. Kết quả của 03 phương pháp

phân cụm được chỉ trên Bảng 2.1. Như thấy trong bảng này, phương pháp K-

means có 130 mẫu đúng và 20 mẫu sai, phương pháp phổ Spectral có 131 mẫu

đúng và 19 mẫu sai, phương pháp đề xuất INC có 132 mẫu đúng và 18 mẫu sai.

Như vậy, số mẫu đúng của ba phương pháp là xấp xỉ nhau, phương pháp INC

nhỉnh hơn phương pháp K-means là 02 mẫu và nhỉnh hơn phổ Spectral là 1 mẫu.

Bảng 2.1: Kết quả phân cụm của ba phƣơng pháp.

STT Phƣơng pháp

phân cụm

Số mẫu phân

cụm đúng

Số mẫu phân

cụm sai

1 K-means 130 20

2 Phổ Spectral 131 19

3 Gia tăng INC 132 18

Trường hợp 2 (đánh giá thời gian):

Trường hợp thứ hai, đánh giá hiệu quả về thời gian dựa trên phương pháp

tra cứu ảnh AWEIGHT.

Phần này thực hiện đánh giá tính hiệu quả về thời gian trên Aweight là vì

hai lý do sau: thứ nhất, phương pháp INC có yếu tố giảm chiều, trong khi tập dữ

liệu Iris chỉ có 4 chiều. Thứ hai, số mẫu của tập IRIS chưa đủ lớn (150 mẫu) nên

khó phân biệt được tốc độ.

Luận án đã đánh giá thời gian thực hiện của INC qua phương pháp tra cứu

Aweight trên tập ảnh Corel gồm 10.800 ảnh. Trong thực nghiệm này, thời gian

của phương pháp AWEIGHT (có sử dụng phân cụm gia tăng INC) được so sánh

với phương pháp Aweight_WRC (Aweight sử dụng phân cụm phổ

SPECTRAL). Như thấy trên Hình 3.11, thời gian thực hiện của AWEIGHT

nhanh hơn nhiều so với Aweight_WRC.

47

2.4.3. Công thức đề xuất cho tính khoảng cách cải tiến

Trong phần này, luận án đề xuất công thức tính khoảng cách từ một ảnh

đến truy vấn đa điểm MQ = (Q1, Q2,..Qn). Khoảng cách này (2.23) là cực

tiểu của các khoảng cách có trọng số từ một ảnh đến mỗi truy vấn Qi:

( ) (2.23)

ớ { }

Trong công thức (2.23), Dist( ,Qi ) với i=1..n, j=1..k là

khoảng cách từ một ảnh đến một truy vấn Qi với trọng số đặc trưng

(xác định theo thuật toán IF ), là trọng số ngữ nghĩa kết hợp

với khoảng cách dij (xem cách tính trọng số ngữ nghĩa trong công thức (2.24)).

2.4.4. Công thức đề xuất cho tính trọng số ngữ nghĩa của truy vấn

Trong mục này, luận án đề xuất một công thức tính trọng số ngữ nghĩa

của truy vấn.

Đề xuất được dựa trên nhận thức rằng, trong một cụm chứa nhiều ảnh liên

quan ngữ nghĩa sẽ quan trọng hơn các cụm còn lại. Do đó, truy vấn được tạo ra

từ cụm đó sẽ có trọng số ngữ nghĩa cao hơn các cụm còn lại. Vì vậy, tác giả đề

xuất tính trọng số ngữ nghĩa wij kết hợp với khoảng cách dij từ ảnh đến truy

vấn Qi (thuộc cụm ngữ nghĩa i) là tỉ số giữa số ảnh liên quan ngữ nghĩa trong

cụm i và tổng số các ảnh liên quan của n cụm ngữ nghĩa.

| ụ ứ |

∑ | ụ ứ |

ớ { } (2.24)

Các trọng số cần thỏa mãn điều kiện ∑ ớ { }

Chẳng hạn, với và { } , chúng ta sẽ có 3 truy vấn tương

ứng với 3 cụm (xem Hình 2.8) và trọng số ngữ nghĩa gắn với truy vấn 1, 2 và 3

sẽ được tính theo công thức (2.24) như sau:

48

| ụ |

| ụ | | ụ | | ụ |

| ụ |

| ụ | | ụ | | ụ |

| ụ |

| ụ | | ụ | | ụ |

Hình 2.8. Minh họa tính trọng số ngữ nghĩa từ một ảnh đến 3 truy vấn.

2.4.5. Thuật toán đề xuất cho tính độ quan trọng đặc trƣng

Mỗi một ảnh được biểu diễn bởi một điểm trong không gian đặc trưng.

Thông thường, các phương pháp trước đây coi các đặc trưng này có độ quan

trọng như nhau. Chẳng hạn: khi so sánh các đặc trưng trong cơ sở dữ liệu đặc

trưng mà luận án sử dụng (gồm 7 đặc trưng ColorHsvHistogram64,

ColorLuvMoment123, ColorHsvCoherence64, CoarsnessVector, Directionality,

WaveletTwtTexture, MRSAR), các đặc trưng sẽ được coi là có độ quan trọng

ngang bằng nhau. Điều này không phản ảnh đúng thực tế là có một số đặc trưng

quan trọng hơn các đặc trưng còn lại. Do đó, tác giả đề xuất cần phải quan tâm

tới độ quan trọng của mỗi đặc trưng trong pha so sánh ảnh.

Ý tưởng chính của việc xác định độ quan trọng đặc trưng là dựa vào sự

phản hồi của người dùng và độ phân tán của các điểm dữ liệu. Khi người dùng

phản hồi một số ảnh liên quan ngữ nghĩa với ảnh truy vấn, phương pháp đề xuất

sẽ phân cụm các ảnh này thành các cụm và xét mỗi cụm trong số các cụm này

: ảnh liên quan ngữ nghĩa

: ảnh truy vấn

Cụm_3

Cụm_2

Cụm_1

49

như sau: mỗi ảnh trong một cụm sẽ là một điểm trong không gian đặc trưng và

các điểm này sẽ có vị trí gần nhau trong không gian đặc trưng. Một hình bao các

điểm này sẽ được chiếu xuống các trục tương ứng với các đặc trưng, sau đó tính

phương sai của các điểm này theo mỗi trục (độ phân tán dữ liệu theo một trục

trong không gian đặc trưng lớn có nghĩa là độ quan trọng theo trục đó nhỏ). Do

đó, độ quan trọng của mỗi đặc trưng trong không gian đặc trưng là nghịch đảo

của phương sai của các điểm theo trục đó.

Thuật toán 2.3 dưới đây, có tên IF (Importance of Feature), sẽ xác định độ

quan trọng đặc trưng. Thuật toán tính độ quan trọng của đặc trưng trong không

gian đặc trưng FS.

Thuật toán 2.3. Thuật toán IF

Input:

Tập n é ơ đặ ư trong một cụm C

Tậ á đặ ư FS

Số đặ ư m

Ouput:

Độ quan trọng củ đặ ư l Weight_l

1. For l1 to m do

{

1.1.

1.2.

1.3. Weight_l

// trọng số đặ ư thứ l

}

Thuật toán IF lấy đầu vào là n véc tơ đặc trưng

trong

một cụm trên không gian FS. Lúc này, theo đặc trưng thứ l của không gian đặc

trưng FS sẽ có n điểm dữ liệu

và thuật toán tính

phương sai của n điểm dữ liệu này theo trục l của không gian FS. Sau khi

tính được giá trị của phương sai , thuật toán đưa ra độ quan trọng của từng

50

đặc trưng l trong không gian đặc trưng FS. Độ quan trọng của đặc trưng theo

trục l sẽ được tính bằng

và gán cho Weight_l.

2.4.6. Thuật toán đề xuất cho gộp các danh sách kết quả

Với mỗi điểm truy vấn, hệ thống sẽ cho ra một danh sách kết quả. Các

danh sách này cần được gộp lại để có một danh sách kết quả cuối cùng. Thuật

toán gộp thực hiện công việc này.

Dưới đây là thuật toán Combination, nó thực hiện việc gộp các danh sách

kết quả Ri thành danh sách kết quả tổng hợp R.

Thuật toán 2.4. Thuật toán Combination

Input:

Danh sách truy vấn: (Q1, Q2 Qn) mỗi Qi có một cụm Ci ươ ứng

Số các ảnh trả về : k

Danh sách các kết quả: (R1, R2 n) //mỗi Ri gồm

Trọng số đặ ư : Weight_l

Output:

Danh sách kết quả R

1. for mỗi Ri (i=1..n) do

1.1. for j1 to k do

0;

1.2. for i1 to n do

1.2.1. | ụ ứ |

∑ | ụ ứ |

1.2.2. (1-wij)*dist( ,Qi,Weight_l);

1.2.3. If ( > )

2. for i1 to n do

2.1. for j1 to k do

Sắp xếp các theo thứ tự ă ần về khoảng cách

3. return R

51

Với đầu vào là một danh sách truy vấn Q1, Q2,…Qn và danh sách các kết

quả tương ứng R1, R2, ….Rn mỗi Ri sẽ lấy k ảnh được phân hạng đầu tiên

. Thuật toán sẽ tính khoảng cách Dij từ ảnh đến truy vấn Qi

thông qua hàm dist( , , ) theo trọng số đặc trưng Weight_l (là đầu ra của thuật

toán IF ở trên). Bên cạnh đó, trọng số kết hợp với khoảng cách Dij được tính là

số các ảnh liên quan ngữ nghĩa của Cụm_thứ_i chia cho tổng số các ảnh của tất

cả n cụm. Khoảng cách cuối cùng từ một ảnh đến các truy vấn Qi là cực tiểu các

giá trị khoảng cách từ ảnh đến mỗi truy vấn Qi. Sau đó, thuật toán sắp xếp các

ảnh theo thứ tự tăng dần về khoảng cách Dij và loại đi các ảnh trùng nhau

để có được kết quả cần gộp R.

Mệnh đề 1. [Độ phức tạp của thuật toán Combination]:

Độ phức tạp của thuật toán Combination là với n là số danh

sách cần kết hợp và k là số ảnh trả về của mỗi danh sách,

Chứng minh:

Hiển nhiên rằng thời gian thực hiện của thuật toán Combination là thời

gian thực hiện lớn nhất của bước 1, bước 2 và bước 3. Do đó, chúng ta cần xác

định thời gian thực hiện của bước 1, bước 2 và bước 3.

Rõ ràng rằng, thời gian thực hiện của bước 1 là thời gian thực hiện k lần

thân vòng lặp for. Để xác định thời gian của thân vòng lặp này, chúng ta cần xác

định thời gian thực hiện của bước 1.1 và bước 1.2. Bước 1.1 có thời gian thực

hiện là O(1). Thời gian thực hiện của bước 1.2 là O(n) vì các bước 1.2.1, 1.2.3

đều có thời gian thực hiện là O(1), bước 1.2.2 gọi hàm tính khoảng cách dist(, ,)

cũng có thời gian là O(1). Do đó, theo qui tắc cộng, chúng ta có thời gian thực

hiện của cả bước 1.1 và bước 1.2 là O(n). Theo qui tắc nhân, từ thời gian thực

hiện thân vòng lặp là O(n), chúng ta có thời gian thực hiện ở bước 1 là O(kn).

Hiển nhiên rằng, thời gian thực hiện của bước 2 là thời gian thực hiện n

lần thân vòng lặp for. Để xác định thời gian của thân vòng lặp này, chúng ta cần

52

xác định thời gian thực hiện của bước 2.1. Bước 2.1 thực hiện việc sắp xếp k đối

tượng, có thời gian là O(klogk). Theo qui tắc nhân, từ thời gian thực hiện thân

vòng lặp là O(klogk), chúng ta có thời gian thực hiện ở bước 2 là O(knlogk).

Ngoài ra, bước 3 có thời gian thực hiện là O(1).

Vì số danh sách kết quả đầu vào n thường rất nhỏ nên có thể coi là hằng

số, do đó, độ phức tạp thời gian của thuật toán Combination là O(klogk). Mệnh

đề đã được chứng minh.

2.4.7. Thuật toán đề xuất chung cho tra cứu ảnh liên quan ngữ nghĩa

Như đã đề cập ở phần trước, yêu cầu người dùng cung cấp đồng thời

nhiều ảnh truy vấn đa dạng là một gánh nặng cho người dùng và trong nhiều

trường hợp không thể thực hiện được. Những hệ thống tra cứu cần phải giảm

gánh nặng này cho người dùng. Ở phần này, luận án đề xuất một thuật toán, có

tên SRIR (Semantic – Related Image Retrieval), không đòi hỏi người dùng phải

cung cấp đồng thời nhiều truy vấn đa dạng. Trong thuật toán này, với một ảnh

truy vấn mà người dùng đưa vào, phương pháp sử dụng cách tiếp cận nhiều biểu

diễn [129] để có được tập ảnh kết quả đa dạng (gồm các ảnh nằm rải rác ở các

cụm khác nhau trong không gian đặc trưng). Nhờ tính đa dạng của tập này mà

người dùng có thể chọn ra các ảnh liên quan về mặt ngữ nghĩa đa dạng theo nhu

cầu của mình. Sau khi người dùng chọn các ảnh liên quan ngữ nghĩa đa dạng.

Các ảnh này sẽ được phân thành các cụm và trọng tâm của mỗi cụm sẽ được

chọn làm các truy vấn tiếp theo, vì lý do: (1) quá nhiều truy vấn sẽ là gánh nặng

đối với thuật toán kết hợp danh sách kết quả và (2) số các truy vấn quá nhiều

không cải tiến nhiều được độ chính xác của hệ thống (độ chính xác tốt nhất

trong khoảng 4 đến 8 truy vấn [49]). Tiếp theo, chúng ta sẽ so sánh véc tơ truy

vấn đại diện của các cụm với các ảnh trong tập ảnh. Việc so sánh này sẽ bao

gồm độ quan trọng đặc trưng (mỗi đặc trưng sẽ có một độ quan trọng khác nhau)

(đầu ra của thuật toán IF). Các truy vấn tiếp theo thực hiện trên một hệ thống

CBIR để được các danh sách kết quả. Kết hợp các danh sách kết quả này sẽ cho

53

ra danh sách kết quả tổng hợp. Quá trình có thể lặp cho đến khi người dùng thỏa

mãn.

Dưới đây là mô tả thuật toán tra cứu các ảnh liên quan ngữ nghĩa SRIR (

Semantic–Related Image Retrieval method).

Thuật toán 2.5. Thuật toán SRIR

Input:

Tập các ả ơ ở dữ liệu DB

Ảnh truy vấn Q

Số các ả được tra cứu sau mỗi lần lặp k

K ô đặ ư F

Số đặ ư m

Ouput:

Tập ảnh kết quả R

1. C+Q; PMQFC+ ;

2. WMQFC+ ; DMQFC+ ( )

3. s1 <1, PMQFC+, WMQFC+, DMQFC+, DB, k>;

4. C- ; PMQFC- ;

5. WMQFC- ; DMQFC- ( )

6. s2 <1, PMQFC-, WMQFC-, DMQFC-, DB, k>;

7. G+ ; PMQFG+ ;

8. WMQFG+ ; DMQFG+ ( )

9. s3 <1, PMQFG+, WMQFG+, DMQFG+, DB, k>;

10. G- ; PMQFG- ;

11. WMQFG- ; DMQFG- ( )

12. s4 <1, PMQFG-, WMQFG-, DMQFG-, DB, k>;

13. ( )

14.US;

15. repeat

15.1. USUS ;

54

15.2. CL ;

15.3. for i1 to n do

15.3.1. ;

15.3.2. ci (CiCL);

15.3.3. PMQici

15.3.4. for j1 to k do

WMQi| ụ ứ |

∑ | ụ ứ |

DMQid ( );

Ri<1, PMQi, WMQi, DMQi, DB, k>;

15.4.

15.5. SR

until (User dừng phản hồi);

16. return R;

Thuật toán tra cứu ảnh liên quan ngữ nghĩa SRIR trên được thực hiện như

sau: Mỗi ảnh trong cơ sở dữ liệu được biểu diễn là một điểm trong không gian

đặc trưng. Các điểm trong không gian đặc trưng này được phân thành các cụm

đặc trưng. Khi người dùng cung cấp một ảnh truy vấn trên giao diện truy vấn bởi

mẫu, thuật toán biến đổi ảnh truy vấn Q thành ba biểu diễn C-, G+, G- (giả thiết

sử dụng 4 biểu diễn với biểu diễn C+ chính là Q) thông qua hàm biến đổi

Transform( , ). Trên các biểu diễn vừa được biến đổi C+, C-, G+, G-, thuật toán

trích rút các đặc trưng thông qua hàm trích rút Extraction( , ) để được các véc

tơ đặc trưng của các biểu diễn tương ứng là PMQFC+, PMQFC-, PMQFG+, PMQFG-.

Trên các véc tơ đặc trưng vừa trích rút được, thuật toán tiến hành tra cứu ảnh

đơn điểm (nMQ=1) với điểm truy vấn là một trong các PMQFC+, PMQFC-, PMQFG+,

PMQFG- có trọng số là 1 (các truy vấn có độ quan trọng ngang bằng nhau). Hàm

khoảng cách dist( , , ) từ một ảnh thuộc tập ảnh cơ sở dữ liệu DB đến một trong

các truy vấn PMQFC+, PMQFC-, PMQFG+, PMQFG- với cơ sở dữ liệu là DB theo một

trọng số đặc trưng là Weight_l=1 để cho ra các danh sách kết quả s1, s2, s3, s4.

Các danh sách kết quả s1, s2, s3, s4 sẽ được kết hợp lại thông qua thủ tục

Combination( ; ; ; ; ) (xem thuật toán Combination) để được danh sách kết hợp

S. Trên danh sách S, người dùng sẽ chọn ra các ảnh liên quan ngữ nghĩa theo ý

55

nghĩ của mình thông qua để được tập US. Tập US

sẽ được phân thành các cụm Ci với i=1,..n, tính độ quan trọng của đặc trưng

qua thuật toán và tính trọng tâm các cụm Ci này thông qua hàm

Centroid( ) và gán cho ci. Trọng số wMQi gắn với truy vấn MQi được tính theo

công thức (2.24) và Ri là kết quả của truy vấn đơn điểm

<1,PMQi,WMQi,DMQi,DB,k>. Kết hợp các Ri với i=1,..n thông qua thủ tục

Combination(), thuật toán cho ra danh sách R. Nếu thỏa mãn, người dùng sẽ

dừng phản hồi, ngược lại thuật toán cho phép người dùng tiếp tục phản hồi trên

tập R. Kết quả phản hồi của người dùng ở lần lặp hiện tại sẽ được gộp lại với các

ảnh liên quan ngữ nghĩa của lần lặp trước thông qua phép hợp

US , với US là tập các phản hồi của người dùng

trên S của lần lặp trước và S được thay bằng R ở lần lặp hiện tại.

Mệnh đề 2. [Độ phức tạp của thuật toán SRIR]:

Độ phức tạp của thuật toán SRIR là với N là số các ảnh có trong cơ

sở dữ liệu.

Chứng minh:

Hiển nhiên rằng thời gian thực hiện của thuật toán SRIR là thời gian thực

hiện của các bước 3, 6, 9, 12, 13, 15, bởi vì các bước 1, 2, 4, 5, 7, 8, 10, 11, 14,

16 là O(1).

Rõ ràng rằng, bước 3 thực hiện việc đối sánh truy vấn với mỗi ảnh trong

cơ sở dữ liệu ảnh nên thời gian là O(N) với N = |DB|, tương tự với các bước 6,

9, 12. Bước 13 gọi hàm Combination() nên thời gian thực hiện là O(klogk).

Ở bước 15 có số lần lặp là số lần phản hồi của người dùng, thông thường

là nhỏ và có thể coi là hằng số. Do đó thời gian thực hiện của bước 15 là thời

gian thực hiện của các lệnh bên trong repeat…until. Xét bước 15.1, bước này

thực hiện việc phản hồi của người dùng trên k đối tượng đầu tiên của tập S nên

có thời gian thực hiện là O(k). Bước 15.2 thực hiện việc phân cụm tập US thành

56

n cụm, có độ phức tạp tính toán là O(lnt) [127] với l=|US|, là số cụm ( l)

và t là số lần lặp để phân cụm (t l), do đó có độ phức tạp là O(l). Thân của

bước 15.3 chứa các bước 15.3.1, 15.3.2, 15.3.3 đều có thời gian là O(n), riêng

bước 15.3.4 có thời gian là O(k). Do thân của bước 15.3 được lặp n lần nên áp

dụng qui tắc tích ta có thời gian thực hiện là O(nk) và n nhỏ nên được coi là

hằng số và do đó thời gian thực hiện của bước 15.3 là O(k). Bước 15.4 gọi hàm

Combination() nên thời gian thực hiện là O(klogk). Bước 15.5 có thời gian là

O(1). Như vậy, áp dụng qui tắc cộng, ta có thời gian thực hiện của bước 15 là

O(klogk).

Tóm lại, thời gian thực hiện của các bước 1, 2, 4, 5, 7, 8, 10, 11, 14, 16 là

O(1), thời gian thực hiện của bước 3, 6, 9 là O(N) với N =|DB|, thời gian của

bước 13 là O(klogk) với k N và thời gian thực hiện của bước 15 là O(klogk) với

k N.

Do đó, áp dụng quy tắc cộng, chúng ta nhận được thời gian của thuật toán

SRIR là O(N). Mệnh đề đã được chứng minh.

2.5. Đánh giá thực nghiệm

2.5.1. Môi trƣờng thực nghiệm

Cơ sở dữ liệu ảnh:

Cơ sở dữ liệu được sử dụng cho thử nghiệm là tập con của Corel. Tập này

gồm 34 loại2, mỗi loại có 100 ảnh, cụ thể là: 290, 700, 750, 770, 840, 1040,

1050, 1070, 1080, 1090, 1100, 1120, 1340, 1350, 1680, 2680, 2890, 3260, 3510,

3540, 3910, 4150, 4470, 4580, 4990, 5210, 5350, 5530, 5810, 5910, 6440, 6550,

6610, 6840. Tất cả các ảnh trong tập ảnh này có tính chất là đều chứa đối tượng

tiền cảnh nổi bật. Cỡ của các ảnh có max(chiều rộng, chiều cao)=384 và

min(chiều rộng, chiều cao)=256.

2 http://www.cs.virginia.edu/~xj3a/research/CBIR/Download.htm (Download lúc 4:30

PM ngày 10/5/2016)

57

Véc tơ đặc trƣng:

Các đặc trưng được chia làm hai loại là: các đặc trưng mầu và các đặc trưng kết

cấu (xem Bảng 2.2 ở dưới).

Bảng 2.2. Các loại đặc trƣng

Các loại đặc trƣng Tên đặc trƣng Số chiều

Loại đặc trưng mầu

Lược đồ mầu ColorHsvHistogram64 64

Mô men mầu ColorLuvMoment123 9

Gắn kết mầu ColorHsvCoherence64 128

Loại đặc trưng

kết cấu

Kết cấu Tamura CoarsnessVector 10

Directionality 8

Kết cấu Wavelet WaveletTwtTexture 104

Kết cấu MASAR MRSAR 15

Các biểu diễn ảnh:

Bốn biểu diễn ảnh được sử dụng bao gồm ảnh mầu (C+), ảnh âm bản của

ảnh mầu (C-), ảnh đa cấp xám (G+), và ảnh âm bản của ảnh đa cấp xám (G-).

Mỗi biểu diễn có bảy đặc trưng trực quan gồm ba đặc trưng mầu và bốn đặc

trưng kết cấu. Tất cả các đặc trưng này được so sánh tương ứng để nhận được độ

tương tự và sau đó kết hợp tuyến tính với các trọng số ngang bằng nhau (cùng

độ quan trọng). Các véc tơ đặc trưng tương ứng với mỗi kênh là một bảng hai

chiều gồm 3400 dòng (mỗi dòng chứa một véc tơ đặc trưng của ảnh với kênh

tương ứng) và 03 cột (cột phân hạng từ 0 đến 3399 theo ảnh truy vấn, cột ID

ảnh, cột độ tương tự trong khoảng [0,1]).

Tập thực sự (ground truth):

Tập thực sự Corel được sử dụng rộng rãi trong đánh giá CBIR, thực

nghiệm sử dụng phân loại Corel làm thực sự, tức là xem tất cả các ảnh trong

cùng một loại Corel là liên quan. Tập thực sự này gồm 4 cột (có tiêu đề: ID ảnh

58

truy vấn, Truy vấn khởi tạo Q0, ID ảnh và Sự liên quan) và gồm 3400 dòng (mỗi

dòng là một véc tơ đặc trưng).

2.5.2. Chiến lƣợc mô phỏng phản hồi liên quan

Để bắt chước hành vi của con người, thực nghiệm thực hiện mô phỏng

phản hồi liên quan trong thử nghiệm. Đầu tiên, một truy vấn khởi tạo sẽ được

thực hiện để tạo ra kết quả truy vấn khởi tạo. Tiếp theo, để mô phỏng tương tác

người dùng bằng việc chọn k ảnh liên quan từ kết quả tra cứu khởi tạo dựa vào

tập thực sự. Những ảnh liên quan từ việc phản hồi sẽ phân thành các cụm và

trọng tâm của các cụm được dùng để hình thành truy vấn tiếp theo và được thực

hiện theo cách tiếp cận truy vấn đa điểm lõm, sau đó những kết quả tra cứu được

gộp lại để tạo ra một danh sách kết quả tổng hợp.

Phản hồi liên quan được thực hiện theo chiến lược chọn những ảnh liên

quan đầu tiên (dựa vào tập thực sự) trong danh sách kết quả. Trong chiến lược

này, trường hợp xấu nhất là không có ảnh liên quan nào ngoài ảnh truy vấn và

trường hợp tốt nhất là có k-1 ảnh liên quan ngoài ảnh truy vấn. Do đó, số lượng

ảnh liên quan có thể dao động từ 1 đến k ảnh (bao gồm cả ảnh truy vấn). Chiến

lược này được sử dụng để mô phỏng người dùng thực tế trong thực nghiệm đánh

giá phương pháp đề xuất.

2.5.3. Thực hiện truy vấn và đánh giá

Trong thực nghiệm, các yếu tố đó được lựa chọn như sau:

Mỗi truy vấn được đưa vào hệ thống có 4 biểu diễn. Kết quả tương ứng

với 4 biểu diễn được gộp lại để nhận được danh sách kết quả tổng hợp cho truy

vấn khởi tạo. Sau đó, người dùng sẽ phản hồi trên danh sách kết quả tương ứng

với truy vấn khởi tạo này để sinh ra các truy vấn tiếp theo (mỗi cụm sẽ là một

truy vấn tiếp theo). Trong pha tính khoảng cách, trọng số gắn với khoảng cách

theo mỗi truy vấn và trọng số của đặc trưng trong không gian đặc trưng được

tính để giúp khoảng cách giữa truy vấn và ảnh trong cơ sở dữ liệu được chính

xác hơn. Danh sách kết quả gộp của các truy vấn mới này sẽ là kết quả tra cứu.

59

Quá trình sẽ dừng lại khi người dùng không tiếp tục phản hồi. Mô hình hệ thống

thực hiện quá trình này được thể hiện trên Hình 2.9. Một số giao diện xem trong

Phụ lục B.

Hình 2.9. Mô hình hệ thống.

Tất cả 3400 ảnh trong tập ảnh được dùng làm các truy vấn. Độ chính xác3

trung bình ở mức 150 ảnh trả về được sử dụng để đánh giá. Lý do của việc chọn

150 là vì thông thường người dùng chỉ xem trong ba màn hình (mỗi màn hình có

50 ảnh). Sáu thiết lập phản hồi được sử dụng để so sánh là 1, 4, 8, 12, 16, 20

truy vấn phản hồi và một chiến lược phản hồi, do đó sẽ có 6 cấu hình. Ba

phương pháp khác nhau được sử dụng để so sánh bao gồm Basic C+ (hệ thống

CBIR truyền thống với biểu diễn C+ trên đặc trưng toàn cục), hệ thống JF [49],

hệ thống MMRF [33] với hệ thống SRIR mà luận án đề xuất.

Thực nghiệm thực hiện chạy 3400 truy vấn dưới 6 cấu hình để nhận được

độ chính xác trung bình. Bên cạnh đó, chỉ có 1 lần lặp phản hồi được dùng trong

thực nghiệm. Các kết quả, độ chính xác trung bình của 3400 truy vấn, được thể

3 Độ chính xác (precision) là tỉ số giữa số các ảnh liên quan với ảnh truy vấn trong tập kết quả trả về

trên tổng số các ảnh trả về.

Q1

Q2

Q3

Q4

C+

C-

G++

G-

Q R

S1

S2

S3

S4

S

USER

chọn

ảnh

trong

US

Phân cụm, tính độ quan

trọng ngữ nghĩa của

từng truy vấn, tính độ

quan trọng của đặc

trưng

Tìm đại diện cụm

Q1

Q2

Qn

Máy

tìm

kiếm

R1

R2

Rn

60

hiện bằng số liệu trong Bảng 2.3 và bằng đồ thị trong Hình 2.10 ở dưới. (chi tiết

về độ chính xác của toàn bộ 3400 truy vấn xem tại địa chỉ

http://117.6.134.238:368/results.html/).

Trong Bảng 2.3, thể hiện độ chính xác trung bình của ba phương pháp là

Basic C+, JF, MMRF và phương pháp đề xuất SRIR tại các mức 1,4 ,8 ,12, 16

và 20 truy vấn, với số cụm cũng chính là số truy vấn

Bảng 2.3. Bảng kết quả của 3 phƣơng pháp theo số truy vấn trong một lần

phản hồi.

Phƣơng

pháp

Độ chính xác theo số truy vấn

1 truy

vấn

4 truy

vấn

8 truy

vấn

12 truy

vấn

16 truy

vấn

20 truy

vấn

Basic C+ 0.20 0.22 0.23 0.24 0.245 0.25

JF 0.24 0.29 0.31 0.33 0.34 0.35

MMRF 0.243 0.31 0.315 0.323 0.334 0.365

SRIR 0.36490 0.39789 0.40035 0.40241 0.40360 0.40385

Các kết quả thực nghiệm được chỉ ra trong Hình 2.10. Trục ngang chỉ ra

số cụm (có thể là 1, 4, 8, 12, 16, 20). Trục đứng chỉ ra độ chính xác. Ba phương

pháp khác nhau gồm Basic C+ , JF, MMRF và SRIR được chỉ ra bởi 3 đường

cong.

61

.

Hình 2.10. So sánh độ chính xác.

Hình 2.10 với Độ chính xác của các hệ thống tăng lên (trục đứng) cùng

với sự tăng của trung ngang (số các cụm). Nhiều cụm được sử dụng trong tra

cứu, độ chính xác hệ thống sẽ cao hơn. Dễ thấy, độ chính xác của phương pháp

SRIR tốt hơn khi số cụm trong khoảng từ 1 đến 8, cụ thể là 36.490% ở mức 1,

39.789% ở mức 4 và 40.035% ở mức 8. Trong phương pháp SRIR, đường cong

độ chính xác tăng nhanh từ 1 đến 8 cụm (đặc biệt là từ 1 đến 4) và tăng chậm

trong khoảng từ 12 đến 20 cụm, do 8 cụm đã phủ hầu hết các cụm trong không

gian đặc trưng. Dù phương pháp JF cũng tăng nhanh trong khoảng từ 1 đến 8

truy vấn [49] nhưng phương pháp đề xuất SRIR có độ chính xác cao hơn hẳn

mà không làm tăng thời gian tra cứu. Lý do chính của việc này là trong phương

pháp đề xuất, dù số cụm trong khoảng từ 1 đến 8 nhưng tận dụng được thông tin

ngữ nghĩa từ số phản hồi của người dùng nhiều hơn 8.

2.6. Kết luận Chƣơng 2

Luận án đã tập trung vào việc phân tích các ưu điểm và hạn chế của các

phương pháp đã có. Trên cơ sở đó đề xuất phương pháp, có tên là SRIR, giải

quyết bốn vấn đề chính đó là: (1) Chỉ sử dụng một truy vấn để tạo ra kết quả tra

cứu khởi tạo đa dạng, gồm các ảnh nằm trong các vùng khác nhau (giảm gánh

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

1 4 8 12 16 20

Độ

ch

ính

xác

Số truy vấn phản hồi

Basic C+

JF

MMRF

SRIR

62

nặng cho người dùng trong việc không phải chọn nhiều ảnh truy vấn); (2) Phân

cụm các ảnh liên quan với thời gian thấp; (3) Xác định được độ quan trọng ngữ

nghĩa của từng truy vấn và (4) Xác định độ quan trọng theo từng đặc trưng.

Kết quả thực nghiệm trên cơ sở dữ liệu đặc trưng gồm 3400 ảnh đã chỉ ra

rằng phương pháp được đề xuất SRIR cung cấp một độ chính xác cao hơn hẳn

so với các phương pháp Basic C+, MMRF và phương pháp JF.

63

CHƢƠNG 3

PHƢƠNG PHÁP TRA CỨU ẢNH

SỬ DỤNG TRỌNG SỐ THÍCH NGHI

Trong chương này, luận án đề xuất một phương pháp tra cứu ảnh thông

qua trọng số thích nghi. Thay vì sử dụng một véc tơ trọng số giống nhau cho các

vùng chứa các điểm truy vấn tối ưu, luận án đề xuất phương pháp tự động tính

toán các điểm truy vấn tối ưu và các véc tơ trọng số tối ưu tương ứng với các

vùng chứa các điểm truy vấn tối ưu dựa vào phản hồi của người dùng.

3.1. Giới thiệu

Chương 2 của luận án đã trình bày phương pháp tra cứu ảnh [CT5] có thể

lấy được các điểm ảnh cơ sở dữ liệu nằm rải rác trong toàn bộ không gian đặc

trưng và cho kết quả tra cứu cao hơn những phương pháp được so sánh. Tuy

nhiên, phương pháp này và những phương pháp hiện có [58,59,64,80,90,118,

126,119] chưa giải quyết được hai hạn chế sau:

Thứ nhất, nó không khai thác đầy đủ thông tin phản hồi (mức độ liên quan

của mỗi ảnh) để xác định các điểm truy vấn tối ưu. Chẳng hạn, Hình 3.1 là giao

diện chung của các hệ thống hiện có. Giao diện này cho chúng ta thấy, người

dùng chỉ có thể tích chọn vào ô ở phía trên của ảnh (nếu ảnh là liên quan) và

không tích chọn (nếu ảnh không liên quan), Trong khi người dùng đánh giá ảnh

có ID pl_flower\84059 cao hơn ảnh có ID pl_flower\476083.

64

Hình 3.1: Giao diện điển hình của hệ thống CBIR với phản hồi liên quan.

Thứ hai, các phương pháp ở trên coi các vùng chứa các điểm truy vấn tối

ưu khác nhau là ngang bằng nhau và gán cùng trọng số cho tất cả các điểm lân

cận của truy vấn tối ưu. Điều này là không thích hợp vì các vùng khác nhau

thường có những thuộc tính riêng biệt. Hình 3.2 minh họa cho hạn chế này. Trên

Hình này, biểu tượng hình vuông đỏ là ký hiệu của điểm không liên quan, biểu

tượng hình tròn xanh là ký hiệu của điểm liên quan, biểu tượng hình tam giác là

điểm truy vấn tối ưu. Hình 3.2 (a) biểu diễn một điểm truy vấn thứ nhất và các

điểm lân cận. Trong Hình này, chúng ta có tổng số là 23 điểm lân cận được trả

về, trong đó có 12 điểm không liên quan và 11 điểm liên quan. Hình 3.2 (b) biểu

diễn một điểm truy vấn thứ hai và các điểm lân cận. Trong Hình này, chúng ta

có tổng số là 16 điểm, trong đó có 8 điểm không liên quan và 8 điểm liên quan.

Với điểm truy vấn thứ nhất, các phương pháp đã có sẽ lấy các điểm bên trong

hình tròn và do đó kết quả sẽ bao gồm cả 12 điểm không liên quan vào kết quả.

Với điểm truy vấn thứ hai, các phương pháp đã có, kết quả sẽ bao gồm 8 điểm

không liên quan.

65

Hình 3.2. Minh họa vùng truy vấn tối ƣu ngang bằng nhau. (a) Hình bên

trái: điểm truy vấn thứ nhất. (b) Hình bên phải: điểm truy vấn thứ hai.

Hai nhược điểm này dẫn đến độ chính xác của các phương pháp đã có còn

thấp. Những hạn chế này, dẫn tác giả đến một câu hỏi: chúng ta có thể cải thiện

độ chính xác của hệ thống tra cứu ảnh dựa vào nội dung bằng cách khai thác tính

chất cục bộ của các điểm truy vấn tối ưu khác nhau hay không? (tức là tự động

xác định điểm truy vấn tối ưu và bộ trọng số tương ứng dựa vào mẫu phản hồi).

Đó cũng là câu hỏi mà chương này của luận án sẽ tập trung giải quyết. Luận án

giải quyết câu hỏi vừa đặt ra với quan sát rằng ―mỗi vùng chứa một điểm truy

vấn tối ưu có tính chất địa phương của nó, tức là, mỗi hình ellip mà chứa một

điểm truy ấn tối ưu có một hướng khác biệt‖.

Dựa trên quan sát này, luận án đã đề xuất một phương pháp tra cứu ảnh

thông qua trọng số thích nghi, có tên là AWEIGH (An efficient image retrieval

method using adaptive weights) [CT6]. Trong phương pháp này, thay vì sử dụng

một véc tơ trọng số giống nhau cho các vùng chứa các điểm truy vấn tối ưu khác

nhau, phương pháp tự động tính toán các điểm truy vấn tối ưu và các véc tơ

trọng số tối ưu tương ứng với các vùng mà chứa các điểm truy vấn tối ưu dựa

vào phản hồi của người dùng.

Bên cạnh đó, các phương pháp trước đây thực hiện phân cụm tất cả các

ảnh phản hồi, do đó độ phức tạp tính toán của các phương pháp đó sẽ cao. Để

giải quyết hạn chế này, phương pháp đề xuất chỉ phân cụm các phản hồi trong

66

lần lặp đầu tiên (từ lần lặp thứ hai, phương pháp chỉ phân các phản hồi vào các

cụm) (xem mục 2.3 của Chương 2).

Hình 3.3 ở dưới chỉ ra sơ đồ của phương pháp đề xuất trong luận án.

Hình 3.3. Sơ đồ của tra cứu ảnh sử dụng các trọng số thích nghi.

Trong sơ đồ trên Hình 3.3, ở pha tra cứu khởi tạo, phương pháp sử dụng

cách tiếp cận tra cứu trong [CT5], lý do là cách tiếp cận này có thể thu được các

ảnh liên quan nằm rải rác trong không gian đặc trưng. Quá trình tra cứu dựa vào

ảnh mà người dùng đưa vào. Ở giai đoạn đầu, tra cứu theo đơn truy vấn với cùng

một hàm khoảng cách được thực hiện để thu một tập các ảnh đa dạng trực quan

(bao gồm các ảnh trong các cụm khác nhau của không gian đặc trưng). Sau khi

người dùng cung cấp các phản hồi, phương pháp thu được một tập liên quan đa

Máy tìm kiếm

AWEIGHT

Xác định các điểm

truy vấn tối ưu

Xác định các

trọng số Máy tìm kiếm

Tập kết quả

Tập phản hồi

Phân cụm

các ảnh

Tập huấn

luyện

Tập kết quả

Tập phản hồi

Gia tăng cụm

Tính toán hàm khoảng

cách cải tiến

Ảnh truy vấn

67

dạng với N ảnh mẫu. Sau đó, thực hiện thuật toán phân cụm khởi tạo để phân

cụm tập N ảnh mẫu vào g cụm để thu được một tập mẫu huấn luyện (lý do xây

dựng một tập mẫu huấn luyện đó là mong muốn không cần phân cụm lại khi bổ

sung các ảnh mới) và cũng có g cụm cho lần tra cứu tiếp theo. Với mỗi cụm tìm

được (yêu cầu người dùng cung cấp mức phản hồi của mỗi thành viên cụm), dựa

vào trục của ellipsoid chứa các điểm trong cụm để tìm điểm tối ưu (Khối xác

định các điểm truy vấn tối ưu) và véc tơ trọng số (Khối tính toán các véc tơ

trọng số) của hàm khoảng cách tương ứng. Để nhận được nhiều điểm liên quan

hơn, trong sơ đồ này, luận án đề xuất một công thức tính toán khoảng cách cải

tiến (Khối tính khoảng cách cải tiến). Sau đó luận án thực hiện một truy vấn đa

điểm với g điểm truy vấn tối ưu và g véc tơ trọng số của hàm khoảng cách tương

ứng để thu được một tập kết quả ―tốt‖. Để tăng độ chính xác của hệ thống tra

cứu, cần tăng số các phản hồi của người dùng. Tuy nhiên, nếu một phản hồi mới

xuất hiện, hệ thống phải phân cụm lại tất cả các mẫu dẫn đến tăng độ phức tạp

tính toán. Do đó, trong lược đồ trên Hình 3.3, luận án sử dụng một kỹ thuật

không phân cụm lại đã được đề xuất trong Chương 2 của luận án (xem mục 2.3

Chương 2), nó sử dụng tập mẫu huấn luyện thu được ở bước phân cụm khởi tạo

đầu tiên (khối phân cụm gia tăng). Sau mỗi lần lặp, người dùng sẽ kiểm tra các

kết quả có thỏa mãn hay không. Nếu người dùng đã thỏa mãn với các kết quả,

quá trình sẽ kết thúc.

Như được chỉ ra trong Hình 3.3, sự khác biệt chính giữa đề xuất này trong

luận án và các phương pháp tra cứu ảnh phản hồi liên quan đã có nằm ở ba

thành phần chính (thuộc đường biền nét đứt hình chữ nhật bao): (a) Xác định

các điểm truy vấn tối ưu, (b) Tính toán các véc tơ trọng số và (c) Tính toán các

hàm khoảng cách cải tiến. Các thành phần này có thể nhúng vào bất kỳ một hệ

thống tra cứu ảnh sử dụng phản hồi liên quan nào, do đó luận án sẽ thực hiện mô

tả mỗi thành phần này một cách tách biệt ở các mục tiếp sau.

68

3.2. Thuật toán xác định điểm truy vấn tối ƣu và bộ trọng số thích nghi của

hàm khoảng cách cải tiến.

Trong phần này, luận án trình bày kỹ thuật đề xuất để xác định điểm truy

vấn tối ưu và trọng số thích nghi của hàm khoảng cách. Kỹ thuật xác định điểm

truy vấn tối ưu và các trọng số thích nghi theo một cụm các ảnh được cho. Trong

trường hợp nhiều cụm, kỹ thuật này được thực hiện cho từng cụm.

Ở đây, ta giả sử đã có cụm i (i=1,…,g) nào đó, mỗi ảnh trong cụm i được

biểu diễn bởi với j=1… , ma trận G

( là số các phần tử trong cụm i) biểu diễn các ảnh trong

cụm i. Giả thiết véc tơ truy vấn tối ưu đối với cụm i là

. Giả sử thông tin đánh giá của người dùng

dưới dạng mức độ liên quan cho mỗi (j=1,.., ) được ký hiệu là

(ở

đây { },

cao thì khoảng cách nhỏ hay độ tương tự cao), véc tơ

sẽ biểu diễn thông tin đánh giá của người dùng

dưới dạng mức độ liên quan của cụm G

. Bài toán

tìm điểm truy vấn tối ưu và ma trận trọng số được đưa về bài toán tối

ưu có ràng buộc như sau:

∑ (

)

(3.1)

Với ràng buộc det( )=1

Ở đây det( ) là định thức của ma trận (ràng buộc det( )=1 để

tránh trường hợp ma trận là ma trận không).

Để tìm được nghiệm và của bài toán trong (3.1), ta sử dụng

phương pháp nhân tử Lagrange để giải:

- Điểm truy vấn tối ưu :

69

với

(3.2)

- Ma trận trọng số :

C

C (3.3)

Với ma trận hiệp phương sai có trọng số của các ảnh trong cụm i:

C với:

(3.4)

Từ véc tơ truy vấn tối ưu và ma trận trọng số W, hàm khoảng cách

được xác định như sau:

( ) (

) (

) (3.5)

Thuật toán 3.1. dưới đây là thuật toán FQM (Finding an Optimal Query

Point and Weight Matrix of the Distance Function) thực hiện việc xác định truy

vấn tối ưu và ma trận trọng số của hàm khoảng cách cho một cụm i.

Thuật toán 3.1. Thuật toán FQM

Input: -

: Ma trận các ảnh trong cụm i

-

é ơ ô đá á ủa

ười dùng

Ouput: - : Truy vấn tố ưu

- : Ma trận trọng số

Bước 1: Giải bài toán tố ưu ươ á â ử Lagrange

Bước 2: Đ ểm truy vấn tố ưu ủa cụm i

G

Bước 3: Xây dựng ma trận hiệ ươ ủa cụm i

70

C [ ]

Bước 4: Ma trận trọng số của hàm khoảng cách của cụm i

if

C

C

else

C

C

C

Return ,

Mệnh đề 3. [Độ phức tạp của thuật toán FQM]:

Độ phức tạp của thuật toán FQM là , với là số chiều của véc tơ

đặc trưng.

Chứng minh:

Hiển nhiên rằng thời gian thực hiện của thuật toán FQM là thời gian thực

hiện lớn nhất của bước 1, bước 2, bước 3 và bước 4. Do đó, chúng ta cần xác

định thời gian thực hiện của bước 1, bước 2, bước 3 và bước 4.

Chúng ta có thời gian thực hiện giải bài toán tối ưu thông qua phương

pháp nhân tử Lagrange của bước 1 là [131].

Hiển nhiên rằng, thời gian thực hiện của bước 2 là thời gian thực hiện việc

nhân một ma trận với một véc tơ nên bước này có thời gian thực hiện là

[132]. Rõ ràng rằng, thời gian thực hiện của bước 3 là thời gian

tính tổng của số hạng nên có thời gian là . Thời gian thực hiện bước 4

là thời gian thực hiện việc nhân hai ma trận vuông cỡ do đó có độ phức

tạp là [133].

71

Bởi vì số phần tử của một cụm thường nhỏ hơn số chiều của véc tơ đặc

trưng cho nên độ phức tạp thời gian của thuật toán FQM là . Mệnh đề

đã được chứng minh.

Thuật toán FQM cho phép tìm ra các điểm truy vấn tối ưu và các hàm

khoảng cách tối ưu tương ứng với mỗi cụm. Tuy nhiên, nếu chúng ta đưa ra ảnh

lân cận của điểm truy vấn tối ưu tương ứng với hàm khoảng cách tối ưu sẽ sinh

ra một danh sách ảnh trả về, danh sách ảnh trả về nằm trong hình ellipsoid tương

ứng. Do đó, danh sách ảnh trả về có thể vẫn chứa các ảnh không liên quan.

Giả sử ở lần lặp trước, chúng ta có một cụm với 5 mẫu phản hồi dương

(hình tròn nhỏ trong Hình 3.4). Dựa vào 5 mẫu phản hồi này, chúng ta có một

cụm với 5 mẫu phản hồi dương (hình tròn nhỏ trong Hình 3.4). Dựa vào 5 mẫu

phản hồi dương, thuật toán sẽ xác định một hình ellip (đường nét đứt mầu xanh)

và điểm truy vấn tối ưu (hình tam giác nhỏ) như trong Hình 3.4.

Hình 3.4. Một hình ellip sinh ra từ các mẫu phản hồi dƣơng

Thuật toán sử dụng hình ellipsoid được mô tả như trong Hình 3.4 để sinh

ra một danh sách kết quả tương ứng với điểm truy vấn tối ưu và hàm khoảng

cách tối ưu. Giả sử có 21 điểm trong hình ellipsoid như trong Hình 3.5 với

những điểm tròn nhỏ là những điểm liên quan và những điểm có gạch chéo là

không liên quan. Để lấy được danh sách trả về (giả sử danh sách chứa 9 ảnh

gồm 2 ảnh liên quan và 7 ảnh không liên quan) trong hình ellipsoid nhỏ (đường

viền vàng trong Hình 3.5). Do đó, danh sách ảnh trả về tương ứng với điểm truy

vấn tối ưu và hàm khoảng cách tối ưu bao gồm nhiều ảnh không liên quan.

Nguyên nhân dẫn đến nhược điểm này là do những nghiên cứu trước đây chỉ tập

trung đến khoảng cách tối ưu từ bất cứ điểm nào trong hình ellipsoid đến điểm

72

truy vấn tối ưu tương ứng, tức là trọng số của các điểm trong hình ellipsoid là

ngang bằng nhau.

Hình 3.5. Minh họa đƣa danh sách kết quả bao gồm nhiều ảnh

không liên quan

Để khắc phục các giới hạn ở trên, luận án đề xuất một hàm khoảng cách

cải tiến. Ý tưởng chính là xem xét mỗi điểm trong hình ellip phải có trọng số

riêng của nó. Trọng số của mỗi điểm được tính toán dựa vào số lượng mẫu phản

hồi dương từ lần lặp trước trong lân cận k của từng điểm. Hình 3.6 minh họa

trường hợp k=3, các điểm trả về có thể không thuộc hình ellip nhỏ (các điểm

nằm trong đường nét đứt mầu đỏ) và do đó nhiều điểm liên quan có thể thu

được.

Hình 3.6. Minh họa tính toán hàm khoảng cách từ một điểm trong hình

ellip tƣơng ứng với điểm truy vấn tối ƣu.

Cho Cpf (

) là danh sách các điểm trong cụm các mẫu phản hồi dương

tương ứng với điểm truy vấn tối ưu thứ i (

tức là danh sách các điểm trong

hình ellip tương ứng. N là danh sách k điểm gần nhất đối với pi.

E { | N C

} là các điểm phản hồi dương lân cận

k của điểm pi. Hàm khoảng cách đề xuất được viết như sau:

73

(

) | |

(

) (3.6)

Khi đó: (

) là khoảng cách cải tiến từ một điểm pi tới

điểm truy vấn tối ưu

.

là khoảng cách từ pi tới điểm truy

vấn tối ưu

theo Thuật toán 3.2.

3.3. Đề xuất thuật toán tra cứu ảnh sử dụng bộ trọng số thích nghi

Trên cơ sở các nội dung đã trình bày ở trên, luận án đề xuất một thuật

toán tra cứu ảnh sử dụng bộ trọng số thích nghi AWEIGHT sử dụng điểm truy

vấn tối ưu, hàm khoảng cách tối ưu và hàm khoảng cách cải tiến.

Thuật toán 3.2. Thuật toán AWEIGHT

Input:

Image set: S

Query: Qinitial

Number of retrieved images after each interation: k

Output:

The result set: Result(Qopt)

1. Result(Qinitial) <1, Qinitial, W, d, S, k>;

2. Relevant(Q ,N)Feedback u Q N ;

3. CISE(Relevant(Q ,N), g, IMG)

4. D{ N { } }

5. Repeat

5.1 for i1 to g do

FQM( , , )

5.2 Result(Qopt) <g, { , ,... }, { },

, S, k>;

5.3 Relevant(Q ,N’)Feedback u (Q ) N ;

5.4 F N’

INC(D, imgj Relevant(Q ,N’), i);

Add(imgj, )

74

until (User stops responding);

6. Return Result(Qopt);

Thuật toán tra cứu ảnh sử dụng trọng số thích nghi thực hiện như sau:

Đầu tiên, người dùng đưa vào ảnh truy vấn khởi tạo, thuật toán sẽ thực

hiện tra cứu đa biểu diễn bởi hàm khoảng cách Euclid d với véc tơ trọng số W

(giá trị mặc định của véc tơ trọng số là bằng nhau) trong không gian S và lưu

vào tập kết quả khởi tạo Result(Qinitial). Sau đó, tập kết quả khởi tạo

Result(Qinitial) được trả về cho người dùng, người dùng chọn N ảnh với mức độ

liên quan thông qua hàm Feedback u Q N .

Như vậy, ta có tập N ảnh phản hồi từ tập kết quả khởi tạo Relevant(Q , N).

Do đó, g cụm được lưu vào IMG thông qua hàm CISE(Relevant(Q ,N), g,

IMG) để hình thành tập huấn luyện D{ /i=1,…,N; { } }.

Sau đó, thuật toán tính toán điểm truy vấn tối ưu và ma trận trọng số

thông qua hàm FQM( G , , ) với thông tin đầu vào là

mức độ liên quan

cho mỗi ảnh j của cụm i. Dựa trên g điểm truy vấn tối ưu

và g ma trận trọng số và hàm khoảng cách , thuật toán trả về

k ảnh kết quả trên tập ảnh S thông qua <g, { , ,... },

{ }, , S, k> và gán cho Result(Qopt). Trên tập kết

quả Result(Qopt), người dùng chọn N’ ảnh phản hồi cùng với mức độ liên quan

thông qua hàm Feedback( u (Q ) N ) để hình thành tập

Relevant(Q ,N’).

Thuật toán không thực hiện phân cụm lại tất cả các đối tượng nên cần dự

đoán mỗi imgj Relevant(Q , N’) (j=1..N’) thuộc về cụm nào thông

qua thủ tục INC(D, imgj Relevant(Q , N’), i) và thực hiện việc bổ sung imgj

vào cụm thông qua thủ tục Add(imgj, ). Quá trình này được lặp

lại cho đến khi người dùng dừng phản hồi. Kết thúc quá trình này, thuật toán

đưa ra một tập các ảnh kết quả Result(Qopt).

75

3.4. Thử nghiệm và đánh giá kết quả

3.4.1. Môi trƣờng thực nghiệm

Cơ sở dữ liệu ảnh

Hiệu quả tra cứu của phương pháp đề xuất được đánh giá trên một cơ sở

dữ liệu (CSDL) gồm 10.800 ảnh. CSDL ảnh này là tập con của Corel Photo

Gallery. Tập này gồm 80 loại4, chẳng hạn, các chủ đề bao gồm: mùa thu, hàng

không, cây cảnh, lâu đài, đám mây, chó, voi, núi băng, linh trưởng, tàu, nhũ đá,

hỏa tiến, hổ, tàu hỏa, thác nước,…. Tất cả các ảnh trong tập ảnh này có tính chất

là đều chứa đối tượng tiền cảnh nổi bật. Đa số nhóm đều gồm 100 ảnh, có một

vài nhóm có hơn 100 hình ảnh. Cỡ của các ảnh có max(chiều rộng, chiều

cao)=120 và min(chiều rộng, chiều cao)=80.

Trích rút véc tơ đặc trƣng

Trong thực nghiệm, luận án sử dụng hai loại đặc trưng mức thấp của ảnh

bao gồm đặc trưng mầu sắc và đặc trưng kết cấu. Đối với đặc trưng mầu sắc: sử

dụng lược đồ mầu, tương quan mầu và mô men mầu để biểu diễn thông tin mầu

sắc của ảnh. Đối với đặc trưng kết cấu: sử dụng Biến đổi wavelet và gabor

Wavelet. Kết hợp các đặc trưng đó, mỗi ảnh có một véc tơ gồm 190 thành phần

(Bảng 3.1).

Bảng 3.1. Các loại đặc trƣng

Các loại đặc trƣng Tên đặc trƣng Số chiều

Loại đặc

trưng mầu

Lược đồ mầu hsvHistogram 32

Tương quan mầu color auto correlogram 64

Gắn kết mầu colorMoments 6

Loại đặc Biến đổi wavelet waveletTransform 40

4 https://sites.google.com/site/dctresearch/Home/content-based-image-retrieval

(Download lúc 6:32 AM ngày 25/12/2016)

76

trưng kết cấu gabor Wavelet gaborWavelet 48

Tập thực sự (ground truth)

Thực nghiệm sử dụng tập thực sự Corel (tức là xem tất cả các ảnh nằm

cùng một loại của tập Corel là liên quan) để có được thông phản hồi liên quan vì

người dùng mong muốn tra cứu các ảnh dựa vào khái niệm ngữ nghĩa mức cao.

Tập thực sự này gồm 4 cột (có tiêu đề: ID ảnh truy vấn, Truy vấn khởi tạo Q0,

ID ảnh và Sự liên quan) và gồm 1,981,320 nghìn dòng (mỗi dòng là một véc tơ

đặc trưng).

Chiến lƣợc mô phỏng phản hồi liên quan

Để mô phỏng phản hồi liên quan trên tập Corel Photo Gallery, luận án

thực hiện truy vấn khởi tạo để lấy ra tập kết quả của truy vấn khởi tạo và thực

nghiệm mô phỏng tương tác người dùng bằng việc chọn N ảnh liên quan từ kết

quả tra cứu khởi tạo dựa vào tập thực sự. Những ảnh liên quan từ lần lặp phản

hồi đầu tiên sẽ được phân thành g cụm và tập ví dụ huấn luyện được hình thành

từ g cụm này. Tiếp theo, g cụm được dùng để xây dựng các điểm truy vấn tối ưu

và xác định các trọng số phục vụ cho việc tra cứu ở lần lặp tiếp theo. Sau đó

những kết quả tra cứu được gộp lại để tạo ra một danh sách kết quả tổng hợp

theo chiến lược truy vấn đa điểm tách rời. Từ lần lặp phản hồi thứ hai trở đi, các

ảnh phản hồi mới sẽ được bổ sung vào các cụm thay vì phân cụm lại từ đầu

3.4.2. Các kết quả thực nghiệm và thảo luận

Trong phần thực nghiệm, các tham số được lựa chọn như sau:

Hiệu quả tra cứu được đánh giá trên cơ sở dữ liệu ảnh COREL gồm

10.800 ảnh, tất cả các ảnh trong cơ sở dữ liệu được sử dụng để thực hiện các

truy vấn. Thực nghiệm thực hiện đánh giá độ chính xác của phương pháp đề

xuất dựa trên độ chính xác trung bình của 10.800 ảnh truy vấn. Mỗi truy vấn

thực hiện sẽ trả về 100 ảnh, lý do chọn 100 ảnh là bởi vì người dùng thường chỉ

77

xem xét 2 trang màn hình và mỗi trang màn hình chứa 50 ảnh để lựa chọn ảnh

phản hồi.

Nhằm mục đích đánh giá, luận án sử dụng độ chính xác trung bình và độ

lệch chuẩn để đánh giá hiệu quả và so sánh với các phương pháp khác. Độ chính

xác trung bình là tỷ lệ của số ảnh liên quan trong danh sách trả về cho người

dùng và được tính toán bởi trung bình tất cả các truy vấn. Độ chính xác trung

bình là tiêu chí đánh giá chính dùng để đánh giá độ chính xác so với các phương

pháp khác. Độ lệch chuẩn dùng để đo lường độ biến thiên của độ chính xác

trung bình.

So sánh độ chính xác trung bình của phƣơng pháp đề xuất

Ba thiết lập phản hồi được sử dụng để so sánh là 2, 4, 8 điểm truy vấn và

một chiến lược phản hồi do đó sẽ có 3 cấu hình. Bốn phương pháp khác nhau

được sử dụng để so sánh bao gồm CRF (Complementary Relevance Feedback)

[112], DSSA (Discriminative Semantic Subspace Analysis) [63], WATH

(Weighted Average of Triangular Histograms) [125] và SAF (shape annotation

framework) [36] với phương pháp đề xuất AWEIGHT.

Thực nghiệm thực hiện 10.800 truy vấn dưới 3 cấu hình để nhận được độ

chính xác trung bình. Hơn nữa có 3 lần lặp phản hồi được dùng trong thực

nghiệm đánh giá. Các kết quả thực nghiệm được chỉ ra trong Hình 3.5. Trục

ngang chỉ ra số điểm truy vấn là 2, 4 và 8 (lý do sử dụng chỉ đến 8 điểm truy vấn

là bởi vì: thứ nhất, số lượng mẫu cho ba lần phản hồi thường không đủ lớn để

tạo ra nhiều cụm hơn. Thứ hai, điều đó thể hiện mặc dù số điểm truy vấn không

nhiều nhưng độ chính xác vẫn được tăng lên. Trục đứng chỉ ra độ chính xác.

Năm phương pháp khác nhau gồm CRF, DSSA, WATH, SAF và AWEIGHT

được chỉ ra bởi 5 đường cong Hình 3.7.

Các kết quả, độ chính xác trung bình của 10800 truy vấn, được thể hiện

bằng số liệu trong Bảng 3.2 và bằng đồ thị trong Hình 3.5 ở dưới. Chi tiết về độ

78

chính xác của toàn bộ 10.800 truy vấn xem tại địa chỉ

http://117.6.134.238:368/results.html/.

Bảng 3.2. Bảng kết quả trung bình độ chính xác của 5 phƣơng pháp theo số

điểm truy vấn trong ba lần phản hồi.

Phƣơng pháp Trung bình độ chính xác

2 điểm truy vấn 4 điểm truy vấn 8 điểm truy vấn

CRF 0.2387 0.3065 0.3199

DSSA 0.3135 0.42658 0.4846

WATH 0.2856 0.3763 0.4218

SAF 0.2738 0.3526 0.3958

AWEIGHT 0.3324 0.48658 0.5125

Trong Bảng 3.2, thể hiện độ chính xác trung bình của năm phương pháp

là CRF, DSSA, WATH, SAF và phương pháp đề xuất AWEIGHT tại các mức 2,

4 và 8 điểm truy vấn, với phương pháp đề xuất số điểm truy vấn được xác định

theo số cụm. Với 2 điểm truy vấn, độ chính xác của phương pháp đề xuất cao

hơn bốn phương pháp CRF, DSSA, WATH, SAF là 9.37%, 1.89%, 4.68% và

5.86%. Trường hợp 4 điểm truy vấn, độ chính xác của phương pháp đề xuất

CRF, DSSA, WATH, SAF là 18.008%, 6%, 11.028 và 13.398%. Trường hợp 8

điểm truy vấn, phương pháp đề xuất có độ chính xác cao hơn CRF, DSSA,

WATH, SAF lần lượt 19.26%, 2.79%, 9.07% và 11.67%.

79

Hình 3.7. So sánh độ chính xác của 5 phƣơng pháp.

Từ kết quả thực nghiệm ở Hình 3.7, độ chính xác của ba hệ thống tăng lên

(trục đứng) cùng với sự tăng của trung ngang (số các điểm truy vấn). Lý do của

việc này là khi số điểm tăng sẽ phủ được nhiều số cụm trong không gian đặc

trưng trực quan. Dễ thấy rằng, độ chính xác của phương pháp AWEIGHT tốt

hơn hẳn các phương pháp còn lại trong tất cả các trường hợp bao gồm 2 điểm, 4

điểm và 8 điểm. Nguyên nhân của việc này là do phương pháp đề xuất tận dụng

được thông tin địa phương của các điểm truy vấn.

Hình 3.8. So sánh độ lệch chuẩn của 5 phƣơng pháp

0

0.1

0.2

0.3

0.4

0.5

0.6

2 4 8

Độ

hín

h x

ác t

rung b

ình

Số lượng điểm truy vấn

CRF

DSSA

WATH

SAF

AWEIGHT

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

2 4 8

Độ

lệc

h c

huẩn

Số lượng điểm truy vấn

CRF

DSSA

WATH

SAF

AWEIGHT

80

Hình 3.8 chỉ ra độ lệch chuẩn của các phương pháp, độ lệch chuẩn của

phương pháp đề xuất cao hơn 4 phương pháp (CRF, DSSA, WATH và SAF) tại

tất cả các cấu hình 2, 4 và 8 điểm truy vấn.

So sánh độ chính xác của phƣơng pháp đề xuất khi sử dụng tập thực

sự và không sử dụng tập thực sự.

Để kiểm tra độ nhạy của phương pháp, lấy ngẫu nhiên 1000 ảnh trong cơ

sở dữ liệu Corel làm ảnh truy vấn, thực nghiệm yêu cầu 50 sinh viên phản hồi

trên 1000 ảnh truy vấn này (thể hiện nhận thức chủ quan của người dùng). Hình

3.11 chỉ ra độ chính xác trung bình của phương pháp đề xuât với hai cấu hình:

cấu hình thứ nhất là sử dụng tập thực sự của ảnh từ cơ sở dữ liệu ảnh Corel

(Aweight_GT). Cấu hình thứ hai là sử dụng nhận thức chủ quan của sinh viên

(Aweight_UP). Từ Hình 3.9 ta có thể thấy phương pháp đề xuất sử dụng phản

hồi liên quan từ sinh viên có giảm hơn so với sử dụng tập thực sự nhưng không

đáng kể.

Hình 3.9. So sánh độ chính xác trung bình của phƣơng pháp Aweight với

tập thực sự và Aweight sử dụng nhận thức trực quan của sinh viên

Đánh giá độ chính xác của phƣơng pháp đề xuất trong các trƣờng

hợp giả định

0

0.1

0.2

0.3

0.4

0.5

0.6

2 4 8

Độ

chín

h x

ác t

rung b

ình

Số lượng điểm truy vấn

Aweight_GT

Aweight_UP

81

Để minh họa cho các ưu điểm của phương pháp đề xuất, luận án tiến hành

thực nghiệm để so sánh phương pháp đề xuất với các trường hợp như sau: Thứ

nhất, phương pháp Aweight không xem xét tính chất địa phương của điểm truy

vấn tối ưu và không dùng hàm khoảng cách tối ưu Aweight_WLNR (Aweight

without local nature of the region). Thứ hai, phương pháp Aweight không sử

dụng hàm khoảng cách cải tiến Aweight_WIDF (Aweight without improved

distance functions). Thêm vào đó, luận án thực hiện so sánh với phương pháp

FGSSH (Fast graph similarity search via hashing) [12]. Hình 3.10 chỉ ra độ

chính xác trung bình của 10.800 ảnh truy vấn với ba lần lặp phản hồi tại tất cả

các cấu hình 2,4, và 8 điểm truy vấn.

Hình 3.10. So sánh độ chính xác trung bình của phƣơng pháp Aweight,

Aweight_WLNR, Aweight_WIDF và FGSSH.

Hình 3.10 cho biết phương pháp Aweight luôn có độ chính xác cao hơn

so với Aweight_WLNR, Aweight_WIDF và FGSSH. Ngoài ra, từ thực

nghiệm cho thấy độ chính xác của phương pháp Aweight_WLNR thấp hơn

nhiều so với phương pháp Aweight và Aweight _WIDF. Điều này chỉ ra tính

chất địa phương của từng vùng ảnh hưởng lớn đến kết quả tra cứu.

Các kết quả thực nghiệm trong Hình 3.10 minh chứng ưu điểm đầu tiên

của phương pháp đề xuất là khai thác tính chất địa phương của một vùng để xác

0

0.1

0.2

0.3

0.4

0.5

0.6

2 4 8

Độ

chín

h x

ác t

rung b

ình

Số lượng điểm truy vấn

AWEIGHT

Aweight_WLNR

Aweight_WIDF

FGSSH

82

định các điểm truy vấn tối ưu, các trọng số tối ưu (hoặc các hàm khoảng cách tối

ưu) và các hàm khoảng cách cải tiến.

Hiệu quả tính toán

Một ưu điểm khác của phương pháp Aweight đó là việc sử dụng phân

cụm gia tăng. Với phương pháp phân cụm này, phương pháp Aweight có thể

tránh được việc phân cụm lại sau mỗi lần lặp phản hồi liên quan. Để minh chứng

cho ưu điểm này, luận án thực hiện đánh giá thời gian thực hiện tra cứu của

phương pháp Aweight và khi không sử dụng phân cụm gia tăng Aweight_WRC

(Aweight without Re-Cluster). Thực nghiệm thực hiện lựa chọn 10.800 ảnh

trong cơ sở dữ liệu Corel làm ảnh truy vấn và thời gian xử lý trung bình thể hiện

ở hình 3.11 với ba vòng lặp phản hồi. Từ hình 3.11, chúng ta thấy rằng thời gian

thực hiện truy vấn của phương pháp Aweight thấp hơn rất nhiều so với

Aweight_WRC. Kết quả đó đã minh chứng bước phân cụm gia tăng trong

phương pháp Aweight là rất hiệu quả về mặt thời gian tính toán.

Hình 3.11. Thời gian thực hiện tra cứu của phƣơng pháp đề xuất với hai

trƣờng hợp

0

1000

2000

3000

4000

5000

6000

2 4 8

Thờ

i gia

n (

ms)

Số lượng điểm truy vấn

Aweight_WRC

Aweight

83

3.5. Kết luận Chƣơng 3

Trong chương này, luận án trình bày phương pháp tra cứu ảnh đề xuất sử

dụng bộ trọng số thích nghi để cải tiến hiệu quả phương pháp tra cứu ảnh của

phương pháp trong Chương 2 [CT5] và các phương pháp đã có. Phương pháp

AWEIGHT khai thác hiệu quả thông tin phản hồi thông qua mức phản hồi từ

mỗi lần lặp để xác định các điểm truy vấn tối ưu. Phương pháp AWEIGHT khai

thác đầy đủ tính chất địa phương của mỗi điểm truy vấn tối ưu thay vì sử dụng

tính chất toàn cục của các điểm truy vấn tối ưu như các phương pháp trước đó.

Do đó, phương pháp AWEIGHT thu được các điểm lân cận dựa vào tính chất

địa phương của mỗi điểm truy vấn tối ưu. Phương pháp AWEIGHT thực hiện

phân cụm gia tăng trên tập ảnh phản hồi của người dùng: các mẫu phản hồi

trong lần lặp đầu tiên hình thành lên tập ví dụ huấn luyện, các mẫu phản hồi từ

lần lặp thứ hai sẽ được thêm vào các cụm mà không cần phân cụm lại toàn bộ

mẫu phản hồi. Phân cụm gia tăng cho phép phương pháp tra cứu ảnh Aweight

tận dụng được nhiều phản hồi từ phía người dùng mà không tăng tốc độ tính

toán. Thêm vào đó, phương pháp AWEIGHT có thể áp dụng vào hệ thống tra

cứu ảnh nhiều người sử dụng. Các kết quả thực nghiệm cũng minh chứng

phương pháp đề xuất có độ chính xác cao hơn các phương pháp DSSA, CRF,

WATH và SAF.

84

KẾT LUẬN

Nghiên cứu về nâng cao độ chính xác và thời gian tra cứu ảnh dựa vào

đặc trưng mức thấp đã được thực hiện trong một thời gian dài. Nghiên cứu về

giảm khoảng cách ngữ nghĩa giữa đặc trưng mức thấp và khái niệm ngữ nghĩa

mức cao là một chủ để nghiên cứu nóng bỏng gần đây và được rất nhiều nhà

nghiên cứu trong lĩnh vực CBIR quan tâm. Nhiều kỹ thuật về giảm khoảng cách

ngữ nghĩa với phản hồi liên quan đã được đề xuất trong thời gian gần đây. Các

đóng góp chính trong luận án này cũng theo hướng giảm khoảng cách ngữ nghĩa

với phản hồi liên quan để nâng cao độ chính xác và tốc độ tra cứu.

Để giải quyết vấn đề các điểm ảnh cơ sở dữ liệu nằm rải rác trong toàn bộ

không gian đặc trưng và tốc độ tra cứu, luận án đã đề xuất phương pháp tra cứu

ảnh ngữ nghĩa, có tên là SRIR [CT5]. Trong đó, phương pháp này đã không đòi

hỏi người dùng phải cung cấp đồng thời nhiều truy vấn đa dạng (giảm gánh nặng

cho người dùng). Bên cạnh đó, phương pháp tận dụng sự đánh giá của người

dùng để xác định độ quan trọng ngữ nghĩa của từng truy vấn và độ quan trọng

của từng đặc trưng. Ngoài ra, luận án đã không thực hiện phân cụm lại toàn bộ

tập ảnh mà thực hiện phân cụm gia tăng.

Để giải quyết vấn đề chọn điểm truy vấn mới và tính khoảng cách ―tốt‖,

luận án trình đã đề xuất phương pháp tra cứu ảnh sử dụng bộ trọng số thích nghi,

có tên là AWEIGHT [CT6]. Trong đó, phương pháp đã khai thác hiệu quả mức

độ phản hồi để xác định các điểm truy vấn tối ưu. Bên cạnh đó, phương pháp

khai thác đầy đủ tính chất địa phương của mỗi điểm truy vấn tối ưu thay vì sử

dụng tính chất toàn cục của các điểm truy vấn tối ưu như các phương pháp trước

đó. Ngoài ra, phương pháp cũng thực hiện phân cụm gia tăng trên tập ảnh phản

hồi của người dùng.

Một số vấn đề cần được nghiên cứu tiếp trong tương lai:

- Tích hợp các kỹ thuật học sâu vào trong hệ thống tra cứu.

- Tiếp tục nghiên cứu các giải pháp giảm khoảng cách ngữ nghĩa.

- Thực nghiệm trên CSDL ảnh có kích thước lớn hơn và đa dạng hơn.

- Từng bước tiến đến việc đưa hệ thống vào áp dụng trong thực tế

85

TÀI LIỆU THAM KHẢO

[1] A. Y. Ng, M. I. Jordan, and Y. Weiss. On spectral clustering: Analysis and

algorithm. In Proceedings Of Neural Information Processing Systems (NIPS), 2001.

[2] Andre B, Vercauteren T, Buchner AM, Wallace MB, Ayache N. Learning

semantic and visual similarity for endomicroscopy video retrieval. IEEE Transactions

on Medical Imaging, 2012, 31(6):1276–88.

[3] A. Pentlan, Photobook: Tools for content-based manipulation of image database,

in Proc. of the Conf. on Storage and Retrieval for Image and Video Database II, SPIE,

San Jose, CA., 1994.

[4] Alzu'bi, Ahmad, Amira, Abbes; Ramzan, Naeem, Semantic content based image

retrieval: A comprehensive study, journal of visual communication and image

representation, 2015, Vol. 32, p. 20-54.

[5] A.W.M. Smeulders, M. Worring, A. Gupta, R. Jain, Content-based image retrieval

at the end of the early years, IEEE Trans. Pattern Anal. Mach. Intell. 22 (12) (2000)

1349–1380.

[6] A.R. Rao, G.L. Lohse, Towards a texture naming system: identifying relevant

dimensions of texture, IEEE Proceedings of the Fourth Conference on Visualization,

1993, pp. 220–227.

[7] A. Vailaya, M.A.T. Figueiredo, A.K. Jain, H.J. Zhang, Image classification for

content-based indexing, IEEE Trans. Image Process. 10 (1) (2001) 117–130.

[8] C. Papagiannopoulou, V. Mezaris, Concept-based Image Clustering and

Summarization of Event-related Image Collections, In Proceedings of the 1st ACM

International Workshop on Human Centered Event Understanding from Multimedia,

ACM, 2014, pp. 23-28.

[9] A. Kushki, Query feedback for interactive image retrieval. IEEE Trans. Circuits

Syst. Video Technol., vol. 14, no. 5, pp. 644-655, 2004.

[10] A. Khotanzad, YH. Hong, Invariant image recognition by Zernike moments, IEEE

Transactions on Pattern Analysis and Machine Intelligence, 12, no. 5 (1990), pp. 489-

497.

[11] A. Kumar, J. Kim, L. Wen, M. Fulham, D. Feng, A graph based approach for the

retrieval of multi-modality medical images, Medical image analysis, 2014, 18(2), pp.

330-342.

[12] Bo Lang, Bo Wu, Yang Liu, Xianglong Liu, Boyu Zhang, Fast graph similarity

search via hashing and its application on image retrieval, Multimed Tools Appl

(2017).

[13] B. Xu, A Bregman Divergence Optimization Framework for Ranking on Data

Manifold and Its New Extensions, in Proc. on the 26th AAAI Conf. on Artificial

Intelligence, pp. 1190 – 1196, 2012, Toronto, Ontario, Canada.

[14] B.S. Manjunath, P. Salembier, T. Sikora, Introduction to MPEG-7: Multimedia

Content Description Interface, Wiley, Chichester, 2002.

[15] Julesz, A brief outline of the texton theory of human vision, Trends in

Neurosciences 7, 1984, no. 2, pp. 41-45.

[16] B. Moghaddam, H. Biermann, D. Margaritis, Regions-of-interest and spatial

layout for content-based image retrieval, Multimedia Tools and Applications, 2001,

14(2), pp. 201-210.

[17] Begüm Demir ; Lorenzo Bruzzone, A Novel Active Learning Method in Relevance

Feedback for Content-Based Remote Sensing Image Retrieval, IEEE Transactions on

Geoscience and Remote Sensing, 2015, Volume: 53, Issue: 5.

86

[18] G.Bordogna, G. Pasi, Soft clustering for information retrieval applications,

WIREs Data Mining Knowl Discov, 2011, pp.138–146.

[19] M. Bilenko, S. Basu, RJ. Mooney, Integrating constraints and metric learning

in semi -supervised clustering, In Proceedings of the twenty-first international

conference on Machine learning, ACM, 2004, pp. 11.

[20] J. Costeira and T. Kanade, A multibody factorization method for motion analysis,

Proc. Int. Conf. Computer Vision, 1995, pp. 1071–1076.

[21] C.-Y. Chiu, H.-C. Lin, S.-N. Yang, Texture retrieval with linguistic descriptors,

IEEE Pacific Rim Conference on Multimedia, 2001, pp. 308–315

[22] C.P. Town, D. Sinclair, Content-based image retrieval using semantic visual

categories, Society for Manufacturing Engineers, Technical Report MV01-211, 2001.

[23] C. Carson, S. Belongie, H. Greenspan, J. Malik, Blobworld: Image segmentation

using expectation-maximization and its application to image querying, IEEE Trans.

Pattern Anal. Mach. Intell., vol. 24, 2002, pp. 1026-1038.

[24] C. M. Bishop, Pattern Recognition and Machine Learning, Springer. ISBN 0-

387-31073-8, 2006.

[25] C. Jörgensen, Image retrieval: Theory and research, Scarecrow Press, 2003.

[26] CC. Lai, YC. Chen, A user-oriented image retrieval system based on interactive

genetic algorithm, Instrumentation and Measurement, IEEE Transactions on 60, no.

10, 2011, pp. 3318-3325.

[27] C. Lai, T. Rafa, D.E. Nelson, Approximate minimum spanning tree clustering in

high-dimensional space, Intell. Data Anal., 13, 2009, pp. 575–597.

[28] D. W. Jacobs, D. Weinshall, and Y. Gdalyahu, Classification with nonmetric

distances: image retrieval and class representation, IEEE Trans. Pattern Anal. Mach.

Intell., vol. 22, no. 6, pp. 583–600, Jun. 2000.

[29] D. Liu, K. A. Hua, K. Vu, and N. Yu, Fast Query Point Movement Techniques for

Large CBIR Systems, IEEE Transactions on Knowledge and Data Engineering, 2009,

vol. 21, No. 5, pp. 729-743.

[30] R. O. Duda and P. E. Hart, Pattern Classification and Scene Analysis, Wiley,

1972.

[31] EP. Simoncelli, WT. Freeman, The steerable pyramid: A flexible architecture for

multi-scale derivative computation, In International Conference on Image Processing,

IEEE Computer Society, vol. 3, 1995, pp. 3444-3444.

[32] D. Stan, I.K. Sethi, Mapping low-level image features to semantic concepts,

Proceedings of the SPIE: Storage and Retrieval for Media Databases, 2001, pp. 172–

179.

[33] Estherde Ves, Xaro Benavent, Inmacula Coma, Guillermo Ayala, A novel

dynamic multi-model relevance feedback procedure for content-based image retrieval,

Neurocomputing Volume 208, 2016, Pages 99-107.

[34] D. Xiaoyin, Image retrieval using color moment invariant, The Seventh

International Conference on Information Technology: New Generations (ITNG), Las

Vegas, NV, 12–14, 2010, pp. 200–203.

[35] DK. Park, YS. Jeon, CS. Won, Efficient use of local edge histogram descriptor, In

Proceedings of the ACM workshops on Multimedia, ACM, 2000, pp. 51-54.

[36] Giovanna Castellano, Anna M. Fanelli, Gianluca Sforza, M. Alessandra Torsello,

Shape annotation for intelligent image retrieval, Applied Intelligence, Vol. 44, No. 1,

pp 179–195, 2016.

87

[37] G.P. Qiu, Color image indexing using BTC, IEEE Transactions on Image

Processing, 12 (1), 2003, pp. 93–101.

[38] G. Cross, A. Jain, Markov random field texture models, IEEE Transactions on

Pattern Analysis and Machine Intelligence, 5 (1), 1983, pp. 25–39.

[39] GH. Liu, L. Zhang, YK. Hou, ZY. Li, JY. Yang, Image retrieval based on multi-

texton histogram, Pattern Recognition 43, no. 7, 2010, pp. 2380-2389.

[40] GH. Liu, ZY. Li, L. Zhang, Y. Xu, Image retrieval based on micro-structure

descriptor, Pattern Recognition 44, no. 9, 2011, pp. 2123-2133.

[41] S. Gerard and C. Buckely, Term-Weighting Approaches in Automatic Text

Retrieval, Information Processing and Management, vol. 24, no.5, pp. 513-523, Jan.

1988.

[42] Hieu. V. Vu, Quynh N. H, An Image Retrieval Method Using Homogeneous

Region and Relevance Feedback, International Conference on Communication and

Signal Processing, 2014, pp. 114-118.

[41] Heath, D.; Norton, D.; and Ventura, D. (2014), Conveying semantics through

visual metaphor, ACM Transactions on Intelligent Systems and Technology,

5(2):31:1–31:17.

[42] H. Feng, T.-S. Chua, A boostrapping approach to annotating large image

collection, Workshop on Multimedia Information Retrieval in ACM Multimedia,

November 2003, pp. 55–62.

[43] H. Jing, SR Kumar, M. Mitra, WJ. Zhu, R. Zabih, Image indexing using color

correlograms, IEEE Computer Society Conference on Computer Vision and Pattern

Recognition, Proceedings, 1997, pp.762-768.

[44] H. Zhang, Z.F. Dong, H. Shu, Object recognition by a complete set of pseudo-

Zernike moment invariants, In 35th IEEE International Conference on Acoustics

Speech and Signal Processing, IEEE Press, New York, 2010, pp. 930–933.

[45] H. Tamura, S. Mori, T. Yamawaki, Textural features corresponding to visual

perception, Systems, Man and Cybernetics, IEEE Transactions on 8, no. 6 (1978), pp.

460-473.

[46] Hongbo Luo, Sujuan Zhou, Image Retrieval of Poisonous Mushrooms Based on

Relevance Feedback and Clustering Algorithm, Proceedings of the Second

Intefrnational Conference on Mechatronics and Automatic Control pp 685-694.

[47] Ishikawa, Y., Subramanya, R., Faloutsos, C., 1998. Mind Reader: Querying

databases through multiple examples. In: Proceedings of the 24th VLDBConference,

New York, USA, pp. 218–227.

[48] J. Shi and J. Malik, Normalized cuts and image segmentation, IEEE Trans.

Pattern Anal. Mach. Intell., vol. 22, no. 8, pp. 888–905, Aug. 2000.

[49] Jin, X., & French, J.C, Improving Image Retrieval Effectiveness via Multiple

Queries, Multimedia Tools and Applications, 2005, vol. 26, pp. 221-245.

[50] J. Smith and S.–F. Chang, VisualSEEK: A Fully Automated Content-Based Image

Query System, in Proc. of the ACM Int. Conf. on Multimedia, 1997.

[51] J. Eakins, M. Graham, Content-based image retrieval, Technical Report,

University of Northumbria at Newcastle, 1999.

[52] J. Ren, Y. Shen, L. Guo, A novel image retrieval based on representative colors,

Proceedings of the Image and Vision Computing, N.Z., November 2003, pp. 102–107.

[53] J. Luo, A. Savakis, Indoor vs outdoor classification of consumer photographs

using low-level and semantic features, International Conference on Image Processing

(ICIP), vol II, October 2001, pp. 745–748

88

[54] J. R. Smith, S.F. Chang, VisualSEEk: A Fully Automated Content-Based Image

Query System, Proc. the Forth ACM International Conference on Multimedia '96,

Boston, MA, 1996.

[55] J. Z. Wang, J. Li, G. Wiederhold, SIMPLIcity: Semantics- Sensitive Integrated

Matching for Picture Libraries, IEEE Transactions on Pattern Analysis and Machine

Intelligence, vol. 23, 2001, pp. 947-963.

[56] J. Li, NM. Allinson, Relevance feedback in content-based image retrieval: a

survey, In Handbook on Neural Information Processing, Springer Berlin Heidelberg

2013, pp. 433-469.

[57] J. Wan, D. Wang, SCH. Hoi, P. Wu, J. Zhu, Y. Zhang, J. Li, Deep Learning for

Content-Based Image Retrieval: A Comprehensive Study, In Proceedings of the ACM

International Conference on Multimedia, 2014, pp. 157-166. ACM.

[58] J. Zeng, L. Xiupeng, F. Yu, Multiscale Distance Coherence Vector Algorithm for

Content-Based Image Retrieval, The Scientific World Journal, 2014, Article ID

615973, 13 pages.

[59] J. Lee, J. Nang, Content-based image retrieval method using the relative location

of multiple ROIs, Advances in Electrical and Computer Engineering, 11(3) (2011), pp.

85-90.

[60] Ja-Hwung Su; Wei-Jyun Huang; Vincent S. Tseng, Efficient Relevance Feedback

for Content-Based Image Retrieval by Mining User Navigation Patterns, IEEE

Transactions on Knowledge and Data Engineering Volume: 23 Issue: 3 , 360-372.

[61] K. A. Hua, N. Yu, and D. Liu. Query Decomposition: A Multiple Neighborhood

Approach to Relevance Feedback, Processing in Content-based Image Retrieval. In

Proceedings of the IEEE ICDE Conference, 2006.

[62] L. Kaufman and P.J. Rousseeuw, Finding Groups in Data. An Introduction to

Cluster Analysis, Wiley, New York, 1990.

[63] L. Zhang, H. P. H. Shum, and L. Shao, Discriminative Semantic Subspace

Analysis for Relevance Feedback, IEEE Trans. Image Processing, Vol. 25, No. 3, pp.

1275–1287, Mar. 2016.

[64] Liu X, Huang L, Deng C, Lu J, Lang B, Multi-view complementary hash tables

for nearest neighbor search. IEEE International Conference on Computer Vision, pp

1107–1115, 2015.

[65] Liu, Y., Chen, X., Zhang, C.C., Sprague, A, Semantic clustering for region-based

image retrieval, JVCIR(20), 2009, No. 2, pp. 157-166.

[66] L. Ai, J. Yu, Y. He, T. Guan, High-dimensional indexing technologies for large

scale content-based image retrieval: a review, Journal of Zhejiang University

SCIENCE, C 14, no. 7,2013: 505-520.

[67] L. Chen, G. Lu, D. Zhang, Effects of different gabor filter parameters on image

retrieval by texture, In International Conference on Multi-Media Modeling, IEEE

Computer Society (2004), pp. 273-273.

[68] LucaPiras, GiorgioGiacinto, Information fusion in content based image retrieval:

A comprehensive overview, Information Fusion, Volume 37, September 2017, Pages

50-60.

[69] F. Long, H. Zhang, H. Dagan, and D. Feng, Fundamentals of Content Based

Image Retrieval, Multimedia Signal Processing Book, Chapter 1, Springer-Verlag,

Berlin Heidelberg New York, 2003.

89

[70] M. Lew, N. Sebe, C. Djeraba and R. Jain, Content-based Multimedia

Information Retrieval: State of the Art and Challenges, ACM Transactions on

Multimedia Computing, Communications, and Applications, pp. 1–19, 2006.

[71] M. Flickner, Query by image and video content: The QBIC system, Computer,

vol. 28, no. 9, pp. 23-32, 1995.

[72] H. Shao, Y. Wu, W. Cui, J. Zhang, Image retrieval based on MPEG-7 dominant

color descriptor, In The 9th International Conference for Young Computer Scientists,

ICYCS, 2008, pp. 753-757.

[73] M. Ovsjanikov, AM. Bronstein, MM. BRONSTEIN, LJ. Guibas, Shape Google:

A computer vision approach to invariant shape retrieval, In Proceedings of the

Workshop on Non-Rigid Shape Analysis and Deformable Image Alignment, 2009

(NORDIA’09).

[74] Norton, D.; Heath, D.; and Ventura, D. Annotating images with emotional

adjectives using features that summarize local interest points. 2016. IEEE

Transactions on Affective Computing.

[75] N. Vasconcelos, A. Lippman, Library-based coding: a representation for efficient

video compression and retrieval, Proceedings of the Data Compression Conference

(DCC97), March 1997, pp. 121–130.

[76] N. Vasconcelos, The design of end-to-end optimal image retrieval systems, in:

Proceedings of the International Conference on ANN, Istanbul, Turkey, 2003.

[77] N. Vasconcelos, On the efficient evaluation of probabilistic similarity functions

for image retrieval, IEEE Trans. Inf. Theory 50 (7), 2004, 1482–1496

[78] J.R. Smith, C.-S. Li, Decoding image semantics using composite region

templates, IEEE Workshop on Content-Based Access of Image and Video Libraries

(CBAIVL-98), June 1998, pp. 9–13.

[79] N. Jhanwar, S. Chaudhuri, G. Seetharaman, B. Zavidovique, Content based image

retrieval using motif co-occurrence matrix, Image and Vision Computing 22, no. 14

(2004), pp. 1211-1220.

[80] N. Shrivastava, V. Tyagi, Content based image retrieval based on relative

locations of multiple regions of interest using selective, Information Sciences 259

(2014), pp. 212-224.

[81] N. Shrivastava, V. Tyagi, Content based image retrieval based on relative

locations of multiple regions of interest using selective regions matching, Information

Sciences, 259, 2014, pp. 212-224.

[82] N. Alajlan, M. S. Kamel, G. H. Freeman, Geometry-based image retrieval in

binary image databases, IEEE Transactions on Pattern Analysis and Machine

Intelligence, 30(6), 2008, pp. 1003-1013.

[83] N. V.Hoàng, V. Gouet-Brunet, M. Rukoz, M. Manouvrier, Embedding spatial

information into image content description for scene retrieval, Pattern Recognition,

43(9), 2010, pp. 3013-3024.

[84] O. Chum, J. Philbin, J. Sivic, M. Isard, and A. Zisserman (2007). Total recall:

Automatic query expansion with a generative feature model for object retrieval. In

Proc. ICCV.

[85] Porkaew, K., Chakrabarti, K., (1999). Query refinement for multimedia similarity

retrieval in MARS. In: Proceedings of the 7th ACM Multimedia Conference, Orlando,

Florida, pp. 235–238.

[86] P. Y. Yin, "Long-term cross-session relevance feedback using virtual features,"

IEEE Trans. Knowl. Data Eng., vol. 20, no. 3, pp. 352-368, 2008.

90

[87] Q. Tian, Y. Wu, T. S. Huang, Combine user defined region of-interest and spatial

layout for image retrieval, In IEEE International Conference on Image Processing

Proceedings, Vol. 3 (2000), pp. 746-749.

[88] Rocchio, J.J., 1971, Relevance feedback in information retrieval. In: Salton, G.

(Ed.), The SMART Retrieval System—Experiments in Automatic Document

Processing. Prentice Hall, Englewood Cliffs, NJ, pp. 313–323.

[89] R. Arandjelovi´c and A. Zisserman (2012). Three things everyone should know to

improve object retrieval. In Proc. CVPR.

[90] Robert Davis, Zhongmiao Xiao, and Xiaojun Qi (2012), Capturing Semantic

Relationship Among Images in Clusters for Efficient Content-Based Image Retrieval,

IEEE Int. Conf. on Image Processing (ICIP'12), pp. 1953-1956.

[91] R. Brunelli, O. Mich, Image retrieval by examples, IEEE Transactions on

Multimedia, vol.2, no.3 (2000), pp.164, 171.

[92] RC. Veltkamp, M. Tanase, Content-based image retrieval systems: A survey,

rapport no UU-CS-2000-34 (2000).

[93] R. Datta, J. Li, JZ. Wang, Content-based image retrieval: approaches and trends

of the new age, In Proceedings of the 7th ACM SIGMM international workshop on

Multimedia information retrieval, (2005) pp. 253 262.

[94] R.Priyatharshini, S. Chitrakala, Association based image retrieval: A survey, In

Mobile Communication and Power Engineering, (2013), pp. 17-26. Springer Berlin

Heidelberg.

[95] R. Haralick, Statistical and structural approaches to texture, Proceedings of the

IEEE 67 (1979), pp. 786–804.

[96] R. Kwitt, A. Uhl, Lightweight probabilistic texture retrieval, IEEE Transactions

on Image Processing, 19(1) (2010), pp. 241-253.

[97] S. Sarkar and P. Soundararajan, ―Supervised learning of large percep-tual

organization: graph spectral partitioning and learning automata,‖IEEE Trans. Pattern

Anal. Mach. Intell., vol. 22, no. 5, pp. 504–525,May 2000.

[98] S. Kulkarni, B. Verma, Fuzzy logic for texture queries in CBIR, Proceedings of

the International Conference on Computational Intelligence and Multimedia

Applications (ICCIMA), Xi’an, China, 2003, pp. 223–226.

[99] S. Sclaroff, M. LaCascia, S. Sethi, L. Taycher, Unifying textual and visual cues

for content-based image retrieval on the World Wide Web, Computer Vision and

Image Understanding, vol. 75, 1999, pp. 86-98.

[100] SA. Chatzichristofis, YS. Boutalis, Fcth: Fuzzy color and texture histogram-a

low level feature for accurate image retrieval: In Ninth International Workshop on

Image Analysis for Multimedia Interactive Services, 2008, WIAMIS'08., pp. 191-196.

[101] N. Singh, S. Dubey, P. Dixit, and J. Gupta. Semantic Image Retrieval by

Combining Color, Texture and Shape Features, International Conference on

Computing Sciences, 2012.

[102] T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning: Data

Mining, Inference and Prediction, Springer, New York, 2001.

[103] V. Mezaris, I. Kompatsiaris, M.G. Strintzis, An ontology approach to object-

based image retrieval, Proceedings of the ICIP, vol. II, 2003, pp. 511–514

[104] W.K. Leow, S.Y. Lai, Scale and orientation-invariant texture matching for

image retrieval, in: M.K. Pietikainen (Ed.), Texture Analysis in Machine Vision,

World Scientific, Singapore, 2004.

91

[105] V. Kovalev, M. Petrou, Multidimensional co-occurrence matrices for object

recognition and matching, Graphical Models and Image Processing 58, no. 3, 1996,

pp. 187-197.

[106] PF. Felzenszwalb, DP. Huttenlocher, Efficient graph-based image segmentation,

International Journal of Computer Vision 59, no. 2 (2004): 167-181.

[107] W. Jin, R. Shi, T.-S. Chua, A semi-naı¨ve bayesian method incorporating

clustering with pair-wise constraints for auto image annotation, Proceedings of the

ACM Multimedia, 2004.

[108] Wu, l., Faloutsos, C., Sycara, K., Payne, Ttrieval, Proceedings of the 26th VLDB

Conference, Cairo, Egypt, (2000): 297–306.

[109] W. Niblack, R. Barber, W. Equitz, M. Flickner, E. Glasman, D. Pektovic, P.

Yanker, C. Faloutsos, and G. Taubin, The QBIC project: Querying images by content

using color, texture and shape, Proc. SPIE Storage and Retrieval for Image and Video

Databases, San Jose, CA, 1994.

[110] X.Bai, G. Sapiro, A geodesic framework for fast interactive image and video

segmentation and matting, In IEEE 11th International Conference on Computer

Vision. ICCV, 2007, pp. 1-8.

[111] X.S. Zhou, T.S. Huang, CBIR: from low-level features to high-level semantics,

Proceedings of the SPIE, Image and Video Communication and Processing, San Jose,

CA, vol. 3974, January 2000, pp. 426–431.

[112] Xiao, Z., & Qi, X. Complementary relevance feedback-based content-based

image retrieval. Multimedia Tools Appl.,2014, 73(3), 2157–2177.

[113] XY. Wang, BB. Zhang, HY. Yang, Content-based image retrieval by integrating

color and texture features, Multimedia Tools and Applications 68, no. 3, 2014, pp.

545-569.

[114] X. Wang, Z. Wang, A novel method for image retrieval based on structure

elements’ descriptor, Journal of Visual Communication and Image Representation 24,

no. 1, 2013, pp. 63-74.

[115] XY. Wang, ZF. Chen, JJ. Yun, An effective method for color image retrieval

based on texture, Computer Standards & Interfaces 34, no. 1, 2012, pp. 31-35.

[116] XY. Wang, YJ. Yu, HY. Yang, An effective image retrieval scheme using color,

texture and shape features, Computer Standards & Interfaces 33, no.1, 2011, pp. 59-

68.

[117] X. Shu, XJ. Wu, A novel contour descriptor for 2D shape matching and its

application to image retrieval, Image and vision Computing 29, no. 4, 2011, pp. 286-

294.

[118] Xiao Z, Qi X, Complementary relevance feedback-based content-based image

retrieval. Multimed Tools Appl 73(2):2157–2177.

[119] Xiaofei He ; Chiyuan Zhang ; Lijun Zhang ; Xuelong Li, A-Optimal Projection

for Image Representation, IEEE Transactions on Pattern Analysis and Machine

Intelligence (Volume: 38 , Issue: 5 , May 2016).

[120] X. Wang, X. Wang, D.M. Wilkes, A divide-and-conquer approach for minimum

spanning tree-based clustering, IEEE Trans. Knowl. Data Eng., 21, 2009, pp. 945–

958.

[121] Y. Weiss, Segmentation using eigenvectors: a unifying view, in Proc. Int. Conf.

Computer Vision, 1999, pp. 975–982.

92

[122] Chen, Y., Wang, J. Z . and Krovetz, R., CLUE: Cluster-based Retrieval of

Images by Unsupervised Learning, IEEE Transactions on Image Processing, Vol. 14,

No.8, 2005.

[123] Y. Meyer, Wavelets: Algorithms and Applications, SIAM, Philadelphia, 1993.

[124] YW. Chen, CL. Xu, Rolling penetrate descriptor for shape-based image

retrieval and object recognition, Pattern Recognition Letters 30, no. 9, 2009, pp. 799-

804.

[125] Zahid Mehmood, Toqeer Mahmood, Muhammad Arshad Javid, Content-based

image retrieval and semantic automatic image annotation based on the weighted

average of triangular histograms using support vector machine, Applied Intelligence ,

pp 1–16, 2017.

[126] Zhang L, H. P. H. Shum, and L. Shao, Discriminative Semantic Subspace

Analysis for Relevance Feedback, IEEE Trans. Image Processing, Vol. 25, No. 3, pp.

1275–1287, Mar. 2016.

[127] Han, J., Kamber, M., & Pei, J. (2011). Data Mining: Concepts and Technique

(Chapter 10. Cluster Analysis: Basic Concepts and Methods). Morgan Kaufmann, pp.

451–454.

[128] E. G. Petrakis, Design and evaluation of spatial similarity approaches for image

retrieval, Image and Vision Computing, 20(1), 2002, pp. 59-76.

[129] French, J. C., Martin, W.N., Watson, J. V.S., &Jin, X. Using multiple image

representations to improve the quality of content-based image retrieval. Dept. of

Computer Science, University of Virgina Technical Report, 2003, CS-2003-10.

[130] E. Chang, CBSA: content-based soft annotation for multimodal image retrieval

using Bayes point machines, IEEE Trans. Circuits Syst. Video Technol., vol. 3, no. 1,

pp. 26-38, 2003.

[131] A. R. Forouzan, M. Moonen, "Lagrange multiplier optimization for

optimal spectrum balancing of DSL with logarithmic complexity", IEEE Int'l.

Conf. Commun., June 2011. [132] Greengard, L., and V. Rokhlin. "A Fast Algorithm for Particle Simulations."

Journal of Computational Physics 73, no. 2 (1987): 325-48.

[133] Williams, Virginia Vassilevska. "Multiplying Matrices in O (N2.373) Time."

preprint (2014).

93

DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ

Trong nƣớc:

[CT1] Nguyễn Hữu Quỳnh, Đào Thị Thúy Quỳnh, Ngô Quốc Tạo, Cù Việt

Dũng, Phương Văn Cảnh, An Hồng Sơn, (2016). Một phương pháp tra cứu ảnh

biểu diễn nhu cầu thông tin người dùng hiệu quả, (FAIR, 2016).

[CT2] Đào Thị Thúy Quỳnh, Nguyễn Hữu Quỳnh, Ngô Quốc Tạo, Phương Văn

Cảnh, An Hồng Sơn, (2017). Một phương pháp tra cứu ảnh sử dụng phân cụm

phổ trong phản hồi liên quan, (FAIR, 2017).

[CT3] Đào Thị Thúy Quỳnh, Nguyễn Hữu Quỳnh , Ngô Quốc Tạo, Phương Văn

Cảnh (2018). Nâng cao độ chính xác của phương pháp tra cứu ảnh trong ngữ

cảnh tập huấn luyện hạn chế (FAIR, 2018).

Quốc tế:

[CT4] Quynh Dao Thi Thuy, Quynh Nguyen Huu, Son An Hong (2019),

―Image retrieval uses SVM-based relevant feedback for imbalance and small

training set‖, The 2019 IEEE - RIVF International Conference On Computing

and Communication Technologies.

[CT5] Quynh Dao Thi Thuy, Quynh Nguyen Huu, Canh Phuong Van, Tao Ngo

Quoc (2017), An efficient semantic – Related image retrieval method, Expert

Systems with Applications, Volume 72, pp. 30-41. (SCIE).

[CT6] Quynh Nguyen Huu, Quynh Dao Thi Thuy, Canh Phuong Van, Can

Nguyen Van, Tao Ngo Quoc (2018), An efficient image retrieval method using

adaptive weights, Applied Intelligence, Volume 48, pp 3807–3826, (SCI).

94

PHỤ LỤC A

Thống kê độ chính xác trung bình theo từng loại trong 34 loại (mỗi loại

gồm 100 véc tơ đặc trưng).

Bảng A1. Độ chính xác trung bình của 34 loại truy vấn với một lần lặp phản

hồi của phƣơng pháp SRIR đề xuất ở chƣơng 2

TT ID loại

Độ chính xác (%)

01 cụm 04 cụm 08 cụm 12 cụm 16 cụm 20 cụm

1 290 32.37 37.18 36.39 36.25 36.48 36.26

2 700 24.89 29.26 30.24 30.78 31.23 31.36

3 750 44.47 45.78 46.01 46.03 45.99 45.97

4 770 27.03 30.85 31.62 32.69 33.27 33.35

5 840 49.25 54.35 54.94 55.03 55.12 55.20

6 1040 21.00 24.93 25.32 25.75 25.73 25.63

7 1050 31.19 36.73 37.45 37.26 37.42 36.47

8 1070 36.40 41.78 42.35 43.37 43.86 43.69

9 1080 31.57 37.73 38.45 38.79 39.16 39.15

10 1090 18.21 21.35 21.52 21.90 21.80 21.89

11 1100 23.37 27.90 28.55 28.86 29.15 29.43

12 1120 25.85 31.52 32.15 32.39 32.59 32.61

13 1340 42.39 46.73 47.15 47.73 48.03 47.91

14 1350 28.02 32.47 33.44 34.00 34.63 34.89

15 1680 21.65 25.06 25.27 25.55 25.63 25.80

95

16 2680 15.88 17.96 18.09 18.20 18.25 17.96

17 2890 19.51 22.87 23.49 23.60 23.71 23.47

18 3260 19.57 22.65 23.07 22.86 23.11 22.58

19 3510 36.75 41.83 41.73 41.43 41.45 40.56

20 3540 49.34 55.73 55.98 55.96 55.99 54.76

21 3910 38.70 46.31 45.49 45.77 45.55 44.78

22 4150 29.18 33.23 33.81 33.50 33.31 33.85

23 4470 52.17 33.83 33.03 33.33 33.11 33.65

24 4580 40.90 33.63 33.51 33.43 33.65 34.46

25 4990 33.83 39.09 39.05 38.85 38.96 39.85

26 5210 29.57 34.59 35.29 36.05 35.98 37.43

27 5350 49.11 54.62 54.47 54.98 55.15 55.41

28 5530 43.41 48.03 48.37 48.84 48.87 48.88

29 5810 61.01 63.96 63.83 63.76 63.80 63.95

30 5910 47.59 52.28 52.61 52.55 52.73 52.58

31 6440 64.52 65.40 65.55 65.53 65.45 65.32

32 6550 57.25 61.05 60.96 61.04 60.91 61.51

33 6610 33.50 38.90 38.78 38.64 38.66 39.23

34 6840 61.23 63.26 63.18 63.47 63.52 63.25

96

Bảng A2. Độ chính xác trung bình của 80 loại truy vấn với 3 lần lặp phản

hồi của phƣơng pháp đề xuất ở chƣơng 3.

STT Tên loại

Độ chính xác trung bình theo mỗi loại (%)

02 điểm truy vấn 04 điểm truy

vấn 08 điểm truy vấn

1 art_1 5.91 10.55 29.29

2 art_antiques 19.72 35.66 36.28

3 art_cybr 42.82 60.095 54.08

4 art_dino 97.69 97.02 99.25

5 art_mural 10.24 13.31 33.22

6 bld_castle 34.554 49.796 45.6

7 bld_lighthse 8.19 18.46 31.47

8 bld_modern 19.083 38.287 40.217

9 bld_sculpt 14.265 20.45 37.32

10 eat_drinks 40.41 56.63 56.65

11 eat_feasts 18.38 35.41 37.68

12 Fitness 95.425 99.885 97.92

13 obj_234000 15.44 25.24 34.55

14 obj_aviation 11.58 21.46 32.99

15 obj_balloon 8.7 18.32 31.8

16 obj_bob 7.35 18.533 30.367

17 obj_bonsai 9.69 19.77 30.84

97

18 obj_bus 43.26 57.74 66.53

19 obj_car 46.59 69.207 68.205

20 obj_cards 37.34 75.16 78.62

21 obj_decoys 86.78 90.39 83.54

22 obj_dish 40.86 62.04 41.08

23 obj_doll 71.74 81.65 79.73

24 obj_door 59.715 79.26 83.795

25 obj_eastregg 93.04 91.64 92.88

26 obj_flags 24.05 48.26 37.49

27 obj_mask 30.42 42.14 39.1

28 obj_mineral 38.17 59.03 49.67

29 obj_moleculr 31.42 51.2 50.38

30 obj_orbits 9.35 21.88 31.1

31 obj_ship 43.27 57.8 51.18

32 obj_steameng 37.86 51.77 45.96

33 obj_train 57.587 77.123 65.737

34 pet_cat 10.99 26.14 32.83

35 pet_dog 30.71 52.32 49.517

36 pl_flower 59.76 93.188 77.38

37 pl_foliage 4.9 11.67 29.34

38 pl_mashroom 7.87 18.47 30.36

98

39 sc_ 45.79 65.61 83.65

40 sc_autumn 10.146 21.874 31.903

42 sc_cloud 26.07 45.965 39.921

43 sc_firewrk 67.234 90.851 89.01

44 sc_forests 6.82 11.64 29.52

45 sc_iceburg 14.88 30.5 35.91

46 sc_indoor 27.34 46.39 44.57

47 sc_mountain 33.741 59.922 53.856

48 sc_night 14.72 29.02 35.1

49 sc_rockform 35.15 53.52 46.75

50 sc_rural 16.65 33.71 40.98

51 sc_sunset 55.848 69.676 80.552

52 sc_waterfal 11.479 23.41 31.829

53 sc_waves 24.13 39.18 37.33

54 sp_ski 9.42 19.17 30.07

55 texture_1 8.72 18 30.41

56 texture_2 56.71 72.35 69.04

57 texture_3 7.35 14.94 29.6

58 texture_4 21.9 39.42 36.28

59 texture_5 9.54 21.68 33.69

60 texture_6 61.42 75.24 91.22

99

61 wl_buttrfly 23.515 38.85 46.065

62 wl_cat 4.28 7.54 27.61

63 wl_cougr 4.09 6.79 26.79

64 wl_deer 12.845 27.95 35.59

65 wl_eagle 20.16 42.73 42.05

66 wl_elephant 14.18 32.8 34.17

67 wl_fish 10.58 22.78 33.527

68 wl_fox 4.3 7.2 27.74

69 wl_goat 5.15 9.02 28.32

70 wl_horse 33.91 52.63 44.06

71 wl_lepoad 18.15 30.62 36.2

72 wl_lion 13.69 31.96 33.67

73 wl_lizard 16.21 31.4 34.31

74 wl_nests 9.62 18.41 31.22

75 wl_owls 45.73 47.85 45.08

76 wl_porp 51.36 61.71 48

76 wl_primates 7.53 20.33 30.49

77 wl_roho 9.92 26.34 33

78 art_1 10.6 20.74 32.33

79 art_antiques 7.58 14.22 29.63

80 art_cybr 70.227 90.462 85.284

100

PHỤ LỤC B

Phần mềm tra cứu theo các đề xuất của luận án

Hình B.1 – B.10 là hình ảnh giao diện hệ thống của đề xuất chương 2.

Hình B.1. Giao diện frm_Class_Images.

Hình B.2.Giao diện frm_Type_of_Features.

101

Hình B.3. Giao diện frm_Images_Database.

Hình B.4. Giao diện frm_Upload_Images.

102

Hình B.5. Giao diện frm_Trainning.

Hình B.6. Giao diện frm_Features.

103

Hình B.7. Giao diện bƣớc biến đổi ảnh và tra cứu đa biểu diễn.

Hình B.8. Giao diện bƣớc gộp và phản hồi lần 1.

104

Hình B.9. Giao diện bƣớc phân cụm và tra cứu trên mỗi cụm.

Hình B.10. Giao diện bƣớc gộp kết quả tra cứu phản hồi lần 1.

105

Hình B.11 – B.10 là hình ảnh hệ thống của đề xuất chương 3.

Hình B.11. Giao diện chính của hệ thống

Hình B.12. Giao diện Load Dataset

106

Hình B.13. Giao diện đƣa vào ảnh truy vấn và chọn số lƣợng ảnh trả về

107

Hình B.14. Kết quả truy vấn khởi vào và ngƣời dùng phản hồi (ảnh có viền

mầu đỏ)

Hình B.15. Thực hiện phân cụm tập ảnh ngƣời dùng chọn và hiển thị tập

ảnh của cụm 1

108

Hình B.16. Thực hiên tra cứu với trọng số thích nghi lần lặp thứ nhất

Hình B.17. Thực hiên tra cứu với trọng số thích nghi lần lặp thứ hai

109

Hình B.18. Thực hiên tra cứu với trọng số thích nghi lần lặp thứ ba