BỘ MÔN DUYỆT Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠNG ...

21
BỘ MÔN DUYỆT Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠNG CHI TIẾT BÀI GIẢNG (Dùng cho 60 tiết giảng) Học phần: Kho DL, KPDL & BTL Nhóm môn học: Dữ liệu/ Công nghệ mạng Bộ môn: CNPM. Khoa : CNTT Thay mặt nhóm môn học Hồ Nhật Quang Thông tin về nhóm môn học TT Họ tên giáo viên Học hàm Học vị 1 Hồ Nhật Quang GV ThS 2 Bùi Thu Lâm PGS TS .. . Địa điểm làm việc: Nhà A2 - Bộ môn CNPM – Khoa CNTT Điện thoại, email: 069.515.338; [email protected] Bài giảng 1: Tổng quan về KPDL Chương I Mục 1.1 Tiết thứ: 1 - 3 Tuần thứ: 1 - Mục đích, yêu cầu: Nắm được các khái niệm về kho dữ liệu và khai phá dữ liệu; Quy trình khai phá dữ liệu; Các bước khai phá dữ liệu và đặc điểm; - Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 6t - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính: 1.1 Khai phá dữ liệu

Transcript of BỘ MÔN DUYỆT Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠNG ...

Page 1: BỘ MÔN DUYỆT Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠNG ...

BỘ MÔN DUYỆTChủ nhiệm Bộ môn

Phan Nguyên Hải

ĐỀ CƯƠNG CHI TIẾT BÀI GIẢNG(Dùng cho 60 tiết giảng)

Học phần: Kho DL, KPDL & BTLNhóm môn học: Dữ liệu/ Công nghệ mạngBộ môn: CNPM.Khoa : CNTT

Thay mặt nhóm môn học

Hồ Nhật Quang

Thông tin về nhóm môn họcTT Họ tên giáo viên Học hàm Học vị1 Hồ Nhật Quang GV ThS2 Bùi Thu Lâm PGS TS...

Địa điểm làm việc: Nhà A2 - Bộ môn CNPM – Khoa CNTTĐiện thoại, email: 069.515.338; [email protected]

Bài giảng 1: Tổng quan về KPDLChương I Mục 1.1 Tiết thứ: 1 - 3 Tuần thứ: 1

- Mục đích, yêu cầu: Nắm được các khái niệm về kho dữ liệu và khai phá dữ liệu; Quy trình khai phá dữ liệu; Các bước khai phá dữ liệu và đặc điểm;

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 6t- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

1.1 Khai phá dữ liệu 1.1.1 Tại sao phải khai phá dữ liệu? 1.1.2 Các định nghĩa về khai phá dữ liệu 1.1.3 Các bước chính trong khám phá tri thức và KPDL1.1.4 Các dạng dữ liệu có thể KPDL1.1.5 Các lĩnh vực liên quan đến KPDL

- Yêu cầu SV chuẩn bị:Đọc chương 1 các tài liệu [1], [2],[3],[4] [5]Bài tập về nhà:

Bài giảng 2: Tổng quan về KPDL (tiếp)Chương I Mục 1.2+1.3+1.4+1.5+1.6Tiết thứ: 1 - 3 Tuần thứ: 2

- Mục đích, yêu cầu:

Page 2: BỘ MÔN DUYỆT Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠNG ...

Các bài toán chính của KPDL; Các thách thức với giải quyết bài toán KPDL Phân loại và ứng dụng KPDL

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 6t- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

1.2 Các bài toán chính trong KPDL1.2.1 Phân lớp (Classification)1.2.2 Phân cụm (Clustering)1.2.3 Luật kết hợp (Assoiation Rule)1.2.4 Hồi quy và dự báo (Regression and Prediction)1.2.5 Chuỗi thời gian (sequential/temporal patterns)1.2.6 Mô tả khái niệm, tổng hợp (concept description & summarization)

1.3 Ứng dụng & phân loại 1.3.1 Các lĩnh vực ứng dụng chính1.3.2 Phân loại các hệ KPDLPhân loại theo kiểu dữ liệu được khai pháPhân loại theo dạng tri thức được khám pháPhân loại dựa trên kỹ thuật được áp dụngPhân loại dựa trên lĩnh vực được áp dụng1.4 Những thách thức trong KPDL1.5 Những vấn đề được chú trọng trong KPDL1.6 Một số công cụ dùng KPDL1.6.1 Weka1.6.2 Clementine1.6.3 SQL Server 2008

- Yêu cầu SV chuẩn bị:Đọc chương 1, 2 các tài liệu [1], [2], [5]Bài tập về nhà:

Bài giảng 3: Tiền xử lý dữ liệuChương II Tiết thứ: 1 - 3 Tuần thứ: 3

- Mục đích, yêu cầu: Tại sao phải tiền xử lý dữ liệu, ý nghĩa; Một số kỹ thuật tiền xử lý: xử lý lỗi, chuyển kiểu, chuẩn hóa Một số thuật toán trích chọn thuộc tính

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 10t- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

2.1 Tại sao phải tiền xử lý dữ liệu ?2.2 Chuẩn bị dữ liệu

Page 3: BỘ MÔN DUYỆT Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠNG ...

2.2.1 Phân tích dữ liệu 2.2.2 Chuẩn hoá dữ liệu 2.3 Trích chọn dữ liệu 2.3.1 Trích chọn đặc tính2.3.2 Trích chọn giá trị2.4 Một số phương pháp trích chọn thuộc tính2.4.1 Tiếp cận theo phương pháp FilterThuật toán RELIEFThuật toán FOCUSThuật toán LVFThuật toán EBRThuật toán SCRAPLựa chọn nhóm2.4.2 Tiếp cận theo phương pháp WrapperThuật toán LVWThuật toán NeuralNet2.4.3 Một số tiếp cận khácGiải thuật di truyềnRời rạc hóa dữ liệu

- Yêu cầu SV chuẩn bị:Đọc chương 2 các tài liệu [1], [2], [4]Bài tập về nhà:

Bài giảng 4. Tiền xử lý dữ liệu (Tiếp)Chương II. Thực hành tiền xử lý dữ liệuTiết thứ: 1 - 3 Tuần thứ: 4

- Mục đích, yêu cầu: Nắm chắc các khái niệm về tiền xử lý dữ liệu; Cài đặt các thuật toán tiền xử lý dữ liệu.

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu.- Thời gian: Bài tập 3 tiết, Tự học, tự nghiên cứu: 6t- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

2.5. Thực hành tiền xử lý dữ liệu2.5.1 Trích chọn thuộc tính trong Analysis Services/MS SQL Server 2008Shannon's entropyBayesian with K2 PriorBayesian Dirichlet Equivalent with Uniform PriorInterestingness score2.5.2 Trích chọn thuộc tính trong WekaXếp hạng các thuộc tính (Ranking attributes)Đánh trọng số các thuộc tính sử dụng Cross ValidationAttribute Evaluator

Page 4: BỘ MÔN DUYỆT Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠNG ...

2.5.3 Xây dựng ứng dụng tiền xử lý dữ liệuXử lý dữ liệu lỗi: mất giá trị, sai kiểu, có giá trị khác thường…Xử lý chuyển đổi dữ liệuThống kê miền giá trị và phân bố giá trị

- Yêu cầu SV chuẩn bị:Bài tập về nhà: Cài đặt các thuật toán tiền xử lý dữ liệu

Bài giảng 5: Phân lớpChương 3 Mục 3.1 + 3.2 + 3.3 Tiết thứ: 1 - 3 Tuần thứ: 5

- Mục đích, yêu cầu: Nắm được các khái niệm về bài toán phân lớp; Các kỹ thuật giải bài toán phân lớp

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 6t- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

3.1 Phát biểu bài toán phân lớp 3.1.1 Mô hình bài toán3.1.2 Một số ví dụ 3.1.3 Các bước giải bài toán3.1.4 Một số tiếp cận chính giải quyết bài toán3.1.5 Một số khó khăn khi giải BT3.2 Kỹ thuật phân lớp dựa trên khoảng cách3.2.1 Ý tưởng 3.2.2 Thuật toán k Người láng giềng gần nhất3.2.3 Đánh giá thuật toán3.2.4 Ví dụ minh họa3.3 Kỹ thuật phân lớp dựa trên cây quyết định3.3.1 Giới thiệu về cây quyết định3.3.2 Các thuật toán tạo cây quyết địnhThuật toán ID3Thuật toán C3.53.3.3 Một số vấn đề về cây quyết địnhAvoiding over-fitting the data Rule post-pruningIncorporating Continuous-Valued Attributes Handling Training Examples with Missing Attribute Values 3.3.4 Đánh giá ưu nhược điểm của cây quyết định3.3.5 Thực hành phân lớp dựa vào cây quyết định trên phần mềm CABRO

- Yêu cầu SV chuẩn bị:Đọc chương 4 các tài liệu [1], [2]Bài tập về nhà: bài tập tự làm chương 4,5 tài liệu [5]

Page 5: BỘ MÔN DUYỆT Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠNG ...

Bài giảng 6: Phân lớp (Tiếp)Chương 3 Mục 3.4 + 3.5 + 3.6Tiết thứ: 1 - 3 Tuần thứ: 5

- Mục đích, yêu cầu: Nắm được các khái niệm về bài toán phân lớp; Các kỹ thuật giải bài toán phân lớp

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 6t- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

3.4 Kỹ thuật phân lớp dựa trên mạng neuron3.3.1 Nhắc lại một số khái niệm về mạng neuron 3.3.2 Mạng neuron perceptron đa lớp và giải thuật học lan truyền ngược3.3.3 Ứng dụng mạng neuron trong bài toán phân lớp3.3.4 Đánh giá thuật toán3.3.5 Ví dụ minh họa3.5 Kỹ thuật phân lớp dựa trên thống kê xác xuất3.5.1 Một số khái niệm về xác xuất3.5.2 Lý thuyết xác xuất thống kê Bayets3.5.3 Phân lớp dựa theo kỹ thuật thống kê xác xuất3.5.4 Đánh giá thuật toán3.5.5 Ví dụ minh hoạt3.6. Một số các kỹ thuật phân lớp khác

- Yêu cầu SV chuẩn bị:Đọc chương 4 các tài liệu [1], [2]Bài tập về nhà: bài tập tự làm chương 4,5 tài liệu [5]

Bài giảng 7: Phân lớp (Tiếp)Chương 3 Bài tập thực hànhTiết thứ: 1 - 3 Tuần thứ: 7

- Mục đích, yêu cầu: Cài đặt một số thuật toán phân lớp

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Bài tập 3 tiết, Tự học, tự nghiên cứu: 5t- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

3.7 Thực hành phân lớp 3.7.1 Sử dụng Weka thực hành các bài tập phân lớpCây quyết địnhMạng neuronBayets3.7.2 Xây dựng ứng dụng phân lớpNhận dạng chữ số viết tay

Page 6: BỘ MÔN DUYỆT Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠNG ...

Cài đặt thuật toán ID3Cài đặt mạng neuron perceptron đa lớp

Cài đặt thuật toán phân lớp Bayets- Yêu cầu SV chuẩn bị:

Đọc chương 4 các tài liệu [1], [2]Bài tập về nhà: bài tập tự làm chương 4,5 tài liệu [5]

Bài giảng 8: Phân cụmChương 4 Mục 4.1 + 4.2 Tiết thứ: 1 - 3 Tuần thứ: 8

- Mục đích, yêu cầu: Các kỹ thuật giải bài toán phân cụm

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 5t- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

4.1 Phát biểu bài toán phân cụm4.1.1 Phát biểu bài toán4.1.2 Ứng dụng của bài toán4.1.3 Đánh giá kết quả phân cụm4.1.4 Các yêu cầu khi thực hiện phân cụm4.1.5 Các tiếp cận chính giải bài toán phân cụm4.2 Kỹ thuật phân hoạch 4.2.1 Ý tưởng thuật toán4.2.2 Thuật toán K-Mean4.2.3 Đánh giá ưu nhược điểm của thuật toán4.2.4 Ví dụ minh họa4.2.5 Các cải tiến của K-MeanThuật toán K-MedoidThuật toán CLARANSThuật toán DBSCANThuật toán DBRS

- Yêu cầu SV chuẩn bị:Đọc chương 8 các tài liệu [1], [2], chương 7 tài liệu [4]Bài tập về nhà: bài tập tự làm chương 6 tài liệu [5]

Bài giảng 9: Phân cụm (Tiếp)Chương 4 Mục 4.2 + 4.3 Tiết thứ: 1 - 3 Tuần thứ: 9

- Mục đích, yêu cầu: Các kỹ thuật giải bài toán phân cụm

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu

Page 7: BỘ MÔN DUYỆT Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠNG ...

- Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 5t- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

4.2.6 Thuật toán FCMÝ tưởng thuật toánThuật toán FCMĐánh giá thuật toánPhân đoạn ảnh sử dụng FCM4.3 Một số tiếp cận phân cụm khác4.3.1 Các tiếp cận theo cấp bậc (cây)Ý tưởng thuật toánNội dung thuật toánĐánh giá ưu nhược điểmVí dụ minh họa4.3.2 Phân cụm dựa theo lưới (grid)Ý tưởng thuật toánNội dung thuật toánĐánh giá ưu nhược điểmVí dụ minh họa

- Yêu cầu SV chuẩn bị:Đọc chương 8 các tài liệu [1], [2], chương 7 tài liệu [4]Bài tập về nhà: bài tập tự làm chương 6 tài liệu [5]

Bài giảng 10: Phân cụm (Tiếp)Chương 4 Bài tập thực hànhTiết thứ: 1 - 3 Tuần thứ: 9

- Mục đích, yêu cầu: Cài đặt các thuật toán phân cụm

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Bài tập 3 tiết- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

Thực hành xây dựng ứng dụng phân cụmPhân đoạn ảnh sử dụng FCM

o Sử dụng Matlapo Cài đặt trên NNLT

Phân cụm dữ liệu sử dụng K-Meano Sử dụng Wekao Sử dụng các công cụ hỗ trợ kháco Cài đặt trên NNLT

Cài đặt các biến thể của K-mean- Yêu cầu SV chuẩn bị:

Page 8: BỘ MÔN DUYỆT Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠNG ...

Đọc chương 8 các tài liệu [1], [2], chương 7 tài liệu [4]Bài tập về nhà: bài tập tự làm chương 6 tài liệu [5]

Bài giảng 11: Luật kết hợp Chương 5 Mục 5.1 + 5.2 + 5.3 Tiết thứ: 1 - 3 Tuần thứ: 9

- Mục đích, yêu cầu: Nắm được các khái niệm về luật kết hợp, luật kết hợp có trọng số Cách thức giải quyết bài toán tìm luật kết hợp

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 5t- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

5.1 Phát biểu bài toán Các khái niệm Giao dịch Hạng mục Độ hỗ trợ (phổ biến-support) Độ tin cậy (confidence) Tập phổ biến Một số bổ đề trên tập phổ biến Luật kết hợp Ví dụ minh họa5.2 Các giai đoạn của quá trình tìm luật kết hợp5.3 Những hướng tiếp cận chính trong KPLKH Luật kết hợp nhị phân (binary association rule hoặc boolean association rule) Luật kết hợp có thuộc tính số và thuộc tính hạng mục (quantitative and categorical association rule) Luật kết hợp mờ (fuzzy association rule): Luật kết hợp nhiều mức (multi-level association rules): Luật kết hợp với thuộc tính được đánh trọng số (association rule with weighted items): 5.4 Thuật toán Apriori Ý tưởng thuật toán Các bước thực hiện của thuật toán Ví dụ minh họa Đánh giá thuật toán

- Yêu cầu SV chuẩn bị:Bài tập về nhà: bài tập tự làm chương 7 tài liệu [5]

Bài giảng 12: Luật kết hợpChương V 5.5 + 5.6 + 5.7

Page 9: BỘ MÔN DUYỆT Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠNG ...

Tiết thứ: 1 - 3 Tuần thứ: 12- Mục đích, yêu cầu:

Một số tiếp cận giải bài toán luật kết hợp; Mỏ rộng thuật toán Apriori cho các bài toán tìm luật khác;

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Lý thuyết, thảo luận: 1t; Bài tập 3 tiết, Tự học, tự nghiên cứu: 5t- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

5.5. Cải thiện thuật toán Apriori Các cải tiến tăng tốc độ thưc thi Apriori Song song hóa thuật toán Apriori Cấu trúc FP-Growth

5.6 Luật kết hợp có trọng số Ý nghĩa thực tế Một số giải thuật Đánh giá thuật toán Ví dụ minh họa Ứng dụng

5.7 Luật kết hợp và đảm bảo tính riêng tư Vấn đề đảm bảo tính riêng tư Các chiến lược "ẩn" luật nhạy cảm Đánh giá thuật toán

- Yêu cầu SV chuẩn bị:Bài tập về nhà: bài tập tự làm chương 7 tài liệu [5]

Bài giảng 13: Luật kết hợp (Tiếp)Chương 5 5.8.Bài tập thực hànhTiết thứ: 1 - 3 Tuần thứ: 13

- Mục đích, yêu cầu: Cài đặt các thuật toán tìm luật kết hợp

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Bài tập 3 tiết- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

5.8 Thực hành khai phá luật kết hợp5.8.1 Sử dụng thư viện MPI song song hóa thuật toán khai phá luật kết

hợp Phân tích bài toán giỏ hàng Cài đặt thuật toán Apriori: tìm tập phổ biến Đánh giá kết quả thực nghiệm, so sánh

5.8.2 Cài đặt thuật toán Apriori cải tiến tìm luật kết hợp có trọng số trong CSDL giao dịch mua hàng Cài đặt thuật toán

Page 10: BỘ MÔN DUYỆT Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠNG ...

Các lựa chọn tham số thực hiện Đánh giá kết quả

5.8.3 Sử dụng Weka khai phá luật kết hợp- Yêu cầu SV chuẩn bị:

Đọc chương 8 các tài liệu [1], [2], chương 7 tài liệu [4]Bài tập về nhà: bài tập tự làm chương 6 tài liệu [5]

Bài giảng 14: Text Mining Chương 6 Mục 6.1 + 6.2 Tiết thứ: 1 - 3 Tuần thứ: 14

- Mục đích, yêu cầu: Nắm được các khái niệm về các bài toán khai phá với dữ liệu văn bản Cách thức giải quyết bài toán tách từ: là bài toán điển hình khi giải bài

toán KPDL với dữ liệu Text.- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 5t- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

6.1 Tổng quan về Text Mining Ý nghĩa Các bài toán trong Text Mining Mô hình biểu diễn văn bản Sơ lược về tình hình nghiên cứu và ứng dụng Text Mining

6.2 Bài toán Tách từ Tiếng Việt6.2.1 Vai trò của tách từ trong Text Mining6.2.2 Nội dung bài toán tách từ6.2.3 Một số khó khăn khi tách từ Tiếng Việt6.2.4 Một số hướng chính giải bài toán tách từ Tiếng Việt6.2.5 Tách từ dựa vào từ điển Thuật toán Longest Matching Thuật toán Maximal Matching6.2.6 Tách từ dựa vào thống kê Phương pháp Ngram Phương pháp MaximumEntropi6.2.7 Tách từ dựa trên phương pháp lai6.2.8 Đánh giá thuật toán6.2.9 Ví dụ minh họa6.2.10 Xây dựng ứng dụng

- Yêu cầu SV chuẩn bị:Bài tập về nhà: bài tập tự làm chương 7 tài liệu [5]

Bài giảng 15: Text MiningChương V 6.3 + 6.4

Page 11: BỘ MÔN DUYỆT Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠNG ...

Tiết thứ: 1 - 3 Tuần thứ: 14- Mục đích, yêu cầu:

Nắm được các khái niệm về các bài toán khai phá với dữ liệu văn bản Bài toán phân lớp văn bản; Một số bài toán KPDL với dữ liệu văn bản khác.

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Lý thuyết, thảo luận: 1t; Bài tập 3 tiết, Tự học, tự nghiên cứu: 5t- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

6.3 Phân lớp văn bản6.3.1 Quy trình giải bài toán phân lớp văn bản6.3.2 Ứng dụng Thuật toán Bayest phân lớp văn bản6.3.3 Đánh giá ưu nhược điểm của thuật toán6.3.4 Ví dụ minh họa6.4 Giới thiệu một số bài toán Text Mining khác6.4.1 Tóm tắt văn bản (Text Summarization)6.4.2 Phân tích cú pháp (Grammar analysis)6.4.3 Kiểm lỗi chính tả (Check spelling)6.4.4 Phân tích hình thái (Morpholigical analysis)

- Yêu cầu SV chuẩn bị:Bài tập về nhà: bài tập tự làm chương 7 tài liệu [5]

Bài giảng 16: Text Mining (Tiếp)Chương 6 6.5. Bài tập thực hànhTiết thứ: 1 - 3 Tuần thứ: 16

- Mục đích, yêu cầu: Cài đặt các thuật toán tách từ và phân lớp văn bản

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Bài tập 3 tiết- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

6.5 Thực hành xây dựng ứng dụng Text Mining6.5.1 Bài toán phân loại thư rác Giới thiệu bài toán Cấu trúc email Một số kỹ thuật phân loại thư rác Ứng dụng Bayet trong lọc thư rác Đánh giá Một số mã nguồn mở về lọc thư rác6.5.2 Các thuật toán tách từ Tiếng Việt Cài đặt và thử nghiệm đánh giá6.5.3 Cài đặt ứng dụng phân loại văn bản bằng thuật toán xác xuất Bayet

- Yêu cầu SV chuẩn bị:

Page 12: BỘ MÔN DUYỆT Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠNG ...

Đọc chương 8 các tài liệu [1], [2], chương 7 tài liệu [4]Bài tập về nhà: bài tập tự làm chương 6 tài liệu [5]

Bài giảng 17: Web MiningChương 7 7.1 - 7.5Tiết thứ: 1 - 3 Tuần thứ: 16

- Mục đích, yêu cầu: Nắm được các khái niệm về các bài toán khai phá với dữ liệu web Bài toán phân lớp WEB, KPDL log WEB, KPDL cấu trúc WEB;

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 6t- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

7.1 Tổng quan về Web Mining Một số khái niệm về WebMining Các bài toán trong Web Mining Mô hình biểu diễn liên kết web Sơ lược về tình hình nghiên cứu và ứng dụng Web Mining

7.2 Trích rút thông tin từ các URL7.2.1 Biểu diễn liên kết web7.2.2 Kỹ thuật trích rút tin từ URL7.2.3 Bóc tách tin theo mẫu7.3 Máy tìm kiếm7.3.1 Giới thiệu chung7.3.2 Cấu trúc chung của máy tìm kiếm7.3.3 Nguyên tắc thực hiện của Robot7.3.4 Hệ thống lập chỉ mục và các phương pháp đánh chỉ mục, tính trọng số7.3.5 Máy tìm kiếm User Interface Query Engine WebRank, PageRank Một số vấn đề về nâng cao chất lượng tìm kiếm7.4 Web Structure Mining7.4.1 Ý nghĩa thực tế7.4.2 Một số tiếp cận thực hiện khai phá cấu trúc web7.4.3 Giới thiệu một số công cụ hỗ trợ7.4.4 Đánh giá, kết luận7.5 Web Usage Mining7.5.1 Ý nghĩa thực tế7.5.2 Một số tiếp cận thực hiện khai phá log web7.5.3 Giới thiệu một số công cụ hỗ trợ7.5.4 Đánh giá, kết luận

Page 13: BỘ MÔN DUYỆT Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠNG ...

- Yêu cầu SV chuẩn bị:Bài tập về nhà: bài tập tự làm chương 7 tài liệu [5]

Bài giảng 18: Web Mining (Tiếp)Chương 7 7.6. Bài tập thực hànhTiết thứ: 1 - 3 Tuần thứ: 17

- Mục đích, yêu cầu: Cài đặt một số thuật toán KPDL dạng WEB

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Bài tập 3 tiết- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

7.6 Thực hành xây dựng ứng dụng về Web Mining7.6.1 Xây dựng công cụ tự động thu thập tin từ các URL theo mẫu tin đã định trước Định nghĩa, mô tả mẫu tin Cài đặt ứng dụng lọc tin Phân loại tin theo chủ đề Khử trùng lặp dữ liệu7.6.2 Xây dựng ứng dụng báo điện tử7.6.3 Ứng dụng phân tích Web Usage Đánh giá xu hướng người dùng đối với các trang bán hàng, tin tức… Cảnh báo về an ninh mạng

- Yêu cầu SV chuẩn bị:Đọc chương 7 các tài liệu [1], [2], chương 7 tài liệu [4]Bài tập về nhà: bài tập tự làm chương 7 tài liệu [5]

Bài giảng 19: Multimedia MiningChương 8 8.1 + 8.2 + 8.3Tiết thứ: 1 - 3 Tuần thứ: 18

- Mục đích, yêu cầu: Nắm được các khái niệm về các bài toán khai phá với dữ liệu đa phương

tiện Một số thuật toán KPDL với CSDL đa phương tiện;

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 6t- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

8.1 Giới thiệu chung về Multimedia Mining8.1.1 Dữ liệu đa phương tiện8.1.2 Các bài toán trong KPDL đa phương tiện8.1.3 Những thách thức chính trong KPDL đa phương tiện

Page 14: BỘ MÔN DUYỆT Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠNG ...

8.1.4 Sơ lược về tình hình nghiên cứu và ứng dụng Multimedia Mining 8.2 Tìm kiếm, phân loại ảnh theo ngữ nghĩa8.2.1 Ý nghĩa bài toán8.2.2 Mô hình bài toán phân loại ảnh8.2.3 Đặc trưng ảnh Đặc trưng màu sắc Đặc trưng kết cấu Đặc trưng hình dáng Đặc trưng bất biến8.2.4 Xác định độ đo tương tự8.2.5 Một số tiếp cận phát hiện đối tượng trên ảnh8.2.6 Một số hệ thống tìm kiếm, phân loại ảnh8.3 Khai phá dữ liệu trên CSDL video8.3.1 Mô hình dữ liệu Video8.3.2 Trích rút khung hình từ CSDL Video8.3.3 Truy vấn dữ liệu Video8.3.4 Một số hệ thống khai phá dữ liệu Video

- Yêu cầu SV chuẩn bị:Bài tập về nhà: bài tập tự làm chương 7 tài liệu [5]

Bài giảng 20: Multimedia Mining (Tiếp)Chương 8 8.4. Bài tập thực hànhTiết thứ: 1 - 3 Tuần thứ: 19

- Mục đích, yêu cầu: Cài đặt một số thuật toán KPDL với CSDL đa phương tiện

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Bài tập 3 tiết- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

8.4 Thực hành KPDL đa phương tiện8.4.1 Phân loại ảnh dựa trên các độ đo tương tự Cài đặt một số thuật toán xử lý ảnh Trích rút đặc trưng ảnh tạo vecto đặc trưng Phân loại ảnh8.4.2 Phát hiện xâm nhập trên video thu nhận từ camera Thu nhận video từ Webcam, Camera Sử dụng một số phương pháp phát hiện, cảnh báo có xâm nhập

- Yêu cầu SV chuẩn bị:Bài tập về nhà: bài tập tự làm chương 8 tài liệu [5]

Bài giảng 20: Một số bài toán khácChương 9Tiết thứ: 1 - 3 Tuần thứ: 20

- Mục đích, yêu cầu:

Page 15: BỘ MÔN DUYỆT Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠNG ...

Nắm được các khái niệm về các một số bài toán KPDL khác Xu hướng và triển vọng của KPDL.

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu- Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 6t- Địa điểm: Giảng đường do P2 phân công.- Nội dung chính:

9.1 Hồi quy Mô hình bài toán hồi quy Hồi quy tuyến tính Ứng dụng của hồi quy

9.2 Chuỗi thời gian9.2.1 Khái niệm chuỗi thời gian9.2.2 Các thành phần của chuỗi thời gian9.2.3 Các phương pháp làm trơn9.2.4 Mô hình hóa việc dự báo giá trị của đại lượng X9.2.5 Dự báo9.2.6 Mô hình ARMA và đánh giá9.2.7 Một số vấn đề mở rộng về khai phá dữ liệu trên chuỗi thời gian9.3 Một số vấn đề về xu hướng và triển vọng của KPDL

- Yêu cầu SV chuẩn bị:Bài tập về nhà: bài tập tự làm chương 9 tài liệu [5]