KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI...

68
ĐẠI HC QUC GIA HÀ NI TRƯỜNG ĐẠI HC CÔNG NGHPHM TRUNG KIÊN KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Ni 2019

Transcript of KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI...

Page 1: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM TRUNG KIÊN

KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM

QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2019

Page 2: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM TRUNG KIÊN

KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM

QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG

Ngành: Kỹ Thuật Phần Mềm

Chuyên ngành: Kỹ Thuật Phần Mềm

Mã số: 8480103.01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. TRẦN TRỌNG HIẾU

Hà Nội – 2019

Page 3: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

LỜI CAM ĐOAN

Tôi xin cam đoan rằng những nghiên với đề tài “Khai thác và phân tích

dữ liệu nhằm quản lý rủi ro trong giao dịch tín dụng” được trình bày trong luận

văn này là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của thầy giáo

TS. Trần Trọng Hiếu, không sao chép lại của người khác. Tất cả các nguồn tài

liệu tham khảo, các công trình nghiên cứu liên quan đều được trích dẫn cụ thể.

Tôi xin chịu hoàn toàn trách nhiệm nếu có bất kỳ phát hiện nào về sự sao

chép mà không có trích dẫn trong tài liệu tham khảo.

Page 4: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

LỜI CÁM ƠN

Em xin chân thành cám ơn thầy giáo TS. Trần Trọng Hiếu người đã nhiệt tình

hướng dẫn, chỉ bảo trong suốt quá trình hoàn thành luận văn này cũng như cả giai

đoạn bắt đầu xây dựng đề cương xác định hướng nghiên cứu của luận văn.

Em xin chân thành cám ơn toàn thể quý thầy cô trong Khoa CNTT đã tận

tình truyền đạt những kiến thức quý báu cũng như tạo mọi điều kiện thuận lợi

nhất cho em trong quá trình học tập nghiên cứu.

Tôi xin chân thành cám ơn ban lãnh đạo, đồng nghiệp tại Trung tâm Công

nghệ Thông tin – Ngân hàng Vietinbank đã tạo rất nhiều điều kiện cho tôi trong

việc nghiên cứu và thực hiện luận văn.

Xin chân thành cảm ơn gia đình, các học viên trong lớp Cao học K22 đã

hỗ trợ cho tôi rất nhiều trong suốt quá trình học tập, nghiên cứu và thực hiện đề

tài luận văn thạc sĩ một cách hoàn chỉnh.

Tôi xin cám ơn đề tài cấp Đại học Quốc Gia Hà Nội mã số: QG.19.23

Hà Nội, ngày tháng năm 2019

Tác giả luận văn

Phạm Trung Kiên

Page 5: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

MỤC LỤC

LỜI CAM ĐOAN ................................................................................................. i

LỜI CÁM ƠN ...................................................................................................... ii

DANH MỤC CÁC TỪ VIẾT TẮT ................................................................... vi

DANH MỤC HÌNH VẼ .................................................................................... vii

GIỚI THIỆU ........................................................................................................ 1

CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ................................. 3

1.1. Khai phá dữ liệu là gì? .............................................................................. 3

1.2. Lợi ích của Khai phá dữ liệu .................................................................... 3

1.3. Các bước chính trong khai phá dữ liệu ..................................................... 4

1.4. Các kỹ thuật khai phá dữ liệu ................................................................... 5

Kỹ thuật phân lớp ............................................................................... 5

Kỹ thuật phân cụm ............................................................................. 5

Kỹ thuật phân tích luật kết hợp .......................................................... 5

Kỹ thuật bài toán hồi quy ................................................................... 5

Kỹ thuật dự đoán ................................................................................ 5

Kỹ thuật phân tích chuỗi .................................................................... 6

Kỹ thuật phân tích độ lệch .................................................................. 6

1.5. Các thuật toán phân lớp ............................................................................ 6

Rừng ngẫu nhiên - Random Forest .................................................... 6

Hồi quy logistic - Logistic Regression ............................................... 7

Cây quyết định - Decision tree ........................................................... 7

Phân lớp sác xuất - Navie Bayes ........................................................ 8

Máy véc-tơ hỗ trợ - Supper Vector Machine (SVM) ......................... 8

Stochastic Gradient Descent............................................................... 9

Láng giềng gần nhất – (K-Nearest Neighbours) ................................ 9

1.6. Ứng dụng của khai phá dữ liệu ................................................................. 9

1.7. Đề tài khai phá dữ liệu phân lớp rủi ro tín dụng .................................... 13

CHƯƠNG 2: BÀI TOÁN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG ....... 14

2.1. Lý thuyết rủi ro tín dụng ......................................................................... 14

Khái niệm rủi ro tín dụng ................................................................. 14

Page 6: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

Những nguyên nhân phát sinh rủi ro tín dụng.................................. 14

Phân loại nhóm nợ ............................................................................ 14

Điều kiện vay vốn ............................................................................ 15

Căn cứ xác định định mức cho vay .................................................. 16

Đối tượng áp dụng ............................................................................ 16

Mô hình lượng hóa rủi ro tín dụng cho khách hàng cá nhân ........... 16

2.2. Phát biểu bài toán ................................................................................... 18

2.3. Quy trình phân lớp xây dựng mô hình ................................................... 19

2.4. Mô hình phân lớp dự báo rủi ro .............................................................. 21

2.5. Lựa chọn nghiên cứu thuật toán ............................................................. 22

Phân lớp Cây quyết định .................................................................. 22

2.5.1.1. Thuật toán cây quyết định .......................................................... 22

2.5.1.2. Hoạt động của thuật toán Cây quyết định .................................. 23

2.5.1.3. Các biện pháp lựa chọn thuộc tính ............................................. 24

2.5.1.4. Thông tin đạt được ..................................................................... 24

2.5.1.5. Tỷ lệ tăng ................................................................................... 25

2.5.1.6. chỉ số Gini .................................................................................. 25

Phân lớp Naive Bayes ...................................................................... 26

2.5.2.1. Quy trình phân lớp ..................................................................... 26

2.5.2.2. Phân lớp Naive Bayes là gì? ...................................................... 27

2.5.2.3. Hoạt động của phân lớp Naive Bayes ........................................ 28

CHƯƠNG 3: THỰC NGHIỆM TRÊN DỮ LIỆU VIETINBANK .............. 29

3.1. Khảo sát hoạt động tín dụng của hệ thống Vietinbank........................... 29

Tổng quan hoạt động tín dụng của Vietinbank ................................ 29

Các biện pháp quản trị nợ xấu đã được áp dụng tại VietinBank ..... 31

3.1.2.1. Hệ thống xếp hạng tín dụng: ...................................................... 31

3.1.2.2. Công tác dự báo nợ có khả năng chuyển xấu: ........................... 31

3.1.2.3. Những tồn tại, hạn chế ............................................................... 31

3.2. Mô tả bài toán áp dụng KPDL hỗ trợ quản lý rủi ro tín dụng ................ 32

3.3. Mô hình dữ liệu tại Core Vietinbank ...................................................... 33

3.4. Môi trường .............................................................................................. 34

3.5. Thu thập dữ liệu ...................................................................................... 34

Page 7: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

3.6. Biến đổi dữ liệu, tính toán sinh ra các bảng ........................................... 35

3.7. Làm sạch dữ liệu ..................................................................................... 37

Giảm bớt dữ liệu ............................................................................... 37

3.8. Lựa chọn dữ liệu ..................................................................................... 37

3.9. Tìm hiểu dữ liệu ...................................................................................... 38

3.10. Lựa chọn thuật toán ............................................................................. 39

3.11. Lựa chọn công cụ ................................................................................ 39

3.12. Xây dựng mô hình phân lớp ................................................................ 40

Lựa chọn dữ liệu & thuộc tính ......................................................... 40

Mô hình Cây quyết định J48 ............................................................ 42

3.12.2.1. Xây dựng cây ............................................................................. 42

3.12.2.2. Tham số thuật toán J48 trên Weka ............................................. 46

3.12.2.3. Tham số dữ liệu training ............................................................ 46

3.12.2.4. Thực nghiệm dữ liệu với J48 trên Weka.................................... 47

3.12.2.5. Đánh giá các lần chạy thực nghiệm với thuật toán J48 ............. 48

Phân lớp Naive Bayes ...................................................................... 49

3.12.3.1. Cấu hình tham số thuật toán Naive Bayes ................................. 49

3.12.3.2. Đánh giá các lần chạy thực nghiệm thuật toán Naive Bayes ..... 52

3.13. Đánh giá mô hình. ............................................................................... 52

So sánh kết quả các lần chạy giữa 2 thuật toán ................................ 52

Đánh giá lần chạy J48 đạt tỷ lệ phân lớp đúng cao nhất .................. 53

Đánh giá lần chạy Navie đạt tỷ lệ dữ liệu tập huấn 55% ................. 54

3.14. Triển khai tích hợp hệ thống Khai phá dữ liệu .................................... 55

CHƯƠNG 4: KẾT LUẬN ................................................................................ 57

4.1. Các kết quả đã đạt được .......................................................................... 57

4.2. Mục tiêu tương lai................................................................................... 57

TÀI LIỆU THAM KHẢO ................................................................................ 59

Page 8: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

DANH MỤC CÁC TỪ VIẾT TẮT

NHNN Ngân hàng nhà nước Việt Nam

TMCP Thương mại cổ phần

VietinBank Ngân hàng TMCP Công thương Việt Nam

KPDL Khai phá dữ liệu

TSĐB Tài sản đảm bảo

RRTD Rủi ro tín dụng

HĐTD Hoạt động tín dụng

Page 9: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

DANH MỤC HÌNH VẼ

Hình 1.3.1: Lợi ích của Khai phá dữ liệu .............................................................. 3

Hình 1.3.1: Các bước khai phá dữ liệu................................................................. 4

Hình 1.3.2: Các bước chuẩn bị data ...................................................................... 4

Hình 2.3.1: Phát biểu bài toán ............................................................................ 18

Hình 2.4.1: Quy trình huấn luyện - training ........................................................ 20

Hình 2.4.2: Quy trình test dữ liệu ....................................................................... 21

Hình 2.4.3: Quy trình áp dụng mô hình .............................................................. 21

Hình 2.5.1: Mô hình phân lớp dự báo rủi ro ....................................................... 21

Hình 2.6.1: Cây quyết định ................................................................................. 23

Hình 2.6.2: luồng hoạt động của cây quyết định ................................................ 24

Hình 2.6.3: Quy trình phân lớp ........................................................................... 27

Hình 3.1.1: Tổng dư nợ VietinBank từ 2013 – 2017 .......................................... 29

Hình 3.1.2: Cơ cấu tín dụng VietinBank theo kỳ hạn từ 2012 - 2017 ................ 30

Hình 3.1.3: So sánh chỉ tiêu tín dụng, huy động, lợi nhuận, nợ xấu ................... 30

Hình 3.1.4: Biểu đồ kiểm soát nợ xấu giai đoạn 2010 đến 2017 ........................ 30

Hình 3.3.1: Mô hình datawarehouse của Vietinbank .......................................... 33

Hình 3.4.1: Môi trường thực nghiệm .................................................................. 34

Hình 3.5.1: Mô hình thu thập dữ liệu .................................................................. 34

Hình 3.8.1: Lựa chọn dữ liệu .............................................................................. 37

Hình 3.9.1: Biểu diễn dữ liệu .............................................................................. 39

Hình 3.12.2: Đặt khoảng cho thuộc tính định mức được vay ............................. 41

Hình 3.12.3: Đặt khoảng cho thuộc tính định mức được vay ............................. 41

Hình 3.12.4: Đặt khoảng cho thuộc tính Tuổi ..................................................... 42

Hình 3.12.5: Chọn công cụ chạy bảng độ lợi thông tin trên Weka ..................... 43

Hình 3.12.6: Bảng độ lợi thông tin trên Weka .................................................... 43

Hình 3.12.7: Biểu đồ Gain – độ lợi thông tin ...................................................... 44

Hình 3.12.8: Hướng dẫn vào màn hình tham số J48 trên Weka ......................... 46

Hình 3.12.9: Hướng dẫn cấu hình tham số xuất dữ liệu trên Weka .................... 46

Page 10: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

Hình 3.12.11: Biểu đồ xác suất J48..................................................................... 48

Hình 3.12.12: Cấu hình tham số thuật toán Naive Bayes ................................... 49

Hình 3.12.13: Kết quả chạy thuật toán Naive Bayes trên Weka ......................... 50

Hình 3.12.14: Biểu đồ phân lớp Naïve Bayes ..................................................... 51

Hình 3.12.15: Biểu đồ tỷ lệ chính xác Navie Bayes ........................................... 52

Hình 3.13.1: Biểu đồ so sánh tỷ lệ phân lớp đúng J48 & Navie bayes............... 52

Hình 3.13.2: kết quả lần chạy phù hợp nhất J48 ................................................. 53

Hình 3.13.3: kết quả lần chạy phù hợp nhất Navie Bayes .................................. 55

Hình 3.14.1: Màn hình login 3600 ....................................................................... 55

Hình 3.14.2: Màn hình giao diện ........................................................................ 56

Hình 3.14.3: Màn hình kết quả ............................................................................ 56

Page 11: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

1

GIỚI THIỆU

Hoạt động tín dụng (HĐTD) trong ngành ngân hàng là đặc biệt quan trọng vì

vậy việc đánh giá và phân loại rủi ro là nhiệm vụ hàng đầu trong quản trị vận

hành. Vì lẽ đó nên hiện nay hầu hết các ngân hàng trên thế giới nói chung và

Việt Nam nói riêng đều có những hệ thống hỗ trợ trong việc phân loại & đánh

giá rủi ro.

Hiện nay các ngân hàng hầu hết đều sử dụng mô hình chấm điểm tín dụng để hỗ

trợ đánh giá rủi ro và xếp hạng tín dụng, để từ đó làm cơ sở có quyết định cho

khách hàng vay hay không. Các ngân hàng khác nhau thì cũng có thể khác nhau

về cấu trúc & cách vận hành hệ thống xếp hạng tín dụng, ví dụ như: cơ cấu và

trọng số của các chỉ tiêu, ước tính mức rủi ro gắn liền với các mức xếp hạng, số

lượng các mức xếp hạng, hay các chính sách khách hàng, chính sách tín dụng áp

dụng v.v... [6]

Hầu hết các Ngân hàng sử dụng bảng chỉ tiêu (bảng danh sách các thang điểm

tín dụng ứng với từng thông tin hồ sơ khách hàng, như: thu nhập, nghề nghiệp,

tài sản thế chấp…) dùng để tổng hợp và chấm điểm tín dụng đối với khách hàng,

nếu thang điểm là tốt thì khách hàng sẽ được tiếp cận với khoản vay tương ứng

Từ thực tế cho thấy, quy trình xét duyệt cho vay gặp phải nhiều vấn đề như:

Chất lượng thẩm định tín dụng phụ thuộc vào trình độ phân tích, cũng như

chủ quan đánh giá của cán bộ tín dụng.

Các NHTM sử dụng mô hình này sẽ phải bỏ ra nhiều nguồn lực & thời

gian để thẩm định thông tin khách hàng, cũng như đòi hỏi cán bộ tín dụng

phải có tính chuyên nghiệp, có thâm niên, kỹ năng

Đặc biệt là mô hình chấm điểm này chưa có khả năng dự báo được rủi ro

mà mới chỉ đánh giá được phần nào rủi ro nhờ điểm xếp hạng (dựa trên

thông tin hiện có của hệ thống)

Tác giả hiện đang công tác ở Ngân hàng TMCP Vietinbank với vị trí công việc

là cán bộ IT có trách nhiệm hỗ trợ các module nghiệp vụ trong đó có module Tín

dụng. Từ những hạn chế của mô hình chấm điểm xếp hạng tín dụng hiện tại là

phụ thuộc cơ bản vào yếu tố con con người, và với mong muốn đề xuất giải

pháp cải tiến trong hoạt động quản lý rủi ro tín dụng. Vậy nên, tác giả xin đề

xuất hướng nghiên cứu của luận văn là: Ứng dụng khai phá dữ liệu nhằm hỗ trợ

đánh giá và dự đoán phân loại rủi ro tín dụng của các khoản vay mới. Với mục

Page 12: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

2

tiêu là xây dựng được mô hình phân lớp làm cơ sở tri thức để dự đoán phân loại

nợ tốt/xấu với tập khách hàng mới, và phạm vi bài toán trong khuôn khổ luận

văn sẽ tập trung vào mảng nghiệp vụ “Cho vay tín dụng với khách hàng cá

nhân”.

Luận văn được tổ chức thành 4 chương gồm:

Chương 1: Trình bày tổng quan thế nào là khai phá dữ liệu, các bước trong quy

trình khai phá dữ liệu và các phương pháp khai phá dữ liệu. Các ứng dụng phổ

biến của khai phá dữ liệu

Chương 2: Nghiên cứu quy trình quản lý hoạt động rủi ro tín dụng Ngân hàng.

Từ những hạn chế trong thực tế vận hành quy trình quản lý rủi ro tín dụng, tác

giả đề xuất xây dựng mô hình quản lý rủi ro bằng phương pháp khai phá dữ liệu.

Mô hình này đáp ứng là cơ sở tri thức để hỗ trợ công tác quản lý rủi ro trên các

phương diện: Phân loại rủi ro & dự đoán rủi ro. Và từ tính chất của dữ liệu cho

vay, tác giả chọn tìm hiểu chi tiết các thuật toán dùng để áp dụng là: Cây quyết

định, Navie Bayes

Chương 3: ứng dụng nghiên cứu trên dữ liệu thực nghiệm của Ngân hàng

Vietinbank. Trong chương này tác giả thực hiện các nội dung:

Thu thập dữ liệu

Phân tích dữ liệu

Xây dựng mô hình phân lớp dự báo rủi ro

Tích hợp Module Khai phá dữ liệu và hệ thống Khảo sát tín dụng 3600

của Ngân hàng Vietinbank

Chương 4: Tóm tắt những kết quả đã và chưa đạt được, từ đó đưa ra những mục

tiêu và hướng tiếp cận trong tương lai.

Page 13: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

3

CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1. Khai phá dữ liệu là gì?

Khai phá dữ liệu là quá trình phân lớp, sắp xếp các tập hợp dữ liệu lớn để xác

định các mẫu và thiết lập các mối liên hệ nhằm giải quyết các vấn đề nhờ phân

tích dữ liệu. Các công cụ khai phá dữ liệu cho phép các doanh nghiệp có thể dự

đoán được xu hướng tương lai [1][2].

1.2. Lợi ích của Khai phá dữ liệu

Lợi ích chính của Khai phá dữ liệu nằm ở khả năng phát hiện các mẫu và mối

liên hệ tiềm ẩn trong cơ sở dữ liệu. Hay nói cách khác giúp ta làm chủ kho dữ

liệu lớn, bằng mô hình tri thức được xây dựng dựa trên nguồn dữ liệu có sẵn,

Khai phá dữ liệu đem lại nhiều giá trị như:

Lịch sử bán hàng và hành vi của khách hàng có thể được sử dụng để xây

dựng các mô hình dự báo doanh số, sản phẩm và dịch vụ mới cho tương lai.

Các công ty trong ngành tài chính sử dụng các công cụ Khai phá dữ liệu để

xây dựng các mô hình phát hiện rủi ro và gian lận.

Trong Lĩnh vực sản xuất công nghiệp có thể sử dụng Khai phá dữ liệu trong

việc cải thiện an toàn sản phẩm, xác định các vấn đề về chất lượng, quản lý

chuỗi cung ứng và cải thiện hoạt động vận hành sản xuất...

Hình 1.3.1: Lợi ích của Khai phá dữ liệu

Page 14: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

4

1.3. Các bước chính trong khai phá dữ liệu

Tập hợp dữ liệu

Làm sạch dữ liệu

Chuyển đổi dữ liệu

Chọn lọc dữ liệu

Dữ liệu dùng để Khai phá

Tìm hiểu nghiệp vụ

Tìm hiểu dữ liệu

Chuẩn bị dữ liệu

Xây dựng mô hình

Triển khai

Kiểm thử & Đánh giá mô hình

Dữ liệu thực tế

Hình 1.3.1: Các bước khai phá dữ liệu

Bước 1: Tìm hiểu nghiệp vụ - Business Understanding

Bước 2: Tìm hiểu dữ liệu - Data Understanding

Bước 3: Chuẩn bị dữ liệu - Data preparation

Việc chuẩn bị dữ liệu bao gồm các bước

Tập hợp dữ liệu Làm sạch dữ liệuChuyển đổi

dữ liệuChọn lọc dữ liệu

Dữ liệu dùng để Khai phá

Dữ liệu thực tế

Hình 1.3.2: Các bước chuẩn bị data

Bước 4: Xây dựng mô hình hóa - Model Building

Bước 5: Kiểm thử và đánh giá mô hình - Testing and Evaluation

Page 15: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

5

Bước 6: Triển khai - Deployment

1.4. Các kỹ thuật khai phá dữ liệu

Kỹ thuật phân lớp

Kỹ thuật phân lớp là một trong những kỹ thuật Khai phá dữ liệu phổ biến nhất,

ví dụ như: quản lý rủi ro hay lựa chọn ảnh quảng cáo nào sẽ xuất hiện đối với

mỗi nhóm khách hàng, hay phân tích xem nhóm khách hàng nào có khả năng sẽ

chuyển sang dùng sản phẩm dịch vụ của đối thủ cạnh tranh của công ty…

Kỹ thuật phân lớp là dữ liệu được tổ chức trong các lớp cho trước, hay còn được

gọi là học có quan sát. Trong kỹ thuật phân loại người ta sử dụng các nhãn lớp

cho trước để sắp xếp các đối tượng. Mà trong đó, một tập huấn luyện bao gồm

các đối tượng đã được kết hợp với các nhãn đã biết. Những thuật toán có quan

sát sẽ được áp dụng cho tập các đối tượng cần phân loại để từ đó có thể mô hình

hóa sự phân lớp của dữ liệu.

Kỹ thuật phân cụm

Kỹ thuật phân cụm khác biệt với kỹ thuật phân lớp là các nhãn lớp chưa biết và

không có dữ liệu huấn luyện. Đối tượng được phân cụm dựa trên các thuộc tính

tương đồng giữa chúng. Bài toán phân cụm còn hay được gọi là học không có

giám sát.

Kỹ thuật phân tích luật kết hợp

Kỹ thuật phân tích luật kết hợp, hay còn gọi là kỹ thuật phân tích giỏ hàng bởi vì

nó thường được sử dụng rộng rãi trong phân tích các giao dịch dữ liệu, các bài

toán lựa chọn hàng hóa đi kèm…

Kỹ thuật phân tích luật kết hợp khám phá ra các luật kết hợp thể hiện mối liên hệ

giữa các thuộc tính dữ liệu mà thường xuất hiện cùng nhau trong các tập dữ liệu.

Kỹ thuật bài toán hồi quy

Kỹ thuật hồi quy cũng tương tự như kỹ thuật phân lớp. Điểm khác biệt là hồi

quy dự đoán cho các dữ liệu liên tục.

Kỹ thuật dự đoán

Dự đoán là phần quan trọng của KHAI PHÁ DỮ LIỆU. Có hai loại dự đoán

chính:

Dự đoán về một số giá trị dữ liệu chưa biết hay có xu hướng sắp xảy ra

Page 16: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

6

Dự đoán để phân lớp dựa trên (một tập huấn luyện và giá trị thuộc tính)

của đối tượng.

Kỹ thuật phân tích chuỗi

Là kỹ thuật để tìm ra các mẫu trong một loạt các giá trị hay trạng thái rời rạc.

Ví dụ: việc chọn mua hàng hóa của khách hàng có thể mô hình là một chuỗi dữ

liệu. Hành động chọn mặt hàng A, sau đó chọn mặt hàng B, C… là một chuỗi

các trạng thái rời rạc. Trong khi đó thời gian lại là chuỗi số liên tục.

Phân tích chuỗi (PTC) và phân tích luật kết hợp (PTLKH) giống nhau ở chỗ đều

phân tích tập hợp các đối tượng hay trạng thái. Điểm khác biệt là mô hình chuỗi

phân tích sự chuyển của các trạng thái, trong khi mô hình luật kết hợp thì coi

mỗi một mặt hàng trong giỏ hàng là như nhau và độc lập.

Với mô hình chuỗi, thì việc chọn mặt hàng A trước mặt hàng B hay việc chọn

mặt hàng B trước A sau là khác nhau. Còn ở mô hình kết hợp thì cả hai trường

hợp đều không khác nhau.

Kỹ thuật phân tích độ lệch

Kỹ thuật này còn được gọi theo cách khác là phát hiện điểm biên. Điểm biên là

những đối tượng dữ liệu mà không tuân theo các đặc tính và hành vi chung. Bài

toán phát hiện điểm biên ứng dụng rất nhiều trong các ứng dụng.

Điển hình ứng dụng quan của bài toán phát hiện điểm biên là bài toán kiểm tra

xác nhận thẻ tín dụng…

1.5. Các thuật toán phân lớp

Rừng ngẫu nhiên - Random Forest

Định nghĩa: Phân lớp rừng ngẫu nhiên là một công cụ ước tính phù hợp với một

số cây quyết định trên các mẫu dữ liệu con khác nhau và sử dụng trung bình để

cải thiện độ chính xác dự đoán của mô hình và kiểm soát sự phù hợp quá

mức. Cỡ mẫu phụ luôn giống với cỡ mẫu đầu vào ban đầu nhưng các mẫu được

vẽ thay thế.

Ưu điểm: Giảm phân lớp rừng phù hợp quá mức và ngẫu nhiên là chính xác hơn

so với cây quyết định trong hầu hết các trường hợp.

Nhược điểm: Dự đoán thời gian thực chậm, khó thực hiện và thuật toán phức

tạp.

Page 17: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

7

Hồi quy logistic - Logistic Regression

Hồi quy logistic là đối tác phân loại với hồi quy tuyến tính. Dự đoán được ánh

xạ từ 0 đến 1 thông qua hàm logistic , có nghĩa là dự đoán có thể được hiểu là

xác suất của lớp.

Bản thân các mô hình vẫn là "tuyến tính", vì vậy chúng hoạt động tốt khi các lớp

của bạn có thể phân tách tuyến tính (nghĩa là chúng có thể được phân tách bằng

một bề mặt quyết định duy nhất). Hồi quy logistic cũng có thể được thường

xuyên hóa bằng cách xử phạt các hệ số với cường độ hình phạt có thể điều

chỉnh.

Điểm mạnh: Đầu ra có một diễn giải xác suất tốt và thuật toán có thể được

thường xuyên hóa để tránh bị quá mức. Các mô hình logistic có thể được cập

nhật dễ dàng với dữ liệu mới bằng cách sử dụng gốc dốc ngẫu nhiên.

Điểm yếu: Hồi quy logistic có xu hướng hoạt động kém khi có nhiều ranh

giới quyết định phi tuyến tính. Họ không đủ linh hoạt để tự nhiên nắm bắt

các mối quan hệ phức tạp hơn.

Cây quyết định - Decision tree

Cây hồi quy (còn gọi là cây quyết định) học theo kiểu phân cấp bằng cách liên

tục chia dữ liệu của bạn thành các nhánh riêng biệt để tối đa hóa mức tăng thông

tin của mỗi lần phân tách.Cấu trúc phân nhánh này cho phép cây hồi quy tự

nhiên học các mối quan hệ phi tuyến tính.

Các phương thức của bộ đồng phục, chẳng hạn như Rừng ngẫu nhiên (RF) và

Cây tăng cường Gradient (GBM), kết hợp các dự đoán từ nhiều cây riêng

lẻ. Chúng ta sẽ không đi sâu vào cơ học cơ bản của chúng ở đây, nhưng trên

thực tế, RF thường hoạt động rất tốt trong khi GBM khó điều chỉnh hơn nhưng

có xu hướng có hiệu suất cao hơn.

Điểm mạnh: Cây quyết định có thể học các mối quan hệ phi tuyến tính và

khá mạnh mẽ đối với các ngoại lệ. Bộ sưu tập thực hiện rất tốt trong thực tế,

chiến thắng nhiều cuộc thi học máy cổ điển (tức là không học sâu).

Điểm yếu: Không bị giới hạn, các cây riêng lẻ dễ bị quá mức vì chúng có thể

tiếp tục phân nhánh cho đến khi chúng ghi nhớ dữ liệu đào tạo. Tuy nhiên,

điều này có thể được giảm bớt bằng cách sử dụng các bản hòa tấu.

Page 18: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

8

Phân lớp sác xuất - Navie Bayes

Naive Bayes là một thuật toán rất đơn giản dựa trên xác suất và số đếm có điều

kiện . Về cơ bản, mô hình của bạn thực sự là một bảng xác suất được cập nhật

thông qua dữ liệu đào tạo của bạn. Để dự đoán một quan sát mới, bạn chỉ cần

"tra cứu" xác suất của lớp trong "bảng xác suất" dựa trên các giá trị tính năng

của nó.

Nó được gọi là "ngây thơ" bởi vì giả định cốt lõi của nó về sự độc lập có điều

kiện (tức là tất cả các tính năng đầu vào là độc lập với nhau) hiếm khi đúng

trong thế giới thực.

Điểm mạnh: Mặc dù giả định độc lập có điều kiện hiếm khi đúng, các mô

hình Navie Bayes thực sự hoạt động tốt một cách đáng ngạc nhiên trong thực

tế, đặc biệt là vì chúng đơn giản như thế nào. Chúng rất dễ thực hiện và có

thể mở rộng quy mô với tập dữ liệu của bạn.

Điểm yếu: Do tính đơn giản tuyệt đối của chúng, các mô hình NB thường bị

đánh bại bởi các mô hình được đào tạo và điều chỉnh đúng cách bằng các

thuật toán trước được liệt kê.

Máy véc-tơ hỗ trợ - Supper Vector Machine (SVM)

Các máy véc-tơ hỗ trợ (SVM) sử dụng một cơ chế gọi là hạt nhân , về cơ bản

tính khoảng cách giữa hai quan sát. Thuật toán SVM sau đó tìm thấy một ranh

giới quyết định tối đa hóa khoảng cách giữa các thành viên gần nhất của các lớp

riêng biệt.

Ví dụ, một SVM với đường tuyến tính tương tự như hồi quy logistic. Do đó,

trong thực tế, lợi ích của SVM thường đến từ việc sử dụng các hạt nhân phi

tuyến tính để mô hình hóa các ranh giới quyết định phi tuyến tính.

Điểm mạnh: SVM có thể mô hình hóa các ranh giới quyết định phi tuyến

tính và có nhiều hạt nhân để lựa chọn. Chúng cũng khá mạnh mẽ để chống

lại quá mức, đặc biệt là trong không gian nhiều chiều.

Điểm yếu: Tuy nhiên, SVM rất tốn bộ nhớ, khó điều chỉnh hơn do tầm quan

trọng của việc chọn đúng kernel và không mở rộng tốt cho các bộ dữ liệu lớn

hơn. Hiện tại trong ngành, rừng ngẫu nhiên thường được ưa thích hơn SVM.

Page 19: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

9

Stochastic Gradient Descent

Định nghĩa: Stochastic gradient gốc là một cách tiếp cận đơn giản và rất hiệu

quả để phù hợp với các mô hình tuyến tính. Nó đặc biệt hữu ích khi số lượng

mẫu rất lớn. Nó hỗ trợ các chức năng mất khác nhau và hình phạt để phân lớp.

Ưu điểm: Hiệu quả và dễ thực hiện.

Nhược điểm: Yêu cầu một số siêu tham số và nó nhạy cảm với tính năng mở

rộng.

Láng giềng gần nhất – (K-Nearest Neighbours)

Định nghĩa: Phân lớp dựa trên hàng xóm là một kiểu lười học vì nó không cố

gắng xây dựng một mô hình nội bộ chung, mà chỉ lưu trữ các trường hợp của dữ

liệu đào tạo. Phân lớp được tính từ một phiếu bầu đa số đơn giản của k hàng

xóm gần nhất của mỗi điểm.

Ưu điểm: Thuật toán này dễ thực hiện, mạnh mẽ đến dữ liệu đào tạo ồn ào và

hiệu quả nếu dữ liệu đào tạo lớn.

Nhược điểm: Cần xác định giá trị của K và chi phí tính toán cao vì nó cần máy

tính khoảng cách của mỗi trường hợp cho tất cả các mẫu đào tạo.

1.6. Ứng dụng của khai phá dữ liệu

Khai phá dữ liệu đã và đang được ứng dụng rộng rãi trong rất nhiều lĩnh vực và

hiện nay đã có rất nhiều công cụ thương mại và phi thương mại triển khai các

nhiệm vụ của khai phá dữ liệu.

Sau đây là một số lĩnh vực mà Data mining đang được ứng dụng rộng rãi

Chăm sóc sức khỏe

Khai phá dữ liệu có tiềm năng lớn để cải thiện các hệ thống y tế. Nó sử dụng dữ

liệu và phân tích để xác định các thực tiễn tốt nhất giúp cải thiện việc chăm sóc

và giảm chi phí. Các nhà nghiên cứu sử dụng các phương pháp Khai phá dữ liệu

như cơ sở dữ liệu đa chiều, học máy, điện toán mềm, trực quan hóa dữ liệu và

thống kê. Khai thác có thể được sử dụng để dự đoán khối lượng bệnh nhân trong

mọi thể loại. Các quy trình được phát triển để đảm bảo rằng bệnh nhân được

chăm sóc phù hợp tại đúng nơi và đúng thời điểm. Khai phá dữ liệu cũng có thể

giúp các công ty bảo hiểm chăm sóc sức khỏe phát hiện gian lận và lạm dụng.

Phân tích thị trường

Phân tích thị trường là một kỹ thuật mô hình dựa trên lý thuyết rằng nếu bạn

mua một nhóm mặt hàng nhất định, bạn có nhiều khả năng mua một nhóm mặt

Page 20: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

10

hàng khác. Kỹ thuật này có thể cho phép nhà bán lẻ hiểu hành vi mua hàng của

người mua. Thông tin này có thể giúp nhà bán lẻ biết nhu cầu của người mua và

thay đổi cách bố trí cửa hàng cho phù hợp. Sử dụng phân tích so sánh kết quả

giữa các cửa hàng khác nhau, giữa các khách hàng trong các nhóm nhân khẩu

học khác nhau có thể được thực hiện.

Giáo dục

Có một lĩnh vực mới nổi, được gọi là Khai phá dữ liệu giáo dục, liên quan đến

việc phát triển các phương pháp khám phá kiến thức từ dữ liệu có nguồn gốc từ

Môi trường giáo dục. Các mục tiêu của Khai phá dữ liệu trong giáo dục được

xác định là dự đoán hành vi học tập trong tương lai của học sinh, nghiên cứu các

tác động của hỗ trợ giáo dục và nâng cao kiến thức khoa học về học tập. Khai

phá dữ liệu có thể được sử dụng bởi một tổ chức để đưa ra quyết định chính xác

và cũng để dự đoán kết quả của học sinh. Với kết quả, tổ chức có thể tập trung

vào những gì cần dạy và cách dạy. Mô hình học tập của các sinh viên có thể

được nắm bắt và sử dụng để phát triển các kỹ thuật để dạy họ.

Kỹ thuật sản xuất

Kiến thức là tài sản tốt nhất mà một doanh nghiệp sản xuất sẽ sở hữu. Các công

cụ Khai phá dữ liệu có thể rất hữu ích để khám phá các mẫu trong quy trình sản

xuất phức tạp. Khai phá dữ liệu có thể được sử dụng trong thiết kế cấp hệ thống

để trích xuất các mối quan hệ giữa kiến trúc sản phẩm, danh mục sản phẩm và

dữ liệu nhu cầu của khách hàng. Nó cũng có thể được sử dụng để dự đoán thời

gian phát triển sản phẩm, chi phí và sự phụ thuộc giữa các nhiệm vụ khác.

Quản lý quan hệ khách hàng

Quản lý quan hệ khách hàng là tất cả về việc có được và giữ chân khách hàng,

cũng cải thiện lòng trung thành của khách hàng và thực hiện các chiến lược tập

trung vào khách hàng. Để duy trì mối quan hệ đúng đắn với khách hàng, một

doanh nghiệp cần thu thập dữ liệu và phân tích thông tin. Đây là nơi Khai phá

dữ liệu đóng vai trò của nó. Với công nghệ Khai phá dữ liệu, dữ liệu thu thập

được có thể được sử dụng để phân tích. Thay vì bối rối nơi tập trung để giữ chân

khách hàng, những người tìm kiếm giải pháp có được kết quả được lọc.

Phát hiện gian lận

Hàng tỷ đô la đã bị mất cho các hành động gian lận. Các phương pháp phát hiện

gian lận truyền thống rất tốn thời gian và phức tạp. Hỗ trợ Khai phá dữ liệu

trong việc cung cấp các mẫu có ý nghĩa và biến dữ liệu thành thông tin. Bất kỳ

thông tin nào là hợp lệ và hữu ích là kiến thức. Một hệ thống phát hiện gian lận

Page 21: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

11

hoàn hảo sẽ bảo vệ thông tin của tất cả người dùng. Một phương pháp được

giám sát bao gồm thu thập các hồ sơ mẫu. Những hồ sơ này được phân loại gian

lận hoặc không gian lận. Một mô hình được xây dựng bằng cách sử dụng dữ liệu

này và thuật toán được thực hiện để xác định xem bản ghi có lừa đảo hay không.

Phát hiện xâm nhập

Bất kỳ hành động nào sẽ làm tổn hại đến tính toàn vẹn và bảo mật của tài

nguyên là một sự xâm nhập. Các biện pháp phòng thủ để tránh sự xâm nhập bao

gồm xác thực người dùng, tránh lỗi lập trình và bảo vệ thông tin. Khai phá dữ

liệu có thể giúp cải thiện phát hiện xâm nhập bằng cách thêm một mức độ tập

trung vào phát hiện bất thường. Nó giúp một nhà phân tích phân biệt một hoạt

động với hoạt động mạng hàng ngày phổ biến. Khai phá dữ liệu cũng giúp trích

xuất dữ liệu phù hợp hơn với vấn đề.

Phát hiện nói dối

Bắt một tên tội phạm là dễ dàng trong khi đưa ra sự thật từ anh ta là khó khăn.

Thực thi pháp luật có thể sử dụng các kỹ thuật khai thác để điều tra tội phạm,

giám sát liên lạc của những kẻ khủng bố bị nghi ngờ. Điều này bao gồm khai

thác văn bản cũng. Quá trình này tìm kiếm các mẫu có ý nghĩa trong dữ liệu

thường là văn bản phi cấu trúc. Mẫu dữ liệu được thu thập từ các cuộc điều tra

trước được so sánh và một mô hình để phát hiện nói dối được tạo ra. Với mô

hình này, các quy trình có thể được tạo ra theo sự cần thiết.

Phân khúc khách hàng

Nghiên cứu thị trường truyền thống có thể giúp chúng tôi phân khúc khách hàng

nhưng Khai phá dữ liệu đi sâu và tăng hiệu quả thị trường. Hỗ trợ Khai phá dữ

liệu trong việc sắp xếp các khách hàng thành một phân khúc riêng biệt và có thể

điều chỉnh các nhu cầu theo khách hàng. Thị trường luôn luôn là giữ chân khách

hàng. Khai phá dữ liệu cho phép tìm một phân khúc khách hàng dựa trên lỗ

hổng và doanh nghiệp có thể cung cấp cho họ các ưu đãi đặc biệt và nâng cao sự

hài lòng.

Ngân hàng tài chính

Với ngân hàng máy tính ở khắp mọi nơi, lượng dữ liệu khổng lồ được cho là sẽ

được tạo ra với các giao dịch mới. Khai phá dữ liệu có thể góp phần giải quyết

các vấn đề kinh doanh trong tài chính ngân hàng bằng cách tìm ra mô hình,

nguyên nhân và mối tương quan trong thông tin kinh doanh và giá cả thị trường

không rõ ràng đối với các nhà quản lý vì dữ liệu khối lượng quá lớn hoặc được

các chuyên gia tạo ra quá nhanh. Các nhà quản lý có thể tìm thấy những thông

Page 22: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

12

tin này để phân khúc, nhắm mục tiêu, thu nhận, giữ chân và duy trì một khách

hàng có lợi nhuận tốt hơn.

Giám sát doanh nghiệp

Giám sát doanh nghiệp là giám sát hành vi của một người hoặc nhóm của một

công ty. Dữ liệu được thu thập thường được sử dụng cho mục đích tiếp thị hoặc

bán cho các tập đoàn khác, nhưng cũng thường xuyên được chia sẻ với các cơ

quan chính phủ. Nó có thể được sử dụng bởi các doanh nghiệp để điều chỉnh các

sản phẩm của họ mong muốn của khách hàng của họ. Dữ liệu có thể được sử

dụng cho các mục đích tiếp thị trực tiếp, chẳng hạn như quảng cáo được nhắm

mục tiêu trên Google và Yahoo, nơi quảng cáo được nhắm mục tiêu đến người

dùng công cụ tìm kiếm bằng cách phân tích lịch sử tìm kiếm và email của họ.

Phân tích nghiên cứu

Lịch sử cho thấy chúng ta đã chứng kiến những thay đổi mang tính cách mạng

trong nghiên cứu. Khai phá dữ liệu rất hữu ích trong việc làm sạch dữ liệu, xử lý

trước dữ liệu và tích hợp cơ sở dữ liệu. Các nhà nghiên cứu có thể tìm thấy bất

kỳ dữ liệu tương tự từ cơ sở dữ liệu có thể mang lại bất kỳ thay đổi trong nghiên

cứu. Xác định bất kỳ chuỗi đồng xảy ra và mối tương quan giữa bất kỳ hoạt

động có thể được biết. Trực quan hóa dữ liệu và Khai phá dữ liệu trực quan cung

cấp cho chúng ta một cái nhìn rõ ràng về dữ liệu.

Điều tra tội phạm

Tội phạm học là một quá trình nhằm xác định các đặc điểm tội phạm. Thực tế

phân tích tội phạm bao gồm khám phá và phát hiện tội phạm và mối quan hệ của

họ với tội phạm. Khối lượng lớn các bộ dữ liệu tội phạm và sự phức tạp của các

mối quan hệ giữa các loại dữ liệu này đã khiến tội phạm học trở thành một lĩnh

vực thích hợp để áp dụng các kỹ thuật Khai phá dữ liệu. Báo cáo tội phạm dựa

trên văn bản có thể được chuyển đổi thành tập tin xử lý văn bản. Những thông

tin này có thể được sử dụng để thực hiện quá trình khớp tội phạm.

Tin học sinh học

Phương pháp Khai phá dữ liệu có vẻ phù hợp lý tưởng với Tin sinh học, vì nó

giàu dữ liệu. Khai phá dữ liệu sinh học giúp trích xuất kiến thức hữu ích từ các

bộ dữ liệu khổng lồ được thu thập trong sinh học và trong các lĩnh vực khoa học

đời sống liên quan khác như y học và khoa học thần kinh. Các ứng dụng Khai

phá dữ liệu cho tin sinh học bao gồm tìm gen, suy luận chức năng protein, chẩn

đoán bệnh, tiên lượng bệnh, tối ưu hóa điều trị bệnh, tái tạo mạng lưới tương tác

protein và gen, làm sạch dữ liệu và dự đoán vị trí tế bào phụ protein.

Page 23: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

13

1.7. Đề tài khai phá dữ liệu phân lớp rủi ro tín dụng

Trong phạm vi luận văn, tác giả đề cập đến ứng dụng khai phá dữ liệu để phân

lớp rủi ro tín dụng.

Đánh giá rủi ro tín dụng là môt bước quan trọng trong hoạt động cho vay trong

ngành tài chính ngân hàng. Thiếu bước này, ngân hàng sẽ không thể đưa ra

quyết định khách quan về việc có nên giải ngân cho vay khách hàng hay không.

Đánh giá rủi ro thường là sự cố gắng định lượng độ rủi ro mất mát của ngân

hàng khi thực hiện một quyết định cho vay.

Ở đây, rủi ro tín dụng có thể được định lượng bằng giá trị của tài sản thế chấp

hoặc, các yếu tố thông tin về người vay, của yếu tố khả năng mất vốn, và tỷ lệ

thu hồi của công cụ trong trường hợp người vay không có khả năng trả nợ

Do đó ta có thể sử dụng các phương pháp phân lớp - classifications áp dụng

trên thông tin dữ liệu của khách vay để phân loại nhóm khách hàng.

Page 24: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

14

CHƯƠNG 2: BÀI TOÁN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG

2.1. Lý thuyết rủi ro tín dụng

Khái niệm rủi ro tín dụng

Tín dụng ngân hàng (cho vay) là quan hệ tín dụng giữa ngân hàng, các tổ chức

tín dụng và các tổ chức kinh tế, cá nhân theo nguyên tắc hoàn trả. Việc hoàn trả

được nợ gốc trong tín dụng có nghĩa là việc thực hiện được giá trị hàng hoá trên

thị trường, còn việc hoàn trả được lãi vay trong tín dụng là việc thực hiện được

giá trị thặng dư trên thị trường. Trong quan hệ tín dụng có hai đối tượng tham

gia là ngân hàng cho vay và người đi vay [6].

Rủi ro tín dụng là:

Khoản lỗ có nguy cơ xảy ra khi ngân hàng cấp tín dụng.

Những thiệt hại mà ngân hàng gánh chịu do người vay vốn không trả

đúng hạn, không thực hiện đúng nghĩa vụ cam kết trong hợp đồng cho vay

vì bất kể lý do gì.

Những nguyên nhân phát sinh rủi ro tín dụng

Rủi ro tín dụng thường xảy ra bởi những nguyên nhân sau:

Khách hàng vay vốn gặp những nguy cơ và tai nạn bất ngờ hoặc thua lỗ

trong kinh doanh nên không có tiền trả nợ dẫn đến nợ quá hạn.

Do tác động của tình hình kinh tế trong nước và thế giới.

Các vấn đề vì ham lợi nhuận, vi phạm nguyên tắc cho vay, phân tích đánh

giá khách hàng sai, quyết định cho vay thiếu thông tin xác thực.

Phân loại nhóm nợ

Ngân hàng thực hiện phân loại nợ như sau:

Nhóm 1 (nợ được đánh giá là đủ tiêu chuẩn):

Nợ còn trong hạn, chưa đến thời hạn thanh toán và được hệ thống ngân

hàng đánh giá là có đủ khả năng thu hồi đầy đủ cả gốc và lãi đúng hạn.

Các món nợ khác của Khách hàng cũng đều không bị quá hạn.

Nhóm 2 (nợ được đánh giá là cần chú ý):

Nợ đã quá hạn chưa quá 3 tháng.

Nợ đã được cơ cấu lại thời hạn trả nợ trong hạn.

Page 25: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

15

Những khoản tín dụng được đánh giá là có khả năng thu hồi đầy đủ cả

gốc và lãi, nhưng có dấu hiệu khách hàng bị suy giảm khả năng trả nợ.

Nhóm 3 (nợ được đánh giá là dưới tiêu chuẩn):

Các khoản nợ quá hạn từ 3 tháng => đến 6 tháng.

Các khoản nợ đã được cơ cấu lại thời hạn trả nợ nhưng bị quá hạn trên 90

ngày.

Nợ được đánh giá là rủi ro có khả năng không thu hồi được đầy đủ cả gốc

và lãi khi đến hạn, và có khả năng tổn thất một phần nợ gốc và lãi.

Nhóm 4 (nợ nghi ngờ):

Các khoản nợ quá hạn từ 6 tháng => đến 1 năm.

Các khoản nợ được được cơ cấu lại thời hạn trả nợ nhưng bị quá hạn từ 90

đến 180 ngày.

Các khoản nợ bị đánh giá là có khả năng tổn thất cao.

Nhóm 5 (nợ có khả năng bị mất vốn):

Nợ quá hạn trên 1 năm.

Các khoản nợ khoanh phải chờ Chính Phủ xử lý.

Các khoản nợ được cơ cấu lại thời hạn trả nợ nhưng bị quá hạn trên 180

ngày.

Trên quan điểm phân hạng nợ Tốt/Xấu thì:

Nợ Tốt: là những khoản vay nằm trong Nhóm 1, 2

Nợ Xấu: là những khoản vay nằm trong Nhóm 3, 4, 5

Điều kiện vay vốn

Các khách hàng muốn được vay vốn phải có các điều kiện sau đây:

Có năng lực pháp luật dân sự, năng lực hành vi dân sự và chịu trách

nhiệm dân sự theo quy định của pháp luật

Có mục đích sử dụng vay vốn hợp pháp

Có khả năng tài chính đảm bảo trả nợ trong thời hạn cam kết

Có phương án sản xuất kinh doanh, dự án đầu tư, dịch vụ khả thi và có

hiệu quả.

Page 26: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

16

Căn cứ xác định định mức cho vay

Nhu cầu vay vốn của khách hàng.

Mức vốn của khách hàng tham gia vào dự án, phương án kinh doanh, sản

xuất, dịch vụ, đời sống.

Tỷ lệ cho vay tối đa so với giá trị tài sản bảo đảm tiền vay theo quy định

về bảo đảm tiền vay của ngân hàng.

Khả năng hoàn trả nợ của khách hàng.

Khả năng nguồn vốn của mỗi ngân hàng và không được vượt quá định

mức cho vay được ủy quyền bởi tổng giám đốc Ngân hàng cho vay.

Đối tượng áp dụng

Ngân hàng cho vay các đối tượng sau:

Giá trị vật tư, máy móc, hàng hoá, thiết bị và các khoản chi phí để khách

hàng thực hiện các dự án sản xuất, kinh doanh dịch vụ...

Ngân hàng không cho vay các đối tượng sau:

Số tiền thuế phải nộp.

Số tiền để trả nợ gốc và lãi vay cho các tổ chức tín dụng khác.

Số tiền vay trả cho chính tổ chức tín dụng cho vay vốn.

Mô hình lượng hóa rủi ro tín dụng cho khách hàng cá nhân

Dưới đây là bảng tiêu chí cho mô hình chấm điểm tín dụng khách hàng cá nhân

của VietinBank.

Bảng 2: Chấm điểm tín dụng khách hàng cá nhân tại VietinBank

STT Các hạng mục xác định chất lượng tín dụng Điểm số

1 Nghề nghiệp của người vay

Chuyên gia hay phụ trách kinh doanh

Công nhân có kinh nghiệm (tay nghề cao)

Nhân viên văn phòng

Sinh viên

Công nhân không có kinh nghiệm

Công nhân bán thất nghiệp

10

8

7

5

4

2

2 Trạng thái nhà ở

Page 27: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

17

STT Các hạng mục xác định chất lượng tín dụng Điểm số

Nhà riêng

Nhà thuê hay căn hộ

Sống cùng bạn hay người thân

6

4

2

3 Xếp hạng tín dụng

Tốt

Trung bình

Không có hồ sơ

Tồi

10

5

2

0

4 Kinh nghiệm nghề nghiệp

Nhiều hơn 1 năm 5

Từ 1 năm trở xuống

5

2

5 Thời gian cư trú tại điểm hiện tại

Nhiều hơn 1 năm

Từ 1 năm trở xuống

2

1

6 Điện thoại cố định

Không

2

0

7 Số người sống phụ thuộc

Không

Một

Hai

Ba

Nhiều hơn ba

3

3

4

4

2

8 Các tài khoản tại ngân hàng

Tiết kiệm thẻ & Tài khoản tiết kiệm

Tài khoản tiết kiệm

Tiết kiệm thẻ

Không có

4

3

2

0

Khi cấp tín dụng cho khách hàng, ngân hàng thường căn cứ vào 3 chỉ tiêu là:

Nguồn trả nợ của khách

Page 28: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

18

Tài sản thế chấp

Mục đích sử dụng vốn vay

Ba tiêu chí trên tác động chủ yếu đến điểm tín dụng của khách hàng. Căn cứ vào

kết quả điểm tín dụng, ngân hàng sẽ phân loại và cấp tín dụng cho khách

Tuy nhiên, ngay cả khi khách hàng trong trường hợp được đánh giá là loại tốt, 3

tiêu chí trên đều tốt, thì với việc ngân hàng cấp vốn vay, nguy cơ rủi ro là vẫn có

thể xảy ra.

Vì RRTD ảnh hưởng rất lớn đến sự phát triển của ngân hàng cũng như của nền

kinh tế nói chung nên việc dự đoán để phòng ngừa rủi ro đóng vai trò hết sức

quan trọng. Do đó, việc áp dụng các Kỹ thuật Khai phá dữ liệu cho bài toán

RRTD để tìm ra những nguồn tri thức mới, giúp cho các chuyên gia ngân hàng

đánh giá, phòng ngừa rủi ro là rất cần thiết.

2.2. Phát biểu bài toán

Hình 2.3.1: Phát biểu bài toán

Đầu vào:

Tập thông tin khách hàng và lịch sử trả nợ của các khách hàng bao gồm

o Tập huấn luyện (Training Set) nhằm mục đích xây dựng mô hình

o Tập kiểm thử (Testing Set) nhằm mục đích kiểm chứng mô hình

Tập thông tin khách hàng mới cần dự báo

Áp dụng mô hìnhDữ liệu trên

corebank

Dữ liệu

Huấn luyện

Dữ liệu

Kiểm thửKiểm thử mô hình Mô hình phân lớp

Xây dựng mô hình

Khách hàng

mới

Nợ Tốt Nợ Xấu

Dự đoán Phân loại nợ

Page 29: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

19

Đầu ra:

Đưa ra mô hình phân lớp dự báo, các chỉ số đánh giá mô hình, các luật rút

ra từ mô hình giúp phân loại các khách hàng mới.

Ví dụ:

Đầu vào:

o Thông tin khách hàng về khách hàng vay vốn: Mục đích vay mua

nhà, có thu nhập trên 11 triệu, đang thuê nhà, làm tại công ty phần

mềm, chức vụ chuyên viên, thời gian đã công tác trong lĩnh vực

chuyên môn dưới 3 năm

Đầu ra:

o Dự báo khách hàng có khả năng rơi vào nhóm nợ cần chú ý (nhóm

2)

Mục tiêu của bài toán là xây dựng mô hình chứa các tập luật ràng buộc về dữ

liệu. Mô hình này sẽ là cơ sở tri thức, mà dựa vào đó có thể phân loại được

khách hàng mới dựa vao thông tin đầu vào của khách vay.

Việc dự báo chính xác sẽ giúp ngân hàng giảm thiểu các rủi ro có thể có từ các

khách hàng có khả năng không trả được nợ

2.3. Quy trình phân lớp xây dựng mô hình

Để có thể xây dựng được mô hình như yêu cầu bài toán ở mục 2.3 ta phải thực

hiện thứ tự theo các bước như sau [14]:

Page 30: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

20

a. Xây dựng mô hình từ tập huấn luyện – Training data

Hình 2.4.1: Quy trình huấn luyện - training

Quá trình phân lớp thực hiện nhiệm vụ xây dựng mô hình các công cụ phân lớp

giúp cho việc gán nhãn phân loại cho các dữ liệu.

Example:

Nhãn “An toàn” hoặc “Rủi ro” cho các yêu cầu vay vốn; “Có” hoặc

“Không” cho các thông tin thị trường….

Các Nhãn dùng phân loại được biểu diễn bằng các giá trị rời rạc trong đó

việc sắp xếp trùng là không có ý nghĩa.

Phân lớp dữ liệu gồm hai quá trình.

Công cụ phân lớp sẽ được xây dựng để xem xét nguồn data. Đây là quá trình

học, qua đó một thuật toán phân lớp được xây dựng bằng cách phân tích từ

tập dữ liệu huấn luyện được xây dựng sẵn bao gồm nhiều bộ dữ liệu.

Một bộ dữ liệu X biểu diễn bằng một vector n chiều, X = (x1, x2, …, xn),

đây là các giá trị cụ thể của một tập n thuộc tính của nguồn dữ liệu {A1, A2,

…, An}. Mỗi bộ được giả sử rằng nó thuộc về một lớp được định nghĩa trước

với các nhãn xác định.

Classification algorithm

IF age=young THEN loan_decicion=risky

IF income=high THEN loan_decicion=safe

IF age=middle AND income=low THEN loan_decicion=risky

Chạy thuật toán

Xây dựng rules

Mô hình hóa

Page 31: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

21

b. Đánh giá mô hình bằng tập kiểm kiểm thử - Data test

Hình 2.4.2: Quy trình test dữ liệu

c. Áp dụng mô hình để dự đoán dữ liệu mới

Hình 2.4.3: Quy trình áp dụng mô hình

2.4. Mô hình phân lớp dự báo rủi ro

Dựa trên quy trình phân lớp dữ liệu, ta có thể áp dụng mô hình sau vào bài toán

phân lớp rủi ro tín dụng

Tập huấn luyên

(Training Set)

Tập kiểm thử

(Testing Set)Khách hàng mới

Đánh giá

Kết quả

dự báo

Mô hìnhThuật toán

phân lớp

Áp dụng

Mô hình

Các thuật toán áp dụng:

Cây quyết định C45, J48

Naïve Bayes Classifier

Thuật toán Apriori khai phá luật kết hợp

Hình 2.5.1: Mô hình phân lớp dự báo rủi ro

Để xây dựng được mô hình phân lớp dữ liệu ta cần 2 yếu tố

Bộ dữ liệu đầu vào (Tập huấn luyện & Tập kiểm thử)

IF age=young THEN loan_decicion=risky

IF income=high THEN loan_decicion=safe

IF age=middle AND income=low

THEN loan_decicion=risky

New data

risky

(Jonh henry, middle, low)

Loan_decicion?

Model tree

Page 32: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

22

Thuật toán phân lớp

2.5. Lựa chọn nghiên cứu thuật toán

Dựa vào Ưu nhược điểm của các thuật toán đã được trình bày sơ lược ở chương

I (Mục 1.6 – Các thuật toán phân lớp)

Dựa vào tính chất dữ liệu của bài toán rủi ro tín dụng: các thuộc tính dữ liệu có

dải giá trị không nhiều, và theo nghiệp vụ Ngân hàng thì giải giá trị rời rạc này

thường được gom nhóm thành một tập hữu hạn. Ví dụ:

Tuổi của khách vay thì từ 28 – 65, nhưng thực tế thì sẽ được chia thành 5

nhóm tuổi Tín dụng để quản lý

Nơi cư trú: khách vay thì ở rất nhiều địa chỉ khác nhau, nhưng thực tế sẽ

được gom nhóm thành 1 tập hữu hạn các khu vực như: Khu vực Hà Nội 1,

Khu vực Hà Nội 2, Khu vực nông thôn v.v….

Tiền vay thì cũng nhận rất đa dạng các giá trị khác nhau từ 18 triệu – đến

trên 18 tỷ. Nhưng cũng lại được gom thành các nhóm giá trị vay: dưới

200 triệu, từ 200-700, từ 700-1 tỷ….

Tác giả nhận thấy có thuật toán (Phân lớp sử dụng cây quyết định, và Phân lớp

sử dụng thuật toán Navie Bayes) phù hợp với dữ liệu của bài toán quản lý Rủi ro

tín dụng. Vậy nên, trong khuôn khổ luận văn tác giả chọn đi sâu nghiên cứu 2

thuật toán này.

Phân lớp Cây quyết định

2.5.1.1. Thuật toán cây quyết định

Cây quyết định là một cấu trúc cây giống như sơ đồ trong đó một nút bên trong

đại diện cho tính năng (hoặc thuộc tính), nhánh đại diện cho một quy tắc quyết

định và mỗi nút lá đại diện cho kết quả. Nút trên cùng trong cây quyết định được

gọi là nút gốc. Nó học cách phân vùng trên cơ sở giá trị thuộc tính. Nó phân

vùng cây theo cách đệ quy gọi phân vùng đệ quy. Cấu trúc giống như sơ đồ này

giúp bạn trong việc ra quyết định. Nó trực quan giống như một sơ đồ sơ đồ dễ

dàng bắt chước tư duy cấp độ của con người. Đó là lý do tại sao cây quyết định

dễ hiểu và giải thích [10].

Page 33: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

23

Hình 2.6.1: Cây quyết định

Cây quyết định là một loại hộp trắng của thuật toán Machine Learning (ML). Nó

chia sẻ logic ra quyết định nội bộ, vốn không có sẵn trong loại thuật toán hộp

đen như Mạng thần kinh. Thời gian đào tạo của nó nhanh hơn so với thuật toán

mạng thần kinh. Độ phức tạp thời gian của cây quyết định là một hàm của số

lượng bản ghi và số lượng thuộc tính trong dữ liệu đã cho. Cây quyết định là

một phương pháp không phân phối hoặc không tham số, không phụ thuộc vào

các giả định phân phối xác suất. Cây quyết định có thể xử lý dữ liệu chiều cao

với độ chính xác tốt.

2.5.1.2. Hoạt động của thuật toán Cây quyết định

Ý tưởng cơ bản về hoạt động của thuật toán cây quyết định như sau:

1. Chọn thuộc tính tốt nhất bằng cách sử dụng các biện pháp lựa chọn thuộc

tính (ASM – attribute selection measure) để phân chia các bản ghi.

2. Biến thuộc tính đó thành nút quyết định và chia tập dữ liệu thành các tập con

nhỏ hơn.

3. Bắt đầu xây dựng cây bằng cách lặp lại quy trình này một cách đệ quy cho

mỗi Node con cho đến khi một trong những điều kiện sẽ khớp:

Tất cả các bộ dữ liệu thuộc về cùng một giá trị thuộc tính.

Không còn thuộc tính nào nữa.

Không có nhiều trường hợp nữa.

Page 34: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

24

Data

Data

Training

Data Test

Lựa chọn thuộc tính

tốt nhất dựa vào chỉ số

Gain, Gini

Tách dữ liệu thành các

tập nhỏ hơn theo thuộc

tính cha

Model tri thức

Biểu diễn mô hình

1. accuracy – độ chính xác

2. precision - dự đoán

3. recall – độ hồi tưởng

Lặp lại xử lý với node con

Hình 2.6.2: luồng hoạt động của cây quyết định

2.5.1.3. Các biện pháp lựa chọn thuộc tính

Biện pháp lựa chọn thuộc tính là một heuristic để chọn tiêu chí phân tách dữ liệu

phân vùng thành cách tốt nhất có thể. Nó còn được gọi là quy tắc chia tách vì nó

giúp chúng ta xác định các điểm dừng cho các bộ dữ liệu trên một nút nhất

định. ASM (attribute selection measure) cung cấp thứ hạng cho từng tính năng

(hoặc thuộc tính) bằng cách giải thích tập dữ liệu đã cho. Thuộc tính điểm tốt

nhất sẽ được chọn làm thuộc tính chia ( Nguồn ). Trong trường hợp thuộc tính

có giá trị liên tục, các điểm phân chia cho các nhánh cũng cần xác định. Các

biện pháp lựa chọn phổ biến nhất là Thông tin đạt được, Tỷ lệ tăng và Chỉ số

Gini.

2.5.1.4. Thông tin đạt được

Shannon đã phát minh ra khái niệm entropy, đo lường sự không tinh khiết của

bộ đầu vào. Trong vật lý và toán học, entropy được gọi là tính ngẫu nhiên hoặc

tạp chất trong hệ thống. Trong lý thuyết thông tin, nó đề cập đến tạp chất trong

một nhóm các ví dụ. Thông tin đạt được là sự giảm entropy. Độ lợi thông tin

tính toán sự khác biệt giữa entropy trước khi tách và entropy trung bình sau khi

tách bộ dữ liệu dựa trên các giá trị thuộc tính đã cho. Thuật toán cây quyết định

ID3 (Iterative Dichotomiser) sử dụng thông tin thu được.

𝐼𝑛𝑓𝑜(𝐷) = − ∑ 𝑃𝑖 log2 𝑃𝑖𝑚

𝑖=1

Trong đó, Pi là xác suất mà một tuple tùy ý trong D thuộc về lớp Ci.

𝐼𝑛𝑓𝑜𝐴(𝐷) = ∑|𝐷𝑗|

|𝐷| 𝑋 𝐼𝑛𝑓𝑜(𝐷𝑗)

𝑉

𝑗=1

𝐺𝑎𝑖𝑛(𝐴) = 𝐼𝑛𝑓𝑜(𝐷) − 𝐼𝑛𝑓𝑜𝐴(𝐷)

Page 35: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

25

Ở đây:

Thông tin (D) là lượng thông tin trung bình cần thiết để xác định nhãn lớp

của một tuple trong D.

| Dj | / | D | đóng vai trò là trọng lượng của phân vùng thứ j.

InfoA (D) là thông tin dự kiến cần có để phân lớp một tuple từ D dựa trên

phân vùng của A.

Thuộc tính A có mức tăng thông tin cao nhất, Gain (A), được chọn làm

thuộc tính tách tại nút N ().

2.5.1.5. Tỷ lệ tăng

Thông tin đạt được là thiên vị cho thuộc tính với nhiều kết quả. Nó có nghĩa là

nó thích thuộc tính với một số lượng lớn các giá trị riêng biệt. Chẳng hạn, hãy

xem xét một thuộc tính có số nhận dạng duy nhất, chẳng hạn như customer_ID

không có thông tin (D) vì phân vùng thuần túy. Điều này tối đa hóa việc đạt

được thông tin và tạo phân vùng vô dụng.

C4.5, một cải tiến của ID3, sử dụng một phần mở rộng để đạt được thông tin

được gọi là tỷ lệ khuếch đại. Tỷ lệ khuếch đại xử lý vấn đề sai lệch bằng cách

bình thường hóa mức tăng thông tin bằng cách sử dụng Thông tin phân

tách. Việc triển khai Java của thuật toán C4.5 được gọi là J48, có sẵn trong công

cụ Khai phá dữ liệu WEKA.

𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜𝐴(𝐷) = − ∑|𝐷𝑗|

|𝐷|

𝑣

𝑗=1

𝑋 log2 (|𝐷𝑗|

|𝐷|)

Ở đây,

| Dj | / | D | đóng vai trò là trọng lượng của phân vùng thứ j.

v là số lượng giá trị rời rạc trong thuộc tính A.

Tỷ lệ khuếch đại có thể được định nghĩa là

𝐺𝑎𝑖𝑛𝑅𝑎𝑡𝑖𝑜(𝐴) =𝐺𝑎𝑖𝑛(𝐴)

𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜𝐴(𝐷)

Thuộc tính có tỷ lệ khuếch đại cao nhất được chọn làm nút gốc.

2.5.1.6. chỉ số Gini

Một thuật toán cây quyết định khác sử dụng phương thức Gini để tạo các điểm

phân chia.

Page 36: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

26

𝐺𝑖𝑛𝑖(𝐷) = 1 − ∑ 𝑃𝑖2𝑚

𝑖=1

Trong đó, pi là xác suất mà một tuple trong D thuộc về lớp Ci.

Chỉ số Gini xem xét phân chia nhị phân cho từng thuộc tính. Bạn có thể tính

tổng trọng số của tạp chất của từng phân vùng. Nếu phân chia nhị phân trên

thuộc tính A phân vùng dữ liệu D thành D1 và D2, chỉ số Gini của D là:

𝐺𝑖𝑛𝑖𝐴(𝐷) =|𝐷1|

|𝐷|𝐺𝑖𝑛𝑖(𝐷1) +

|𝐷2|

|𝐷|𝐺𝑖𝑛𝑖(𝐷2)

Trong trường hợp thuộc tính có giá trị rời rạc, tập hợp con cung cấp chỉ số gini

tối thiểu cho lựa chọn đó được chọn làm thuộc tính tách. Trong trường hợp

thuộc tính có giá trị liên tục, chiến lược là chọn từng cặp giá trị liền kề làm điểm

phân tách và điểm có thể có chỉ số gini nhỏ hơn được chọn làm điểm phân tách.

𝐺𝑖𝑛𝑖(𝐴) = 𝐺𝑖𝑛𝑖(𝐷) − 𝐺𝑖𝑛𝑖𝐴(𝐷)

Thuộc tính có chỉ số Gini tối thiểu được chọn làm thuộc tính tách.

Phân lớp Naive Bayes

2.5.2.1. Quy trình phân lớp

Bất cứ khi nào bạn thực hiện phân lớp, bước đầu tiên là hiểu vấn đề và xác định

các tính năng và nhãn tiềm năng. Các tính năng là những đặc điểm hoặc thuộc

tính ảnh hưởng đến kết quả của nhãn. Ví dụ: trong trường hợp phân phối cho

vay, quản lý ngân hàng xác định nghề nghiệp, thu nhập, tuổi tác, địa điểm, lịch

sử cho vay trước đây, lịch sử giao dịch và điểm tín dụng. Những đặc điểm này

được gọi là các tính năng giúp mô hình phân loại khách hàng.

Việc phân lớp có hai giai đoạn, giai đoạn học tập và giai đoạn đánh giá. Trong

giai đoạn học tập, trình phân loại đào tạo mô hình của nó trên một tập dữ liệu

nhất định và trong giai đoạn đánh giá, nó kiểm tra hiệu suất của trình phân

loại. Hiệu suất được đánh giá trên cơ sở các thông số khác nhau như độ chính

xác, lỗi, độ chính xác và thu hồi.

Page 37: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

27

Data

Data

Training

Data

TestKiểm thử mô hình

Biểu diễn mô hình

1. accuracy – độ chính xác

2. precision - dự đoán

3. recall – độ hồi tưởng

Xây dựng mô hình

Hình 2.6.3: Quy trình phân lớp

2.5.2.2. Phân lớp Naive Bayes là gì?

Naive Bayes là một kỹ thuật phân loại thống kê dựa trên Định lý Bayes. Đây là

một trong những thuật toán học được giám sát đơn giản nhất. Phân lớp Naive

Bayes là thuật toán nhanh, chính xác và đáng tin cậy. Các bộ phân lớp Naive

Bayes có độ chính xác và tốc độ cao trên các bộ dữ liệu lớn.

Phân lớp Naive Bayes giả định rằng hiệu ứng của một tính năng cụ thể trong

một lớp là độc lập với các tính năng khác. Ví dụ, một người xin vay có mong

muốn hay không tùy thuộc vào thu nhập của anh ấy/cô ấy, lịch sử giao dịch và

khoản vay trước đó, tuổi và địa điểm. Ngay cả khi các tính năng này phụ thuộc

lẫn nhau, các tính năng này vẫn được xem xét độc lập. Giả định này đơn giản

hóa tính toán, và đó là lý do tại sao nó được coi là ngây thơ. Giả định này được

gọi là độc lập có điều kiện phân cấp.

𝑃(ℎ|𝐷) =𝑃(𝐷|ℎ)𝑃(ℎ)

𝑃(𝐷)

P (h): xác suất của giả thuyết h là đúng (bất kể dữ liệu). Điều này được gọi là

xác suất trước của h.

P (D): xác suất của dữ liệu (bất kể giả thuyết). Điều này được gọi là xác suất

trước.

P (h | D): xác suất của giả thuyết h đưa ra dữ liệu D. Điều này được gọi là xác

suất sau.

P (D | h): xác suất của dữ liệu d cho rằng giả thuyết h là đúng. Điều này được

gọi là xác suất sau.

Page 38: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

28

2.5.2.3. Hoạt động của phân lớp Naive Bayes

Chúng ta hãy hiểu hoạt động của Naive Bayes qua một ví dụ. Cho một ví dụ về

điều kiện thời tiết và chơi thể thao. Bạn cần tính xác suất chơi thể thao. Bây giờ,

bạn cần phân loại xem người chơi sẽ chơi hay không, dựa trên điều kiện thời

tiết.

Phân lớp Naive Bayes tính toán xác suất của một sự kiện theo các bước sau:

Bước 1: Tính xác suất trước cho các nhãn lớp đã cho

Bước 2: Tìm xác suất khả năng với từng thuộc tính cho mỗi lớp

Bước 3: Đặt các giá trị này vào Công thức Bayes và tính xác suất sau.

Bước 4: Xem lớp nào có xác suất cao hơn, với đầu vào thuộc về lớp xác

suất cao hơn.

Page 39: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

29

CHƯƠNG 3: THỰC NGHIỆM TRÊN DỮ LIỆU VIETINBANK

3.1. Khảo sát hoạt động tín dụng của hệ thống Vietinbank

Tổng quan hoạt động tín dụng của Vietinbank

Tổng dư nợ của VietinBank có sự tăng trưởng mạnh mẽ giai đoạn 2012 – 2017,

năm 2012 giá trị này mới ở mức 333,356 tỷ đồng, đến năm 2017 giá trị này đã

đạt mức 790,688 tỷ đồng, tăng gấp 2,3 lần năm 2012. Cụ thể, tình hình tăng

trưởng dư nợ của VietinBank như sau [5]:

Hình 3.1.1: Tổng dư nợ VietinBank từ 2013 – 2017

Có sự chuyển dịch trong cơ cấu tín dụng của VietinBank theo hướng giảm tỷ

trọng cho vay ngắn hạn và tăng dần tỷ trọng cho vay trung dài hạn, sự chuyển

dịch này cho thấy quy mô dư nợ của VietinBank đang phát triển theo hướng bền

vững và ổn định hơn.

62% 64% 64% 59% 56% 56%

10% 11% 10%11% 12% 10%

28% 25% 26% 29% 32% 34%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

2012 2013 2014 2015 2016 2017

Nợ dài hạn

Nợ trung hạn

Nợ ngắn hạn

Page 40: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

30

Hình 3.1.2: Cơ cấu tín dụng VietinBank theo kỳ hạn từ 2012 - 2017

So sánh các chỉ tiêu tín dụng, huy động, lợi nhuận, tỷ lệ nợ xấu với các ngân

hàng Việt Nam (2017).

Hình 3.1.3: So sánh chỉ tiêu tín dụng, huy động, lợi nhuận, nợ xấu

Hình 3.1.4: Biểu đồ kiểm soát nợ xấu giai đoạn 2010 đến 2017

Page 41: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

31

Nhìn chung hoạt động tín dụng của VietinBank từ 2012 đến 2017 cho thấy sự

phát triển nhanh và bền vững, kiểm soát nợ xấu được đánh giá tốt trong ngành

ngân hàng.

Các biện pháp quản trị nợ xấu đã được áp dụng tại VietinBank

3.1.2.1. Hệ thống xếp hạng tín dụng:

Đây là hệ thống xương sống trong hoạt động cấp tín dụng của VietinBank.

VietinBank là tổ chức tín dụng trong nước đầu tiên áp dụng hệ thống xếp hạng

tín dụng (XHTD) chuẩn mực vào hoạt động cho vay. Theo quy định của hệ

thống XHTD của VietinBank tất cả các khách hàng có quan hệ tín dụng với

VietinBank đều phải được XHTD, kết quả XHTD được sử dụng để quyết định

các nội dung tín dụng liên quan về tỷ lệ TSBĐ, chính sách giá, phí, phân loại nợ,

điều kiện tín dụng…. Hệ thống XHTD được xây dựng trên cơ sở phân tích định

tính và phân tích định lượng. Tất cả các thông số đều được lượng hóa qua số

điểm để ra kết quả xếp hạng tín dụng của khách hàng.

3.1.2.2. Công tác dự báo nợ có khả năng chuyển xấu:

VietinBank thường xuyên thực hiện đánh giá danh mục để dự báo nợ tiềm ẩn rủi

ro và nợ có khả năng chuyển thành nợ xấu để có giải pháp tín dụng phù hợp.

Việc dự báo nợ chuyển xấu của VietinBank đang được thực hiện tại 2 bộ phân

độc lập là bộ phận phê duyệt tín dụng thông qua việc rà soát hồ sơ phê duyệt và

bộ phận kiểm tra giám sát tuân thủ thông qua hoạt động kiểm tra các chi nhánh.

Việc dự báo nợ xấu được thực hiện chủ yếu theo phương pháp định tính theo ý

kiến chuyên gia. Kết quả dự báo nợ xấu được sử dụng để VietinBank xem xét

nâng hạ thẩm quyền phê duyệt của các chi nhánh, dự kiến quỹ dự phòng rủi ro

và định hướng phê duyệt tín dụng đối với khách hàng.

3.1.2.3. Những tồn tại, hạn chế

Mặc dù đạt được nhiều kết quả khả quan thể hiện cả về mặt tài chính cũng như

cấu trúc hệ thống nhưng công tác quản trị chất lượng tín dụng, quản trị nợ xấu

tại VietinBank vẫn còn nhiều tồn tại cần khắc phục:

VietinBank chưa có định hướng cụ thể trong việc lựa chọn khách hàng

mục tiêu nhằm giúp các bộ phận thẩm định rà soát phía sau tiết kiệm được

thời gian trong việc lọc khách hàng.

Trong công tác đánh giá rủi ro tín dụng trong cho vay. Cụ thể là, để đánh

giá mức độ rủi ro tín dụng trong các giao dịch cho vay, cán bộ ngân hàng

thường vẫn phải dựa vào kinh nghiệm bản thân hoặc tham vấn ý kiến

Page 42: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

32

chuyên gia. Phương pháp truyền thống này có nhiều hạn chế do phụ thuộc

vào năng lực của từng cán bộ ngân hàng cũng như trình độ, tâm lý và các

yếu tố chủ quan khác của chuyên gia, cũng như thiếu những thông tin cần

thiết để chuyên gia phân tích. Vì thế, độ tin cậy cũng như tính chính xác

trong công tác đánh giá mức độ rủi ro tín dụng thường không cao. Điều

này không những tiềm ẩn nhiều rủi ro mà còn ảnh hưởng trực tiếp đến

hiệu quả hoạt động của ngân hàng.

VietinBank còn thiếu các công cụ hỗ trợ thẩm định như: trung tâm hỗ trợ

pháp lý, trung tâm định giá tài sản bảo đảm, Hệ thống tra cứu các văn bản

quy phạm pháp luật và nội bộ liên quan đến công tác thẩm định tín dụng,

hệ thống tra cứu các doanh nghiệp đang tồn tại những thông tin bất lợi từ

các kênh khác nhau.

VietinBank còn thiếu các sản phẩm cho vay chuyên biệt.

Công tác đánh giá nghiên cứu ngành và định hướng danh mục của

VietinBank chưa đủ độ chuyên sâu để hỗ trợ các cán bộ làm công tác tín

dụng, còn thiếu nhiều các thống kê mang tính chuyên ngành cũng như các

phân tích về rủi ro đặc trưng ngành.

Hệ thống xếp hạng tín dụng của VietinBank chỉ mới có chiều xếp hạng

khách hàng, chưa có chiều xếp hạng khoản cấp tín dụng

Công tác rà soát các chính sách trong hoạt động cấp tín dụng của

VietinBank còn chậm chưa theo kịp các thay đổi trong thực tế.

Công tác đào tạo nhân sự làm tín dụng của VietinBank có được chú trọng

nhưng chất lượng đào tạo vẫn chưa đảm bảo, vẫn chỉ tập trung đào tào về

mặt lý thuyết còn thiếu nhiều những khóa đào tạo có tính thực tiễn cao,

mang tính trao đổi chia sẻ về kinh nghiệm [3][4].

3.2. Mô tả bài toán áp dụng KPDL hỗ trợ quản lý rủi ro tín dụng

Ngân hàng cần xác định những khoản vay mới, trong tương lai sẽ là nợ Tốt

hay nợ Xấu

Kết quả sau khi phân tích sẽ là một mô hình mà từ đó có thể dự đoán được

khoản vay nào sẽ nằm trong nhóm nợ Xấu (nhóm 3, 4, 5) hay nhóm nợ Tốt

(nhóm 1, 2)

Mô hình này ngoài việc dự đoán khoản vay sẽ nằm trong nhóm nào, còn có

thể được sử dụng như một công cụ để tra các thuộc tính có thay đổi liên quan

Page 43: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

33

đến khoản vay (lãi suất, lãi phạt trả chậm, thu nhập cố định của khách vay bị

thay đổi…)

Thu thập dữ liệu cho vay của hệ thống Vietinbank.

Để giới hạn pham vi bài toán & trong khuôn khổ luận văn tập trung vào cho

vay khách hàng cá nhân tác giả chỉ tập trung vào cho vay khách hàng cá nhân

3.3. Mô hình dữ liệu tại Core Vietinbank

Vietinbank Data System architechture

Data warehouse Terminal data Terminal appCore Bank Synchronize area

CIF

LOAN

DEPOSIT

PAYMENT

TF

EPS/IBPS

Profile

report

Staging MISATM

POS

IB

Reconcile

Report

KPI

Datamining

Branch

HO

Regional

Partner

Hình 3.3.1: Mô hình datawarehouse của Vietinbank

Các phân hệ dữ liệu trên hệ thống Core của Vietinbank cần cho bài toán phân

tích rủi ro tín dụng gồm:

Kế toán tổng hợp – giao dịch GL

Phân hệ tiền gửi – deposit

Phân hệ tiền vay – Loan

Phân hệ chuyển tiền – fund transfer

Phân hệ tài trợ thương mại – TF (trace finance)

Module CIF – Module quản lý thông tin hồ sơ khách hàng

Page 44: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

34

3.4. Môi trường

Hệ thống khảo sát dịch vụ

LOAN Module

CIF Module SQL Server

Data warehouse

file arff

Survey360 portal

WEKA API

Hình 3.4.1: Môi trường thực nghiệm

3.5. Thu thập dữ liệu

Nguồn dữ liệu sẽ được lấy từ 2 Module là: Loan (Module cho vay) & CIF

(Module quản lý thông tin khách hàng)

CIF Module

SQL Server

LOAN Module

Loan_trans

Loan_Limit

Loan_Col

Loan_Dict

KHACH_HANG

HOP_DONG_VAY

Loan_Info

CIF_Info

CIF_Acct

CIF_Service

HAN_MUC

Pull_Service

SOA API

Hình 3.5.1: Mô hình thu thập dữ liệu

Module Loan:

Loan_Trans: bảng giao dịch thanh toán Loan, trả nợ theo kỳ

Page 45: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

35

Loan_Limit: Định mức được vay

Loan_Col: Tài sản đảm bảo

Loan_Dict: Bảng tham chiếu giá trị tài sản

Loan_Info: Thông tin chi tiết khoản vay

Module CIF:

CIF_Info: Thông tin khách hàng (họ tên, nơi ở, khu vực…)

CIF_Acct: Thông tin tài khoản (ATM, VISA, E-Parter, Credit, debit…)

CIF_Service: Thông tin dịch vụ liên quan đến tài khoản (Thanh toán trực

tuyến, biến động số dư, thanh toán viện phí, thu hộ tự động…)

Dữ liệu được chiết xuất từ hệ thống ngân hàng sẽ tập trung vào các phạm vi:

Tập trung vào khách hàng cá nhân.

Thu thập các khoản vay có cả nhóm nợ tốt và xấu.

Thu thập các loại khoản vay về đầu tư bất động sản, mua ô tô, kinh doanh

hộ cá thể, và tiêu dùng cá nhân đây là các loại vay thường xuyên được

khách hàng lựa chọn.

3.6. Biến đổi dữ liệu, tính toán sinh ra các bảng

Bảng khách hàng

Tên trường Loại dữ liệu Mô tả

MA_KHACH_HANG Kiểu ký tự Số định đanh trên Corebanking

của khách hàng (CIF NO).

HO_TEN Kiểu ký tự Họ tên khách hàng

NGHE_NGHIEP Kiểu ký tự Nghề nghiệp của khách hàng

XEP_LOAI_KHACH_HANG Kiểu ký tự Xếp loại khách hàng (Tốt, Trung

Binh, Xấu). Trong luận văn này

lấy tất cả khách hàng đều có được

ngân hàng xếp loại Tốt.

GIOI_TINH Kiểu ký tự Giới tính (Nam, Nữ)

TUOI Kiểu số Tuổi

THU_NHAP_ON_DINH Kiểu ký tự Thu nhập có ổn định không

(Có, không). Trong luận văn

lấy tất cả khách hàng đều có thu

Page 46: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

36

nhập ổn định.

TT_HON_NHAN Kiểu ký tự Tình trạng hôn nhân (Đã kết

hôn, chưa kết hôn)

CON_CAI Kiểu số Số con (1,2,3 ..)

CU_TRU Kiểu ký tự Tình trạng cư trú (Khu vực

Trung tâm thành phố, KV1

thành phố, nông thôn …)

Bảng hợp đồng vay: Bảng tổng hợp bản ghi hợp đồng vay, bảng này chứa hầu

hết các thông tin hợp đồng cho vay

Tên trường Loại dữ liệu Mô tả

MA_KHACH_HANG Kiểu ký tự Số định đanh trên

Corebanking của khách

hàng.

SO_HOP_DONG_VAY Kiểu ký tự Số hợp đồng cho vay

SO_TIEN_VAY Kiểu số Số tiền vay

MUC_DICH_VAY Kiểu ký tự Mục đích vay

GT_DAM_BAO

Kiểu ký tự Giá trị đảm bảo khoản

vay (VD: Bất động sản,

tín chấp bằng lương …)

CHI_SO_NHOM_NO

Kiểu ký tự Nhóm nợ của khoản vay

Tốt (nhóm 1,2), Xấu

(nhóm 3,4,5..).

Bảng định mức hợp đồng vay: Bảng này quản lý chi tiết định mức cấp khoản

vay căn cứ vào thu nhập, thời gian vay của hợp đồng vay.

Tên trường Loại dữ liệu Mô tả

MA_KHACH_HANG Kiểu ký tự Số định đanh trên Corebanking

của khách hàng.

SO_HOP_DONG_VAY Kiểu ký tự Số hợp đồng cho vay

DINH_MUC_DUOC_VAY Kiểu số Định mức được vay

Page 47: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

37

3.7. Làm sạch dữ liệu

Xử lý outliers

Loại bỏ những khoản vay kỳ hạn dưới 1 năm

Loại bỏ những giao dịch liên quan đến thế chấp thương mại, bảo lãnh hải

quan

Loại bỏ các trường hợp cho vay ưu đãi với cán bộ nhân viên Ngân hàng

Xử lý sai logic dữ liệu

Xử lý null value & missing value

Giảm bớt dữ liệu

Giảm bớt về biểu diễn các thuộc tính của dữ liệu, giảm bớt kích thước dữ liệu

nhưng vẫn đảm bảo thu được các kết quả khai phá dữ liệu tương đương

Gom nhóm dữ liệu là một trong những cách phổ biến để giảm kích thước dữ

liệu:

Gom thông tin địa chỉ theo các khu vực

Gom các hình thức nghề nghiệp

Gom nhóm tuổi

Gom nhóm định mức các khoản vay

3.8. Lựa chọn dữ liệu

Hình 3.8.1: Lựa chọn dữ liệu

Tiến hành chuyển đổi dữ liệu các trường dữ liệu được trong các bảng dữ liệu

trên thành tập hợp dữ liệu như danh sách bên dưới như sau.

Page 48: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

38

Bảng danh sách các trường dữ liệu dùng để thực nghiệm

Tên trường Loại dữ liệu Mô tả

XEP_LOAI_KHACH_HANG Kiểu ký tự Xếp loại khách hàng (Tốt, Trung

Bình, Xấu)

THU_NHAP_ON_DINH Kiểu ký tự Thu nhập có ổn định không (Có, không)

TT_HON_NHAN Kiểu ký tự Tình trạng hôn nhân (Đã kết hôn,

chưa kết hôn)

CU_TRU Kiểu ký tự Tình trạng cư trú (Khu vực Trung

tâm thành phố, KV1 thành phố,

nông thôn …)

TUOI Kiểu số Tuổi

NGHE_NGHIEP Kiểu ký tự Nghề nghiệp của khách hàng

DINH_MUC_DUOC_VAY Kiểu số Định mức được vay

MUC_DICH_VAY Kiểu ký tự Mục đích vay

GT_DAM_BAO Kiểu ký tự Giá trị đảm bảo khoản vay (VD: Bất

động sản, tín chấp bằng lương …)

CHI_SO_NHOM_NO Kiểu ký tự Nhóm nợ của khoản vay Tốt (nhóm

1,2), Xấu (nhóm 3,4,5..).

3.9. Tìm hiểu dữ liệu

Tìm hiểu chung về từng trường dữ liệu như: phân bố, các thống kê như min,

max, range, median, mode, chất lượng dữ liệu như null, missing value, empty

value, outliers, v.v. và quay lại bước trước nếu cần thiết.

Biểu diễn mối liên quan giữa các Field thuộc tính với thông tin Chi_So_No

(thông tin phân loại nhóm nợ Tốt/Xấu)

Page 49: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

39

: Nợ xấu

: Nợ Tốt

Hình 3.9.1: Biểu diễn dữ liệu

3.10. Lựa chọn thuật toán

Trong khuôn khổ luận văn, cũng như các thuộc tính dữ liệu của rủi ro tín dụng

thường là rời rạc và có thể tập hợp vào danh sách các nhóm miền giá trị nhất

định.

Do đó tác giả lựa chọn đi sâu nghiên cứu 3 thuật toán để áp dụng là:

C4.5 – cây quyết định

Apriori – luật kết hợp

Naïve Bayes – tính xác suất điều kiện của các thông tin đầu vào

Các thuật toán này dùng để phân lớp dữ liệu & có ưu điểm dễ mô hình hóa, tính

trực quan cao, phù hợp với dữ liệu có dải giá trị nhỏ

3.11. Lựa chọn công cụ

Trong khuôn khổ luận văn, tác giả chọn công cụ Weka - Waikato Environment

for Knowledge Analysis

Weka là một bộ phần mềm học máy được phát triển tại Đại học Waikato, New

Zealand. Chương trình được viết bằng Java. Nó chứa một bộ sưu tập các công

cụ trực quan và các thuật toán để phân tích dữ liệu và mô hình tiên đoán kết hợp

với giao diện người dùng đồ họa. Weka hỗ trợ một số nhiệm vụ Khai phá dữ liệu

Page 50: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

40

tiêu chuẩn, cụ thể hơn, xử lý trước dữ liệu, phân cụm, phân loại, hồi quy, trực

quan hóa và lựa chọn tính năng.

Ngoài ra Weka còn cung cấp giao tiếp API cho phép tích hợp bộ công cụ vào

ứng dụng của doanh nghiệp. Và trong luận văn này, tác giả đã thực hiện tích hợp

Weka API vào hệ thống Khảo sát tín dụng Survey360 của Ngân hàng

Vietinbank

3.12. Xây dựng mô hình phân lớp

Lựa chọn dữ liệu & thuộc tính

Loại bỏ thuộc tính không dùng để phân tích: ở đây ta loại bỏ thuộc tính

MA_KH, HO_TEN

Hình 3.12.1: Loại bỏ các thuộc tính không sử dụng

Thuộc tính DINH_MUC_DUOC_VAY

Là kiểu số, có giá trị nhỏ nhất và lớn nhất lần lượt là: 25,000,000 và

1,835,200,000

Page 51: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

41

Ngoài ra thuộc tính này có nhiều giá trị khác nhau vì vậy sẽ chuyển giá trị

của thuộc tính từ kiểu số sang kiểu rời rạc.

Chia miền giá trị của Field này thành 10 khoảng giá trị, dựa vào tần suất

xuất hiện trong dữ liệu. Kết quả 10 khoảng giá trị thuộc tính như sau:

Hình 3.12.2: Đặt khoảng cho thuộc tính định mức được vay

Hình 3.12.3: Đặt khoảng cho thuộc tính định mức được vay

Page 52: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

42

Thuộc tính TUOI

Là kiểu số, có các giá trị 28-65

Ta chọn cách chuyển giá trị số của thuộc tính này thành các 05 khoảng giá trị

như bảng dưới.

Hình 3.12.4: Đặt khoảng cho thuộc tính Tuổi

Mô hình Cây quyết định J48

3.12.2.1. Xây dựng cây

Xây dựng cây bắt đầu từ nút gốc, tất cả các dữ liệu học ở nút gốc, việc chọn một

nút gốc xuất phát phân hoạch dữ liệu một cách đệ quy là phải có đánh giá.

Đánh giá nút gốc dựa vào độ lợi thông tin sử dụng entropy của Shannon (C4.5 -

Quinlan), hoặc chỉ số gini (CART-Breiman).

Weka cung cấp công cụ GainRatioAttributeEval để tính độ lợi thông tin

(Information Gian)

Page 53: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

43

Thực hiện tính độ lợi thông tin trên Weka - GainRatioAttributeEval

Hình 3.12.5: Chọn công cụ chạy bảng độ lợi thông tin trên Weka

Hình 3.12.6: Bảng độ lợi thông tin trên Weka

Theo Hình 28 (bảng độ lợi thông tin trên Weka), nhận thấy nếu phân tích khoản

vay từ thuộc tính CHI_SO_NHOM_NO sẽ có bảng độ lợi thông tin bên dưới để

Page 54: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

44

cắt tỉa tạo gốc, cành, lá dựa vào giá trị cột Gain Ratio (độ lợi thông tin) từ cao

xuống thấp như sau:

Bảng 1: Bảng độ lợi thông tin

Gain Ratio Thuộc Tính

1 0.0149 1. NGHE_NGHIEP

2 0.01335 2. VI_TRI_CONG_TAC

3 0.00721 3. DINH_MUC_DUOC_VAY

4 0.00368 4. GT_DAM_BAO

5 0.00282 5. MUC_DICH_VAY

6 0.00219 6. TUOI

7 0.00203 7. THOI_HAN_KHOAN_VAY

8 0.00194 8. T_THAI_CU_TRU

9 0.00122 9. TT_HON_NHAN

10 0 10. XEP_LOAI_KHACH_HANG

11 0 11. THU_NHAP_CO_DINH

Hình 3.12.7: Biểu đồ Gain – độ lợi thông tin

0.0149

0.01335

0.00721

0.003680.00282

0.00219 0.00203 0.001940.00122

0 00 0 0 0 0 0 0 0 0 0 00

0.002

0.004

0.006

0.008

0.01

0.012

0.014

0.016

1 2 3 4 5 6 7 8 9 10 11

Gain Ratio Thuộc Tính

Page 55: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

45

Chỉ số Gain được tính dựa trên thuật toán sau:

a. Tính Entropy dữ liệu phân lớp

H(S) = − ∑ P(c) log2 P(c)

c ∈ C

C={Tốt, Xấu}, Tốt: 23526 bản ghi, Xấu: 6158 bản ghi

P(c) – tỷ số thuộc tính theo từng phân lớp trên tổng số bản ghi

Áp dụng công thức

H(S) = −23526

29684∗ log2

23526

29684−

6158

29684∗ log2

6158

29684= 0.73658

b. Tính information Gain & Entropy cho các thuộc tính đặc trưng

Tính Entropy chi tiết cho Dữ liệu đặc trưng

Thuộc tính Mariage {DaKetHon, ChuaKetHon= 8160}

DaKetHon= 21524(Tot: 17264, Xau: 4260)

ChuaKetHon= 8160(Tot: 6262, Xau: 1898)

H(S, Mariage) = {E(DaKetHon) = −

17264

21524∗ log2

17264

21524 −

4260

21524∗ log2

4260

21524= 0.71774

E(ChuaKetHon) = −6262

8160∗ log2

6262

8160 −

1898

8160∗ log2

1898

8160= 0.78251

Tính trung bình Entropy cho thuộc tính Mariage (Tình trạng kết hôn)

I(A) = H(T) = ∑ P(t) ∗ H(t)

t ∈T

I(Mariage) =21524

29684∗ 0.71774 +

8160

29684∗ 0.78251 = 0.73554

c. Tính chỉ số Gain

Gain(A) = H(S) – I(A)

Gain(Mariage) = 0.73658 – 0.73536 = 0.00122

d. Lặp lại bước b & c để thực hiện tính hết chỉ số Gain cho tất cả các thuộc

tính đặc trưng

Page 56: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

46

3.12.2.2. Tham số thuật toán J48 trên Weka

Hình 3.12.8: Hướng dẫn vào màn hình tham số J48 trên Weka

Bảng ý nghĩa các tham số của J48 trên Weka 3.8.0

Tham số Mô tả

binarySplits Có sử dụng phân tích nhị phân ở trong các thuộc tính

nominal khi xây dựng cây hay không?

reducedErrorPruning Có xem tỉa giảm bớt lỗi được sử dụng thay thế xén tỉa C4.5

Debug Nếu thiết lập là true, sự phân lớp có thể xảy ra các thông tin

bổ sung tới màn hình console

minNumObj Số lượng nhỏ nhất các thể hiện trên mỗi nút lá

numFolds Xác định rõ lượng dữ liệu sử dụng cho việc giảm bớt lỗi

xén tỉa. Mỗi fold được sử dụng cho việc xén tỉa, phần còn

lại sử dụng cho việc phát triển cây

confidenceFactor Mức tin tưởng để quyết định xem có xén tỉa hay không?

Với dữ liệu đầu vào cho thực nghiệm sẽ chấp nhận các giá trị mặc định bên trên,

ngoại trừ thuộc tính saveInstanceData sẽ đổi thành true (cho phép tìm thấy được từng

mẫu sẽ được phân loại sau khi xây dựng cây xong).

3.12.2.3. Tham số dữ liệu training

Hình 3.12.9: Hướng dẫn cấu hình tham số xuất dữ liệu trên Weka

Page 57: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

47

Thuộc tính Percentage split:

Tỷ lệ phân chia cho biết số mẫu được chọn cho tập huấn luyện (training set) và

số mẫu được chọn cho tập kiểm tra (test set).

Ví dụ: Percentage split = 66% nghĩa là 66% mẫu dùng tập huấn luyện và 34%

mẫu dùng kiểm tra.

3.12.2.4. Thực nghiệm dữ liệu với J48 trên Weka.

Dữ liệu thực nghiệm chia thành 2 phần, huấn luyện và kiểm thử. Tiến hành dùng

dữ liệu huấn luyện để tạo mẫu, dùng dữ liệu kiểm thử để dự đoán rồi xác định

kết quả Tốt, Xấu.

Thực nghiệm sẽ tiến hành 05 lần với các tỷ lệ như sau:

L1 : Sử dụng J48 cắt tỉa trên tập dữ liệu với tỷ lệ huấn luyện 55%

L2 : Sử dụng J48 cắt tỉa trên tập dữ liệu với tỷ lệ huấn luyện 66% (giá trị mặc

định của Weka)

L3 : Sử dụng J48 cắt tỉa trên tập dữ liệu với tỷ lệ huấn luyện 70%

L4 : Sử dụng J48 cắt tỉa trên tập dữ liệu tỷ lệ huấn luyện 85%

L5 : Sử dụng J48 cắt tỉa trên tập dữ liệu tỷ lệ huấn luyện 90%

Kết quả các lần chạy ta có bảng sau:

Bảng 2: Thống kê các lần chạy thực nghiệm với J48 trên Weka

Lần

chạy

Tỷ lệ huấn

luyện/kiểm

thử

Tổng

số bản

ghi

Tổng số

lớp

Số mẫu

phân lớp

đúng

Số mẫu

Phân

lớp sai

Tỷ lệ phân

lớp đúng

Tỷ lệ phân

lớp sai

1 55/45 29684 13358 10954 2404 82.0033 % 17.9967 %

2 66/34 29684 10093 8273 1820 81.9677 % 18.0323 %

3 70/30 29684 8905 7293 1612 81.8978 % 18.1022 %

4 85/15 29684 4453 3644 809 81.8325 % 18.1675 %

5 90/10 29684 2968 2417 551 81.4353 % 18.5647 %

Page 58: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

48

Biểu đồ thực nghiệm theo Số phân lớp/Phân lớp đúng/Phân lớp sai:

Hình 3.12.10: Biểu đồ phân lớp J48

3.12.2.5. Đánh giá các lần chạy thực nghiệm với thuật toán J48

Hình 3.12.11: Biểu đồ xác suất J48

13358

10093

8905

4453

2968

10954

8273

7293

3644

241724041820 1612 809 551

0

2000

4000

6000

8000

10000

12000

14000

16000

55/45 66/34 70/30 85/15 90/10

Tổng số lớp Số mẫu phân lớp đúng Số mẫu Phân lớp sai

81.10%81.20%81.30%81.40%81.50%81.60%

81.70%

81.80%

81.90%

82.00%

82.10%

55/4566/34

70/3085/15

90/10

82.00%81.97%

81.90%

81.83%

81.44%

Tỷ lệ phân lớp đúng

Page 59: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

49

Từ các lần chạy thực nghiệm đã thực hiện, lần chạy L1 đạt hiệu quả phân lớp

82.0000 % cao nhất trong 5 lần thử. Như vậy lần chạy L2 với tỷ lệ huấn luyện

55% là lựa chọn phù hợp nhất.

Phân lớp Naive Bayes

Phân lớp Naive Bayes (Naive Bayes Classification) là một thuật toán dựa trên lý

thuyết về xác suất để đưa ra các phán đoán cũng như phân loại dữ liệu dựa trên

các dữ liệu được quan sát và thống kê.

Thuật toán Naive Bayes được ứng dụng rất nhiều trong các lĩnh vực Machine

Learning, và dùng để đưa các dự đoán chính xác nhất dự trên một tập dữ liệu đã

được thu thập, bởi vì thuật toán này khá dễ hiểu và độ chính xác cao.

Naive Bayes thuộc vào nhóm Supervised Machine Learning Algorithms (học có

giám sát), tức là máy học từ các ví dụ từ các mẫu dữ liệu đã có.

3.12.3.1. Cấu hình tham số thuật toán Naive Bayes

Hình 3.12.12: Cấu hình tham số thuật toán Naive Bayes

Page 60: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

50

Tiến hành chạy thuật toán

Hình 3.12.13: Kết quả chạy thuật toán Naive Bayes trên Weka

Thuật toán được chạy 5 lần với tỷ lệ tham số như sau:

L1 : Sử dụng phân lớp Naive Bayes trên tập dữ liệu với tỷ lệ huấn luyện 55%

L2 : Sử dụng phân lớp Naive Bayes trên tập dữ liệu với tỷ lệ huấn luyện 66%

L3 : Sử dụng phân lớp Naive Bayes trên tập dữ liệu với tỷ lệ huấn luyện 70%

L4 : Sử dụng phân lớp Naive Bayes trên tập dữ liệu tỷ lệ huấn luyện 85%

L5 : Sử dụng phân lớp Naive Bayes trên tập dữ liệu tỷ lệ huấn luyện 90%

Page 61: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

51

Kết quả các lần chạy:

Lần

chạy

Tỷ lệ huấn

luyện/kiểm

thử

Tổng số

bản ghi

Tổng số

lớp

Số mẫu

phân lớp

đúng

Số mẫu

Phân lớp

sai

Tỷ lệ

phân lớp

đúng

Tỷ lệ phân

lớp sai

1 55/45 29684 13358 9875 3483 73.9257 % 26.0743 %

2 66/34 29684 11874 8781 3093 73.9515 % 26.0485 %

3 70/30 29684 8905 6583 2322 73.9248 % 26.0752 %

4 85/15 29684 4453 3293 1160 73.9501 % 26.0499 %

5 90/10 29684 2968 2181 787 73.4838 % 26.5162 %

Bảng 3: Thống kê các lần chạy thực nghiệm phân lớp Naive Bayes trên Weka

Biểu đồ kết quả các lần chạy theo Tổng số phân lớp/Phân lớp đúng/Phân lớp sai

Hình 3.12.14: Biểu đồ phân lớp Naïve Bayes

13358

11874

8905

4453

2968

9875

8781

6583

3293

2181

34833093

2322

1160787

0

2000

4000

6000

8000

10000

12000

14000

16000

55/45 66/34 70/30 85/15 90/10

Tổng số lớp Số mẫu phân lớp đúng Số mẫu Phân lớp sai

Page 62: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

52

3.12.3.2. Đánh giá các lần chạy thực nghiệm thuật toán Naive Bayes

Hình 3.12.15: Biểu đồ tỷ lệ chính xác Navie Bayes

Từ các lần chạy thực nghiệm đã thực hiện, ta thấy lần chạy L2 đạt hiệu quả cao

nhất với tỷ lệ phân lớp đúng 73,95 %. Như vậy chạy thực nghiệm dữ liệu với tỷ

lệ huấn luyện 66% của Naive Bayes là lựa chọn phù hợp nhất.

3.13. Đánh giá mô hình.

So sánh kết quả các lần chạy giữa 2 thuật toán

Hình 3.13.1: Biểu đồ so sánh tỷ lệ phân lớp đúng J48 & Navie bayes

73.20%

73.30%

73.40%

73.50%

73.60%

73.70%

73.80%

73.90%

74.00%

55/4566/34

70/3085/15

90/10

73.93% 73.95%73.92% 73.95%

73.48%

Tỷ lệ phân lớp đúng

82.00% 81.97% 81.90% 81.83% 81.44%

73.93% 73.95% 73.92% 73.95%73.48%

68.00%

70.00%

72.00%

74.00%

76.00%

78.00%

80.00%

82.00%

84.00%

55/45 66/34 70/30 85/15 90/10

Biểu đồ so sánh tỷ lệ phân lớp đúng J48 & Navie bayes

J48 Navie

Page 63: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

53

Tất cả các thí nghiệm được tiến hành với cùng một bộ dữ liệu, từ các lần chạy

thực nghiệm của J48 và Naive Bayes trên Weka ta đã chọn được tỷ lệ hợp lý

nhất cho 2 thuật toán:

+ J48 lựa chọn tỷ lệ huấn luyện 82%.

+ Naive Bayes chọn tỷ lệ huấn luyện 73,95%.

Từ các lần chạy thử, nhận thấy tỉ lệ thực hiện của J48 luôn cao hơn Naive Bayes,

thuật toán J48 có hiệu quả phân lớp đúng đạt 82,00 %, lớp sai 18,00 % Trong

khi Naive Bayes lớp đúng đạt 73,95 %, sai bằng 26,15 %. Như vậy thuật toán

J48 là lựa chọn phù hợp nhất & tỷ lệ dữ liệu tập huấn phù hợp nhất là 55%.

Đánh giá lần chạy J48 đạt tỷ lệ phân lớp đúng cao nhất

Lần chạy đạt tỷ lệ phân lớp đúng cao nhất:

Giải thuật: J48

Tỷ lệ dữ liệu huấn luyện: 55%

Mô hình cây quyết định được xây dựng:

Cây quyết định kích cỡ: 63

Số lượng lá: 57

Bảng thông số kết quả chạy thuật toán:

Hình 3.13.2: kết quả lần chạy phù hợp nhất J48

Ý nghĩa các giá trị quan trọng:

TPrate (tỷ lệ mẫu tích cực - Positive): Cao.

Page 64: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

54

TP=TP/(TP+FN)

Example:

TP(a)=291/(291+ 1820)=0.138

FPrate (tỷ lệ mẫu tích cực sai): Thấp.

FP=FP/(FP + TN)

Example:

FP(a)=0/(0+7982)=0

FP(b)=1820/(1820 + 291)=0.862

Precision (Giá trị dự đoán mẫu tích cực đúng): Cao.

Precision= TP / (TP + FP)

Recall (Giá trị biểu diễn tỷ lệ mẫu cần thực hiện lại): Cao.

F- measure: Biểu diễn trung bình điều hòa giữa recall và precision

F-measure = 2TP / (2TP + FP + FN)

Confusion Matrix - Ma trận sự nhầm lẫn:

Dây là một ma trận vuông với kích thước mỗi chiều bằng số lượng lớp dữ

liệu (Giá trị tại hàng thứ 2, cột thứ a là số lượng điểm lẽ ra thuộc vào

lớp a nhưng lại được dự đoán là thuộc vào lớp b). Nhìn vào bảng ma trận

trên, ta có thể thấy được dữ liệu thu thập dòng b (Xấu) cột a (Tốt) có 04 lớp

có khả nghi xếp nhầm.

Đánh giá lần chạy Navie đạt tỷ lệ dữ liệu tập huấn 55%

Lần chạy đạt tỷ lệ phân lớp đúng cao nhất:

Giải thuật: Navie bayes

Tỷ lệ dữ liệu huấn luyện: 55%

Page 65: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

55

Bảng thông số kết quả chạy thuật toán

Hình 3.13.3: kết quả lần chạy phù hợp nhất Navie Bayes

3.14. Triển khai tích hợp hệ thống Khai phá dữ liệu

Weka ngoài cung cấp ứng dụng chạy độc lập, còn cung cấp cả API để các doanh

nghiệp có thể tích hợp vào ứng dụng của mình.

Trong luận văn này, tác giả thực nghiệm tích hợp Weka API vào hệ thống

Portal: “Khảo sát tín dụng 360o” của Ngân hàng Vietinbank

Màn hình chức năng

Hình 3.14.1: Màn hình login 3600

Page 66: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

56

Màn hình giao diện

Hình 3.14.2: Màn hình giao diện

Màn hình kết quả chạy với J48

Hình 3.14.3: Màn hình kết quả

Page 67: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

57

CHƯƠNG 4: KẾT LUẬN

4.1. Các kết quả đã đạt được

Với ý tưởng nghiên cứu ứng dụng khai phá dữ liệu trong việc cải tiến quy trình

quản lý rủi ro tín dụng, đề tài “KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU

NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG” đã đạt được

những mục tiêu sau:

Luận văn đã trình bày những kiến thức tổng quan về đánh giá rủi ro tín dụng tại

ngân hàng VietinBank. Làm rõ tầm quan trọng của việc không ngừng nâng cao

ứng dụng công nghệ trong công tác đánh giá rủi ro tín dụng nhằm tăng tính ổn

định cũng như hiệu quả hoạt động của VietinBank.

Đề tài đã làm rõ thực trạng trong công tác đánh giá rủi ro tín dụng khách hàng cá

nhân tại ngân hàng VietinBank, qua đó thấy được những điểm còn hạn chế và đề

xuất các giải pháp phù hợp.

Đề tài đã hệ thống hóa cơ sở lý thuyết về khai phá dữ liệu cũng như phân tích và

tổng hợp các nghiên cứu liên quan nhằm lựa chọn ra kỹ thuật và quy trình khai

phá dữ liệu phù hợp áp dụng cho đề tài.

Bên cạnh đó đã bước đầu xây dựng module “Khai phá dữ liệu” tích hợp vào hệ

thống Khảo sát tín dụng 3600 của Ngân hàng Vietinbank.

4.2. Mục tiêu tương lai

Với rất nhiều ứng dụng thực tế của khai phá dữ liệu trong ngành tài chính ngân

hàng, đặc biệt trong phân tích dự báo rủi ro tín dụng. Với thời gian có hạn luận

văn mới chỉ nghiên cứu và thực nghiệm trên 2 thuật toán, vì vậy yêu cầu với bài

toán trong tương lai là áp dụng các thuật toán khác như hồi quy dự báo, áp dụng

mạng noron xây dựng các mô hình dự báo…

Với sự ứng dụng rộng rãi của khai phá dữ liệu trong ngành tài chính ngân hàng

như đã trình bày thì còn rất nhiều bài toán có thể tìm hiểu và nghiên cứu thêm

trong tương lai như: Bài toán bán chéo sản phẩm tín dụng, rủi ro giao dịch ngân

hàng điện tử, mua bán nợ, dự đoán xu hướng giao dịch chứng khoán phái sinh

kết nối qua ngân hàng v.v...

Page 68: KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI ...lib.uet.vnu.edu.vn/bitstream/123456789/1005/1/kienpt...LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với

58

TÀI LIỆU THAM KHẢO

[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu

Trang, Nguyễn Cẩm Tú, Khai phá dữ liệu Web, Nhà xuất bản Giáo dục, 2009

[2] PGS.TS Hà Quang Thụy, Bài giảng Khai phá dữ liệu, Đại học Công Nghệ-Đại Học

Quốc gia Hà Nội

[3] Tài liệu lưu hành nội bộ, 2016 - Sổ tay nghiệp vụ rủi ro của VietinBank.

[4] Tài liệu lưu hành nội bộ, 2016 - Quy định về Rủi ro tín dụng của VietinBank.

[5] Báo cáo quản trị tài chính Vietinbank 2016

[6] Phí Trọng Hiển, 2005. Ngân hàng nhà nước Việt Nam- Quản trị rủi ro ngân hàng:

Cơ sở lý thuyết, thách thức thực tiễn và giải pháp cho hệ thống ngân hàng thương mại

Việt Nam.

[7] John Ross Quinlan, 1993. Chương trình học máy, nhà xuất bản Morgan Kaufmann.

[8] Jiawei Han và Micheline Kamber, 2012. Khái niệm và kỹ thuật khai phá dữ liệu,

ấn bản thứ ba, nhà xuất bản ed Elsevier Inc.

[9] WILLIAM W. COOPER - DATA ENVELOPMENT ANALYSIS - A

Comprehensive Text with Models, Applications, References and DEA-Solver

Software

[10].Ron Kohavi, J. Ross Quinlan, Decision Tree Discovery, 1999

[11] A complete guide to dealing with Big Data using MongoDB

[12] BigData in Complex Systems Challenges and Opportunities

[13] Ivan Idris - Python Data Analysis

[14] Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques,

Second Edition