KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI...
Transcript of KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI...
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM TRUNG KIÊN
KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM
QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội – 2019
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM TRUNG KIÊN
KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM
QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG
Ngành: Kỹ Thuật Phần Mềm
Chuyên ngành: Kỹ Thuật Phần Mềm
Mã số: 8480103.01
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. TRẦN TRỌNG HIẾU
Hà Nội – 2019
LỜI CAM ĐOAN
Tôi xin cam đoan rằng những nghiên với đề tài “Khai thác và phân tích
dữ liệu nhằm quản lý rủi ro trong giao dịch tín dụng” được trình bày trong luận
văn này là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của thầy giáo
TS. Trần Trọng Hiếu, không sao chép lại của người khác. Tất cả các nguồn tài
liệu tham khảo, các công trình nghiên cứu liên quan đều được trích dẫn cụ thể.
Tôi xin chịu hoàn toàn trách nhiệm nếu có bất kỳ phát hiện nào về sự sao
chép mà không có trích dẫn trong tài liệu tham khảo.
LỜI CÁM ƠN
Em xin chân thành cám ơn thầy giáo TS. Trần Trọng Hiếu người đã nhiệt tình
hướng dẫn, chỉ bảo trong suốt quá trình hoàn thành luận văn này cũng như cả giai
đoạn bắt đầu xây dựng đề cương xác định hướng nghiên cứu của luận văn.
Em xin chân thành cám ơn toàn thể quý thầy cô trong Khoa CNTT đã tận
tình truyền đạt những kiến thức quý báu cũng như tạo mọi điều kiện thuận lợi
nhất cho em trong quá trình học tập nghiên cứu.
Tôi xin chân thành cám ơn ban lãnh đạo, đồng nghiệp tại Trung tâm Công
nghệ Thông tin – Ngân hàng Vietinbank đã tạo rất nhiều điều kiện cho tôi trong
việc nghiên cứu và thực hiện luận văn.
Xin chân thành cảm ơn gia đình, các học viên trong lớp Cao học K22 đã
hỗ trợ cho tôi rất nhiều trong suốt quá trình học tập, nghiên cứu và thực hiện đề
tài luận văn thạc sĩ một cách hoàn chỉnh.
Tôi xin cám ơn đề tài cấp Đại học Quốc Gia Hà Nội mã số: QG.19.23
Hà Nội, ngày tháng năm 2019
Tác giả luận văn
Phạm Trung Kiên
MỤC LỤC
LỜI CAM ĐOAN ................................................................................................. i
LỜI CÁM ƠN ...................................................................................................... ii
DANH MỤC CÁC TỪ VIẾT TẮT ................................................................... vi
DANH MỤC HÌNH VẼ .................................................................................... vii
GIỚI THIỆU ........................................................................................................ 1
CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ................................. 3
1.1. Khai phá dữ liệu là gì? .............................................................................. 3
1.2. Lợi ích của Khai phá dữ liệu .................................................................... 3
1.3. Các bước chính trong khai phá dữ liệu ..................................................... 4
1.4. Các kỹ thuật khai phá dữ liệu ................................................................... 5
Kỹ thuật phân lớp ............................................................................... 5
Kỹ thuật phân cụm ............................................................................. 5
Kỹ thuật phân tích luật kết hợp .......................................................... 5
Kỹ thuật bài toán hồi quy ................................................................... 5
Kỹ thuật dự đoán ................................................................................ 5
Kỹ thuật phân tích chuỗi .................................................................... 6
Kỹ thuật phân tích độ lệch .................................................................. 6
1.5. Các thuật toán phân lớp ............................................................................ 6
Rừng ngẫu nhiên - Random Forest .................................................... 6
Hồi quy logistic - Logistic Regression ............................................... 7
Cây quyết định - Decision tree ........................................................... 7
Phân lớp sác xuất - Navie Bayes ........................................................ 8
Máy véc-tơ hỗ trợ - Supper Vector Machine (SVM) ......................... 8
Stochastic Gradient Descent............................................................... 9
Láng giềng gần nhất – (K-Nearest Neighbours) ................................ 9
1.6. Ứng dụng của khai phá dữ liệu ................................................................. 9
1.7. Đề tài khai phá dữ liệu phân lớp rủi ro tín dụng .................................... 13
CHƯƠNG 2: BÀI TOÁN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG ....... 14
2.1. Lý thuyết rủi ro tín dụng ......................................................................... 14
Khái niệm rủi ro tín dụng ................................................................. 14
Những nguyên nhân phát sinh rủi ro tín dụng.................................. 14
Phân loại nhóm nợ ............................................................................ 14
Điều kiện vay vốn ............................................................................ 15
Căn cứ xác định định mức cho vay .................................................. 16
Đối tượng áp dụng ............................................................................ 16
Mô hình lượng hóa rủi ro tín dụng cho khách hàng cá nhân ........... 16
2.2. Phát biểu bài toán ................................................................................... 18
2.3. Quy trình phân lớp xây dựng mô hình ................................................... 19
2.4. Mô hình phân lớp dự báo rủi ro .............................................................. 21
2.5. Lựa chọn nghiên cứu thuật toán ............................................................. 22
Phân lớp Cây quyết định .................................................................. 22
2.5.1.1. Thuật toán cây quyết định .......................................................... 22
2.5.1.2. Hoạt động của thuật toán Cây quyết định .................................. 23
2.5.1.3. Các biện pháp lựa chọn thuộc tính ............................................. 24
2.5.1.4. Thông tin đạt được ..................................................................... 24
2.5.1.5. Tỷ lệ tăng ................................................................................... 25
2.5.1.6. chỉ số Gini .................................................................................. 25
Phân lớp Naive Bayes ...................................................................... 26
2.5.2.1. Quy trình phân lớp ..................................................................... 26
2.5.2.2. Phân lớp Naive Bayes là gì? ...................................................... 27
2.5.2.3. Hoạt động của phân lớp Naive Bayes ........................................ 28
CHƯƠNG 3: THỰC NGHIỆM TRÊN DỮ LIỆU VIETINBANK .............. 29
3.1. Khảo sát hoạt động tín dụng của hệ thống Vietinbank........................... 29
Tổng quan hoạt động tín dụng của Vietinbank ................................ 29
Các biện pháp quản trị nợ xấu đã được áp dụng tại VietinBank ..... 31
3.1.2.1. Hệ thống xếp hạng tín dụng: ...................................................... 31
3.1.2.2. Công tác dự báo nợ có khả năng chuyển xấu: ........................... 31
3.1.2.3. Những tồn tại, hạn chế ............................................................... 31
3.2. Mô tả bài toán áp dụng KPDL hỗ trợ quản lý rủi ro tín dụng ................ 32
3.3. Mô hình dữ liệu tại Core Vietinbank ...................................................... 33
3.4. Môi trường .............................................................................................. 34
3.5. Thu thập dữ liệu ...................................................................................... 34
3.6. Biến đổi dữ liệu, tính toán sinh ra các bảng ........................................... 35
3.7. Làm sạch dữ liệu ..................................................................................... 37
Giảm bớt dữ liệu ............................................................................... 37
3.8. Lựa chọn dữ liệu ..................................................................................... 37
3.9. Tìm hiểu dữ liệu ...................................................................................... 38
3.10. Lựa chọn thuật toán ............................................................................. 39
3.11. Lựa chọn công cụ ................................................................................ 39
3.12. Xây dựng mô hình phân lớp ................................................................ 40
Lựa chọn dữ liệu & thuộc tính ......................................................... 40
Mô hình Cây quyết định J48 ............................................................ 42
3.12.2.1. Xây dựng cây ............................................................................. 42
3.12.2.2. Tham số thuật toán J48 trên Weka ............................................. 46
3.12.2.3. Tham số dữ liệu training ............................................................ 46
3.12.2.4. Thực nghiệm dữ liệu với J48 trên Weka.................................... 47
3.12.2.5. Đánh giá các lần chạy thực nghiệm với thuật toán J48 ............. 48
Phân lớp Naive Bayes ...................................................................... 49
3.12.3.1. Cấu hình tham số thuật toán Naive Bayes ................................. 49
3.12.3.2. Đánh giá các lần chạy thực nghiệm thuật toán Naive Bayes ..... 52
3.13. Đánh giá mô hình. ............................................................................... 52
So sánh kết quả các lần chạy giữa 2 thuật toán ................................ 52
Đánh giá lần chạy J48 đạt tỷ lệ phân lớp đúng cao nhất .................. 53
Đánh giá lần chạy Navie đạt tỷ lệ dữ liệu tập huấn 55% ................. 54
3.14. Triển khai tích hợp hệ thống Khai phá dữ liệu .................................... 55
CHƯƠNG 4: KẾT LUẬN ................................................................................ 57
4.1. Các kết quả đã đạt được .......................................................................... 57
4.2. Mục tiêu tương lai................................................................................... 57
TÀI LIỆU THAM KHẢO ................................................................................ 59
DANH MỤC CÁC TỪ VIẾT TẮT
NHNN Ngân hàng nhà nước Việt Nam
TMCP Thương mại cổ phần
VietinBank Ngân hàng TMCP Công thương Việt Nam
KPDL Khai phá dữ liệu
TSĐB Tài sản đảm bảo
RRTD Rủi ro tín dụng
HĐTD Hoạt động tín dụng
DANH MỤC HÌNH VẼ
Hình 1.3.1: Lợi ích của Khai phá dữ liệu .............................................................. 3
Hình 1.3.1: Các bước khai phá dữ liệu................................................................. 4
Hình 1.3.2: Các bước chuẩn bị data ...................................................................... 4
Hình 2.3.1: Phát biểu bài toán ............................................................................ 18
Hình 2.4.1: Quy trình huấn luyện - training ........................................................ 20
Hình 2.4.2: Quy trình test dữ liệu ....................................................................... 21
Hình 2.4.3: Quy trình áp dụng mô hình .............................................................. 21
Hình 2.5.1: Mô hình phân lớp dự báo rủi ro ....................................................... 21
Hình 2.6.1: Cây quyết định ................................................................................. 23
Hình 2.6.2: luồng hoạt động của cây quyết định ................................................ 24
Hình 2.6.3: Quy trình phân lớp ........................................................................... 27
Hình 3.1.1: Tổng dư nợ VietinBank từ 2013 – 2017 .......................................... 29
Hình 3.1.2: Cơ cấu tín dụng VietinBank theo kỳ hạn từ 2012 - 2017 ................ 30
Hình 3.1.3: So sánh chỉ tiêu tín dụng, huy động, lợi nhuận, nợ xấu ................... 30
Hình 3.1.4: Biểu đồ kiểm soát nợ xấu giai đoạn 2010 đến 2017 ........................ 30
Hình 3.3.1: Mô hình datawarehouse của Vietinbank .......................................... 33
Hình 3.4.1: Môi trường thực nghiệm .................................................................. 34
Hình 3.5.1: Mô hình thu thập dữ liệu .................................................................. 34
Hình 3.8.1: Lựa chọn dữ liệu .............................................................................. 37
Hình 3.9.1: Biểu diễn dữ liệu .............................................................................. 39
Hình 3.12.2: Đặt khoảng cho thuộc tính định mức được vay ............................. 41
Hình 3.12.3: Đặt khoảng cho thuộc tính định mức được vay ............................. 41
Hình 3.12.4: Đặt khoảng cho thuộc tính Tuổi ..................................................... 42
Hình 3.12.5: Chọn công cụ chạy bảng độ lợi thông tin trên Weka ..................... 43
Hình 3.12.6: Bảng độ lợi thông tin trên Weka .................................................... 43
Hình 3.12.7: Biểu đồ Gain – độ lợi thông tin ...................................................... 44
Hình 3.12.8: Hướng dẫn vào màn hình tham số J48 trên Weka ......................... 46
Hình 3.12.9: Hướng dẫn cấu hình tham số xuất dữ liệu trên Weka .................... 46
Hình 3.12.11: Biểu đồ xác suất J48..................................................................... 48
Hình 3.12.12: Cấu hình tham số thuật toán Naive Bayes ................................... 49
Hình 3.12.13: Kết quả chạy thuật toán Naive Bayes trên Weka ......................... 50
Hình 3.12.14: Biểu đồ phân lớp Naïve Bayes ..................................................... 51
Hình 3.12.15: Biểu đồ tỷ lệ chính xác Navie Bayes ........................................... 52
Hình 3.13.1: Biểu đồ so sánh tỷ lệ phân lớp đúng J48 & Navie bayes............... 52
Hình 3.13.2: kết quả lần chạy phù hợp nhất J48 ................................................. 53
Hình 3.13.3: kết quả lần chạy phù hợp nhất Navie Bayes .................................. 55
Hình 3.14.1: Màn hình login 3600 ....................................................................... 55
Hình 3.14.2: Màn hình giao diện ........................................................................ 56
Hình 3.14.3: Màn hình kết quả ............................................................................ 56
1
GIỚI THIỆU
Hoạt động tín dụng (HĐTD) trong ngành ngân hàng là đặc biệt quan trọng vì
vậy việc đánh giá và phân loại rủi ro là nhiệm vụ hàng đầu trong quản trị vận
hành. Vì lẽ đó nên hiện nay hầu hết các ngân hàng trên thế giới nói chung và
Việt Nam nói riêng đều có những hệ thống hỗ trợ trong việc phân loại & đánh
giá rủi ro.
Hiện nay các ngân hàng hầu hết đều sử dụng mô hình chấm điểm tín dụng để hỗ
trợ đánh giá rủi ro và xếp hạng tín dụng, để từ đó làm cơ sở có quyết định cho
khách hàng vay hay không. Các ngân hàng khác nhau thì cũng có thể khác nhau
về cấu trúc & cách vận hành hệ thống xếp hạng tín dụng, ví dụ như: cơ cấu và
trọng số của các chỉ tiêu, ước tính mức rủi ro gắn liền với các mức xếp hạng, số
lượng các mức xếp hạng, hay các chính sách khách hàng, chính sách tín dụng áp
dụng v.v... [6]
Hầu hết các Ngân hàng sử dụng bảng chỉ tiêu (bảng danh sách các thang điểm
tín dụng ứng với từng thông tin hồ sơ khách hàng, như: thu nhập, nghề nghiệp,
tài sản thế chấp…) dùng để tổng hợp và chấm điểm tín dụng đối với khách hàng,
nếu thang điểm là tốt thì khách hàng sẽ được tiếp cận với khoản vay tương ứng
Từ thực tế cho thấy, quy trình xét duyệt cho vay gặp phải nhiều vấn đề như:
Chất lượng thẩm định tín dụng phụ thuộc vào trình độ phân tích, cũng như
chủ quan đánh giá của cán bộ tín dụng.
Các NHTM sử dụng mô hình này sẽ phải bỏ ra nhiều nguồn lực & thời
gian để thẩm định thông tin khách hàng, cũng như đòi hỏi cán bộ tín dụng
phải có tính chuyên nghiệp, có thâm niên, kỹ năng
Đặc biệt là mô hình chấm điểm này chưa có khả năng dự báo được rủi ro
mà mới chỉ đánh giá được phần nào rủi ro nhờ điểm xếp hạng (dựa trên
thông tin hiện có của hệ thống)
Tác giả hiện đang công tác ở Ngân hàng TMCP Vietinbank với vị trí công việc
là cán bộ IT có trách nhiệm hỗ trợ các module nghiệp vụ trong đó có module Tín
dụng. Từ những hạn chế của mô hình chấm điểm xếp hạng tín dụng hiện tại là
phụ thuộc cơ bản vào yếu tố con con người, và với mong muốn đề xuất giải
pháp cải tiến trong hoạt động quản lý rủi ro tín dụng. Vậy nên, tác giả xin đề
xuất hướng nghiên cứu của luận văn là: Ứng dụng khai phá dữ liệu nhằm hỗ trợ
đánh giá và dự đoán phân loại rủi ro tín dụng của các khoản vay mới. Với mục
2
tiêu là xây dựng được mô hình phân lớp làm cơ sở tri thức để dự đoán phân loại
nợ tốt/xấu với tập khách hàng mới, và phạm vi bài toán trong khuôn khổ luận
văn sẽ tập trung vào mảng nghiệp vụ “Cho vay tín dụng với khách hàng cá
nhân”.
Luận văn được tổ chức thành 4 chương gồm:
Chương 1: Trình bày tổng quan thế nào là khai phá dữ liệu, các bước trong quy
trình khai phá dữ liệu và các phương pháp khai phá dữ liệu. Các ứng dụng phổ
biến của khai phá dữ liệu
Chương 2: Nghiên cứu quy trình quản lý hoạt động rủi ro tín dụng Ngân hàng.
Từ những hạn chế trong thực tế vận hành quy trình quản lý rủi ro tín dụng, tác
giả đề xuất xây dựng mô hình quản lý rủi ro bằng phương pháp khai phá dữ liệu.
Mô hình này đáp ứng là cơ sở tri thức để hỗ trợ công tác quản lý rủi ro trên các
phương diện: Phân loại rủi ro & dự đoán rủi ro. Và từ tính chất của dữ liệu cho
vay, tác giả chọn tìm hiểu chi tiết các thuật toán dùng để áp dụng là: Cây quyết
định, Navie Bayes
Chương 3: ứng dụng nghiên cứu trên dữ liệu thực nghiệm của Ngân hàng
Vietinbank. Trong chương này tác giả thực hiện các nội dung:
Thu thập dữ liệu
Phân tích dữ liệu
Xây dựng mô hình phân lớp dự báo rủi ro
Tích hợp Module Khai phá dữ liệu và hệ thống Khảo sát tín dụng 3600
của Ngân hàng Vietinbank
Chương 4: Tóm tắt những kết quả đã và chưa đạt được, từ đó đưa ra những mục
tiêu và hướng tiếp cận trong tương lai.
3
CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1. Khai phá dữ liệu là gì?
Khai phá dữ liệu là quá trình phân lớp, sắp xếp các tập hợp dữ liệu lớn để xác
định các mẫu và thiết lập các mối liên hệ nhằm giải quyết các vấn đề nhờ phân
tích dữ liệu. Các công cụ khai phá dữ liệu cho phép các doanh nghiệp có thể dự
đoán được xu hướng tương lai [1][2].
1.2. Lợi ích của Khai phá dữ liệu
Lợi ích chính của Khai phá dữ liệu nằm ở khả năng phát hiện các mẫu và mối
liên hệ tiềm ẩn trong cơ sở dữ liệu. Hay nói cách khác giúp ta làm chủ kho dữ
liệu lớn, bằng mô hình tri thức được xây dựng dựa trên nguồn dữ liệu có sẵn,
Khai phá dữ liệu đem lại nhiều giá trị như:
Lịch sử bán hàng và hành vi của khách hàng có thể được sử dụng để xây
dựng các mô hình dự báo doanh số, sản phẩm và dịch vụ mới cho tương lai.
Các công ty trong ngành tài chính sử dụng các công cụ Khai phá dữ liệu để
xây dựng các mô hình phát hiện rủi ro và gian lận.
Trong Lĩnh vực sản xuất công nghiệp có thể sử dụng Khai phá dữ liệu trong
việc cải thiện an toàn sản phẩm, xác định các vấn đề về chất lượng, quản lý
chuỗi cung ứng và cải thiện hoạt động vận hành sản xuất...
Hình 1.3.1: Lợi ích của Khai phá dữ liệu
4
1.3. Các bước chính trong khai phá dữ liệu
Tập hợp dữ liệu
Làm sạch dữ liệu
Chuyển đổi dữ liệu
Chọn lọc dữ liệu
Dữ liệu dùng để Khai phá
Tìm hiểu nghiệp vụ
Tìm hiểu dữ liệu
Chuẩn bị dữ liệu
Xây dựng mô hình
Triển khai
Kiểm thử & Đánh giá mô hình
Dữ liệu thực tế
Hình 1.3.1: Các bước khai phá dữ liệu
Bước 1: Tìm hiểu nghiệp vụ - Business Understanding
Bước 2: Tìm hiểu dữ liệu - Data Understanding
Bước 3: Chuẩn bị dữ liệu - Data preparation
Việc chuẩn bị dữ liệu bao gồm các bước
Tập hợp dữ liệu Làm sạch dữ liệuChuyển đổi
dữ liệuChọn lọc dữ liệu
Dữ liệu dùng để Khai phá
Dữ liệu thực tế
Hình 1.3.2: Các bước chuẩn bị data
Bước 4: Xây dựng mô hình hóa - Model Building
Bước 5: Kiểm thử và đánh giá mô hình - Testing and Evaluation
5
Bước 6: Triển khai - Deployment
1.4. Các kỹ thuật khai phá dữ liệu
Kỹ thuật phân lớp
Kỹ thuật phân lớp là một trong những kỹ thuật Khai phá dữ liệu phổ biến nhất,
ví dụ như: quản lý rủi ro hay lựa chọn ảnh quảng cáo nào sẽ xuất hiện đối với
mỗi nhóm khách hàng, hay phân tích xem nhóm khách hàng nào có khả năng sẽ
chuyển sang dùng sản phẩm dịch vụ của đối thủ cạnh tranh của công ty…
Kỹ thuật phân lớp là dữ liệu được tổ chức trong các lớp cho trước, hay còn được
gọi là học có quan sát. Trong kỹ thuật phân loại người ta sử dụng các nhãn lớp
cho trước để sắp xếp các đối tượng. Mà trong đó, một tập huấn luyện bao gồm
các đối tượng đã được kết hợp với các nhãn đã biết. Những thuật toán có quan
sát sẽ được áp dụng cho tập các đối tượng cần phân loại để từ đó có thể mô hình
hóa sự phân lớp của dữ liệu.
Kỹ thuật phân cụm
Kỹ thuật phân cụm khác biệt với kỹ thuật phân lớp là các nhãn lớp chưa biết và
không có dữ liệu huấn luyện. Đối tượng được phân cụm dựa trên các thuộc tính
tương đồng giữa chúng. Bài toán phân cụm còn hay được gọi là học không có
giám sát.
Kỹ thuật phân tích luật kết hợp
Kỹ thuật phân tích luật kết hợp, hay còn gọi là kỹ thuật phân tích giỏ hàng bởi vì
nó thường được sử dụng rộng rãi trong phân tích các giao dịch dữ liệu, các bài
toán lựa chọn hàng hóa đi kèm…
Kỹ thuật phân tích luật kết hợp khám phá ra các luật kết hợp thể hiện mối liên hệ
giữa các thuộc tính dữ liệu mà thường xuất hiện cùng nhau trong các tập dữ liệu.
Kỹ thuật bài toán hồi quy
Kỹ thuật hồi quy cũng tương tự như kỹ thuật phân lớp. Điểm khác biệt là hồi
quy dự đoán cho các dữ liệu liên tục.
Kỹ thuật dự đoán
Dự đoán là phần quan trọng của KHAI PHÁ DỮ LIỆU. Có hai loại dự đoán
chính:
Dự đoán về một số giá trị dữ liệu chưa biết hay có xu hướng sắp xảy ra
6
Dự đoán để phân lớp dựa trên (một tập huấn luyện và giá trị thuộc tính)
của đối tượng.
Kỹ thuật phân tích chuỗi
Là kỹ thuật để tìm ra các mẫu trong một loạt các giá trị hay trạng thái rời rạc.
Ví dụ: việc chọn mua hàng hóa của khách hàng có thể mô hình là một chuỗi dữ
liệu. Hành động chọn mặt hàng A, sau đó chọn mặt hàng B, C… là một chuỗi
các trạng thái rời rạc. Trong khi đó thời gian lại là chuỗi số liên tục.
Phân tích chuỗi (PTC) và phân tích luật kết hợp (PTLKH) giống nhau ở chỗ đều
phân tích tập hợp các đối tượng hay trạng thái. Điểm khác biệt là mô hình chuỗi
phân tích sự chuyển của các trạng thái, trong khi mô hình luật kết hợp thì coi
mỗi một mặt hàng trong giỏ hàng là như nhau và độc lập.
Với mô hình chuỗi, thì việc chọn mặt hàng A trước mặt hàng B hay việc chọn
mặt hàng B trước A sau là khác nhau. Còn ở mô hình kết hợp thì cả hai trường
hợp đều không khác nhau.
Kỹ thuật phân tích độ lệch
Kỹ thuật này còn được gọi theo cách khác là phát hiện điểm biên. Điểm biên là
những đối tượng dữ liệu mà không tuân theo các đặc tính và hành vi chung. Bài
toán phát hiện điểm biên ứng dụng rất nhiều trong các ứng dụng.
Điển hình ứng dụng quan của bài toán phát hiện điểm biên là bài toán kiểm tra
xác nhận thẻ tín dụng…
1.5. Các thuật toán phân lớp
Rừng ngẫu nhiên - Random Forest
Định nghĩa: Phân lớp rừng ngẫu nhiên là một công cụ ước tính phù hợp với một
số cây quyết định trên các mẫu dữ liệu con khác nhau và sử dụng trung bình để
cải thiện độ chính xác dự đoán của mô hình và kiểm soát sự phù hợp quá
mức. Cỡ mẫu phụ luôn giống với cỡ mẫu đầu vào ban đầu nhưng các mẫu được
vẽ thay thế.
Ưu điểm: Giảm phân lớp rừng phù hợp quá mức và ngẫu nhiên là chính xác hơn
so với cây quyết định trong hầu hết các trường hợp.
Nhược điểm: Dự đoán thời gian thực chậm, khó thực hiện và thuật toán phức
tạp.
7
Hồi quy logistic - Logistic Regression
Hồi quy logistic là đối tác phân loại với hồi quy tuyến tính. Dự đoán được ánh
xạ từ 0 đến 1 thông qua hàm logistic , có nghĩa là dự đoán có thể được hiểu là
xác suất của lớp.
Bản thân các mô hình vẫn là "tuyến tính", vì vậy chúng hoạt động tốt khi các lớp
của bạn có thể phân tách tuyến tính (nghĩa là chúng có thể được phân tách bằng
một bề mặt quyết định duy nhất). Hồi quy logistic cũng có thể được thường
xuyên hóa bằng cách xử phạt các hệ số với cường độ hình phạt có thể điều
chỉnh.
Điểm mạnh: Đầu ra có một diễn giải xác suất tốt và thuật toán có thể được
thường xuyên hóa để tránh bị quá mức. Các mô hình logistic có thể được cập
nhật dễ dàng với dữ liệu mới bằng cách sử dụng gốc dốc ngẫu nhiên.
Điểm yếu: Hồi quy logistic có xu hướng hoạt động kém khi có nhiều ranh
giới quyết định phi tuyến tính. Họ không đủ linh hoạt để tự nhiên nắm bắt
các mối quan hệ phức tạp hơn.
Cây quyết định - Decision tree
Cây hồi quy (còn gọi là cây quyết định) học theo kiểu phân cấp bằng cách liên
tục chia dữ liệu của bạn thành các nhánh riêng biệt để tối đa hóa mức tăng thông
tin của mỗi lần phân tách.Cấu trúc phân nhánh này cho phép cây hồi quy tự
nhiên học các mối quan hệ phi tuyến tính.
Các phương thức của bộ đồng phục, chẳng hạn như Rừng ngẫu nhiên (RF) và
Cây tăng cường Gradient (GBM), kết hợp các dự đoán từ nhiều cây riêng
lẻ. Chúng ta sẽ không đi sâu vào cơ học cơ bản của chúng ở đây, nhưng trên
thực tế, RF thường hoạt động rất tốt trong khi GBM khó điều chỉnh hơn nhưng
có xu hướng có hiệu suất cao hơn.
Điểm mạnh: Cây quyết định có thể học các mối quan hệ phi tuyến tính và
khá mạnh mẽ đối với các ngoại lệ. Bộ sưu tập thực hiện rất tốt trong thực tế,
chiến thắng nhiều cuộc thi học máy cổ điển (tức là không học sâu).
Điểm yếu: Không bị giới hạn, các cây riêng lẻ dễ bị quá mức vì chúng có thể
tiếp tục phân nhánh cho đến khi chúng ghi nhớ dữ liệu đào tạo. Tuy nhiên,
điều này có thể được giảm bớt bằng cách sử dụng các bản hòa tấu.
8
Phân lớp sác xuất - Navie Bayes
Naive Bayes là một thuật toán rất đơn giản dựa trên xác suất và số đếm có điều
kiện . Về cơ bản, mô hình của bạn thực sự là một bảng xác suất được cập nhật
thông qua dữ liệu đào tạo của bạn. Để dự đoán một quan sát mới, bạn chỉ cần
"tra cứu" xác suất của lớp trong "bảng xác suất" dựa trên các giá trị tính năng
của nó.
Nó được gọi là "ngây thơ" bởi vì giả định cốt lõi của nó về sự độc lập có điều
kiện (tức là tất cả các tính năng đầu vào là độc lập với nhau) hiếm khi đúng
trong thế giới thực.
Điểm mạnh: Mặc dù giả định độc lập có điều kiện hiếm khi đúng, các mô
hình Navie Bayes thực sự hoạt động tốt một cách đáng ngạc nhiên trong thực
tế, đặc biệt là vì chúng đơn giản như thế nào. Chúng rất dễ thực hiện và có
thể mở rộng quy mô với tập dữ liệu của bạn.
Điểm yếu: Do tính đơn giản tuyệt đối của chúng, các mô hình NB thường bị
đánh bại bởi các mô hình được đào tạo và điều chỉnh đúng cách bằng các
thuật toán trước được liệt kê.
Máy véc-tơ hỗ trợ - Supper Vector Machine (SVM)
Các máy véc-tơ hỗ trợ (SVM) sử dụng một cơ chế gọi là hạt nhân , về cơ bản
tính khoảng cách giữa hai quan sát. Thuật toán SVM sau đó tìm thấy một ranh
giới quyết định tối đa hóa khoảng cách giữa các thành viên gần nhất của các lớp
riêng biệt.
Ví dụ, một SVM với đường tuyến tính tương tự như hồi quy logistic. Do đó,
trong thực tế, lợi ích của SVM thường đến từ việc sử dụng các hạt nhân phi
tuyến tính để mô hình hóa các ranh giới quyết định phi tuyến tính.
Điểm mạnh: SVM có thể mô hình hóa các ranh giới quyết định phi tuyến
tính và có nhiều hạt nhân để lựa chọn. Chúng cũng khá mạnh mẽ để chống
lại quá mức, đặc biệt là trong không gian nhiều chiều.
Điểm yếu: Tuy nhiên, SVM rất tốn bộ nhớ, khó điều chỉnh hơn do tầm quan
trọng của việc chọn đúng kernel và không mở rộng tốt cho các bộ dữ liệu lớn
hơn. Hiện tại trong ngành, rừng ngẫu nhiên thường được ưa thích hơn SVM.
9
Stochastic Gradient Descent
Định nghĩa: Stochastic gradient gốc là một cách tiếp cận đơn giản và rất hiệu
quả để phù hợp với các mô hình tuyến tính. Nó đặc biệt hữu ích khi số lượng
mẫu rất lớn. Nó hỗ trợ các chức năng mất khác nhau và hình phạt để phân lớp.
Ưu điểm: Hiệu quả và dễ thực hiện.
Nhược điểm: Yêu cầu một số siêu tham số và nó nhạy cảm với tính năng mở
rộng.
Láng giềng gần nhất – (K-Nearest Neighbours)
Định nghĩa: Phân lớp dựa trên hàng xóm là một kiểu lười học vì nó không cố
gắng xây dựng một mô hình nội bộ chung, mà chỉ lưu trữ các trường hợp của dữ
liệu đào tạo. Phân lớp được tính từ một phiếu bầu đa số đơn giản của k hàng
xóm gần nhất của mỗi điểm.
Ưu điểm: Thuật toán này dễ thực hiện, mạnh mẽ đến dữ liệu đào tạo ồn ào và
hiệu quả nếu dữ liệu đào tạo lớn.
Nhược điểm: Cần xác định giá trị của K và chi phí tính toán cao vì nó cần máy
tính khoảng cách của mỗi trường hợp cho tất cả các mẫu đào tạo.
1.6. Ứng dụng của khai phá dữ liệu
Khai phá dữ liệu đã và đang được ứng dụng rộng rãi trong rất nhiều lĩnh vực và
hiện nay đã có rất nhiều công cụ thương mại và phi thương mại triển khai các
nhiệm vụ của khai phá dữ liệu.
Sau đây là một số lĩnh vực mà Data mining đang được ứng dụng rộng rãi
Chăm sóc sức khỏe
Khai phá dữ liệu có tiềm năng lớn để cải thiện các hệ thống y tế. Nó sử dụng dữ
liệu và phân tích để xác định các thực tiễn tốt nhất giúp cải thiện việc chăm sóc
và giảm chi phí. Các nhà nghiên cứu sử dụng các phương pháp Khai phá dữ liệu
như cơ sở dữ liệu đa chiều, học máy, điện toán mềm, trực quan hóa dữ liệu và
thống kê. Khai thác có thể được sử dụng để dự đoán khối lượng bệnh nhân trong
mọi thể loại. Các quy trình được phát triển để đảm bảo rằng bệnh nhân được
chăm sóc phù hợp tại đúng nơi và đúng thời điểm. Khai phá dữ liệu cũng có thể
giúp các công ty bảo hiểm chăm sóc sức khỏe phát hiện gian lận và lạm dụng.
Phân tích thị trường
Phân tích thị trường là một kỹ thuật mô hình dựa trên lý thuyết rằng nếu bạn
mua một nhóm mặt hàng nhất định, bạn có nhiều khả năng mua một nhóm mặt
10
hàng khác. Kỹ thuật này có thể cho phép nhà bán lẻ hiểu hành vi mua hàng của
người mua. Thông tin này có thể giúp nhà bán lẻ biết nhu cầu của người mua và
thay đổi cách bố trí cửa hàng cho phù hợp. Sử dụng phân tích so sánh kết quả
giữa các cửa hàng khác nhau, giữa các khách hàng trong các nhóm nhân khẩu
học khác nhau có thể được thực hiện.
Giáo dục
Có một lĩnh vực mới nổi, được gọi là Khai phá dữ liệu giáo dục, liên quan đến
việc phát triển các phương pháp khám phá kiến thức từ dữ liệu có nguồn gốc từ
Môi trường giáo dục. Các mục tiêu của Khai phá dữ liệu trong giáo dục được
xác định là dự đoán hành vi học tập trong tương lai của học sinh, nghiên cứu các
tác động của hỗ trợ giáo dục và nâng cao kiến thức khoa học về học tập. Khai
phá dữ liệu có thể được sử dụng bởi một tổ chức để đưa ra quyết định chính xác
và cũng để dự đoán kết quả của học sinh. Với kết quả, tổ chức có thể tập trung
vào những gì cần dạy và cách dạy. Mô hình học tập của các sinh viên có thể
được nắm bắt và sử dụng để phát triển các kỹ thuật để dạy họ.
Kỹ thuật sản xuất
Kiến thức là tài sản tốt nhất mà một doanh nghiệp sản xuất sẽ sở hữu. Các công
cụ Khai phá dữ liệu có thể rất hữu ích để khám phá các mẫu trong quy trình sản
xuất phức tạp. Khai phá dữ liệu có thể được sử dụng trong thiết kế cấp hệ thống
để trích xuất các mối quan hệ giữa kiến trúc sản phẩm, danh mục sản phẩm và
dữ liệu nhu cầu của khách hàng. Nó cũng có thể được sử dụng để dự đoán thời
gian phát triển sản phẩm, chi phí và sự phụ thuộc giữa các nhiệm vụ khác.
Quản lý quan hệ khách hàng
Quản lý quan hệ khách hàng là tất cả về việc có được và giữ chân khách hàng,
cũng cải thiện lòng trung thành của khách hàng và thực hiện các chiến lược tập
trung vào khách hàng. Để duy trì mối quan hệ đúng đắn với khách hàng, một
doanh nghiệp cần thu thập dữ liệu và phân tích thông tin. Đây là nơi Khai phá
dữ liệu đóng vai trò của nó. Với công nghệ Khai phá dữ liệu, dữ liệu thu thập
được có thể được sử dụng để phân tích. Thay vì bối rối nơi tập trung để giữ chân
khách hàng, những người tìm kiếm giải pháp có được kết quả được lọc.
Phát hiện gian lận
Hàng tỷ đô la đã bị mất cho các hành động gian lận. Các phương pháp phát hiện
gian lận truyền thống rất tốn thời gian và phức tạp. Hỗ trợ Khai phá dữ liệu
trong việc cung cấp các mẫu có ý nghĩa và biến dữ liệu thành thông tin. Bất kỳ
thông tin nào là hợp lệ và hữu ích là kiến thức. Một hệ thống phát hiện gian lận
11
hoàn hảo sẽ bảo vệ thông tin của tất cả người dùng. Một phương pháp được
giám sát bao gồm thu thập các hồ sơ mẫu. Những hồ sơ này được phân loại gian
lận hoặc không gian lận. Một mô hình được xây dựng bằng cách sử dụng dữ liệu
này và thuật toán được thực hiện để xác định xem bản ghi có lừa đảo hay không.
Phát hiện xâm nhập
Bất kỳ hành động nào sẽ làm tổn hại đến tính toàn vẹn và bảo mật của tài
nguyên là một sự xâm nhập. Các biện pháp phòng thủ để tránh sự xâm nhập bao
gồm xác thực người dùng, tránh lỗi lập trình và bảo vệ thông tin. Khai phá dữ
liệu có thể giúp cải thiện phát hiện xâm nhập bằng cách thêm một mức độ tập
trung vào phát hiện bất thường. Nó giúp một nhà phân tích phân biệt một hoạt
động với hoạt động mạng hàng ngày phổ biến. Khai phá dữ liệu cũng giúp trích
xuất dữ liệu phù hợp hơn với vấn đề.
Phát hiện nói dối
Bắt một tên tội phạm là dễ dàng trong khi đưa ra sự thật từ anh ta là khó khăn.
Thực thi pháp luật có thể sử dụng các kỹ thuật khai thác để điều tra tội phạm,
giám sát liên lạc của những kẻ khủng bố bị nghi ngờ. Điều này bao gồm khai
thác văn bản cũng. Quá trình này tìm kiếm các mẫu có ý nghĩa trong dữ liệu
thường là văn bản phi cấu trúc. Mẫu dữ liệu được thu thập từ các cuộc điều tra
trước được so sánh và một mô hình để phát hiện nói dối được tạo ra. Với mô
hình này, các quy trình có thể được tạo ra theo sự cần thiết.
Phân khúc khách hàng
Nghiên cứu thị trường truyền thống có thể giúp chúng tôi phân khúc khách hàng
nhưng Khai phá dữ liệu đi sâu và tăng hiệu quả thị trường. Hỗ trợ Khai phá dữ
liệu trong việc sắp xếp các khách hàng thành một phân khúc riêng biệt và có thể
điều chỉnh các nhu cầu theo khách hàng. Thị trường luôn luôn là giữ chân khách
hàng. Khai phá dữ liệu cho phép tìm một phân khúc khách hàng dựa trên lỗ
hổng và doanh nghiệp có thể cung cấp cho họ các ưu đãi đặc biệt và nâng cao sự
hài lòng.
Ngân hàng tài chính
Với ngân hàng máy tính ở khắp mọi nơi, lượng dữ liệu khổng lồ được cho là sẽ
được tạo ra với các giao dịch mới. Khai phá dữ liệu có thể góp phần giải quyết
các vấn đề kinh doanh trong tài chính ngân hàng bằng cách tìm ra mô hình,
nguyên nhân và mối tương quan trong thông tin kinh doanh và giá cả thị trường
không rõ ràng đối với các nhà quản lý vì dữ liệu khối lượng quá lớn hoặc được
các chuyên gia tạo ra quá nhanh. Các nhà quản lý có thể tìm thấy những thông
12
tin này để phân khúc, nhắm mục tiêu, thu nhận, giữ chân và duy trì một khách
hàng có lợi nhuận tốt hơn.
Giám sát doanh nghiệp
Giám sát doanh nghiệp là giám sát hành vi của một người hoặc nhóm của một
công ty. Dữ liệu được thu thập thường được sử dụng cho mục đích tiếp thị hoặc
bán cho các tập đoàn khác, nhưng cũng thường xuyên được chia sẻ với các cơ
quan chính phủ. Nó có thể được sử dụng bởi các doanh nghiệp để điều chỉnh các
sản phẩm của họ mong muốn của khách hàng của họ. Dữ liệu có thể được sử
dụng cho các mục đích tiếp thị trực tiếp, chẳng hạn như quảng cáo được nhắm
mục tiêu trên Google và Yahoo, nơi quảng cáo được nhắm mục tiêu đến người
dùng công cụ tìm kiếm bằng cách phân tích lịch sử tìm kiếm và email của họ.
Phân tích nghiên cứu
Lịch sử cho thấy chúng ta đã chứng kiến những thay đổi mang tính cách mạng
trong nghiên cứu. Khai phá dữ liệu rất hữu ích trong việc làm sạch dữ liệu, xử lý
trước dữ liệu và tích hợp cơ sở dữ liệu. Các nhà nghiên cứu có thể tìm thấy bất
kỳ dữ liệu tương tự từ cơ sở dữ liệu có thể mang lại bất kỳ thay đổi trong nghiên
cứu. Xác định bất kỳ chuỗi đồng xảy ra và mối tương quan giữa bất kỳ hoạt
động có thể được biết. Trực quan hóa dữ liệu và Khai phá dữ liệu trực quan cung
cấp cho chúng ta một cái nhìn rõ ràng về dữ liệu.
Điều tra tội phạm
Tội phạm học là một quá trình nhằm xác định các đặc điểm tội phạm. Thực tế
phân tích tội phạm bao gồm khám phá và phát hiện tội phạm và mối quan hệ của
họ với tội phạm. Khối lượng lớn các bộ dữ liệu tội phạm và sự phức tạp của các
mối quan hệ giữa các loại dữ liệu này đã khiến tội phạm học trở thành một lĩnh
vực thích hợp để áp dụng các kỹ thuật Khai phá dữ liệu. Báo cáo tội phạm dựa
trên văn bản có thể được chuyển đổi thành tập tin xử lý văn bản. Những thông
tin này có thể được sử dụng để thực hiện quá trình khớp tội phạm.
Tin học sinh học
Phương pháp Khai phá dữ liệu có vẻ phù hợp lý tưởng với Tin sinh học, vì nó
giàu dữ liệu. Khai phá dữ liệu sinh học giúp trích xuất kiến thức hữu ích từ các
bộ dữ liệu khổng lồ được thu thập trong sinh học và trong các lĩnh vực khoa học
đời sống liên quan khác như y học và khoa học thần kinh. Các ứng dụng Khai
phá dữ liệu cho tin sinh học bao gồm tìm gen, suy luận chức năng protein, chẩn
đoán bệnh, tiên lượng bệnh, tối ưu hóa điều trị bệnh, tái tạo mạng lưới tương tác
protein và gen, làm sạch dữ liệu và dự đoán vị trí tế bào phụ protein.
13
1.7. Đề tài khai phá dữ liệu phân lớp rủi ro tín dụng
Trong phạm vi luận văn, tác giả đề cập đến ứng dụng khai phá dữ liệu để phân
lớp rủi ro tín dụng.
Đánh giá rủi ro tín dụng là môt bước quan trọng trong hoạt động cho vay trong
ngành tài chính ngân hàng. Thiếu bước này, ngân hàng sẽ không thể đưa ra
quyết định khách quan về việc có nên giải ngân cho vay khách hàng hay không.
Đánh giá rủi ro thường là sự cố gắng định lượng độ rủi ro mất mát của ngân
hàng khi thực hiện một quyết định cho vay.
Ở đây, rủi ro tín dụng có thể được định lượng bằng giá trị của tài sản thế chấp
hoặc, các yếu tố thông tin về người vay, của yếu tố khả năng mất vốn, và tỷ lệ
thu hồi của công cụ trong trường hợp người vay không có khả năng trả nợ
Do đó ta có thể sử dụng các phương pháp phân lớp - classifications áp dụng
trên thông tin dữ liệu của khách vay để phân loại nhóm khách hàng.
14
CHƯƠNG 2: BÀI TOÁN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG
2.1. Lý thuyết rủi ro tín dụng
Khái niệm rủi ro tín dụng
Tín dụng ngân hàng (cho vay) là quan hệ tín dụng giữa ngân hàng, các tổ chức
tín dụng và các tổ chức kinh tế, cá nhân theo nguyên tắc hoàn trả. Việc hoàn trả
được nợ gốc trong tín dụng có nghĩa là việc thực hiện được giá trị hàng hoá trên
thị trường, còn việc hoàn trả được lãi vay trong tín dụng là việc thực hiện được
giá trị thặng dư trên thị trường. Trong quan hệ tín dụng có hai đối tượng tham
gia là ngân hàng cho vay và người đi vay [6].
Rủi ro tín dụng là:
Khoản lỗ có nguy cơ xảy ra khi ngân hàng cấp tín dụng.
Những thiệt hại mà ngân hàng gánh chịu do người vay vốn không trả
đúng hạn, không thực hiện đúng nghĩa vụ cam kết trong hợp đồng cho vay
vì bất kể lý do gì.
Những nguyên nhân phát sinh rủi ro tín dụng
Rủi ro tín dụng thường xảy ra bởi những nguyên nhân sau:
Khách hàng vay vốn gặp những nguy cơ và tai nạn bất ngờ hoặc thua lỗ
trong kinh doanh nên không có tiền trả nợ dẫn đến nợ quá hạn.
Do tác động của tình hình kinh tế trong nước và thế giới.
Các vấn đề vì ham lợi nhuận, vi phạm nguyên tắc cho vay, phân tích đánh
giá khách hàng sai, quyết định cho vay thiếu thông tin xác thực.
Phân loại nhóm nợ
Ngân hàng thực hiện phân loại nợ như sau:
Nhóm 1 (nợ được đánh giá là đủ tiêu chuẩn):
Nợ còn trong hạn, chưa đến thời hạn thanh toán và được hệ thống ngân
hàng đánh giá là có đủ khả năng thu hồi đầy đủ cả gốc và lãi đúng hạn.
Các món nợ khác của Khách hàng cũng đều không bị quá hạn.
Nhóm 2 (nợ được đánh giá là cần chú ý):
Nợ đã quá hạn chưa quá 3 tháng.
Nợ đã được cơ cấu lại thời hạn trả nợ trong hạn.
15
Những khoản tín dụng được đánh giá là có khả năng thu hồi đầy đủ cả
gốc và lãi, nhưng có dấu hiệu khách hàng bị suy giảm khả năng trả nợ.
Nhóm 3 (nợ được đánh giá là dưới tiêu chuẩn):
Các khoản nợ quá hạn từ 3 tháng => đến 6 tháng.
Các khoản nợ đã được cơ cấu lại thời hạn trả nợ nhưng bị quá hạn trên 90
ngày.
Nợ được đánh giá là rủi ro có khả năng không thu hồi được đầy đủ cả gốc
và lãi khi đến hạn, và có khả năng tổn thất một phần nợ gốc và lãi.
Nhóm 4 (nợ nghi ngờ):
Các khoản nợ quá hạn từ 6 tháng => đến 1 năm.
Các khoản nợ được được cơ cấu lại thời hạn trả nợ nhưng bị quá hạn từ 90
đến 180 ngày.
Các khoản nợ bị đánh giá là có khả năng tổn thất cao.
Nhóm 5 (nợ có khả năng bị mất vốn):
Nợ quá hạn trên 1 năm.
Các khoản nợ khoanh phải chờ Chính Phủ xử lý.
Các khoản nợ được cơ cấu lại thời hạn trả nợ nhưng bị quá hạn trên 180
ngày.
Trên quan điểm phân hạng nợ Tốt/Xấu thì:
Nợ Tốt: là những khoản vay nằm trong Nhóm 1, 2
Nợ Xấu: là những khoản vay nằm trong Nhóm 3, 4, 5
Điều kiện vay vốn
Các khách hàng muốn được vay vốn phải có các điều kiện sau đây:
Có năng lực pháp luật dân sự, năng lực hành vi dân sự và chịu trách
nhiệm dân sự theo quy định của pháp luật
Có mục đích sử dụng vay vốn hợp pháp
Có khả năng tài chính đảm bảo trả nợ trong thời hạn cam kết
Có phương án sản xuất kinh doanh, dự án đầu tư, dịch vụ khả thi và có
hiệu quả.
16
Căn cứ xác định định mức cho vay
Nhu cầu vay vốn của khách hàng.
Mức vốn của khách hàng tham gia vào dự án, phương án kinh doanh, sản
xuất, dịch vụ, đời sống.
Tỷ lệ cho vay tối đa so với giá trị tài sản bảo đảm tiền vay theo quy định
về bảo đảm tiền vay của ngân hàng.
Khả năng hoàn trả nợ của khách hàng.
Khả năng nguồn vốn của mỗi ngân hàng và không được vượt quá định
mức cho vay được ủy quyền bởi tổng giám đốc Ngân hàng cho vay.
Đối tượng áp dụng
Ngân hàng cho vay các đối tượng sau:
Giá trị vật tư, máy móc, hàng hoá, thiết bị và các khoản chi phí để khách
hàng thực hiện các dự án sản xuất, kinh doanh dịch vụ...
Ngân hàng không cho vay các đối tượng sau:
Số tiền thuế phải nộp.
Số tiền để trả nợ gốc và lãi vay cho các tổ chức tín dụng khác.
Số tiền vay trả cho chính tổ chức tín dụng cho vay vốn.
Mô hình lượng hóa rủi ro tín dụng cho khách hàng cá nhân
Dưới đây là bảng tiêu chí cho mô hình chấm điểm tín dụng khách hàng cá nhân
của VietinBank.
Bảng 2: Chấm điểm tín dụng khách hàng cá nhân tại VietinBank
STT Các hạng mục xác định chất lượng tín dụng Điểm số
1 Nghề nghiệp của người vay
Chuyên gia hay phụ trách kinh doanh
Công nhân có kinh nghiệm (tay nghề cao)
Nhân viên văn phòng
Sinh viên
Công nhân không có kinh nghiệm
Công nhân bán thất nghiệp
10
8
7
5
4
2
2 Trạng thái nhà ở
17
STT Các hạng mục xác định chất lượng tín dụng Điểm số
Nhà riêng
Nhà thuê hay căn hộ
Sống cùng bạn hay người thân
6
4
2
3 Xếp hạng tín dụng
Tốt
Trung bình
Không có hồ sơ
Tồi
10
5
2
0
4 Kinh nghiệm nghề nghiệp
Nhiều hơn 1 năm 5
Từ 1 năm trở xuống
5
2
5 Thời gian cư trú tại điểm hiện tại
Nhiều hơn 1 năm
Từ 1 năm trở xuống
2
1
6 Điện thoại cố định
Có
Không
2
0
7 Số người sống phụ thuộc
Không
Một
Hai
Ba
Nhiều hơn ba
3
3
4
4
2
8 Các tài khoản tại ngân hàng
Tiết kiệm thẻ & Tài khoản tiết kiệm
Tài khoản tiết kiệm
Tiết kiệm thẻ
Không có
4
3
2
0
Khi cấp tín dụng cho khách hàng, ngân hàng thường căn cứ vào 3 chỉ tiêu là:
Nguồn trả nợ của khách
18
Tài sản thế chấp
Mục đích sử dụng vốn vay
Ba tiêu chí trên tác động chủ yếu đến điểm tín dụng của khách hàng. Căn cứ vào
kết quả điểm tín dụng, ngân hàng sẽ phân loại và cấp tín dụng cho khách
Tuy nhiên, ngay cả khi khách hàng trong trường hợp được đánh giá là loại tốt, 3
tiêu chí trên đều tốt, thì với việc ngân hàng cấp vốn vay, nguy cơ rủi ro là vẫn có
thể xảy ra.
Vì RRTD ảnh hưởng rất lớn đến sự phát triển của ngân hàng cũng như của nền
kinh tế nói chung nên việc dự đoán để phòng ngừa rủi ro đóng vai trò hết sức
quan trọng. Do đó, việc áp dụng các Kỹ thuật Khai phá dữ liệu cho bài toán
RRTD để tìm ra những nguồn tri thức mới, giúp cho các chuyên gia ngân hàng
đánh giá, phòng ngừa rủi ro là rất cần thiết.
2.2. Phát biểu bài toán
Hình 2.3.1: Phát biểu bài toán
Đầu vào:
Tập thông tin khách hàng và lịch sử trả nợ của các khách hàng bao gồm
o Tập huấn luyện (Training Set) nhằm mục đích xây dựng mô hình
o Tập kiểm thử (Testing Set) nhằm mục đích kiểm chứng mô hình
Tập thông tin khách hàng mới cần dự báo
Áp dụng mô hìnhDữ liệu trên
corebank
Dữ liệu
Huấn luyện
Dữ liệu
Kiểm thửKiểm thử mô hình Mô hình phân lớp
Xây dựng mô hình
Khách hàng
mới
Nợ Tốt Nợ Xấu
Dự đoán Phân loại nợ
19
Đầu ra:
Đưa ra mô hình phân lớp dự báo, các chỉ số đánh giá mô hình, các luật rút
ra từ mô hình giúp phân loại các khách hàng mới.
Ví dụ:
Đầu vào:
o Thông tin khách hàng về khách hàng vay vốn: Mục đích vay mua
nhà, có thu nhập trên 11 triệu, đang thuê nhà, làm tại công ty phần
mềm, chức vụ chuyên viên, thời gian đã công tác trong lĩnh vực
chuyên môn dưới 3 năm
Đầu ra:
o Dự báo khách hàng có khả năng rơi vào nhóm nợ cần chú ý (nhóm
2)
Mục tiêu của bài toán là xây dựng mô hình chứa các tập luật ràng buộc về dữ
liệu. Mô hình này sẽ là cơ sở tri thức, mà dựa vào đó có thể phân loại được
khách hàng mới dựa vao thông tin đầu vào của khách vay.
Việc dự báo chính xác sẽ giúp ngân hàng giảm thiểu các rủi ro có thể có từ các
khách hàng có khả năng không trả được nợ
2.3. Quy trình phân lớp xây dựng mô hình
Để có thể xây dựng được mô hình như yêu cầu bài toán ở mục 2.3 ta phải thực
hiện thứ tự theo các bước như sau [14]:
20
a. Xây dựng mô hình từ tập huấn luyện – Training data
Hình 2.4.1: Quy trình huấn luyện - training
Quá trình phân lớp thực hiện nhiệm vụ xây dựng mô hình các công cụ phân lớp
giúp cho việc gán nhãn phân loại cho các dữ liệu.
Example:
Nhãn “An toàn” hoặc “Rủi ro” cho các yêu cầu vay vốn; “Có” hoặc
“Không” cho các thông tin thị trường….
Các Nhãn dùng phân loại được biểu diễn bằng các giá trị rời rạc trong đó
việc sắp xếp trùng là không có ý nghĩa.
Phân lớp dữ liệu gồm hai quá trình.
Công cụ phân lớp sẽ được xây dựng để xem xét nguồn data. Đây là quá trình
học, qua đó một thuật toán phân lớp được xây dựng bằng cách phân tích từ
tập dữ liệu huấn luyện được xây dựng sẵn bao gồm nhiều bộ dữ liệu.
Một bộ dữ liệu X biểu diễn bằng một vector n chiều, X = (x1, x2, …, xn),
đây là các giá trị cụ thể của một tập n thuộc tính của nguồn dữ liệu {A1, A2,
…, An}. Mỗi bộ được giả sử rằng nó thuộc về một lớp được định nghĩa trước
với các nhãn xác định.
Classification algorithm
IF age=young THEN loan_decicion=risky
IF income=high THEN loan_decicion=safe
IF age=middle AND income=low THEN loan_decicion=risky
Chạy thuật toán
Xây dựng rules
Mô hình hóa
21
b. Đánh giá mô hình bằng tập kiểm kiểm thử - Data test
Hình 2.4.2: Quy trình test dữ liệu
c. Áp dụng mô hình để dự đoán dữ liệu mới
Hình 2.4.3: Quy trình áp dụng mô hình
2.4. Mô hình phân lớp dự báo rủi ro
Dựa trên quy trình phân lớp dữ liệu, ta có thể áp dụng mô hình sau vào bài toán
phân lớp rủi ro tín dụng
Tập huấn luyên
(Training Set)
Tập kiểm thử
(Testing Set)Khách hàng mới
Đánh giá
Kết quả
dự báo
Mô hìnhThuật toán
phân lớp
Áp dụng
Mô hình
Các thuật toán áp dụng:
Cây quyết định C45, J48
Naïve Bayes Classifier
Thuật toán Apriori khai phá luật kết hợp
Hình 2.5.1: Mô hình phân lớp dự báo rủi ro
Để xây dựng được mô hình phân lớp dữ liệu ta cần 2 yếu tố
Bộ dữ liệu đầu vào (Tập huấn luyện & Tập kiểm thử)
IF age=young THEN loan_decicion=risky
IF income=high THEN loan_decicion=safe
IF age=middle AND income=low
THEN loan_decicion=risky
New data
risky
(Jonh henry, middle, low)
Loan_decicion?
Model tree
22
Thuật toán phân lớp
2.5. Lựa chọn nghiên cứu thuật toán
Dựa vào Ưu nhược điểm của các thuật toán đã được trình bày sơ lược ở chương
I (Mục 1.6 – Các thuật toán phân lớp)
Dựa vào tính chất dữ liệu của bài toán rủi ro tín dụng: các thuộc tính dữ liệu có
dải giá trị không nhiều, và theo nghiệp vụ Ngân hàng thì giải giá trị rời rạc này
thường được gom nhóm thành một tập hữu hạn. Ví dụ:
Tuổi của khách vay thì từ 28 – 65, nhưng thực tế thì sẽ được chia thành 5
nhóm tuổi Tín dụng để quản lý
Nơi cư trú: khách vay thì ở rất nhiều địa chỉ khác nhau, nhưng thực tế sẽ
được gom nhóm thành 1 tập hữu hạn các khu vực như: Khu vực Hà Nội 1,
Khu vực Hà Nội 2, Khu vực nông thôn v.v….
Tiền vay thì cũng nhận rất đa dạng các giá trị khác nhau từ 18 triệu – đến
trên 18 tỷ. Nhưng cũng lại được gom thành các nhóm giá trị vay: dưới
200 triệu, từ 200-700, từ 700-1 tỷ….
Tác giả nhận thấy có thuật toán (Phân lớp sử dụng cây quyết định, và Phân lớp
sử dụng thuật toán Navie Bayes) phù hợp với dữ liệu của bài toán quản lý Rủi ro
tín dụng. Vậy nên, trong khuôn khổ luận văn tác giả chọn đi sâu nghiên cứu 2
thuật toán này.
Phân lớp Cây quyết định
2.5.1.1. Thuật toán cây quyết định
Cây quyết định là một cấu trúc cây giống như sơ đồ trong đó một nút bên trong
đại diện cho tính năng (hoặc thuộc tính), nhánh đại diện cho một quy tắc quyết
định và mỗi nút lá đại diện cho kết quả. Nút trên cùng trong cây quyết định được
gọi là nút gốc. Nó học cách phân vùng trên cơ sở giá trị thuộc tính. Nó phân
vùng cây theo cách đệ quy gọi phân vùng đệ quy. Cấu trúc giống như sơ đồ này
giúp bạn trong việc ra quyết định. Nó trực quan giống như một sơ đồ sơ đồ dễ
dàng bắt chước tư duy cấp độ của con người. Đó là lý do tại sao cây quyết định
dễ hiểu và giải thích [10].
23
Hình 2.6.1: Cây quyết định
Cây quyết định là một loại hộp trắng của thuật toán Machine Learning (ML). Nó
chia sẻ logic ra quyết định nội bộ, vốn không có sẵn trong loại thuật toán hộp
đen như Mạng thần kinh. Thời gian đào tạo của nó nhanh hơn so với thuật toán
mạng thần kinh. Độ phức tạp thời gian của cây quyết định là một hàm của số
lượng bản ghi và số lượng thuộc tính trong dữ liệu đã cho. Cây quyết định là
một phương pháp không phân phối hoặc không tham số, không phụ thuộc vào
các giả định phân phối xác suất. Cây quyết định có thể xử lý dữ liệu chiều cao
với độ chính xác tốt.
2.5.1.2. Hoạt động của thuật toán Cây quyết định
Ý tưởng cơ bản về hoạt động của thuật toán cây quyết định như sau:
1. Chọn thuộc tính tốt nhất bằng cách sử dụng các biện pháp lựa chọn thuộc
tính (ASM – attribute selection measure) để phân chia các bản ghi.
2. Biến thuộc tính đó thành nút quyết định và chia tập dữ liệu thành các tập con
nhỏ hơn.
3. Bắt đầu xây dựng cây bằng cách lặp lại quy trình này một cách đệ quy cho
mỗi Node con cho đến khi một trong những điều kiện sẽ khớp:
Tất cả các bộ dữ liệu thuộc về cùng một giá trị thuộc tính.
Không còn thuộc tính nào nữa.
Không có nhiều trường hợp nữa.
24
Data
Data
Training
Data Test
Lựa chọn thuộc tính
tốt nhất dựa vào chỉ số
Gain, Gini
Tách dữ liệu thành các
tập nhỏ hơn theo thuộc
tính cha
Model tri thức
Biểu diễn mô hình
1. accuracy – độ chính xác
2. precision - dự đoán
3. recall – độ hồi tưởng
Lặp lại xử lý với node con
Hình 2.6.2: luồng hoạt động của cây quyết định
2.5.1.3. Các biện pháp lựa chọn thuộc tính
Biện pháp lựa chọn thuộc tính là một heuristic để chọn tiêu chí phân tách dữ liệu
phân vùng thành cách tốt nhất có thể. Nó còn được gọi là quy tắc chia tách vì nó
giúp chúng ta xác định các điểm dừng cho các bộ dữ liệu trên một nút nhất
định. ASM (attribute selection measure) cung cấp thứ hạng cho từng tính năng
(hoặc thuộc tính) bằng cách giải thích tập dữ liệu đã cho. Thuộc tính điểm tốt
nhất sẽ được chọn làm thuộc tính chia ( Nguồn ). Trong trường hợp thuộc tính
có giá trị liên tục, các điểm phân chia cho các nhánh cũng cần xác định. Các
biện pháp lựa chọn phổ biến nhất là Thông tin đạt được, Tỷ lệ tăng và Chỉ số
Gini.
2.5.1.4. Thông tin đạt được
Shannon đã phát minh ra khái niệm entropy, đo lường sự không tinh khiết của
bộ đầu vào. Trong vật lý và toán học, entropy được gọi là tính ngẫu nhiên hoặc
tạp chất trong hệ thống. Trong lý thuyết thông tin, nó đề cập đến tạp chất trong
một nhóm các ví dụ. Thông tin đạt được là sự giảm entropy. Độ lợi thông tin
tính toán sự khác biệt giữa entropy trước khi tách và entropy trung bình sau khi
tách bộ dữ liệu dựa trên các giá trị thuộc tính đã cho. Thuật toán cây quyết định
ID3 (Iterative Dichotomiser) sử dụng thông tin thu được.
𝐼𝑛𝑓𝑜(𝐷) = − ∑ 𝑃𝑖 log2 𝑃𝑖𝑚
𝑖=1
Trong đó, Pi là xác suất mà một tuple tùy ý trong D thuộc về lớp Ci.
𝐼𝑛𝑓𝑜𝐴(𝐷) = ∑|𝐷𝑗|
|𝐷| 𝑋 𝐼𝑛𝑓𝑜(𝐷𝑗)
𝑉
𝑗=1
𝐺𝑎𝑖𝑛(𝐴) = 𝐼𝑛𝑓𝑜(𝐷) − 𝐼𝑛𝑓𝑜𝐴(𝐷)
25
Ở đây:
Thông tin (D) là lượng thông tin trung bình cần thiết để xác định nhãn lớp
của một tuple trong D.
| Dj | / | D | đóng vai trò là trọng lượng của phân vùng thứ j.
InfoA (D) là thông tin dự kiến cần có để phân lớp một tuple từ D dựa trên
phân vùng của A.
Thuộc tính A có mức tăng thông tin cao nhất, Gain (A), được chọn làm
thuộc tính tách tại nút N ().
2.5.1.5. Tỷ lệ tăng
Thông tin đạt được là thiên vị cho thuộc tính với nhiều kết quả. Nó có nghĩa là
nó thích thuộc tính với một số lượng lớn các giá trị riêng biệt. Chẳng hạn, hãy
xem xét một thuộc tính có số nhận dạng duy nhất, chẳng hạn như customer_ID
không có thông tin (D) vì phân vùng thuần túy. Điều này tối đa hóa việc đạt
được thông tin và tạo phân vùng vô dụng.
C4.5, một cải tiến của ID3, sử dụng một phần mở rộng để đạt được thông tin
được gọi là tỷ lệ khuếch đại. Tỷ lệ khuếch đại xử lý vấn đề sai lệch bằng cách
bình thường hóa mức tăng thông tin bằng cách sử dụng Thông tin phân
tách. Việc triển khai Java của thuật toán C4.5 được gọi là J48, có sẵn trong công
cụ Khai phá dữ liệu WEKA.
𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜𝐴(𝐷) = − ∑|𝐷𝑗|
|𝐷|
𝑣
𝑗=1
𝑋 log2 (|𝐷𝑗|
|𝐷|)
Ở đây,
| Dj | / | D | đóng vai trò là trọng lượng của phân vùng thứ j.
v là số lượng giá trị rời rạc trong thuộc tính A.
Tỷ lệ khuếch đại có thể được định nghĩa là
𝐺𝑎𝑖𝑛𝑅𝑎𝑡𝑖𝑜(𝐴) =𝐺𝑎𝑖𝑛(𝐴)
𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜𝐴(𝐷)
Thuộc tính có tỷ lệ khuếch đại cao nhất được chọn làm nút gốc.
2.5.1.6. chỉ số Gini
Một thuật toán cây quyết định khác sử dụng phương thức Gini để tạo các điểm
phân chia.
26
𝐺𝑖𝑛𝑖(𝐷) = 1 − ∑ 𝑃𝑖2𝑚
𝑖=1
Trong đó, pi là xác suất mà một tuple trong D thuộc về lớp Ci.
Chỉ số Gini xem xét phân chia nhị phân cho từng thuộc tính. Bạn có thể tính
tổng trọng số của tạp chất của từng phân vùng. Nếu phân chia nhị phân trên
thuộc tính A phân vùng dữ liệu D thành D1 và D2, chỉ số Gini của D là:
𝐺𝑖𝑛𝑖𝐴(𝐷) =|𝐷1|
|𝐷|𝐺𝑖𝑛𝑖(𝐷1) +
|𝐷2|
|𝐷|𝐺𝑖𝑛𝑖(𝐷2)
Trong trường hợp thuộc tính có giá trị rời rạc, tập hợp con cung cấp chỉ số gini
tối thiểu cho lựa chọn đó được chọn làm thuộc tính tách. Trong trường hợp
thuộc tính có giá trị liên tục, chiến lược là chọn từng cặp giá trị liền kề làm điểm
phân tách và điểm có thể có chỉ số gini nhỏ hơn được chọn làm điểm phân tách.
𝐺𝑖𝑛𝑖(𝐴) = 𝐺𝑖𝑛𝑖(𝐷) − 𝐺𝑖𝑛𝑖𝐴(𝐷)
Thuộc tính có chỉ số Gini tối thiểu được chọn làm thuộc tính tách.
Phân lớp Naive Bayes
2.5.2.1. Quy trình phân lớp
Bất cứ khi nào bạn thực hiện phân lớp, bước đầu tiên là hiểu vấn đề và xác định
các tính năng và nhãn tiềm năng. Các tính năng là những đặc điểm hoặc thuộc
tính ảnh hưởng đến kết quả của nhãn. Ví dụ: trong trường hợp phân phối cho
vay, quản lý ngân hàng xác định nghề nghiệp, thu nhập, tuổi tác, địa điểm, lịch
sử cho vay trước đây, lịch sử giao dịch và điểm tín dụng. Những đặc điểm này
được gọi là các tính năng giúp mô hình phân loại khách hàng.
Việc phân lớp có hai giai đoạn, giai đoạn học tập và giai đoạn đánh giá. Trong
giai đoạn học tập, trình phân loại đào tạo mô hình của nó trên một tập dữ liệu
nhất định và trong giai đoạn đánh giá, nó kiểm tra hiệu suất của trình phân
loại. Hiệu suất được đánh giá trên cơ sở các thông số khác nhau như độ chính
xác, lỗi, độ chính xác và thu hồi.
27
Data
Data
Training
Data
TestKiểm thử mô hình
Biểu diễn mô hình
1. accuracy – độ chính xác
2. precision - dự đoán
3. recall – độ hồi tưởng
Xây dựng mô hình
Hình 2.6.3: Quy trình phân lớp
2.5.2.2. Phân lớp Naive Bayes là gì?
Naive Bayes là một kỹ thuật phân loại thống kê dựa trên Định lý Bayes. Đây là
một trong những thuật toán học được giám sát đơn giản nhất. Phân lớp Naive
Bayes là thuật toán nhanh, chính xác và đáng tin cậy. Các bộ phân lớp Naive
Bayes có độ chính xác và tốc độ cao trên các bộ dữ liệu lớn.
Phân lớp Naive Bayes giả định rằng hiệu ứng của một tính năng cụ thể trong
một lớp là độc lập với các tính năng khác. Ví dụ, một người xin vay có mong
muốn hay không tùy thuộc vào thu nhập của anh ấy/cô ấy, lịch sử giao dịch và
khoản vay trước đó, tuổi và địa điểm. Ngay cả khi các tính năng này phụ thuộc
lẫn nhau, các tính năng này vẫn được xem xét độc lập. Giả định này đơn giản
hóa tính toán, và đó là lý do tại sao nó được coi là ngây thơ. Giả định này được
gọi là độc lập có điều kiện phân cấp.
𝑃(ℎ|𝐷) =𝑃(𝐷|ℎ)𝑃(ℎ)
𝑃(𝐷)
P (h): xác suất của giả thuyết h là đúng (bất kể dữ liệu). Điều này được gọi là
xác suất trước của h.
P (D): xác suất của dữ liệu (bất kể giả thuyết). Điều này được gọi là xác suất
trước.
P (h | D): xác suất của giả thuyết h đưa ra dữ liệu D. Điều này được gọi là xác
suất sau.
P (D | h): xác suất của dữ liệu d cho rằng giả thuyết h là đúng. Điều này được
gọi là xác suất sau.
28
2.5.2.3. Hoạt động của phân lớp Naive Bayes
Chúng ta hãy hiểu hoạt động của Naive Bayes qua một ví dụ. Cho một ví dụ về
điều kiện thời tiết và chơi thể thao. Bạn cần tính xác suất chơi thể thao. Bây giờ,
bạn cần phân loại xem người chơi sẽ chơi hay không, dựa trên điều kiện thời
tiết.
Phân lớp Naive Bayes tính toán xác suất của một sự kiện theo các bước sau:
Bước 1: Tính xác suất trước cho các nhãn lớp đã cho
Bước 2: Tìm xác suất khả năng với từng thuộc tính cho mỗi lớp
Bước 3: Đặt các giá trị này vào Công thức Bayes và tính xác suất sau.
Bước 4: Xem lớp nào có xác suất cao hơn, với đầu vào thuộc về lớp xác
suất cao hơn.
29
CHƯƠNG 3: THỰC NGHIỆM TRÊN DỮ LIỆU VIETINBANK
3.1. Khảo sát hoạt động tín dụng của hệ thống Vietinbank
Tổng quan hoạt động tín dụng của Vietinbank
Tổng dư nợ của VietinBank có sự tăng trưởng mạnh mẽ giai đoạn 2012 – 2017,
năm 2012 giá trị này mới ở mức 333,356 tỷ đồng, đến năm 2017 giá trị này đã
đạt mức 790,688 tỷ đồng, tăng gấp 2,3 lần năm 2012. Cụ thể, tình hình tăng
trưởng dư nợ của VietinBank như sau [5]:
Hình 3.1.1: Tổng dư nợ VietinBank từ 2013 – 2017
Có sự chuyển dịch trong cơ cấu tín dụng của VietinBank theo hướng giảm tỷ
trọng cho vay ngắn hạn và tăng dần tỷ trọng cho vay trung dài hạn, sự chuyển
dịch này cho thấy quy mô dư nợ của VietinBank đang phát triển theo hướng bền
vững và ổn định hơn.
62% 64% 64% 59% 56% 56%
10% 11% 10%11% 12% 10%
28% 25% 26% 29% 32% 34%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
2012 2013 2014 2015 2016 2017
Nợ dài hạn
Nợ trung hạn
Nợ ngắn hạn
30
Hình 3.1.2: Cơ cấu tín dụng VietinBank theo kỳ hạn từ 2012 - 2017
So sánh các chỉ tiêu tín dụng, huy động, lợi nhuận, tỷ lệ nợ xấu với các ngân
hàng Việt Nam (2017).
Hình 3.1.3: So sánh chỉ tiêu tín dụng, huy động, lợi nhuận, nợ xấu
Hình 3.1.4: Biểu đồ kiểm soát nợ xấu giai đoạn 2010 đến 2017
31
Nhìn chung hoạt động tín dụng của VietinBank từ 2012 đến 2017 cho thấy sự
phát triển nhanh và bền vững, kiểm soát nợ xấu được đánh giá tốt trong ngành
ngân hàng.
Các biện pháp quản trị nợ xấu đã được áp dụng tại VietinBank
3.1.2.1. Hệ thống xếp hạng tín dụng:
Đây là hệ thống xương sống trong hoạt động cấp tín dụng của VietinBank.
VietinBank là tổ chức tín dụng trong nước đầu tiên áp dụng hệ thống xếp hạng
tín dụng (XHTD) chuẩn mực vào hoạt động cho vay. Theo quy định của hệ
thống XHTD của VietinBank tất cả các khách hàng có quan hệ tín dụng với
VietinBank đều phải được XHTD, kết quả XHTD được sử dụng để quyết định
các nội dung tín dụng liên quan về tỷ lệ TSBĐ, chính sách giá, phí, phân loại nợ,
điều kiện tín dụng…. Hệ thống XHTD được xây dựng trên cơ sở phân tích định
tính và phân tích định lượng. Tất cả các thông số đều được lượng hóa qua số
điểm để ra kết quả xếp hạng tín dụng của khách hàng.
3.1.2.2. Công tác dự báo nợ có khả năng chuyển xấu:
VietinBank thường xuyên thực hiện đánh giá danh mục để dự báo nợ tiềm ẩn rủi
ro và nợ có khả năng chuyển thành nợ xấu để có giải pháp tín dụng phù hợp.
Việc dự báo nợ chuyển xấu của VietinBank đang được thực hiện tại 2 bộ phân
độc lập là bộ phận phê duyệt tín dụng thông qua việc rà soát hồ sơ phê duyệt và
bộ phận kiểm tra giám sát tuân thủ thông qua hoạt động kiểm tra các chi nhánh.
Việc dự báo nợ xấu được thực hiện chủ yếu theo phương pháp định tính theo ý
kiến chuyên gia. Kết quả dự báo nợ xấu được sử dụng để VietinBank xem xét
nâng hạ thẩm quyền phê duyệt của các chi nhánh, dự kiến quỹ dự phòng rủi ro
và định hướng phê duyệt tín dụng đối với khách hàng.
3.1.2.3. Những tồn tại, hạn chế
Mặc dù đạt được nhiều kết quả khả quan thể hiện cả về mặt tài chính cũng như
cấu trúc hệ thống nhưng công tác quản trị chất lượng tín dụng, quản trị nợ xấu
tại VietinBank vẫn còn nhiều tồn tại cần khắc phục:
VietinBank chưa có định hướng cụ thể trong việc lựa chọn khách hàng
mục tiêu nhằm giúp các bộ phận thẩm định rà soát phía sau tiết kiệm được
thời gian trong việc lọc khách hàng.
Trong công tác đánh giá rủi ro tín dụng trong cho vay. Cụ thể là, để đánh
giá mức độ rủi ro tín dụng trong các giao dịch cho vay, cán bộ ngân hàng
thường vẫn phải dựa vào kinh nghiệm bản thân hoặc tham vấn ý kiến
32
chuyên gia. Phương pháp truyền thống này có nhiều hạn chế do phụ thuộc
vào năng lực của từng cán bộ ngân hàng cũng như trình độ, tâm lý và các
yếu tố chủ quan khác của chuyên gia, cũng như thiếu những thông tin cần
thiết để chuyên gia phân tích. Vì thế, độ tin cậy cũng như tính chính xác
trong công tác đánh giá mức độ rủi ro tín dụng thường không cao. Điều
này không những tiềm ẩn nhiều rủi ro mà còn ảnh hưởng trực tiếp đến
hiệu quả hoạt động của ngân hàng.
VietinBank còn thiếu các công cụ hỗ trợ thẩm định như: trung tâm hỗ trợ
pháp lý, trung tâm định giá tài sản bảo đảm, Hệ thống tra cứu các văn bản
quy phạm pháp luật và nội bộ liên quan đến công tác thẩm định tín dụng,
hệ thống tra cứu các doanh nghiệp đang tồn tại những thông tin bất lợi từ
các kênh khác nhau.
VietinBank còn thiếu các sản phẩm cho vay chuyên biệt.
Công tác đánh giá nghiên cứu ngành và định hướng danh mục của
VietinBank chưa đủ độ chuyên sâu để hỗ trợ các cán bộ làm công tác tín
dụng, còn thiếu nhiều các thống kê mang tính chuyên ngành cũng như các
phân tích về rủi ro đặc trưng ngành.
Hệ thống xếp hạng tín dụng của VietinBank chỉ mới có chiều xếp hạng
khách hàng, chưa có chiều xếp hạng khoản cấp tín dụng
Công tác rà soát các chính sách trong hoạt động cấp tín dụng của
VietinBank còn chậm chưa theo kịp các thay đổi trong thực tế.
Công tác đào tạo nhân sự làm tín dụng của VietinBank có được chú trọng
nhưng chất lượng đào tạo vẫn chưa đảm bảo, vẫn chỉ tập trung đào tào về
mặt lý thuyết còn thiếu nhiều những khóa đào tạo có tính thực tiễn cao,
mang tính trao đổi chia sẻ về kinh nghiệm [3][4].
3.2. Mô tả bài toán áp dụng KPDL hỗ trợ quản lý rủi ro tín dụng
Ngân hàng cần xác định những khoản vay mới, trong tương lai sẽ là nợ Tốt
hay nợ Xấu
Kết quả sau khi phân tích sẽ là một mô hình mà từ đó có thể dự đoán được
khoản vay nào sẽ nằm trong nhóm nợ Xấu (nhóm 3, 4, 5) hay nhóm nợ Tốt
(nhóm 1, 2)
Mô hình này ngoài việc dự đoán khoản vay sẽ nằm trong nhóm nào, còn có
thể được sử dụng như một công cụ để tra các thuộc tính có thay đổi liên quan
33
đến khoản vay (lãi suất, lãi phạt trả chậm, thu nhập cố định của khách vay bị
thay đổi…)
Thu thập dữ liệu cho vay của hệ thống Vietinbank.
Để giới hạn pham vi bài toán & trong khuôn khổ luận văn tập trung vào cho
vay khách hàng cá nhân tác giả chỉ tập trung vào cho vay khách hàng cá nhân
3.3. Mô hình dữ liệu tại Core Vietinbank
Vietinbank Data System architechture
Data warehouse Terminal data Terminal appCore Bank Synchronize area
CIF
LOAN
DEPOSIT
PAYMENT
TF
EPS/IBPS
Profile
report
Staging MISATM
POS
IB
Reconcile
Report
KPI
Datamining
Branch
HO
Regional
Partner
Hình 3.3.1: Mô hình datawarehouse của Vietinbank
Các phân hệ dữ liệu trên hệ thống Core của Vietinbank cần cho bài toán phân
tích rủi ro tín dụng gồm:
Kế toán tổng hợp – giao dịch GL
Phân hệ tiền gửi – deposit
Phân hệ tiền vay – Loan
Phân hệ chuyển tiền – fund transfer
Phân hệ tài trợ thương mại – TF (trace finance)
Module CIF – Module quản lý thông tin hồ sơ khách hàng
34
3.4. Môi trường
Hệ thống khảo sát dịch vụ
LOAN Module
CIF Module SQL Server
Data warehouse
file arff
Survey360 portal
WEKA API
Hình 3.4.1: Môi trường thực nghiệm
3.5. Thu thập dữ liệu
Nguồn dữ liệu sẽ được lấy từ 2 Module là: Loan (Module cho vay) & CIF
(Module quản lý thông tin khách hàng)
CIF Module
SQL Server
LOAN Module
Loan_trans
Loan_Limit
Loan_Col
Loan_Dict
KHACH_HANG
HOP_DONG_VAY
Loan_Info
CIF_Info
CIF_Acct
CIF_Service
HAN_MUC
Pull_Service
SOA API
Hình 3.5.1: Mô hình thu thập dữ liệu
Module Loan:
Loan_Trans: bảng giao dịch thanh toán Loan, trả nợ theo kỳ
35
Loan_Limit: Định mức được vay
Loan_Col: Tài sản đảm bảo
Loan_Dict: Bảng tham chiếu giá trị tài sản
Loan_Info: Thông tin chi tiết khoản vay
Module CIF:
CIF_Info: Thông tin khách hàng (họ tên, nơi ở, khu vực…)
CIF_Acct: Thông tin tài khoản (ATM, VISA, E-Parter, Credit, debit…)
CIF_Service: Thông tin dịch vụ liên quan đến tài khoản (Thanh toán trực
tuyến, biến động số dư, thanh toán viện phí, thu hộ tự động…)
Dữ liệu được chiết xuất từ hệ thống ngân hàng sẽ tập trung vào các phạm vi:
Tập trung vào khách hàng cá nhân.
Thu thập các khoản vay có cả nhóm nợ tốt và xấu.
Thu thập các loại khoản vay về đầu tư bất động sản, mua ô tô, kinh doanh
hộ cá thể, và tiêu dùng cá nhân đây là các loại vay thường xuyên được
khách hàng lựa chọn.
3.6. Biến đổi dữ liệu, tính toán sinh ra các bảng
Bảng khách hàng
Tên trường Loại dữ liệu Mô tả
MA_KHACH_HANG Kiểu ký tự Số định đanh trên Corebanking
của khách hàng (CIF NO).
HO_TEN Kiểu ký tự Họ tên khách hàng
NGHE_NGHIEP Kiểu ký tự Nghề nghiệp của khách hàng
XEP_LOAI_KHACH_HANG Kiểu ký tự Xếp loại khách hàng (Tốt, Trung
Binh, Xấu). Trong luận văn này
lấy tất cả khách hàng đều có được
ngân hàng xếp loại Tốt.
GIOI_TINH Kiểu ký tự Giới tính (Nam, Nữ)
TUOI Kiểu số Tuổi
THU_NHAP_ON_DINH Kiểu ký tự Thu nhập có ổn định không
(Có, không). Trong luận văn
lấy tất cả khách hàng đều có thu
36
nhập ổn định.
TT_HON_NHAN Kiểu ký tự Tình trạng hôn nhân (Đã kết
hôn, chưa kết hôn)
CON_CAI Kiểu số Số con (1,2,3 ..)
CU_TRU Kiểu ký tự Tình trạng cư trú (Khu vực
Trung tâm thành phố, KV1
thành phố, nông thôn …)
Bảng hợp đồng vay: Bảng tổng hợp bản ghi hợp đồng vay, bảng này chứa hầu
hết các thông tin hợp đồng cho vay
Tên trường Loại dữ liệu Mô tả
MA_KHACH_HANG Kiểu ký tự Số định đanh trên
Corebanking của khách
hàng.
SO_HOP_DONG_VAY Kiểu ký tự Số hợp đồng cho vay
SO_TIEN_VAY Kiểu số Số tiền vay
MUC_DICH_VAY Kiểu ký tự Mục đích vay
GT_DAM_BAO
Kiểu ký tự Giá trị đảm bảo khoản
vay (VD: Bất động sản,
tín chấp bằng lương …)
CHI_SO_NHOM_NO
Kiểu ký tự Nhóm nợ của khoản vay
Tốt (nhóm 1,2), Xấu
(nhóm 3,4,5..).
Bảng định mức hợp đồng vay: Bảng này quản lý chi tiết định mức cấp khoản
vay căn cứ vào thu nhập, thời gian vay của hợp đồng vay.
Tên trường Loại dữ liệu Mô tả
MA_KHACH_HANG Kiểu ký tự Số định đanh trên Corebanking
của khách hàng.
SO_HOP_DONG_VAY Kiểu ký tự Số hợp đồng cho vay
DINH_MUC_DUOC_VAY Kiểu số Định mức được vay
37
3.7. Làm sạch dữ liệu
Xử lý outliers
Loại bỏ những khoản vay kỳ hạn dưới 1 năm
Loại bỏ những giao dịch liên quan đến thế chấp thương mại, bảo lãnh hải
quan
Loại bỏ các trường hợp cho vay ưu đãi với cán bộ nhân viên Ngân hàng
Xử lý sai logic dữ liệu
Xử lý null value & missing value
Giảm bớt dữ liệu
Giảm bớt về biểu diễn các thuộc tính của dữ liệu, giảm bớt kích thước dữ liệu
nhưng vẫn đảm bảo thu được các kết quả khai phá dữ liệu tương đương
Gom nhóm dữ liệu là một trong những cách phổ biến để giảm kích thước dữ
liệu:
Gom thông tin địa chỉ theo các khu vực
Gom các hình thức nghề nghiệp
Gom nhóm tuổi
Gom nhóm định mức các khoản vay
3.8. Lựa chọn dữ liệu
Hình 3.8.1: Lựa chọn dữ liệu
Tiến hành chuyển đổi dữ liệu các trường dữ liệu được trong các bảng dữ liệu
trên thành tập hợp dữ liệu như danh sách bên dưới như sau.
38
Bảng danh sách các trường dữ liệu dùng để thực nghiệm
Tên trường Loại dữ liệu Mô tả
XEP_LOAI_KHACH_HANG Kiểu ký tự Xếp loại khách hàng (Tốt, Trung
Bình, Xấu)
THU_NHAP_ON_DINH Kiểu ký tự Thu nhập có ổn định không (Có, không)
TT_HON_NHAN Kiểu ký tự Tình trạng hôn nhân (Đã kết hôn,
chưa kết hôn)
CU_TRU Kiểu ký tự Tình trạng cư trú (Khu vực Trung
tâm thành phố, KV1 thành phố,
nông thôn …)
TUOI Kiểu số Tuổi
NGHE_NGHIEP Kiểu ký tự Nghề nghiệp của khách hàng
DINH_MUC_DUOC_VAY Kiểu số Định mức được vay
MUC_DICH_VAY Kiểu ký tự Mục đích vay
GT_DAM_BAO Kiểu ký tự Giá trị đảm bảo khoản vay (VD: Bất
động sản, tín chấp bằng lương …)
CHI_SO_NHOM_NO Kiểu ký tự Nhóm nợ của khoản vay Tốt (nhóm
1,2), Xấu (nhóm 3,4,5..).
3.9. Tìm hiểu dữ liệu
Tìm hiểu chung về từng trường dữ liệu như: phân bố, các thống kê như min,
max, range, median, mode, chất lượng dữ liệu như null, missing value, empty
value, outliers, v.v. và quay lại bước trước nếu cần thiết.
Biểu diễn mối liên quan giữa các Field thuộc tính với thông tin Chi_So_No
(thông tin phân loại nhóm nợ Tốt/Xấu)
39
: Nợ xấu
: Nợ Tốt
Hình 3.9.1: Biểu diễn dữ liệu
3.10. Lựa chọn thuật toán
Trong khuôn khổ luận văn, cũng như các thuộc tính dữ liệu của rủi ro tín dụng
thường là rời rạc và có thể tập hợp vào danh sách các nhóm miền giá trị nhất
định.
Do đó tác giả lựa chọn đi sâu nghiên cứu 3 thuật toán để áp dụng là:
C4.5 – cây quyết định
Apriori – luật kết hợp
Naïve Bayes – tính xác suất điều kiện của các thông tin đầu vào
Các thuật toán này dùng để phân lớp dữ liệu & có ưu điểm dễ mô hình hóa, tính
trực quan cao, phù hợp với dữ liệu có dải giá trị nhỏ
3.11. Lựa chọn công cụ
Trong khuôn khổ luận văn, tác giả chọn công cụ Weka - Waikato Environment
for Knowledge Analysis
Weka là một bộ phần mềm học máy được phát triển tại Đại học Waikato, New
Zealand. Chương trình được viết bằng Java. Nó chứa một bộ sưu tập các công
cụ trực quan và các thuật toán để phân tích dữ liệu và mô hình tiên đoán kết hợp
với giao diện người dùng đồ họa. Weka hỗ trợ một số nhiệm vụ Khai phá dữ liệu
40
tiêu chuẩn, cụ thể hơn, xử lý trước dữ liệu, phân cụm, phân loại, hồi quy, trực
quan hóa và lựa chọn tính năng.
Ngoài ra Weka còn cung cấp giao tiếp API cho phép tích hợp bộ công cụ vào
ứng dụng của doanh nghiệp. Và trong luận văn này, tác giả đã thực hiện tích hợp
Weka API vào hệ thống Khảo sát tín dụng Survey360 của Ngân hàng
Vietinbank
3.12. Xây dựng mô hình phân lớp
Lựa chọn dữ liệu & thuộc tính
Loại bỏ thuộc tính không dùng để phân tích: ở đây ta loại bỏ thuộc tính
MA_KH, HO_TEN
Hình 3.12.1: Loại bỏ các thuộc tính không sử dụng
Thuộc tính DINH_MUC_DUOC_VAY
Là kiểu số, có giá trị nhỏ nhất và lớn nhất lần lượt là: 25,000,000 và
1,835,200,000
41
Ngoài ra thuộc tính này có nhiều giá trị khác nhau vì vậy sẽ chuyển giá trị
của thuộc tính từ kiểu số sang kiểu rời rạc.
Chia miền giá trị của Field này thành 10 khoảng giá trị, dựa vào tần suất
xuất hiện trong dữ liệu. Kết quả 10 khoảng giá trị thuộc tính như sau:
Hình 3.12.2: Đặt khoảng cho thuộc tính định mức được vay
Hình 3.12.3: Đặt khoảng cho thuộc tính định mức được vay
42
Thuộc tính TUOI
Là kiểu số, có các giá trị 28-65
Ta chọn cách chuyển giá trị số của thuộc tính này thành các 05 khoảng giá trị
như bảng dưới.
Hình 3.12.4: Đặt khoảng cho thuộc tính Tuổi
Mô hình Cây quyết định J48
3.12.2.1. Xây dựng cây
Xây dựng cây bắt đầu từ nút gốc, tất cả các dữ liệu học ở nút gốc, việc chọn một
nút gốc xuất phát phân hoạch dữ liệu một cách đệ quy là phải có đánh giá.
Đánh giá nút gốc dựa vào độ lợi thông tin sử dụng entropy của Shannon (C4.5 -
Quinlan), hoặc chỉ số gini (CART-Breiman).
Weka cung cấp công cụ GainRatioAttributeEval để tính độ lợi thông tin
(Information Gian)
43
Thực hiện tính độ lợi thông tin trên Weka - GainRatioAttributeEval
Hình 3.12.5: Chọn công cụ chạy bảng độ lợi thông tin trên Weka
Hình 3.12.6: Bảng độ lợi thông tin trên Weka
Theo Hình 28 (bảng độ lợi thông tin trên Weka), nhận thấy nếu phân tích khoản
vay từ thuộc tính CHI_SO_NHOM_NO sẽ có bảng độ lợi thông tin bên dưới để
44
cắt tỉa tạo gốc, cành, lá dựa vào giá trị cột Gain Ratio (độ lợi thông tin) từ cao
xuống thấp như sau:
Bảng 1: Bảng độ lợi thông tin
Gain Ratio Thuộc Tính
1 0.0149 1. NGHE_NGHIEP
2 0.01335 2. VI_TRI_CONG_TAC
3 0.00721 3. DINH_MUC_DUOC_VAY
4 0.00368 4. GT_DAM_BAO
5 0.00282 5. MUC_DICH_VAY
6 0.00219 6. TUOI
7 0.00203 7. THOI_HAN_KHOAN_VAY
8 0.00194 8. T_THAI_CU_TRU
9 0.00122 9. TT_HON_NHAN
10 0 10. XEP_LOAI_KHACH_HANG
11 0 11. THU_NHAP_CO_DINH
Hình 3.12.7: Biểu đồ Gain – độ lợi thông tin
0.0149
0.01335
0.00721
0.003680.00282
0.00219 0.00203 0.001940.00122
0 00 0 0 0 0 0 0 0 0 0 00
0.002
0.004
0.006
0.008
0.01
0.012
0.014
0.016
1 2 3 4 5 6 7 8 9 10 11
Gain Ratio Thuộc Tính
45
Chỉ số Gain được tính dựa trên thuật toán sau:
a. Tính Entropy dữ liệu phân lớp
H(S) = − ∑ P(c) log2 P(c)
c ∈ C
C={Tốt, Xấu}, Tốt: 23526 bản ghi, Xấu: 6158 bản ghi
P(c) – tỷ số thuộc tính theo từng phân lớp trên tổng số bản ghi
Áp dụng công thức
H(S) = −23526
29684∗ log2
23526
29684−
6158
29684∗ log2
6158
29684= 0.73658
b. Tính information Gain & Entropy cho các thuộc tính đặc trưng
Tính Entropy chi tiết cho Dữ liệu đặc trưng
Thuộc tính Mariage {DaKetHon, ChuaKetHon= 8160}
DaKetHon= 21524(Tot: 17264, Xau: 4260)
ChuaKetHon= 8160(Tot: 6262, Xau: 1898)
H(S, Mariage) = {E(DaKetHon) = −
17264
21524∗ log2
17264
21524 −
4260
21524∗ log2
4260
21524= 0.71774
E(ChuaKetHon) = −6262
8160∗ log2
6262
8160 −
1898
8160∗ log2
1898
8160= 0.78251
Tính trung bình Entropy cho thuộc tính Mariage (Tình trạng kết hôn)
I(A) = H(T) = ∑ P(t) ∗ H(t)
t ∈T
I(Mariage) =21524
29684∗ 0.71774 +
8160
29684∗ 0.78251 = 0.73554
c. Tính chỉ số Gain
Gain(A) = H(S) – I(A)
Gain(Mariage) = 0.73658 – 0.73536 = 0.00122
d. Lặp lại bước b & c để thực hiện tính hết chỉ số Gain cho tất cả các thuộc
tính đặc trưng
46
3.12.2.2. Tham số thuật toán J48 trên Weka
Hình 3.12.8: Hướng dẫn vào màn hình tham số J48 trên Weka
Bảng ý nghĩa các tham số của J48 trên Weka 3.8.0
Tham số Mô tả
binarySplits Có sử dụng phân tích nhị phân ở trong các thuộc tính
nominal khi xây dựng cây hay không?
reducedErrorPruning Có xem tỉa giảm bớt lỗi được sử dụng thay thế xén tỉa C4.5
Debug Nếu thiết lập là true, sự phân lớp có thể xảy ra các thông tin
bổ sung tới màn hình console
minNumObj Số lượng nhỏ nhất các thể hiện trên mỗi nút lá
numFolds Xác định rõ lượng dữ liệu sử dụng cho việc giảm bớt lỗi
xén tỉa. Mỗi fold được sử dụng cho việc xén tỉa, phần còn
lại sử dụng cho việc phát triển cây
confidenceFactor Mức tin tưởng để quyết định xem có xén tỉa hay không?
Với dữ liệu đầu vào cho thực nghiệm sẽ chấp nhận các giá trị mặc định bên trên,
ngoại trừ thuộc tính saveInstanceData sẽ đổi thành true (cho phép tìm thấy được từng
mẫu sẽ được phân loại sau khi xây dựng cây xong).
3.12.2.3. Tham số dữ liệu training
Hình 3.12.9: Hướng dẫn cấu hình tham số xuất dữ liệu trên Weka
47
Thuộc tính Percentage split:
Tỷ lệ phân chia cho biết số mẫu được chọn cho tập huấn luyện (training set) và
số mẫu được chọn cho tập kiểm tra (test set).
Ví dụ: Percentage split = 66% nghĩa là 66% mẫu dùng tập huấn luyện và 34%
mẫu dùng kiểm tra.
3.12.2.4. Thực nghiệm dữ liệu với J48 trên Weka.
Dữ liệu thực nghiệm chia thành 2 phần, huấn luyện và kiểm thử. Tiến hành dùng
dữ liệu huấn luyện để tạo mẫu, dùng dữ liệu kiểm thử để dự đoán rồi xác định
kết quả Tốt, Xấu.
Thực nghiệm sẽ tiến hành 05 lần với các tỷ lệ như sau:
L1 : Sử dụng J48 cắt tỉa trên tập dữ liệu với tỷ lệ huấn luyện 55%
L2 : Sử dụng J48 cắt tỉa trên tập dữ liệu với tỷ lệ huấn luyện 66% (giá trị mặc
định của Weka)
L3 : Sử dụng J48 cắt tỉa trên tập dữ liệu với tỷ lệ huấn luyện 70%
L4 : Sử dụng J48 cắt tỉa trên tập dữ liệu tỷ lệ huấn luyện 85%
L5 : Sử dụng J48 cắt tỉa trên tập dữ liệu tỷ lệ huấn luyện 90%
Kết quả các lần chạy ta có bảng sau:
Bảng 2: Thống kê các lần chạy thực nghiệm với J48 trên Weka
Lần
chạy
Tỷ lệ huấn
luyện/kiểm
thử
Tổng
số bản
ghi
Tổng số
lớp
Số mẫu
phân lớp
đúng
Số mẫu
Phân
lớp sai
Tỷ lệ phân
lớp đúng
Tỷ lệ phân
lớp sai
1 55/45 29684 13358 10954 2404 82.0033 % 17.9967 %
2 66/34 29684 10093 8273 1820 81.9677 % 18.0323 %
3 70/30 29684 8905 7293 1612 81.8978 % 18.1022 %
4 85/15 29684 4453 3644 809 81.8325 % 18.1675 %
5 90/10 29684 2968 2417 551 81.4353 % 18.5647 %
48
Biểu đồ thực nghiệm theo Số phân lớp/Phân lớp đúng/Phân lớp sai:
Hình 3.12.10: Biểu đồ phân lớp J48
3.12.2.5. Đánh giá các lần chạy thực nghiệm với thuật toán J48
Hình 3.12.11: Biểu đồ xác suất J48
13358
10093
8905
4453
2968
10954
8273
7293
3644
241724041820 1612 809 551
0
2000
4000
6000
8000
10000
12000
14000
16000
55/45 66/34 70/30 85/15 90/10
Tổng số lớp Số mẫu phân lớp đúng Số mẫu Phân lớp sai
81.10%81.20%81.30%81.40%81.50%81.60%
81.70%
81.80%
81.90%
82.00%
82.10%
55/4566/34
70/3085/15
90/10
82.00%81.97%
81.90%
81.83%
81.44%
Tỷ lệ phân lớp đúng
49
Từ các lần chạy thực nghiệm đã thực hiện, lần chạy L1 đạt hiệu quả phân lớp
82.0000 % cao nhất trong 5 lần thử. Như vậy lần chạy L2 với tỷ lệ huấn luyện
55% là lựa chọn phù hợp nhất.
Phân lớp Naive Bayes
Phân lớp Naive Bayes (Naive Bayes Classification) là một thuật toán dựa trên lý
thuyết về xác suất để đưa ra các phán đoán cũng như phân loại dữ liệu dựa trên
các dữ liệu được quan sát và thống kê.
Thuật toán Naive Bayes được ứng dụng rất nhiều trong các lĩnh vực Machine
Learning, và dùng để đưa các dự đoán chính xác nhất dự trên một tập dữ liệu đã
được thu thập, bởi vì thuật toán này khá dễ hiểu và độ chính xác cao.
Naive Bayes thuộc vào nhóm Supervised Machine Learning Algorithms (học có
giám sát), tức là máy học từ các ví dụ từ các mẫu dữ liệu đã có.
3.12.3.1. Cấu hình tham số thuật toán Naive Bayes
Hình 3.12.12: Cấu hình tham số thuật toán Naive Bayes
50
Tiến hành chạy thuật toán
Hình 3.12.13: Kết quả chạy thuật toán Naive Bayes trên Weka
Thuật toán được chạy 5 lần với tỷ lệ tham số như sau:
L1 : Sử dụng phân lớp Naive Bayes trên tập dữ liệu với tỷ lệ huấn luyện 55%
L2 : Sử dụng phân lớp Naive Bayes trên tập dữ liệu với tỷ lệ huấn luyện 66%
L3 : Sử dụng phân lớp Naive Bayes trên tập dữ liệu với tỷ lệ huấn luyện 70%
L4 : Sử dụng phân lớp Naive Bayes trên tập dữ liệu tỷ lệ huấn luyện 85%
L5 : Sử dụng phân lớp Naive Bayes trên tập dữ liệu tỷ lệ huấn luyện 90%
51
Kết quả các lần chạy:
Lần
chạy
Tỷ lệ huấn
luyện/kiểm
thử
Tổng số
bản ghi
Tổng số
lớp
Số mẫu
phân lớp
đúng
Số mẫu
Phân lớp
sai
Tỷ lệ
phân lớp
đúng
Tỷ lệ phân
lớp sai
1 55/45 29684 13358 9875 3483 73.9257 % 26.0743 %
2 66/34 29684 11874 8781 3093 73.9515 % 26.0485 %
3 70/30 29684 8905 6583 2322 73.9248 % 26.0752 %
4 85/15 29684 4453 3293 1160 73.9501 % 26.0499 %
5 90/10 29684 2968 2181 787 73.4838 % 26.5162 %
Bảng 3: Thống kê các lần chạy thực nghiệm phân lớp Naive Bayes trên Weka
Biểu đồ kết quả các lần chạy theo Tổng số phân lớp/Phân lớp đúng/Phân lớp sai
Hình 3.12.14: Biểu đồ phân lớp Naïve Bayes
13358
11874
8905
4453
2968
9875
8781
6583
3293
2181
34833093
2322
1160787
0
2000
4000
6000
8000
10000
12000
14000
16000
55/45 66/34 70/30 85/15 90/10
Tổng số lớp Số mẫu phân lớp đúng Số mẫu Phân lớp sai
52
3.12.3.2. Đánh giá các lần chạy thực nghiệm thuật toán Naive Bayes
Hình 3.12.15: Biểu đồ tỷ lệ chính xác Navie Bayes
Từ các lần chạy thực nghiệm đã thực hiện, ta thấy lần chạy L2 đạt hiệu quả cao
nhất với tỷ lệ phân lớp đúng 73,95 %. Như vậy chạy thực nghiệm dữ liệu với tỷ
lệ huấn luyện 66% của Naive Bayes là lựa chọn phù hợp nhất.
3.13. Đánh giá mô hình.
So sánh kết quả các lần chạy giữa 2 thuật toán
Hình 3.13.1: Biểu đồ so sánh tỷ lệ phân lớp đúng J48 & Navie bayes
73.20%
73.30%
73.40%
73.50%
73.60%
73.70%
73.80%
73.90%
74.00%
55/4566/34
70/3085/15
90/10
73.93% 73.95%73.92% 73.95%
73.48%
Tỷ lệ phân lớp đúng
82.00% 81.97% 81.90% 81.83% 81.44%
73.93% 73.95% 73.92% 73.95%73.48%
68.00%
70.00%
72.00%
74.00%
76.00%
78.00%
80.00%
82.00%
84.00%
55/45 66/34 70/30 85/15 90/10
Biểu đồ so sánh tỷ lệ phân lớp đúng J48 & Navie bayes
J48 Navie
53
Tất cả các thí nghiệm được tiến hành với cùng một bộ dữ liệu, từ các lần chạy
thực nghiệm của J48 và Naive Bayes trên Weka ta đã chọn được tỷ lệ hợp lý
nhất cho 2 thuật toán:
+ J48 lựa chọn tỷ lệ huấn luyện 82%.
+ Naive Bayes chọn tỷ lệ huấn luyện 73,95%.
Từ các lần chạy thử, nhận thấy tỉ lệ thực hiện của J48 luôn cao hơn Naive Bayes,
thuật toán J48 có hiệu quả phân lớp đúng đạt 82,00 %, lớp sai 18,00 % Trong
khi Naive Bayes lớp đúng đạt 73,95 %, sai bằng 26,15 %. Như vậy thuật toán
J48 là lựa chọn phù hợp nhất & tỷ lệ dữ liệu tập huấn phù hợp nhất là 55%.
Đánh giá lần chạy J48 đạt tỷ lệ phân lớp đúng cao nhất
Lần chạy đạt tỷ lệ phân lớp đúng cao nhất:
Giải thuật: J48
Tỷ lệ dữ liệu huấn luyện: 55%
Mô hình cây quyết định được xây dựng:
Cây quyết định kích cỡ: 63
Số lượng lá: 57
Bảng thông số kết quả chạy thuật toán:
Hình 3.13.2: kết quả lần chạy phù hợp nhất J48
Ý nghĩa các giá trị quan trọng:
TPrate (tỷ lệ mẫu tích cực - Positive): Cao.
54
TP=TP/(TP+FN)
Example:
TP(a)=291/(291+ 1820)=0.138
FPrate (tỷ lệ mẫu tích cực sai): Thấp.
FP=FP/(FP + TN)
Example:
FP(a)=0/(0+7982)=0
FP(b)=1820/(1820 + 291)=0.862
Precision (Giá trị dự đoán mẫu tích cực đúng): Cao.
Precision= TP / (TP + FP)
Recall (Giá trị biểu diễn tỷ lệ mẫu cần thực hiện lại): Cao.
F- measure: Biểu diễn trung bình điều hòa giữa recall và precision
F-measure = 2TP / (2TP + FP + FN)
Confusion Matrix - Ma trận sự nhầm lẫn:
Dây là một ma trận vuông với kích thước mỗi chiều bằng số lượng lớp dữ
liệu (Giá trị tại hàng thứ 2, cột thứ a là số lượng điểm lẽ ra thuộc vào
lớp a nhưng lại được dự đoán là thuộc vào lớp b). Nhìn vào bảng ma trận
trên, ta có thể thấy được dữ liệu thu thập dòng b (Xấu) cột a (Tốt) có 04 lớp
có khả nghi xếp nhầm.
Đánh giá lần chạy Navie đạt tỷ lệ dữ liệu tập huấn 55%
Lần chạy đạt tỷ lệ phân lớp đúng cao nhất:
Giải thuật: Navie bayes
Tỷ lệ dữ liệu huấn luyện: 55%
55
Bảng thông số kết quả chạy thuật toán
Hình 3.13.3: kết quả lần chạy phù hợp nhất Navie Bayes
3.14. Triển khai tích hợp hệ thống Khai phá dữ liệu
Weka ngoài cung cấp ứng dụng chạy độc lập, còn cung cấp cả API để các doanh
nghiệp có thể tích hợp vào ứng dụng của mình.
Trong luận văn này, tác giả thực nghiệm tích hợp Weka API vào hệ thống
Portal: “Khảo sát tín dụng 360o” của Ngân hàng Vietinbank
Màn hình chức năng
Hình 3.14.1: Màn hình login 3600
56
Màn hình giao diện
Hình 3.14.2: Màn hình giao diện
Màn hình kết quả chạy với J48
Hình 3.14.3: Màn hình kết quả
57
CHƯƠNG 4: KẾT LUẬN
4.1. Các kết quả đã đạt được
Với ý tưởng nghiên cứu ứng dụng khai phá dữ liệu trong việc cải tiến quy trình
quản lý rủi ro tín dụng, đề tài “KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU
NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG” đã đạt được
những mục tiêu sau:
Luận văn đã trình bày những kiến thức tổng quan về đánh giá rủi ro tín dụng tại
ngân hàng VietinBank. Làm rõ tầm quan trọng của việc không ngừng nâng cao
ứng dụng công nghệ trong công tác đánh giá rủi ro tín dụng nhằm tăng tính ổn
định cũng như hiệu quả hoạt động của VietinBank.
Đề tài đã làm rõ thực trạng trong công tác đánh giá rủi ro tín dụng khách hàng cá
nhân tại ngân hàng VietinBank, qua đó thấy được những điểm còn hạn chế và đề
xuất các giải pháp phù hợp.
Đề tài đã hệ thống hóa cơ sở lý thuyết về khai phá dữ liệu cũng như phân tích và
tổng hợp các nghiên cứu liên quan nhằm lựa chọn ra kỹ thuật và quy trình khai
phá dữ liệu phù hợp áp dụng cho đề tài.
Bên cạnh đó đã bước đầu xây dựng module “Khai phá dữ liệu” tích hợp vào hệ
thống Khảo sát tín dụng 3600 của Ngân hàng Vietinbank.
4.2. Mục tiêu tương lai
Với rất nhiều ứng dụng thực tế của khai phá dữ liệu trong ngành tài chính ngân
hàng, đặc biệt trong phân tích dự báo rủi ro tín dụng. Với thời gian có hạn luận
văn mới chỉ nghiên cứu và thực nghiệm trên 2 thuật toán, vì vậy yêu cầu với bài
toán trong tương lai là áp dụng các thuật toán khác như hồi quy dự báo, áp dụng
mạng noron xây dựng các mô hình dự báo…
Với sự ứng dụng rộng rãi của khai phá dữ liệu trong ngành tài chính ngân hàng
như đã trình bày thì còn rất nhiều bài toán có thể tìm hiểu và nghiên cứu thêm
trong tương lai như: Bài toán bán chéo sản phẩm tín dụng, rủi ro giao dịch ngân
hàng điện tử, mua bán nợ, dự đoán xu hướng giao dịch chứng khoán phái sinh
kết nối qua ngân hàng v.v...
58
TÀI LIỆU THAM KHẢO
[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu
Trang, Nguyễn Cẩm Tú, Khai phá dữ liệu Web, Nhà xuất bản Giáo dục, 2009
[2] PGS.TS Hà Quang Thụy, Bài giảng Khai phá dữ liệu, Đại học Công Nghệ-Đại Học
Quốc gia Hà Nội
[3] Tài liệu lưu hành nội bộ, 2016 - Sổ tay nghiệp vụ rủi ro của VietinBank.
[4] Tài liệu lưu hành nội bộ, 2016 - Quy định về Rủi ro tín dụng của VietinBank.
[5] Báo cáo quản trị tài chính Vietinbank 2016
[6] Phí Trọng Hiển, 2005. Ngân hàng nhà nước Việt Nam- Quản trị rủi ro ngân hàng:
Cơ sở lý thuyết, thách thức thực tiễn và giải pháp cho hệ thống ngân hàng thương mại
Việt Nam.
[7] John Ross Quinlan, 1993. Chương trình học máy, nhà xuất bản Morgan Kaufmann.
[8] Jiawei Han và Micheline Kamber, 2012. Khái niệm và kỹ thuật khai phá dữ liệu,
ấn bản thứ ba, nhà xuất bản ed Elsevier Inc.
[9] WILLIAM W. COOPER - DATA ENVELOPMENT ANALYSIS - A
Comprehensive Text with Models, Applications, References and DEA-Solver
Software
[10].Ron Kohavi, J. Ross Quinlan, Decision Tree Discovery, 1999
[11] A complete guide to dealing with Big Data using MongoDB
[12] BigData in Complex Systems Challenges and Opportunities
[13] Ivan Idris - Python Data Analysis
[14] Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques,
Second Edition