MỤC LỤC
NHIỆM VỤ NGHIÊN CỨU .............................................................................................i
LÝ LỊCH KHOA HỌC ....................................................................................................ii
LỜI CAM ĐOAN .......................................................................................................... iii
LỜI CẢM TẠ ..................................................................................................................iv
DANH SÁCH CÁC BẢNG ............................................................................................ix
DANH SÁCH CÁC HÌNH .............................................................................................. x
ĐẶT VẤN ĐỀ................................................................................................................xii
1. Đặt vấn đề ..............................................................................................................xii
2. Mục tiêu, đối tượng, phạm vi nghiên cứu ............................................................ xiii
3. Nhiệm vụ và hướng tiếp cận ................................................................................. xiv
4. Kết quả đạt được ................................................................................................... xiv
5. Ý nghĩa thực tiễn của đề tài ................................................................................... xv
Chương 1 TỔNG QUAN ............................................................................................... 16
1.1. Giới thiệu hệ thống thu thập dữ liệu trên ô tô ..................................................... 16
1.2. Các khái niệm cơ bản.......................................................................................... 17
1.2.1. Quãng đường xe đi được ............................................................................... 17
1.2.2. Gia tốc ........................................................................................................... 17
1.2.3. Vận tốc .......................................................................................................... 18
1.2.4. Thời gian sử dụng xe ..................................................................................... 18
1.2.5. Vị trí .............................................................................................................. 18
1.3. Các cơng trình nghiên cứu liên quan dựa trên khái niệm UBI ........................... 18
v
1.4. Áp dụng mơ hình học sâu giải quyết bài toán phân loại khách hàng ................. 21
1.5. Giới thiệu ứng dụng loại khách hàng mua bảo hiểm ô tô dựa trên hành vi sử dụng
xe ................................................................................................................................ 21
1.5.1. Ý tưởng khoa học .......................................................................................... 21
1.5.2. Giới thiệu ứng dụng ...................................................................................... 22
Chương 2 CƠ SỞ LÝ THUYẾT .................................................................................... 23
2.1. Các mơ hình phân loại dữ liệu liên quan ............................................................ 23
2.1.1. Phân lớp bằng mơ hình học máy ................................................................... 23
2.1.2. Phân lớp bằng mơ hình mạng neural ............................................................. 24
2.1.3. Giới thiệu mơ hình học sâu DNN.................................................................. 25
2.1.3.1. Kiến trúc tổng quát của DNN ....................................................................... 26
2.1.3.2. Trọng số liên kết (Connection Weights):...................................................... 27
2.1.3.3. Hàm tổng (Summation Function): ................................................................ 27
2.1.3.4. Hàm chuyển đổi (Transformation Function): ............................................... 28
2.1.4. Giới thiệu mơ hình học sâu CNN .................................................................. 29
2.1.4.1. Kiến trúc tổng quát của CNN ....................................................................... 29
2.1.4.2. Hàm kích hoạt ............................................................................................... 30
2.1.5. Giới thiệu mơ hình học sâu RNN-LSTM ...................................................... 33
2.2. Lựa chọn mơ hình học sâu CNN-LSTM để áp dụng vào bài toán phân lớp khách
hàng mua bảo hiểm ô tô ............................................................................................. 37
Chương 3 XÂY DỰNG ỨNG DỤNG PHÂN LOẠI KHÁCH HÀNG MUA BẢO HIỂM
Ô TÔ DỰA TRÊN HÀNH VI SỬ DỤNG XE .............................................................. 39
3.1. Tập dữ liệu .......................................................................................................... 39
vi
3.2. Tiền xử lý tập dữ liệu .......................................................................................... 40
3.3. Kiến trúc hệ thống............................................................................................... 42
3.3.1. Lớp mạng CNN và lớp tổng hợp (Pooling) .................................................. 42
3.3.2. Lớp mạng RNN-LSTM ................................................................................. 44
3.3.3. Lớp Dropout .................................................................................................. 45
3.3.4. Phân lớp hành vi của lái xe ........................................................................... 46
3.4. Huấn luyện hệ thống mạng ................................................................................. 46
3.4.1. Hàm chi phí ................................................................................................... 46
3.4.2. Cơng thức tối ưu hàm chi phí (cost function) ............................................... 46
3.5. Đánh giá mơ hình ................................................................................................ 47
3.5.1. Sử dụng F1-score .......................................................................................... 47
3.5.2. Sử dụng Accuracy ......................................................................................... 47
3.5.3. Sử dụng AUC (Area Under Curve) ............................................................... 47
3.6. Thiết kế giao diện ứng dụng ............................................................................... 47
3.7. Chương trình xử lý .............................................................................................. 51
3.7.1. Xử lý trang phân lớp ..................................................................................... 52
3.7.2. Xử lý trang huấn luyện .................................................................................. 55
Chương 4 THỬ NGHIỆM, ĐÁNH GIÁ KẾT QUẢ ..................................................... 57
4.1. Thực nghiệm và đánh giá ứng dụng ................................................................... 57
4.1.1. Tổ chức ứng dụng.......................................................................................... 57
4.1.2. Môi trường thực nghiệm ............................................................................... 58
4.1.3. Đánh giá ứng dụng ........................................................................................ 60
vii
4.2. Đánh giá độ chính xác của mơ hình học sâu DeepConvLSTM giải quyết bài toán
.................................................................................................................................... 61
Chương 5 KẾT LUẬN VÀ KIẾN NGHỊ....................................................................... 65
5.1. Kết quả đạt được ................................................................................................. 65
5.2. Hạn chế ............................................................................................................... 65
5.3. Hướng phát triển ................................................................................................. 65
TÀI LIỆU THAM KHẢO .............................................................................................. 67
PHỤ LỤC ....................................................................................................................... 69
viii
DANH SÁCH CÁC BẢNG
BẢNG
TRANG
Bảng 1.1: Mối quan hệ giữa vận tốc và quãng đường phanh an toàn ..................... 18
Bảng 4.1: Thơng số từng lớp của các mơ hình ....................................................... 60
Bảng 4.2: So sánh thời gian huấn luyện và độ chính xác của các mơ hình ............ 60
Bảng 4.3: Kết quả thực nghiệm thông qua các dữ liệu kiểm tra ............................. 62
Bảng 4.4: Thực nghiêm mơ hình CNN ................................................................... 62
Bảng 4.5: Thực nghiêm mơ hình LSTM-15............................................................ 63
ix
DANH SÁCH CÁC HÌNH
HÌNH
TRANG
Hình 1.1: Sơ đồ chi phí bảo hiểm dựa trên quãng đường đã đi được ..................... 17
Hình 1.2: Mơ tả ứng dụng ....................................................................................... 22
Hình 2.1: Phân loại khách hàng bằng mơ hình học máy......................................... 23
Hình 2.2: Sơ đồ đơn giản về một mạng neural nhân tạo ......................................... 25
Hình 2.3: Kiến trúc tổng quát DNN ........................................................................ 26
Hình 2.4: Cấu trúc một mạng DNN đơn giản ......................................................... 27
Hình 2.5: Minh họa cách tính tổng các điểm mạng ................................................ 28
Hình 2.6: Minh họa cách hoạt động của hàm chuyển đổi ....................................... 28
Hình 2.7: Mơ hình tích chập ................................................................................... 30
Hình 2.8: Mơ hình mạng nơ ron CNN .................................................................... 30
Hình 2.9: Đồ thị Hàm tuyến tính ............................................................................. 31
Hình 2.10: Đồ thị Hàm bước nhị phân .................................................................... 31
Hình 2.11: Đồ thị Hàm Sigmoid ............................................................................. 32
Hình 2.12: Đồ thị Hàm Tanh................................................................................... 32
Hình 2.13: Đồ thị Hàm ReLU ................................................................................. 33
Hình 2.14 Mơ hình RNN tổng quát ......................................................................... 34
Hình 2.15: Cấu trúc liên kết mạng RNN ................................................................. 34
Hình 2.16: Cấu trúc mạng RNN-LTSM .................................................................. 35
Hình 2.17 Cổng trạng thái LTSM ........................................................................... 35
Hình 2.18 Cổng xem xét dự liệu t-1 ........................................................................ 36
Hình 2.19 Mơ hình tính tốn thơng cell hiện tại ..................................................... 36
Hình 2.20: Cập nhật thơng tin cell hiện tại ............................................................. 36
Hình 2.21: Xử lý dữ liệu đầu ra của một cell .......................................................... 37
x
Hình 2.22: Lưu đồ tính tốn cơ bản trong mạng CNN-LSTM ............................... 38
Hình 2.23: Sơ đồ tính tốn CNN-LSTM ................................................................. 38
Hình 3.1: Cấu trúc bộ dữ liệu .................................................................................. 40
Hình 3.2: Hình dạng của đặc tính RPM (vịng tua máy/phút) của lớp B và C [22] 40
Hình 3.3: Mơ phỏng cửa sổ trượt [22] .................................................................... 41
Hình 3.4: Mơ tả hệ thống xử lý qua các lớp [22] .................................................... 42
Hình 3.5: Mơ hình xử lý CNN ................................................................................ 43
Hình 3.6: Mơ tả cấu tạo của từng nơron trong mạng RNN-LSTM [22] ................. 44
Hình 3.7: Cấu trúc một cell trong mạng RNN-LSTM ............................................ 45
Hình 3.8 So sánh sự khác nhau giữa hai mơ hình khơng có, và có sử dụng lớp
Dropout........................................................................................................................... 46
Hình 3.9: Giao diện các trang chính trong ứng dụng .............................................. 48
Hình 3.10: Giao diện trang phân lớp ....................................................................... 49
Hình 3.11: Giao diện trang huấn luyện ................................................................... 50
Hình 3.12: Giao diện trang đánh giá ....................................................................... 51
Hình 3.13: Lưu đồ chính của ứng dụng .................................................................. 52
Hình 3.14: Lưu đồ tổng quan của trang phân lớp ................................................... 53
Hình 3.15: Lưu đồ chức năng mở dữ liệu ............................................................... 54
Hình 3.16: Lưu đồ xử lý chức năng phân lớp ......................................................... 55
Hình 3.17: Lưu đồ trang huấn luyện ....................................................................... 56
Hình 4.1: Ứng dụng đang trong quá trình huấn luyện ............................................ 58
Hình 4.2: Sau quá trình phân lớp ............................................................................ 59
xi
ĐẶT VẤN ĐỀ
1. Đặt vấn đề
Ngành công nghiệp ô tô của thế giới nói chung và nước ta nói riêng đang liên tục có
những bước chuyển mình và phát triển khơng ngừng, cùng với đó cuộc cách mạng cơng
nghiệp lần thứ tư này cũng góp phần đưa ngành ơ tơ đến một vị trí cao hơn với những
cơng nghệ tiên tiến như xe tự hành, hệ thống viễn thông - thông tin ô tô (telematic), trợ
lý ảo,… và bên cạnh đó có một ứng dụng đã và đang khẳng định vị trí quan trọng của
mình là hệ thống bảo hiểm dựa trên hành vi của lái xe (UBI – Usage Based Insurance).
Thật vậy với mức tăng trưởng của ngành ô tơ như vậy thì bảo hiểm ơ tơ là một loại
bảo hiểm quan trọng cung cấp sự bảo vệ tài chính bằng cách giảm thiểu thiệt hại và trách
nhiệm pháp lý từ tai nạn xe hơi. Nhưng để đạt được điều đó thì các cơng ty bảo hiểm
phải có một bước phân loại khách hàng dựa vào hành vi lái xe để đưa ra các gói bảo
hiểm xe phù hợp với từng loại khác hàng, từ đó giúp các cơng ty bảo hiểm này đạt được
lợi nhuận tối đa và thu hút được nhiều khách hàng. Tuy nhiên, việc phân loại khách hàng
ở các công ty bảo hiểm thường được thực hiện thủ công và phụ thuộc vào chủ quan của
người bán bảo hiểm.
Để có thể đưa ra một dự đốn chính xác về khách hàng nhằm lựa chọn các gói bảo
hiểm cũng như chương trình khuyến mãi thích hợp, chúng ta cần xây dựng mơ hình xử
lý dữ liệu lớn (big data) được thu thập từ chính các khách hàng thông qua hệ thống viễn
thông - thông tin trên ô tô (telematic). Đề tài này sẽ đi sâu vào phân tích cũng như đưa
ra mơ hình dự báo hay phân loại khách hàng chuẩn bị mua bảo hiểm dựa vào hành vi sử
dụng xe của họ nhằm hỗ trợ người bán bảo hiểm có thể đưa ra quyết định chính xác về
gói bảo hiểm cũng như chương trình khuyến mãi phù hợp với khách hàng.
xii
2. Mục tiêu, đối tượng, phạm vi nghiên cứu
Mục tiêu của nghiên cứu là xây dựng mơ hình phân loại khách hàng mua bảo hiểm
dựa vào hành vi sử dụng xe ơ tơ, sử dụng mơ hình học sâu và dựa trên dữ liệu chuẩn
UBI.
Nội dung chính của nghiên cứu là đề xuất giải pháp để kế thừa hệ cơ sở dữ liệu UBI
và sử dụng sử dụng mơ hình học sâu để tiến hành phân loại khách hàng mua bảo hiểm.
Cụ thể hơn tác giả sẽ xây dựng, tối ưu các thông số cũng như tiến hành đánh giá đề xuất
của mơ hình này, kết quả của mơ hình sẽ được dùng để các chuyên gia bảo hiểm có thể
tham khảo để đưa ra các gói bảo hiểm hay các chính sách một cách khách quan và khoa
học hơn.
Để xây dựng mơ hình này tác giả sẽ tiếp cận theo hướng nghiên cứu thực nghiệm.
Có nghĩa là tác giả sẽ từng bước xây mơ hình tiến hành chạy thực nghiệm để đo độ chính
xác song song đó đánh giá với các giải thuật cũng đang giải quyết bài toán tương tự. Các
bước của quá trình này sẽ được chia thành những bước như sau:
1) Thu thập dữ liệu: ở bước này cần phải lấy thông tin, ý kiến trực tiếp từ những
đơn vị bảo hiểm, chuyên gia, các nhà khoa học đã nghiên cứu trước... Để từ đó
có thể xây dựng mơ hình bám sát thực tế tránh việc độ chính xác cao nhưng tính
ứng dụng thấp. Tiếp theo đó là liên hệ các đơn vị chun mơn để xin hỗ trợ
nguồn cơ sở dữ liệu có độ tin cậy cao.
2) Tiền xử lý dữ liệu: sau khi có dữ liệu thô ta phải tiến hành lọc lại dữ liệu thừa
hay nói cách khác là q trình tiền hiệu chỉnh dữ liệu đầu vào sao cho đáp ứng
tốt các yêu cầu mà bước 1 ở trên đã đề ra.
3) Tiến hành xây dựng mơ hình giải thuật: ở bước này thì mơ hình giải thuật sẽ
được xây dựng bằng cách huấn luyện máy tìm ra các hệ số tối ưu nhất dựa vào
dữ liệu đầu vào của hai bước trên.
4) Kiểm thử mơ hình: ở bước này nhằm đánh giá mức độ chính xác mà mơ hình
trên đã thỏa mãn yêu cầu bài toán hay chưa.
xiii
5) Cải thiện mơ hình: ở bước này sẽ tiến hành tối ưu lại các thông số nhằm giúp cải
thiện độ chính xác của mơ hình. Trên thực tế bước 3, bước 4, bước 5 sẽ như một
vòng lặp nhằm phối hợp tìm ra một mơ hình tối ưu, kết quả đầu ra của bước 5 là
đầu vào của bước 3.
3. Nhiệm vụ và hướng tiếp cận
Nhiệm vụ:
Tìm hiểu mơ hình PAYD (Pay As Your Drive) trong bảo hiểm ô tô.
Tìm hiểu chuẩn thu thập dữ liệu UBI (Usage Based Insurance).
Tìm hiểu mơ hình học sâu CNN (Convolution Neural Network) và RNN-LSTM
(Recurrent Neural Network – Long Short Term Memory) áp dụng vào bài tốn
phân loại.
Tìm hiểu cách xây dựng ứng dụng phân loại khách hàng mua bảo hiểm ô tô theo
hành vi sử dụng xe bằng mơ hình học sâu DeepConvLSTM.
Xây dựng ứng dụng phân loại khách hàng mua bảo hiểm dựa trên hành vi lái xe
thông qua các giải thuật học sâu đã nghiên cứu được.
Hướng tiếp cận:
Tổng kết các kết quả nghiên cứu liên quan trước đây để từ đó xây dựng ứng
dụng.
Thực nghiệm đánh giá các mơ hình trong ứng dụng.
4. Kết quả đạt được
Hiểu được cơ bản về mô hình chi trả, phân loại khách hàng theo chuẩn bảo hiểm xe
ô tô, nắm được các bước xác định và khái niệm liên quan lĩnh vực bảo hiểm ô tô.
Hiểu được một hệ thống chuẩn thu thập dữ liệu UBI sẽ bao gồm những thơng số gì,
mức độ ảnh hưởng của từng loại dữ liệu được thu thập theo chuẩn này, từ đó có những
hướng tiếp cận bài tốn phân loại khách hàng mua bảo hiểm ô tô dựa trên hành vi của
lái xe.
xiv
Hiểu được các mơ hình học sâu, áp dụng vào bài tốn phân loại khách hàng. Có khả
năng cấu hình và chọn lựa các thơng số của mơ hình một cách khoa học để vận dụng vào
bài toán.
Nắm được các bước xây dựng ứng dụng phân loại khách hàng mua bảo hiểm ô tô
theo hành vi sử dụng xe bằng mơ hình học sâu.
Cài đặt ứng dụng và đánh giá bằng thực nghiệm ứng dụng phân loại khách hàng mua
bảo hiểm ô tô theo hành vi sử dụng xe bằng mơ hình học sâu.
5. Ý nghĩa thực tiễn của đề tài
Ý nghĩa khoa học:
- Tổng hợp được các kiến thức liên quan để xây dựng ứng dụng.
- Kiểm chứng lại các mơ hình học sâu bằng cách cài đặt và thực nghiệm.
Ý nghĩa thực tiễn:
- Xây dựng được một ứng dụng liên quan tới lĩnh vực bảo hiểm có áp dụng trí thơng
minh nhân tạo và các mơ hình học sâu vào giải quyết bài toán phân lớp dữ liệu lớn.
- Kết quả của nghiên cứu có thể được dùng để định hướng thiết kế cho các ứng dụng
liên quan
xv
Chương 1
TỔNG QUAN
1.1. Giới thiệu hệ thống thu thập dữ liệu trên ô tô
Ngày nay với sự phát triển của công nghệ ngày một lớn mạnh dẫn đến hàng loạt lĩnh
vực cũng phát triển theo. Bên cạnh đó ngành ơ tơ cũng có nhiều cải tiến đáng kể điển hình
như hệ thống an toàn, hệ thống giao tiếp giữa các CPU trên xe, hệ thông thông tin viễn
thông… Đặc biệt hệ thống thu thập dữ liệu rồi tiến hành gửi thơng tin về máy chủ để phân
tích và xử lý là một hệ thống mới có độ quan trọng cao. Các dữ liệu được thu thập này
được sử dụng cho nhiều mục đích, nhiều ứng dụng khác nhau như lưu trữ thông tin vận
hành của phương tiện, đưa ra cảnh báo giúp lái xe điều chỉnh hành vi, hỗ trợ lái xe gặp sự
cố kịp thời… Từ đó cho thấy việc thu thập dữ liệu là một phần quan trọng để xây dựng một
hệ thống sinh thái mạng ô tô.
Với dữ liệu được thu thập đa dạng như vậy thì các tổ chức cũng tiến hành xây dựng
những chuẩn ứng dụng thiết yếu trên xe ô tô nhằm khiến khách hàng sử dụng xe ngày càng
được an toàn, tiết kiệm hơn. Cụ thể là ứng dụng chi trả bảo hiểm theo hành vi sử dụng của
các lái xe UBI (Usage-Based Insurance).
UBI là một loại ứng dụng chi trả bảo hiểm thông qua hành vi tiêu dùng của các lái xe
dựa trên các thông số như quãng đường đi được, nhiên liệu tiêu thụ, vận tốc, độ tăng giảm
tốc, số lần phanh… Với những dữ liệu đó thì khi xảy ra tai nạn thì cơng ty bảo hiểm sẽ dễ
dàng tính toán khoản bồi thường, giảm thiểu vấn đề gian lận trong việc bồi thường bảo
hiểm, nhưng các công ty chưa sử dụng tối đa lợi ích mà cơ sở dữ liệu UBI mang lại, do đây
là cơ sở dữ liệu được thu thập trực tiếp từ người sử dụng xe nên chúng ta hồn tồn có thể
áp dụng bài tốn phân lớp khách hàng sử dụng bảo hiểm ô tô dựa trên hành vi, nhằm tăng
khuyến mãi và giảm thiểu rủi ro bảo hiểm mà khách hàng vẫn được lợi. Tác giả muốn đề
xuất xây dựng ứng dụng phân loại khách hàng sử dụng bảo hiểm dựa trên hành vi lái xe
của họ thơng qua mơ hình học sâu (DeepConvLSTM - Deep Learning).
16
1.2. Các khái niệm cơ bản
UBI (Usage Based Insurrance) là khái niệm thuộc ngành bảo hiểm ô tô, được hiểu là
khách hàng sẽ chi trả phí bảo hiểm dựa trên hành vi lái xe của mình, hành vi lái xe được
thể hiện qua quãng đường mà phương tiện đó đi được, gia tốc, thời gian lái xe, vị trí xe.
Dữ liệu ô tô được thu thập thông qua hệ thống telematics có sử dụng trong ứng dụng
UBI:
1.2.1. Quãng đường xe đi được
Tùy theo chính sách của các cơng ty bảo hiểm mà hệ thống thu thập dữ liệu sẽ tiến
hành phân tích đánh giá cụ thể hay nói cách khác mỗi cơng ty có quy định những chuẩn
bồi thường riêng. Theo học viện VTPI (Victoria Transport Policy Institude) [20] đánh giá
thì giá bảo hiểm theo quãng đường sẽ như sau:
Hình 1.1: Sơ đồ chi phí bảo hiểm dựa trên quãng đường đã đi được
Dễ nhận thấy rằng nếu khoảng cách lái xe càng lớn thì chi phí chi mua bảo hiểm cũng
sẽ tăng theo tỷ lệ thuận, nhưng từng công ty sẽ có cách áp dụng cụ thể cho từng loại khách
hàng, vì vậy việc phân loại khách hàng là cần thiết.
1.2.2. Gia tốc
Bao gồm việc tăng và giảm tốc. Độ tăng và giảm tốc được tính tốn dựa theo cơng
thức: 𝑑 = 0.039.
(1)
Trong đó:
17
d: là khoảng cách người dùng phanh xe đến lúc xe dừng hoàn toàn
v: là vận tốc của phương tiện ở thời điểm phanh xe
a: là độ giảm tốc
Theo quy định các phương tiện muốn giảm tốc an tồn phải ít nhất đạt ngưỡng qng
đường phanh như sau:
Bảng 1.1: Mối quan hệ giữa vận tốc và quãng đường phanh an tồn
Theo bảng trên ta có hệ số giảm tốc an tồn (khơng phanh gấp) là a ≤ 2 m/s 2, dựa vào
đây chúng ta cũng có thể phân loại hành vi lái xe của khách hàng.
1.2.3. Vận tốc
Được thu thập trực tiếp từ phương tiện, vận tốc phản ảnh chính xác tình trạng lái xe
cũng như hành vi lái xe có nguy cơ gây ra tai nạn cao hay thấp. Dựa vào hệ thống định vị
mà chúng ta sẽ đễ dàng kiểm tra phương tiện đó có bị vượt ngưỡng vận tốc ở phạm vi địa
lý đó hay khơng, từ đó phân loại khách hàng theo số lần vượt ngưỡng.
1.2.4. Thời gian sử dụng xe
Liên quan đến việc lái xe sẽ sử dụng phương tiện vào khung giờ nào trong ngày, khung
giờ đó có dễ xảy ra tai nạn không đều sẽ được quy định nhằm đánh giá phân loại hành vi
lái xe.
1.2.5. Vị trí
Thơng tin được thu thập qua hệ thống định vị toàn cầu, cho biết phương tiện có đi xa
vượt quá điểm quy định trước hay chưa, do một số khu vực mà phương tiện đi lại thường
xun mà khơng được an tồn sẽ đẫn đến nguy cơ bồi thường bảo hiểm cao. Ví dụ khu vực
có mật độ giao thơng cao sẽ đễ dẫn đến va quẹt xe.
1.3. Các cơng trình nghiên cứu liên quan dựa trên khái niệm UBI
Thời gian qua đã có một số cơng trình nghiên cứu đã được cơng bố về lĩnh vực này như:
18
Cơng trình nghiên cứu của Bing He và các công sự được đề cập trong bài báo
“Profiling Driver Behavior for Personalized Insurance Pricing and Maximal Profit”
[13]. Bài báo này đã nêu ra các khái niệm chung để xây dựng phân loại khách hàng
theo tiêu chí “trả phí theo cách bạn lái xe” áp dụng PROFILE-PRICE-PROFIT (PPP)
là một nền tảng dựa vào đó để xây dựng nên các cơng thức tính tốn dự báo giá, tuy
nhiên điểm hạn chế là chỉ áp dụng AI ở mức độ học máy để tính tốn dữ liệu phức
tạp chưa áp dụng học sâu, dữ liệu của bài báo này chủ yếu được xây dựng qua bốn
trường gồm: thời gian lái xe, vận tốc, độ tăng/giảm tốc, loại đường. Các dữ liệu trên
khá cơ bản nên sẽ chỉ giải quyết bài toán phạm vi hẹp nên sẽ thiếu tính khách quan,
mơ hình sau khi đã xây dựng thì khó khăn trong việc cập nhật lại nếu bài tốn có thay
đổi, hơn nữa giải thuật chưa sử dụng các loại dữ liệu quan trọng khác (dữ liệu phanh
xe, hành trình chuyến xe,…) để xử lý dẫn đến sẽ có sai số.
Marie O’Brien, Kai Neubauer, Jessica Van Brummelen, Homayoun Najjaran,
“Analysis of Driving Data for Autonomous Vehicle Applications” [14]. Nhóm tác giả
dựa vào tập dữ liệu đầu vào để đưa vào mơ hình ELLNF (Evolving Local Linear
Neuro-Fuzzy) nhằm đánh giá hành vi lái xe, bài báo tập trung vào đánh giá hành vi
lái xe chính xác thông qua các thông số vận tốc, độ tăng/giảm tốc, loại đường thì cho
ra kết quả có độ chính xác cao, tuy nhiên hạn chế là giới hạn thông số đầu vào và
cũng chưa có tính khái qt hay linh động cao.
Jiangqui Peng và các cộng sự “Usage-Based Insurance System Based on CarrierCloud-Client” [15]. Nhóm tác giả xây dựng mơ hình UBI sử dụng điện tốn đám mây
và thiết bị di động để quan sát cũng như phân tích dữ liệu UBI, điểm mạnh là tận
dụng được tối đa sức mạnh của điện toán đám mây để lưu trữ dữ liệu và xử lý, thiết
bị di động hỗ trợ giám sát và đánh giá phản hồi trực tiếp để người lái xe tự điều chỉnh
hành vi của mình thơng qua đó giảm thiểu tai nạn và số tiền chi trả bảo hiểm. Nhưng
bên bài báo vẫn chưa đi sâu vào phân tích đánh giá lái xe sử dụng các giải thuật học
máy để đưa ra các dự báo, phân loại một cách khách quan và khoa học nhất.
Lu Zhou, Qingrong Chen, Zutian Luo, Haojin Zhu, Cailian Chen, “Speed-based
Location Tracking in Usage-based Automotive Insurance” [16]. Tác giả sử dụng dữ
liệu theo chuẩn UBI để đưa ra mơ hình phân lớp khách hàng như sử dụng số lần lái
xe vi phạm tốc độ, thời gian sử dụng xe, số lần phanh gấp... Sau đó tiến hành tín tốn
dựa trên các công thức thông kê xác suất nhằm đưa ra các dự báo chính xác. Nhược
19
điểm là đối với dữ liệu lớn sẽ tốn thời gian xử lý cũng như độ chính xác phụ thuộc
rất nhiều vào mơ hình tốn học cố định.
Ramazan Terzi, Merve Tosun, Seref Saiiroglu, “A New for PAYD Based in Driver
Behavior Analytics” [17]. Ở nghiên cứu này tác giả đã khái qt hóa một mơ hình
phân lớp khách hàng mua bảo hiểm cũng như các chuẩn dữ liệu được sử dụng trong
mơ hình, nhưng dữ liệu thu thập được sẽ xử lý hằng ngày thông qua các quan sát viên,
chưa áp dụng các giải thuật AI vào để giảm một phần công việc của con người.
Abdalla Abdelrahmanm, Najah Abu-Ali, Hossam S.Hassanein, “Driver Behavior
Classification in Crash and Near-Crash Events Using 100-CAR Naturalistic Data
Set” [18]. Mơ hình này tác giả đề xuất mơ hình phân loại khách hàng thơng qua dữ
liệu tai nạn và tiền tai nạn, cụ thể hơn các thông số của lái xe sẽ được thu thập và đối
chiếu với tập dữ liệu “100-CAR Naturalistic” sau đó phân loại hành vi người lái xe.
Đây cũng là một hướng tiếp cận thơng qua dữ liệu tai nạn trước đó, mơ hình mang
tính khái qt cao độ chính xác tương đối tốt, nhưng bên cạnh đó mơ hình cũng chỉ
xử lý dữ liệu nhỏ và chủ yếu sử dụng các cơng thức xác suất thống kê để tính tốn và
dự đoán.
Kalpesh Patil, Mandar Kulkarni, Anand Sriraman, Shirish Karande, “Deep Learning
Based Car Damage Classification” [19]. Đây là một ứng dụng dùng để xác định tiền
bồi thường thiệt hại tai nạn xe ơ tơ thơng qua mơ hình học sâu bằng những hình ảnh
chụp của tai nạn, hay cụ thể hơn ứng dụng sử lý những ảnh chụp cận cảnh của các vị
trí bị hỏng trên phương tiện sau đó dựa vào mơ hình học sâu nhằm đưa ra mức giá
bồi thường tương đối. Ứng dụng này đã áp dụng mô hình học sâu vào giải quyết các
vấn đề liên quan bảo hiểm nhưng vẫn chưa phân lớp để tiền xử lý khách hàng mà chỉ
tập trung giải quyết bài toán bồi thường thơng qua các hình ảnh hư hại của phương
tiện.
Shaimaa M. Hegazy, Mohamed N. Moustafa, “Classifying Aggressive Drivers for
Better Traffic Signal Control” [20]. Tác giả đưa ra mô hình dự báo tình hình giao
thơng áp dụng mơ hình học sâu, ứng dụng sử dụng dữ liệu lớn về vị trí phương tiện
để dự báo tình trạng kẹt xe. Nhìn chung với nghiên cứu này sẽ cung cấp thêm kiến
thức để có thể nắm rõ cách thức tổ chức và áp dụng học sâu để giải quết các bài toán
phân lớp.
20
1.4. Áp dụng mơ hình học sâu giải quyết bài tốn phân loại khách hàng
Nhìn chung các nghiên cứu khoa học nước ngoài cũng như trong nước vẫn chưa tiếp
cận để xử lý bài toán phân lớp khách hàng mua bảo hiểm ô tô thông qua hành vi sử dụng
xe theo chuẩn dữ liệu UBI. Nhưng nhu cầu ứng dụng các mơ hình trí tuệ nhân tạo đặc biệt
là mơ hình học sâu là ngày một tăng và ngành bảo hiểm cũng khơng ngoại lệ, ngồi việc
phải giảm thiểu bồi thường còn cần phải thu hút được nhiều khách hàng nhằm tăng doanh
thu, vì vậy tác giả kết hợp mơ hình học sâu để xử lý các dữ liệu lớn chính xác và linh hoạt
trong việc cập nhật các giá trị theo thời gian thực. Song song đó là kết hợp sử dụng hệ cơ
sở dữ liệu UBI nhằm xây dựng được mơ hình chuẩn, độ chính xác cao và bám sát thực tế.
Dữ liệu sẽ được đưa vào huấn luyện sử dụng mơ hình học sâu thế mạnh là các trọng số
sẽ tự động đánh giá và điều chỉnh theo hàm lỗi của mơ hình tăng độ tin cậy. Các chiều dữ
liệu sẽ được lựa chọn và đánh giá dựa theo chuẩn UBI và các yêu cầu thiết thực của bảo
hiểm ơ tơ. Từ đó khắc phụ được các u cầu đó về độ tin cậy cũng như tín thực tế của mơ
hình khi đưa vào áp dụng thực tế.
1.5. Giới thiệu ứng dụng loại khách hàng mua bảo hiểm ô tô dựa trên hành vi sử dụng
xe
1.5.1. Ý tưởng khoa học
Trên thực tế hệ thống UBI là một ứng dụng quan trọng trong việc thu thập dữ liệu xe
hơi để giải quyết những bài toán bảo hiểm. Phần lớn dữ liệu này được dùng chủ yếu
vào mục đích bồi thường bảo hiểm tại thời điểm xảy ra tai nạn, phần còn lại dùng để
định ra mức giá bảo hiểm của cơng ty, nhưng ở bước này thì việc phân tích lại nhờ
vào bộ não con người để đưa ra dự đốn báo cáo dựa trên những cơng thức thống kê
chưa có tính linh động khách quan.
Cần đưa ra một mơ hình “tham chiếu” để giúp giảm tải công việc của con người và
đưa ra gợi ý về loại khách hàng để giúp người bán bảo hiểm có thể đưa ra gói bảo
hiểm thích hợp dựa vào hành vi lái xe của khách muốn mua bảo hiểm.
Ý tưởng của đề tài là áp dụng mơ hình học sâu để phân loại khách hàng mua bảo hiểm
ô tô dựa vào hành vi sử dụng xe thông qua dữ liệu người dùng (được hiểu là các dữ
liệu chuẩn UBI) được thu thập thông qua mạng CAN (Controller Area Network) khi
người dùng sử dụng xe. Việc này đảm bảo được tính đa dạng của dữ liệu để phân loại
21
người dùng, ngồi ra việc sử dụng chính dữ liệu của người dùng để đưa ra mức chi
trả tương ứng sẽ chính xác hơn.
1.5.2. Giới thiệu ứng dụng
Ứng dụng sẽ được xây dựng trên nền tảng Keras [1], và ngôn ngữ lập trình chính là
Python. Ứng dụng sẽ cho phép đưa dữ liệu UBI đã được thu thập và xử lý vào, sau đó các
dữ liệu này sẽ được mơ hình học sâu (DeepConvLSTM) đã được huấn luyện từ trước xử
lý và cho ra kết quả phân lớp hành vi lái xe để gợi ý cho người sử dụng có những quyết
định khách quan hơn. Bên cạnh đó ứng dụng cũng sẽ cung cấp một số công cụ giúp người
dùng phân tích nhanh dữ liệu thơng qua các biểu đồ.
Hình 1.2: Mô tả ứng dụng
22
Chương 2
CƠ SỞ LÝ THUYẾT
2.1. Các mơ hình phân loại dữ liệu liên quan
2.1.1. Phân lớp bằng mơ hình học máy
Sử dụng các giải thuật học máy để gán nhãn khách hàng để phân lớp và đưa ra dự đoán
về giá.
Hình 2.1: Phân loại khách hàng bằng mơ hình học máy
Như vậy, nhiệm vụ của bài toán phân loại khách hàng mua bảo hiểm xe ơ tơ là cần tìm
một giải thuật phân loại thích hợp để khi đưa dữ liệu UBI mới của người dùng vào thì có
thể xác định được hành vi lái xe đó thuộc vào phân lớp nào, từ đó có thể đưa ra dự đốn về
giá mua bảo hiểm mới.
Cách bước thực hiện chung:
Chuẩn bị dữ liệu UBI cho tập huấn luyện, tiến hành rút trích đặc trưng: Cơng đoạn
này được xem là cơng đoạn quan trọng nhất trong bài tốn. Vì đây là dữ liệu đầu
vào cho việc huấn luyện để tìm ra mơ hình của bài tốn. Chúng ta phải chọn ra
những đặc trưng nổi bật của dữ liệu UBI, lược bỏ những đặc trưng không tốt của dữ
liệu, gây nhiễu (noise). Uớc lượng số chiều của dữ liệu bao nhiêu là tốt hay nói cách
khác là chọn bao nhiêu tính năng (feature). Nếu số chiều quá lớn gây khó khăn cho
việc tính tốn thì phải giảm số chiều của dữ liệu UBI nhưng vẫn giữ được độ chính
xác của dữ liệu. Đồng thời ở bước này chúng ta cũng chuẩn bị bộ dữ liệu để kiểm
tra trên mơ hình. Sẽ sử dụng kiểm tra chéo (cross-validation) để chia tập dữ liệu UBI
thành hai phần, một phần phục vụ cho việc huấn luyện (training datasets) và phần
còn lại phục vụ cho mục đích kiểm tra mơ hình (testing dataset).
23
Xây dựng mơ hình phân lớp: phải đưa ra được hàm f(x) để thơng qua hàm này chúng
ta có thể tiến hành gán nhãn dữ liệu
Y = f(x)
Trong đó:
Y là nhãn hay là đầu ra của dữ liệu
x là tập các tính năng (feature) đầu vào của dữ liệu UBI
Để xây dựng mơ hình phân loại cho bài tốn này chúng ta có thể sử dụng các giải
thuật học giám sát (supervised learning) như KNN, Neural Network, SVM, Decision
Tree, Navie Bayers…
Kiểm tra độ chính xác của các giải thuật: sau khi đã hoàn thành việc huấn luyện
chúng ta phải tiến hành đưa dữ liệu vào để kiểm tra độ chính xác của từng giải thuật.
Đánh giá và chọn ra giải thuật tốt nhất: Bước cuối cùng chúng ta sẽ đánh giá các
giải thuật bằng cách đo mức độ lỗi của dữ liệu testing và dữ liệu huấn luyện của
từng giải thuật. Nếu không đạt được kết quả mong muốn của chúng ta thì phải thay
đổi các tham số (turning parameter) của các giải thuật đã huấn luyện để tìm ra các
mơ hình tốt hơn nhằm kiểm tra và đánh giá lại mơ hình phân lớp. Để cuối cùng
chúng ta sẽ có được mơ hình phân loại tốt nhất có thể áp dụng vào ứng dụng phân
loại khách hàng mua bảo hiểm ô tô.
2.1.2. Phân lớp bằng mơ hình mạng neural
Là một hệ thống bao gồm nhiều phần tử xử lý đơn giản (hay còn gọi là Neural) tựa như
Neural thần kinh của não người, hoạt động song song và được nối với nhau bởi các liên
kết neural. Mỗi liên kết kèm theo một trọng số nào đó, đặc trưng cho tính kích hoạt hoặc
ức chế giữa các neural. Có thể xem các trọng số là phương tiện để lưu trữ thông tin dài hạn
trong mạng neural và nhiệm vụ của quá trình huấn luyện của mạng là cập nhật các trọng
số khi có thêm thơng tin về mẫu đầu vào. Hay nói một cách khác, các trọng số đều được
điều chỉnh sao cho hoạt động xử lý vào ra của mạng sẽ mơ phỏng hồn tồn phù hợp với
mơi trường đang xem xét.
24
Hình 2.2: Sơ đồ đơn giản về một mạng neural nhân tạo
Mơ hình mạng neural ở trên gồm 3 lớp: lớp nhập (input), lớp ẩn (hidden) và lớp xuất
(output). Mỗi nút trong lớp nhập nhận giá trị của một biến độc lập và chuyển vào mạng.
Dữ liệu từ tất cả các nút trong lớp nhập được tích hợp – ta gọi là tổng trọng số – và
chuyển kết quả cho các nút trong lớp ẩn. Gọi là “ẩn” vì các nút trong lớp này chỉ liên lạc
với các nút trong lớp nhập và lớp xuất, và chỉ có người thiết kế mạng mới biết lớp này
(người sử dụng không biết lớp này).
Các nút trong lớp xuất nhận các tín hiệu tổng hợp từ các nút trong lớp ẩn. Mỗi nút
trong lớp xuất tương ứng với một biến phụ thuộc.
Áp dụng vào bài toán phân lớp dữ liệu người dùng mua bảo hiểm xe ơ tơ thì ta phải
tiến hành những việc sau:
Sử dụng các dữ liệu đã được giám định bởi chuyên gia để gán nhãn trước cho các dữ
liệu này, người này được xem như một người thầy có kiến thức về lĩnh vực bảo hiểm để
thực hiện việc huấn luyện cho hệ thống. Hệ thống được huấn luyện (ở đây là mạng neural)
sẽ phải tìm cách thay đổi các tham số bên trong mơ hình của mình (các trọng số và các
ngưỡng) để tạo nên một ánh xạ các đầu vào của hệ cơ sở dữ liệu UBI thành các đầu ra
mong muốn là các lớp khách hàng. Sự thay đổi này được tiến hành nhờ việc so sánh và cập
nhật liên tục giữa đầu ra thực sự và đầu ra mong muốn đến cuối cùng chúng ta sẽ có được
một mơ hình mạng neuron đáp ứng được bài tốn ban đầu đặt ra.
2.1.3. Giới thiệu mơ hình học sâu DNN
DNN (Deep Neural Network): là một mơ hình đặc biệt của của mạng nhân tạo (ANN
– Artificial Neural Network) với nhiều lớp ẩn ở giữa hai lớp đầu vào và đầu ra [21]. Mạng
DNN tính tốn nhằm tìm ra các trọng số tốt nhất để với một tập dữ liệu đầu vào thì mơ
25
hình sẽ trả về một kết quả tối ưu nhất. Các lớp trong mơ hình DNN tùy từng ứng dụng cụ
thể mà người thiết kế sẽ tăng giảm số lượng và gán các phép tốn thích hợp lên các lớp đó.
Như vậy, điểm mạnh của DNN là giải quyết được các bài tốn phức tạp nhiều lớp thơng
tin mà mỗi lớp lại có quan hệ chặt chẽ với nhau, dữ liệu đầu ra của lớp này là đầu vào của
lớp kế tiếp.
2.1.3.1. Kiến trúc tổng quát của DNN
Hình 2.3: Kiến trúc tổng quát DNN
Processing Elements (PE): Các PE của DNN gọi là Neuron, mỗi Nueron nhận các dữ
liệu vào (Inputs) xử lý chúng và cho ra một kết quả (output) duy nhất. Kết quả xử lý của
một Neuron có thể làm Input cho các Neuron khác.
26
Hình 2.4: Cấu trúc một mạng DNN đơn giản
Một mạng DNN sẽ có 3 kiểu tầng:
Tầng vào (input layer): Là tầng bên trái cùng của mạng thể hiện cho các đầu vào của mạng.
Mỗi đầu vào tương ứng bới một thuộc tính (attribute) của dữ liệu (patterns). Ví dụ nếu áp
dụng cho ứng dụng phân loại khách hàng mua bảo hiểm thông qua hành vi lái xe của khách
hàng thì các thơng số theo chuẩn UBI là đầu vào cho các điểm mạng (node).
Tầng ra (output layer): Là tầng bên phải cùng của mạng thể hiện cho các đầu ra của mạng.
Kết quả đầu ra này sẽ là các lớp mà ứng dụng đã phân loại hoàn tất. Trong bài tốn phân
loại khách hàng này thì kết quả đầu ra này có thể sẽ được sử dụng định giá tiền bảo hiểm
hay xếp loại các chương trình bảo hiểm.
Tầng ẩn (hidden layer): Là những tầng nằm giữa tầng vào và tầng ra thể hiện cho việc suy
luận logic của mạng, mỗi tầng ẩn này chịu trách nhiệm tính tốn để rút trích các đặt trưng
của mơ hình bài toán, sao cho đầu ra của tầng trước là đầu vào của tầng tiếp theo. Tầng ẩn
này cần được xem xét điều chỉnh về mặt số lượng tầng, các phép tốn trên đó, cũng như là
thứ tự của chúng trong mơ hình. Mục tiêu chung nhằm tối ưu hóa các tài ngun và tăng độ
chính xác của bài tốn.
2.1.3.2. Trọng số liên kết (Connection Weights):
Đây là thành phần rất quan trọng của một DNN, nó thể hiện mức độ quan trọng (độ
mạnh) của dữ liệu đầu vào đối với q trình xử lý thơng tin (q trình chuyển đổi dữ liệu
từ Layer này sang layer khác). Quá trình học (Learning Processing) của DNN thực ra là
quá trình điều chỉnh các trọng số (Weight) của các dữ liệu đầu vào để có được kết quả
mong muốn.
2.1.3.3. Hàm tổng (Summation Function):
Tính tổng trọng số của tất cả các dữ liệu được đưa vào mỗi Neuron (phần tử xử lý PE).
Hàm tổng của một Neuron đối với n phần tử vào được tính theo cơng thức sau:
Y=∑
𝑌 =
𝑋𝑊
(a),
𝑋 𝑊 (b)
Trong đó:
27
- Y là tổng của các điểm mạng trước đó
- X là các đầu vào trước đó
- W là trọng số của các điểm mạng
Hình 2.5: Minh họa cách tính tổng các điểm mạng
2.1.3.4. Hàm chuyển đổi (Transformation Function):
Hàm tổng (Summation Function) của một Neuron cho biết khả năng kích hoạt
(Activation) của neuron đó cịn gọi là kích hoạt bên trong (internal activation). Các Nueron
này có thể sinh ra một output hoặc khơng trong DNN (nói cách khác rằng có thể output của
1 Neuron có thể được chuyển đến lớp kế tiếp trong mạng Neuron theo hoặc không). Mối
quan hệ giữa Internal Activation và kết quả (output) được thể hiện bằng hàm chuyển đổi
(Transfer Function).
Hình 2.6: Minh họa cách hoạt động của hàm chuyển đổi
28
Nói cách khác việc lựa chọn Transfer Function có tác động lớn đến kết quả của DNN.
Hàm chuyển đổi phi tuyến được sử dụng phổ biến trong DNN là sigmoid (logical
activation) function.
𝑌 =
1
1+𝑒
Trong đó:
- YT: là đầu ra của hàm chuyển đổi
- Y: là đầu ra của hàm tổng
Chú ý: Kết quả của Sigmoid Function thuộc khoảng [0, 1] nên cịn gọi là hàm chuẩn hóa
(Normalized Function).
Ý nghĩa của hàm chuyển đổi là do kết quả xử lý tại các Neuron (output) hàm tổng đơi
khi rất lớn vì vậy hàm chuyển đổi sẽ xử lý dữ liệu trước khi chuyển đến lớp tiếp theo. Tuy
nhiên tùy từng bài toán cụ thể mà có thể sử dụng các giá trị ngưỡng (Threshold value) để
kiểm soát các đầu ra của các Neuron hàm tổng nếu giá trị này nhỏ hơn ngưỡng thì nó cũng
sẽ khơng được chuyển đến lớp tiếp theo.
2.1.4. Giới thiệu mơ hình học sâu CNN
CNN (Convolutional Neural Netwok) là một mơ hình mạng nơ ron tích chập, cụ thể
hơn ở mơ hình này sẽ có nhiều lớp xử lý bao gồm:
Bộ lọc dữ liệu (tích chập): ở bước này các dữ liệu đầu vào sẽ được quét bởi
những bộ lọc để tiến hành trích xuất đặc trưng của dữ liệu.
Bộ giảm kích thước dữ liệu: sau khi đã trích được những đặc trưng thì ở giai
đoạn này những dữ liệu sẽ được tinh giảm về mặt kích thước sau khi đi qua các
bộ lọc này
Bộ kết nối và tổng hợp thông tin: qua các bộ lọc ở trên dữ liệu bây giờ chỉ còn
lại những đặc trưng, ở bước này tiến hành kết nối lại toàn bộ các đặc trưng để
lấy kết quả đầu ra
2.1.4.1. Kiến trúc tổng quát của CNN
Tích chập: là mộ phép biến đổi số của dữ liệu, được sử dụng nhiều trong xử lý hình
ảnh, video số.
29