Tải bản đầy đủ (.pdf) (23 trang)

định giá ô tô sử dụng định lượng dữ liệu định tính và hệ thống dựa trên tri thức

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (976.51 KB, 23 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

BỘ GIÁO DỤC VÀ ĐÀO TẠO

<b>TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI </b>

---o0o--- CƠNG TRÌNH THAM DỰ

GIẢI THƯỞNG "SINH VIÊN NGHIÊN CỨU KHOA HỌC" CẤP TRƯỜNG NĂM 2019-2020

Tên cơng trình: ĐỊNH GIÁ Ơ TƠ SỬ DỤNG ĐỊNH LƯỢNG DỮ LIỆU ĐỊNH TÍNH VÀ HỆ THỐNG DỰA TRÊN TRI THỨC

Mã số:

Họ và tên sinh viên 1: Phạm Vũ Tiến Giới tính: Nam Lớp, khóa: Toán Tin K60 Tel: 0982590632 Họ và tên sinh viên 1: Đào Minh Hoàng Giới tính: Nam Lớp, khóa: Toán Tin K60 Tel: 0983297186 Khoa/Viện: Viện Toán ứng dụng và Tin học

Giáo viên hướng dẫn: TS. Trần Ngọc Thăng

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>Tóm tắt cơng trình </b>

Bài tốn định giá các mặt hàng nói chung là một bài tốn rất hữu ích trong lĩnh vực kinh doanh ở thời đại công nghệ phát triển như hiện nay. Việc định giá tốt mang ý nghĩa lớn cho các tổ chức quản lý kinh tế, thị trường, các đơn vị kinh doanh hay thậm chí là người tiêu dùng. Bài toán định giá xe ơ tơ nói riêng là một bài tốn với mặt hàng có giá trị rất lớn, với thị trường công nghiệp canh tranh nhau rất gắt gao trên quy mơ tồn cầu và người tiêu dùng gia tăng thêm hằng năm nên trong thực tế vấn đề chính xác lại lại càng được ưu tiên hơn nữa.

Định giá xe ô tô sử dụng các phương pháp học máy có mối liên hệ rất lớn tới q trình tích lũy tri thức trong một hệ thống chuyên gia. Hiện tại, phương pháp chính trong việc tích lũy tri thức bài tốn trên là một quá trình tốn nhiều thời gian cho một hệ thống khuyến nghị, với việc đăng bài về mua và bán xe trên các trang web kinh doanh online.

Tiếp theo sau việc khai phá dữ liệu bài tốn, chúng tơi chia dữ liệu thành hai dạng: dạng có cấu trúc và khơng có cấu trúc với u cầu sự phân tích dựa trên tri thức. Đề tài nghiên cứu này bao gồm các kỹ thuật trích rút ra ý nghĩa, sự suy lý của dữ liệu và các quy tắc của dữ liệu định tính trên nền tảng các phương pháp học máy cơ bản. Mục đích chính của bài nghiên cứu là khám phá ra các dạng dữ liệu khác nhau của dữ liệu xe ô tô và mục tiêu là để tạo ra một kỹ thuật tự động định giá xe ô tơ với độ chính xác tốt.

Từ khóa: Dự đốn, định giá ô tô, tập nhúng thực thể, định lượng dữ liệu định tính, hệ thống dựa trên tri thức.

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>Mục Lục </b>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>I.Đặt vấn đề </b>

Ngành công nghiệp xe hơi đang phát triển khắp thế giới với sự cạnh tranh ngày

càng tăng nhanh qua hàng năm (Office of National Statistics, 2006). Do đó, việc xác định

giá chính xác là rất cần thiết cho cả nhà sản xuất lẫn khách hàng trong thị trường xe hơi rất

cạnh tranh này. Trong rất nhiều năm qua, người mua khá là mơ hồ về giá của chiếc xe hơi

họ định mua hay bán, đặc biệt là đối với những ai khơng có đam mê, sở thích về xe hơi

cũng như các thuộc tính kĩ thuật của nó. Do đó, cố gắng tìm kiếm một số lời tư vấn từ các

đại lý ơ tơ, tạp chí xe hơi hoặc trang web trên mạng. Tuy nhiên, điều này có thể tốn rất

nhiều thời gian và đôi khi cũng mang thêm sự băn khoăn cho người hỏi. Di chuyển của người dân là một lĩnh vực quan trọng, thị trường mua bán xe đóng

vai trò quan trọng ở các nước phát triển [1]. Ở việt Nam, khi các phương tiện công cộng ở

các thành phố chưa phát triển, phương tiện đi lại chính là ơ tơ và xe máy. Ở Việt Nam, việc

di chuyển của người dân phụ thuộc nhiều vào phương tiện ô tô. Vì thế, việc mua bán xe ơ

tơ đóng một vai trị quan trọng trong nền kinh tế với quy mô và số lượng giao dịch cao. Với

sự phát triển của thương mại điện tử các thông tin mua bán xe ô tô trên mạng internet, việc

mua bán ô tô trở nên dễ dàng giữa bên mua và bên bán. Danh sách các thơng tin về xe có

hai loại có cấu trúc và phi cấu trúc. Dữ liệu chia làm có cấu trúc được chia làm loại số và

loại định tính. Thuộc tính có cấu trúc thường được liệt kê để dễ dàng cho việc tìm kiếm và

phân loại xe. Nhưng để biết về tình trạng chi tiết thì phải xem trong phần dữ liệu phi cấu

trúc trong phần mô tả, phần ý kiến của người xem thông tin, hay những đánh giá của người

mua bán. Công nghiệp ô tô là một trong những ngành kinh tế đứng đầu về doanh thu trên thế

giới. Đặc biệt, ở các nước đang phát triển, thị trường ô tô rất có tiềm năng và đang bùng nổ

mạnh mẽ bởi nhu cầu của người dân thay đổi nhanh chóng theo sự phát triển kinh tế. Do

đó, việc phân tích, dự đốn giá xe trên thị trường mang nhiều ý nghĩa thực tế và đóng vai

trò quan trọng trong việc phân tích, dự báo và đưa ra quyết định tiêu thụ, mua bán xe. Dự

đốn giá xe là một bài tốn khó bởi có rất nhiều yếu tố khác nhau quyết định giá xe. Ngoài

những đặc trưng của xe như thương hiệu, nhà sản xuất, dòng xe, loại động cơ, nhiên liệu,

v.v. thì cũng có nhiều yếu tố bên ngồi khác ảnh hưởng tới giá bán xe như các loại thuế hay

quãng đường đã đi (đối với mua bán xe đã qua sử dụng). Một số nghiên cứu trước đây về dự đốn giá xe được trình bày trong bảng I.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b> Mục tiêu Phương pháp Case study Thời gian đăng </b>

<b>Bài báo </b>

Nghiên cứu các mơ hình thống kê để định giá xe ơ tơ qua sử dụng

Sử dụng các phương pháp hồi quy

Dữ liệu từ nhà sản xuất xe tại Đức

Giới thiệu một kỹ thuật dự đốn giá mới cho ơ tô đã qua sử dụng

Mạng nơ-ron nhân tạo, neuro-fuzzy inference

Dữ liệu xe ô tô cũ từ một trang web tại Đài Loan

Mạng nơ-ron nhân tạo, support vector machine, random forest

Dữ liệu được thu thập từ web tại Bosnia and Herzegovina

Bảng I: Một số nghiên cứu về định giá xe ô tô

Trong nghiên cứu của Lessmann [3], tác giả đã chọn các thuộc tính <i> ​số năm đã sử </i>

<i>dụng, số dặm, khách hàng, năm của mẫu xe, loại động cơ, lớp sơn, trang bị đặc biệt là các </i>

biến độc lập, và đưa ra mơ hình dự đốn sử dụng nhiều phương pháp hồi quy khác nhau.

Jian-Da Wu, Chuang-Chin Hsu và Hui-Chu Chen tập trung vào việc đề xuất ra một hệ

chuyên gia dự đoán giá cho những chiếc xe đã qua sử dụng dựa trên mạng thần kinh nơ-ron

và mơ hình logic mờ. Các tác giả đã chọn ra <i>​nhãn hiệu xe, năm sản xuất ​và cơng suất độngcơ là các thuộc tính chính để xác định giá xe. Narabul Pal sử dụng tập dữ liệu từ Kaggle để</i>

dự đoán giá xe đã qua sử dụng. Tập dữ liệu bao gồm 20 thuộc tính, trong đó có nhiều thuộc

tính khơng liên quan, dư thừa và mất mát nhiều trường dữ liệu. Vì thế, các tác giả đã thêm

một bước tiền xử lý dữ liệu để cho tập các thuộc tính cơ đọng hơn, cụ thể giảm chiều dữ

liệu. Sau khi tiền xử lý, tập dữ liệu cuối chỉ cịn 10 thuộc tính, chính là giá, loại phương

tiện, số năm sử dụng, chỉ số mã lực, mẫu xe, số ki-lô-mét đã đi, loại nhiên liệu, nhãn hiệu,

đã qua sửa chữa, tự động. Cuối cùng, thuật toán rừng ngẫu nhiên được sử dụng làm mơ

hình hồi quy để xác định giá xe. Từ những nghiên cứu trước đây, có thể thấy các tác giả

chọn rất nhiều yếu tố khác khau làm biến đầu vào để dự báo giá xe. Những đặc trưng ấy

cũng rất đa dạng và có nhiều biến định tính. Vì thế việc lượng hóa các dữ liệu định tính là

một bước quan trọng khi xử lý dữ liệu trước khi đưa vào mô hình dự đốn giá xe. Đây cũng

là một trong những đóng góp chính của bài nghiên cứu này. Nghiên cứu định tính là điều cần thiết bởi vì nó tạo ra thơng tin có thể cung cấp cái

nhìn chuyên sâu về một vấn đề hoặc chủ đề. Tuy nhiên, định lượng dữ liệu là rất quan

trọng để đưa ra kết luận từ dữ liệu định tính. Nếu các giá trị này không được biểu diễn

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

chính xác, các thuật tốn học máy sẽ khơng có hiệu quả [6]. Một cách tiêu chuẩn để làm

việc biến categories là mã hóa One-Hot. Tuy nhiên, véc-tơ One-Hot có hai khuyết điểm

chính: • Khơng gian biểu diễn có số chiều rất lớn với dữ liệu thưa. • Mối quan hệ giữa các trường giá trị khác nhau bị bỏ qua [7]. Chúng ta có thể thấy trong [7] rằng sử dụng phương pháp học giám sát để tạo

không gian biển diễn cho các biến categories làm giảm bộ nhớ sử dụng và cải thiện hiệu

suất của mạng thần kinh nơ-ron vì nó cho một sự biểu diễn dữ liệu tốt hơn. Mục tiêu của

bài báo này là xây dựng mơ hình dự báo giá xe ơ tơ dựa vào việc phân tích lượng hố dữ

liệu định tính và xây dựng hệ thống tri thức với dữ liệu định tính. Một mơ hình mới định

giá xe được đề xuất dựa vào dữ liệu thu thập từ nhiều nguồn với số lượng lớn và nhiều loại

thông tin về xe trộn lẫn giữa có cấu trúc và phi cấu trúc. Đầu tiên, dữ liệu được thu thập từ

các trang thương mại điện tử với nhiều trường dữ liệu số, phi số, phi cấu trúc. Sau đó, dữ

liệu được lưu trữ, làm sách. Tác giả đã đưa ra phương pháp định lượng hóa dữ liệu định

tính dựa vào tri thức học máy. Tiếp theo, phương pháp kết hợp mơ hình được sử dụng để

định giá xe ơ tơ. Cuối cùng, mơ hình được áp dụng vào tập hợp dữ liệu được thu thập ở thị

trường Việt nam trên 5 website lớn nhất về giao dịch ô tô. Bài viết này bao gồm bốn phần: phần giới thiệu nêu lên tầm quan trọng của vấn đề

định giá và các nghiên cứu đã có với giá xe hơi. Phần 3 sẽ trình bày mơ hình được đề xuất

để định lượng các giá trị định tính và mơ hình định giá xe. Phần 4 mô tả kết quả thực nghiệm bằng mơ hình đã đề xuất; cuối cùng là kết luận và thảo luận.

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>II.Kết quả nghiên cứu 1. Bài tốn định giá </b>

<b>1.1. Mơ tả bài tốn </b>

Dự đốn giá xe là một bài tốn phân tích hồi quy. Giá xe là biến phụ thuộc và các đặc điểm của xe (nhãn hiệu, dòng xe, năm đăng ký, loại hộp số, loại nhiên liệu sử dụng,...) là các biến độc lập. Chúng tôi biểu thị đầu vào bởi <i>X = {X ,</i><sup>1</sup> <i>X</i><sup>2</sup>, ..,<i>. X<sup>N</sup></i>}và biểu thị đầu ra của Y. Mơ hình hồi quy biểu diễn cho mối quan hệ phụ thuộc của Y vào X:

<b>1.2.2. Tập nhúng thực thể </b>

Chúng tôi ánh xạ các biến category vào khơng gian Euclide trong một bàitốn xấp xỉ hàm, nhúng thực thể của biến category. Ánh xạ được học bởi một mạng lưới thần kinh trong q trình đào tạo có giám sát tiêu chuẩn (Hình 1).

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Hình 1: Tập nhúng thực thể

Ý tưởng chính của cấu trúc nhúng dựa trên tri thức của chúng tôi như sau: ● Các thực thể có thể được mơ hình trong một không gian nhúng <i> A </i>với

số chiều là , véc-tơ <i>dE<sub>i</sub></i> ∈<i>R<sup>d</sup></i> được gán cho thực thể thứ .<i>i </i>

● Trong khơng gian nhúng này, có một phương pháp đo sự tương đồng cho bất kỳ loại mối quan hệ nào giữa các thực thể thực tế.

Đầu tiên, chúng ta ánh xạ từng giá trị của một biến rời rạc thành một véc-tơ để xấp xỉ <i>x<sub>i</sub></i> dưới dạng mã hóa one-hot:

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

ánh xạ chỉ gồm trọng số của lớp này và có thể được huấn luyện với cùng cách thức như một lớp mạng nơ-ron.

Các lớp nhúng<i> d<sub>i</sub></i> chiều là các siêu tham số cần xác định trước đó. Miền giới hạn của kích thước nhúng là từ 1 đến <i> m<sub>i</sub></i>− 1 với<i> m<sub>i</sub></i> là số lượng giá trị của <i> x<sub>i</sub></i>.Chúng tôi lựa chọn số chiều dựa trên kinh nghiệm thực tế.

Ví dụ, với<i> x<sub>i</sub></i> là biến rời rạc biểu diễn giá trị của thứ trong tuần. Với mỗi ngày trong tuần (Thứ hai, Thứ ba,...) chúng ta khởi tạo một véc-tơ mã hóa one-hot (biểu diễn bởi δ<sub>αβ</sub> như trong Hình 2. Số chiều của tập nhúng thực thể là ma trận 7x4 với ma trận hệ số ω<sub>αβ</sub> có α = 7 = 4 , β . Ban đầu, giá trị của ma trận trọng số được khởi tạo ngẫu nhiên. Thay vì biểu diễn véc-tơ one-hot cho từng ngày trong tuần, nó biểu diễn dựa trên ma trận trọng số với các giá trị véc-tơ thực thể nhúng tương ứng. Phép toán này giống với sử dụng mã hóa one-hot và phép nhân ma trận.

Hình 2: Lớp nhúng

Với ma trận one-hot là ma trận đơn vị, kết hợp với ma trận nhúng thực thể tạo ra một ma trận nhúng giống hệt (bao gồm các giá trị liên tục). Ma trận này sau đó được đưa vào mạng nơ-ron để huấn luyện với quá trình lan truyền ngược.

<b>1.2.3. Các mơ hình hồi quy </b>

A. Rừng ngẫu nhiên

Rừng ngẫu nhiên chủ yếu được sử dụng để phân loại, nhưng chúng tôi đã sử dụng nó như một mơ hình hồi quy bằng cách đưa bài toán về bài toán hồi quy. Những cái cây (weak-learner) được đào tạo trên các phần nhỏ của bộ dữ liệu một cách riêng lẻ và giúp mơ hình học các mẫu khơng thể đốn trước bằng cách gia tăng chiều sâu. Điều này khắc phục sự cố quá khớp bằng cách lấy trung bình các dự đoán của từng cây với mục tiêu giảm phương sai và đảm bảo tính nhất quán [4].

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

B. Light Gradient Boosting Machine (LightGBM)

LightGBM là một thuật toán gradient-boosting sử dụng các thuật toán dựa trên phần tử học là cây. LightGBM phát triển theo chiều dọc của cây trong khi các thuật toán khác phát triển theo chiều ngang của cây, có nghĩa là LightGBM phát triển mức độ thơng minh của cây. Nó sẽ chọn để phát triển các lá với mất mát delta cực đại. Thuật toán này được sử dụng để sắp xếp, phân loại, hồi quy và nhiều hoạt động học máy khác. [9].

C. Extreme Gradient Boosting (XGBoost)

XGBoost là một phần của họ thuật toán tăng cường và sử dụng GBM làm cốt lõi của nó. XGBoost bao gồm một mơ hình được chính quy hóa để tránh hiện tượng q khớp. Điều này tương tự với rừng tham lam được chính quy hóa, nhưng đơn giản hóa nhưng được đơn giản hóa các mục tiêu song song cũng như thuật toán.Mượn ý tưởng từ rừng ngẫu nhiên, lấy thêm mẫu cột là một kỹ thuật đơn giản nhưng hiệu quả. Trong khi việc học các nhận thức thưa là điều cần thiết trong các mơ hình khác như mơ hình tuyến tính, một số cơng trình về học cây đã thực hiện điều này một cách có quy tắc [10].

● Đối với thuộc tính category, chúng tơi tạo một lớp thực thể nhúng để định lượng biến định tính đó.

● Nối các vectơ nhúng ở trên và các thuộc tính còn lại với nhau để tạo thành một vectơ duy nhất. Coi nó như một lớp đầu vào thông thườngcủa một mạng nơ-ron.

● Xây dựng một mạng nơ-ron tiếp đó và huấn luyện cả mơ hình để dự đoán giá xe hơi.

● Lấy ra véc-tơ nối đã được huấn luyện và dùng nó như đầu vào cho một mơ hình kết hợp các mơ hình hồi quy khác nhau để đạt hiệu quả cao hơn.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

● Sử dụng tập đánh giá để đánh giá mơ hình nhằm đưa ra số chiều của lớp nhúng.

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Hình 3: Mơ hình đề xuất sử dụng lớp nhúng để lượng hố dữ liệu định tính.

<b>1.2.5. Phương pháp đo kết quả </b>

Hệ số xác định R-squared (<i>R</i><sup>2</sup>) là một phép đo thống kê biểu diễn tỉ lệ phương sai của biến phụ thuộc được giải thích trong một mơ hình hồi quy bằng cácbiến độc lập.

Cơng thức tính hệ số xác định như sau:

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<b>2. Thử nghiệm và kết quả </b>

<b>2.1. Case studies </b>

Trong phần này, chúng tôi sử dụng hai bộ dữ liệu để huấn luyện. Bộ dữ liệu thứ nhất được lấy từ kaggle, thu thập từ eBay-Kleinanzeigen - công ty con của eBay có trụ sở tại Đức. Bộ dữ liệu có hơn 370,000 bản ghi về xe cũ, với hơn 40 thương hiệu và mỗi bản ghi về xe có 20 trường dữ liệu khác nhau.

Bộ dữ liệu thứ hai, bao gồm dữ liệu xe ô tô tại thị trường Việt Nam, với nguồn dữ liệu từ 4 trang web: bonbanh.com, choxe.net, oto.com.vn và sanotovietnam.com. Việc thu thập dữ liệu sử dụng framework scrapy của python.

Bộ dữ liệu thu thập được gồm các trường dữ liệu sau:

<b>Trường dữ liệu Loại dữ liệu Mô tả </b>

động 4 bánh), …)

…)

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

color categorical Màu sắc của xe

nước)

Sau khi thu thập dữ liệu từ bốn website trên, tổng số bản ghi thu được là 33605. Dữ liệu sau đó được tiền xử lý qua các bước sau để dễ dàng đưa vào huấn luyện:

● Lọc ra những xe cũ và xoá cột trạng thái, xe cũ hay mới được tính trên cột kilomet đã đi.

● Bỏ đi các xe sản xuất trước năm 1990 và sau năm 2020

● Bỏ đi các xe có giá quá cao (trên 20 tỷ VNĐ) hoặc quá thấp (dưới 50 triệu VNĐ)

Bộ dữ liệu sau cùng bao gồm 10 trường dữ liệu sau khi tiền xử lý, bao gồm 8 trường dữ liệu định tính (brand, name, actuator, gearbox, seller, fuel, color, origin)và 2 trường dữ liệu số (kilometer, age)

<b>2.2. Áp dụng </b>

Với cả hai bộ dữ liệu Kaggle và Vietnamese, chúng tôi sử dụng mô hình đã được đề xuất. Sau khi lượng hoá các trường dữ liệu định tính, chúng tơi sẽ sử dụng mơ hình Random Forest như trong bài báo [4] để so sánh kết quả. Ngoài ra, chúng tơi cũng sử dụng một số thuật tốn được sử dụng rộng rãi như XGBoost và LightGBM.

<b>2.3. Kết quả </b>

</div>

×