Tải bản đầy đủ (.pdf) (30 trang)

Phân lớp nguyên nhân sự cố thuê bao

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.58 MB, 30 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

NGUYEN DAC TIEN

PHAN LOP NGUYEN NHAN SU CO THUE BAO

<small>Chuyên ngành : HE THONG THONG TIN</small>

Mã số : 60.48.01.04

TOM TAT LUẬN VĂN THAC SĨ

<small>HÀ NỘI - 2017</small>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<small>Luận văn được hoàn thành tại:</small>

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIÊN THƠNG

Người hướng dẫn khoa học: TS. PHAN THỊ HÀ

<small>Phản biện 1: TS. Nguyễn Duy Phương</small>

<small>Phản biện 2: PGS TS. Nguyễn Hà Nam</small>

<small>Công nghệ Bưu chính Viễn thơng</small>

<small>Vào lúc: 08 giờ 30 ngày 05 tháng 08 năm 2017</small>

<small>Có thê tìm hiệu luận van tại:</small>

<small>- Thư viện của Học viện Cơng nghệ Bưu chính Viễn thông</small>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

-1-LỜI MỞ ĐẦU

<small>Trong thời gian qua, lĩnh vực dịch vụ viễn thông, công nghệ thông tin của Việt Nam</small>

đã đạt được những thành tựu nồi bật với tốc độ tăng trưởng vượt trội so với các ngành dịch vụ khác. Thị trường viễn thông và công nghệ thơng tin hiện nay bao gồm nhiều loại hình dịch vụ khác nhau. Ngành viễn thông và công nghệ thông tin của Việt Nam chỉ thật sự bắt đầu bước vào cạnh tranh từ năm 2003 sau khi một số nhà khai thác mới được cấp phép cung cấp dịch vụ. Cùng với đó, sự cạnh tranh giữa các nhà cung cấp dịch vụ cũng trở nên sôi động và quyết liệt hơn, đồng thời cũng tạo ra các hoạt động cạnh tranh gay gắt, thiếu lành mạnh, chèn ép cạnh tranh trong hoạt động cung cấp dịch vụ, thậm chí vi phạm luật cạnh tranh của một số doanh nghiệp trong lĩnh vực này.

Trong giai đoạn đổi mới, VNPT Bắc Giang ln là đơn vị tích cực trong ngành triển khai và đưa vào sử dụng công nghệ viễn thơng hiện đại với nhiều loại hình dịch vụ mdi,thé hiện những thành tựu mới nhất trong công nghệ Viễn thơng như truyền hình tương tác thế hệ mới MyTV, dịch vụ Internet cáp quang fiberVNN, các dich vụ truyền dữ liệu, gia tăng

<small>trên điện thoại di động...</small>

Với mục tiêu đưa VNPT trở thành doanh nghiệp có chất lượng dịch vụ cao nhất, VNPT Bắc Giang luôn xác định tầm quan trọng của công tác phân lớp nguyên nhân sự cố thuê bao nhằm đảm bảo chất lượng dịch vụ từ đó đưa tới sự hài lịng của khách hàng. Với mục tiêu phân lớp nguyên nhân hu hỏng sự có thuê bao nhằm đưa ra các biện pháp khắc

phục, đảm bảo chất lượng dịch vụ, tạo nên uy tín về thương hiệu VNPT trên địa bàn tỉnh

Bắc Giang.

Có một số phương pháp phân lớp được đã được sử dụng như phân lớp theo từ khóa, tuy nhiên kết quả đạt được còn hạn chế do thiếu các cơ sở lý thuyết vững chắc và đa số thường chỉ được sử dụng để giải quyết một trường hợp cụ thể.

Trong q trình triển khai, cơng nhân đường dây thuê bao thực hiện phân lớp thủ công nên dẫn tới tỷ lệ sai sót rất lớn. Qua nghiên cứu, một số sai sót về phân lớp thủ cơng có các nguyên nhân chủ yếu sau :

-_ Công nhân chưa nam vững về phân lớp thuê bao thủ công. - Cố tình phân lớp sai dé khơng bị giảm trừ điểm chất lượng

<small>- Trach nhiệm trong công việc chưa cao.</small>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

-2-Luan văn với dé tai "Phân lớp nguyên nhân sự cô thuê bao" nham giải quyết bài tốn phân lớp ngun nhân sự cơ một cách có hệ thống trên cơ sở lý thuyết vững chắc, đáp ứng yêu cầu quản lý, điều hành. Luận văn cũng giải quyết được việc phát sinh lớp nguyên nhân mới do yêu cầu quản lý đặt ra.

Nội dung luận văn được chia làm 3 chương, cụ thể :

Chương 1 : Tơng quan về bài tốn phân lớp ngun nhân sự có thuê bao, chương giới thiệu chỉ tiết về bài toán trong thực tế, phương pháp lưu trữ số liệu... Chương này cũng giới thiệu các đặc diém cơ bản của dữ liệu cần phân lớp và cụ thé về van đề đang gặp phải trong việc giải quyết bài toán hiện nay.

Chương 2 : Nghiên cứu các phương pháp học máy có giám sát để ứng dụng vào bài tốn phân lớp ngun nhân sự có th bao. Đặc biệt sẽ đi sâu vào 2 thuật tốn chính là SVM

<small>(Support Vector Machine) và Naive Bayes.</small>

Chương 3 :Trinh bày phan tiền xử ly dữ liệu, cu thé là xử lý các phản hồi từ công nhân xử lý đường dây thuê bao trên CSDL. Chương này cũng xây dựng dé liệu huấn luyện và kiểm thử nhằm đánh giá, đưa ra kết luận về lựa chọn mơ hình phân lớp có hiệu quả cao nhất đề đưa vào thực tiễn.

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

-3-CHUONG 1: TONG QUAN VE BAI TOAN PHAN LOP NGUYEN

NHAN SU CO THUE BAO

<small>1.1 Giới thiệu bài toán</small>

Tại VNPT Bắc Giang, việc triển khai hệ thống quản lý sự cố thuê bao đã được triển khai với mục tiêu điều hành công tác tiếp nhận, xử lý sự có th bao. Bên cạnh đó, hệ thống cịn giúp cho các cấp quản lý theo dõi, thống kê được những biến động về thuê bao có sự có, từ đó đưa ra các biện pháp nâng cao chất lượng mạng lưới, chất lượng phục vụ khách hàng.

Trong quy trình xử lý sự cố thuê bao, sau khi tiếp nhận, xử lý, công nhân kỹ thuật viễn thông cập nhật nguyên nhân sự cố thuê bao thực tế (Dạng Text), trên trường nguyen nhan. Đây là số liệu đóng một vai trò quan trọng nhằm phân lớp các nguyên nhân dẫn tới sự cơ với mục đích quản trị cho nhiều mục tiêu khác nhau.

Với yêu cầu hiện tại, các nguyên nhân sự cố thuê bao được phân thành 7 lớp như sau :

<small>Bang 1.1 Các lớp nguyên nhân sự cố thuê bao</small>

<small>Lớp Mô tả lớp</small>

<small>1 Nguyên nhân khách quan</small>

<small>2 Do dây thuê bao</small>

<small>3 Do mạng ngoại vi</small>

4 Do tông đài, truyền dẫn, GPON, AON 5 Do thiết bị dau cudi

<small>6 Do khách hàng</small>

<small>7 Nguyên nhân khác</small>

Hiện tại, việc phân lớp nguyên nhân sự có thuê bao được tiễn hành thủ công dựa trên các phản hồi từ công nhân viễn thông. Tuy nhiên, qua nghiên cứu cho thấy tỷ lệ sai sót trong phân lớp thủ cơng khá cao, chiếm tới 56,48 %, như vậy chỉ có khoảng 43,52 % số liệu được

<small>phân lớp đúng.</small>

Một trong các nguyên nhân chính của việc phân lớp sai ké trên là : - _ Công nhân chưa nam vững về phân lớp thuê bao

- Đơn vị cố tình phân lớp sai dé không bị giảm trừ điểm chất lượng

<small>- Trach nhiệm trong công việc chưa cao.</small>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

-4-Do việc phân lớp thiếu chính xác, dan tới hiệu quả khai thác số liệu khơng cao, thậm chí trong một số trường hợp gây tơn thất cho đơn vị vì đầu tư khắc phục không đạt hiệu quả như mong muốn.

Việc phân lớp chính xác sẽ giúp cho bộ phận quản lý đưa ra các quyết định khắc phục và giải quyết van đề một cách chính xác, đảm bảo hiệu quả cao, tránh tổn thất khơng đáng có trong cơng tác phịng ngừa các ngun nhân gây nên sự có thuê bao.

Như vậy, yêu cầu đặt ra cần có một cơng cụ hỗ trợ nhằm phân lớp chính xác hơn và

<small>hồn tồn khơng phụ thuộc vào chủ quan của cơng nhân đường dây th bao.</small>

Ngồi ra, nó cịn giải quyết thêm các yêu cầu trong tương lai về mặt quản lý là : Có thể phân lớp nguyên nhân mới dựa trên các số liệu đã có nhằm đáp ứng u cầu quản lý. Ví dụ, có thé phân lớp nguyên nhân sự có thiết bị đầu cuối là do mat cấu hình hay chỉ hỏng nguồn điện, adaptor.

Dé phân lớp bằng các công cụ học máy tự động, trường số liệu phản hồi của công nhân viễn thông sẽ được xử lý chuẩn hóa về mặt ngữ nghĩa, tách từ, loại bỏ từ dừng (Stop words) sau đó Vector hóa, biểu diễn trong khơng gian đặc trưng và thực hiện quá trình học máy (Training) bằng SVM hoặc Naive Bayes. Quá trình nay sẽ được trình bày chỉ tiết trong

<small>Chương 3 của luận văn.</small>

1.2 Phương pháp lưu trữ dữ liệu sự cỗ thuê bao

Số liệu sự cố thuê bao được lưu trữ bằng Database SQL Server với cấu trúc cụ thể

<small>như sau :</small>

<small>Bảng 1.2 Mô tả dữ liệu lưu trữ nguyên nhân sự cố thuê bao</small>

<small>Trường dữ liệu Diễn giải Ghi chú</small>

kiemtra Đánh dâu gọi kiêm tra sau xử lý

ghichu_kiemtra Ghi chú việc gọi kiểm tra sau xử ly baohonglai Đánh dấu báo hỏng lại của thuê bao

Tài khoản thực hiện việc kiểm tra sau

<small>tk_kiemtra xu ly</small>

tk_kiemtra_time Thoi gian kiểm tra sau xử lý

Chỉ kiêm tra về thái độ công diem Điểm kiểm tra nhân sửa chữa

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<small>Trong trường hợp báo hỏng</small>

<small>account Tai khoản Internet của khách hang Internet</small>

<small>Trong trường hợp báo hỏng</small> Somay Số máy điện thoại bị sự cố điện thoại

<small>hoten Ho tên khách hàng</small>

<small>diachi Dia chi khách hang</small>

<small>huyen Don vi quan ly thué bao</small>

giobao Giờ báo sự cô

<small>VIp Mức độ quan trọng của khách hàng</small>

<small>loaikh Loai khach hang</small>

<small>nguoisua_id Mã công nhân sửa chữa thuê baogiosua Giờ sửa chữa</small>

nguyennhan_id Lớp nguyên nhân sự cô thuê bao

<small>Phản hôi vê nguyên nhân sự cô từ</small>

nguyennhan công nhân viễn thông sau khi sửa chữa | Trường dữ liệu cần phân lớp lienhe Số máy liên hệ của khách hàng

Dữ liệu nguyên nhân sự cô thuê bao được khai thác bởi các phần mềm quản lý tại đơn vị như : Hệ thống thống kê -báo cáo về sự có thuê bao, hệ thống cham điểm BSC, hệ thống nhắn tin quan trị với các thuê bao VIP, hệ thống cơng thơng tin của VNPT Bắc Giang.

Trong đó, trường nguyennhan là trường dữ liệu dạng văn bản tiếng Việt, là nguyên nhân sự cố phản hồi từ công nhân đường dây thuê bao nhập vào CSDL trước khi khóa phiếu

sửa chữa. Day là trường số liệu sẽ được dùng dé phân lớp nguyên nhân các sự cé thuê bao.

1.3 Đặc điểm dữ liệu phản hồi của công nhân sửa chữa

Như đã nói ở mục 1.2, dit liệu phản hồi của công nhân sửa chữa đường dây thuê bao trong trường nguyenhan chứa các thông tin về nguyên nhân sự cố, tình trạng th bao và các thơng tin khác nhằm phản ánh thực tế trước và sau khi sửa chữa. Thông tin này cũng bao gồm các ghi chú của cơng nhân sửa chữa về sự có hoặc kết quả đã đạt được sau khi xử lý. Chính vì vậy, các thơng tin này thường ngăn gon và ít khi ở dưới dang một câu tiếng

<small>Việt hoàn chỉnh, mà thường chi ở dạng các từ hoặc cụm từ. Ví dụ : Dut dây, đứt cáp, mangsơng lỗi, cháy cáp...</small>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

-6-Trong khi đó việc viết tắt tên các thiết bị hoặc các thuật ngữ kỹ thuật thường thiếu chính xác hoặc các ghi chú biéu diễn đưới dang văn nói, khơng hồn chỉnh về câu tiếng Việt. Như vậy, có thể thấy rằng các phản hồi của công nhân sửa chữa là các thông điệp ngắn gon (Short Message) dạng text, bao gồm những thuật ngữ kỹ thuật, các cụm từ ngắn dé diễn giải công việc, nguyên nhân và ton tại ... sau khi tiếp nhận, sửa chữa thuê bao. Do vậy, ta có thé hiểu răng, đây là bài toán phân lớp văn bản với đoạn thông điệp ngắn gon (bao gốm cụm từ, thuật ngữ ngắn mô tả nguyên nhân, kết quả hay tình trạng sau khi xử lý sự cố thuê bao), khác với các bài toán phân lớp văn bản tiếng Việt với câu hay hay đoạn văn hoàn <small>chỉnh.</small>

1.4 Phân lóp nguyên nhân sự cỗ thuê bao

Phân lớp nguyên nhân sự cố thuê bao thành 07 lớp như đã chỉ ra ở Bang 1-1 là bài toán cần phải giải quyết.

1.4.1 Các cách tiếp cận bài toán phân lớp nguyên nhân sự cô thuê bao

a. Phân lớp văn bản dựa trên cách tiếp cận hệ chuyên gia

Điều trở ngại của cách tiếp cận này là hạn chế trong quá trình thu nhận tri thức từ tài liệu của các hệ thống chuyên gia. Nghĩa là, các luật phải được định nghĩa bằng tay bởi kỹ sư tri thức với sự giúp đỡ của chuyên gia về lĩnh vực được nêu trong tài liệu.

b. Phan lớp dựa trên cách tiếp cận máy học

Một số thuật toán dựa trên tiếp cận máy học được sử dụng pho bién hién nay gồm:

Cây quyết định, K-Nearest Neighbor (KNN), Support Vector Machine (SVM), thuật toán Naive Bayes (NB), Neural Network (NNet). Ngồi ra, cịn một số thuật toán được phát triển dựa trên các thuật tốn đã nói ở trên ví dụ với SVM ta có các thuật tốn cải tiễn như Fuzzy Support Vector Machines. Cũng có một số phương pháp người ta kết hợp các thuật toán lại với nhau như Support Vector Machines Nearest Neighbor (SVM-NN) việc kết hợp này sẽ tận dụng những ưu điểm và bổ sung những mặt yếu của các thuật toán.

1.4.2 Xây dựng hệ thống phân lớp nguyên nhân sự cố thuê bao

Phân lớp nguyên nhân sự cố th bao là cơng việc phân tích nội dung của phản hồi dạng văn bản của công nhân viễn thơng và sau đó ra quyết định (hay dự đốn) nguyên nhân này thuộc nhóm nào trong Bảng 1-1. Nguyên nhân được phân lớp có thể thuộc một nhóm, nhiều nhóm hoặc khơng thuộc nhóm mà ta đã định nghĩa trước.

1.4.3 Các giai đoạn chính xây dựng hệ thống phân lớp nguyên nhân sự có thuê bao

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

-7-Từ các thuật toán mà đã chọn trong hệ thống phân lớp nguyên nhân sự cố ta sẽ xây dựng bộ phân lớp cho hệ thống. Ở đây có thé hiểu là xây dựng mau dé làm mốc đánh giá

<small>cho quá trình phân lớp.</small>

1. Chuẩn 2. Tiền xử ; aan 4. Huấn 5. Đánh

bị dữ liệu lý how luyén gid

<small>Hình 1-1 Các giai đoạn xây dựng hệ thống phân lớp</small>

a. — Giai đoạn chuẩn bị số liệu :

Đây là giai đoạn đọc số liệu từ CSDL của hệ thống điều hành sửa chữa (Đã nêu tại mục 1.2 - Chương ]). Dé đọc số liệu từ hệ thống này, ta có thể dùng lập trình dé đọc hoặc

<small>dùng các cơng cụ có sẵn như Excel, SQL Server Management Tool và lưu trữ dưới dạngvăn bản hoặc bảng tính.</small>

b. Giai đoạn tiền xử lý số liệu

Đây là giai đoạn "làm sạch" số liệu, là quá trình Loại bỏ các từ đặc biệt, các từ trùng lặp số, ngày tháng năm...Sau đó chuyên đổi sang chữ thường (Nếu cần), tách từ tiếng Việt,

<small>;oại bỏ các từ dừng...</small>

c. Giai đoạn biểu diễn dữ liệu

Tùy theo công cụ huấn luyện của hệ thống phân lớp mà ta chọn các biéu diễn dữ liệu đầu vào tương ứng. Thường là các số liệu sẽ được Vector hóa bằng phương pháp đếm các từ xuất hiện trong mỗi nhóm theo TF (Term Frequency) hoặc IDF (Inverse Document Frequency), trong mơ hình SVM có thé được kết hợp cả 2 là TF-IDF. Sau khi biểu diễn dưới dạng các trọng số như trên thì ta có thể gọi số liệu đã được Vector hóa.

d. ˆ Giai đoạn huấn luyện

Đây là giai đoạn dùng phần mềm dé huấn luyện dữ liệu và lưu trữ kết quả huấn luyện dé làm căn cứ dự đoán các lớp nguyên nhân sự có thuê bao đối với số liệu đầu vào mới. Dé tăng tốc cho giai đoạn nay, các bước tiền xử lý số liệu và biéu diễn số liệu rất quan trong vì khi khơng gian Vector lớn, khối lượng tính tốn sẽ rất lớn, dẫn tới tăng thời gian huấn luyện

<small>dữ liệu</small>

<small>e. Giai đoạn đánh giá :</small>

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

-8-Sau khi kiểm thử sau huấn luyện, ta căn cứ vào các chỉ tiêu sau dé đánh giá và lựa chọn mơ hình, phương pháp biểu diễn sau cho tối ưu nhất :

e_ Độ chính xác: Dựa vào phan trăm của văn bản đúng so với thông tin đưa vào phân lớp. Tỉ lệ càng cao thì hệ thống sẽ được đánh giá là tốt.

e Tốc độ: Một hệ thống có tốc độ phân lớp nhanh nhưng độ chính xác thấp hoặc hệ thống có tốc độ thấp nhưng độ chính xác cao thì khơng được cho là hệ thống tốt vì vậy phải đảm bảo tính tốc độ và chính xác cho hệ thống.

e Dễ hiểu: Một hệ thống phân lớp dễ hiểu sẽ tạo cho người sử dụng tin tưởng hơn vào hệ thông, đồng thời cũng giúp cho người sử dụng tránh được việc hiểu lầm kết quả

của một luật được đưa ra bởi hệ thống.

Thời gian để học: Yêu cầu hệ thống phải học rất nhanh một luật phân lớp hoặc nhanh chóng điều chỉnh một luật đã được học cho phù hợp với thực tế.

1.5 Tổng kết chương

Chương này đã giới thiệu được tổng quát về bài toán phân lớp nguyên nhân sự cố thuê bao. Trong nội dung chương đã dé cập đến chi tiết các loại nguyên nhân cần phân lớp cũng như đặc trưng của dữ liệu cần phân lớp. Chương cũng đã giới thiệu sơ lược các giai đoạn xây dựng hệ thống phân lớp nguyên nhân sự cơ th bao cũng như các tiêu chí đánh giá mơ hình hệ thống.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

-9-CHUONG 2: MOT SO PHƯƠNG PHAP HỌC MAY CÓ GIAM SAT SU DUNG TRONG BAI TOAN PHAN LOP NGUYEN

NHAN SU CO THUE BAO 2.1 Tổng quan về học máy

2.1.1 Khái niệm về học máy

Hoạt động học là hoạt động tiếp thu những tri thức lý luận, khoa học. Nghĩa là việc học không chỉ dừng lại ở việc nắm bắt những khái niệm đời thường mà học phải tiễn đến những tri thức khoa học, những tri thức có tính chọn lựa cao, đã được khái quát hoá, hệ thống hoá.

Một số ứng dụng thường thấy:

- _ Xử lý ngôn ngữ tự nhiên (National Language Processing): xử lý văn bản, giao tiếp

<small>người máy, ..</small>

- _ Nhận dang (Pattern Recognition): nhận dạng tiếng nói, chữ viết tay, vân tay, thị giác máy (Computer Vision) ..Tim kiém (Search Engine)

2.1.2 Một số khái niệm co bản trong học máy a. Khong gian biểu diễn của dữ liệu

Không gian biểu diễn là một tập hợp:

- Ky hiệu là X, mỗi phần tử thuộc X có thé được gọi là các dữ liệu, các thé hiện (instance), các đối tượng hay các ví dụ.

- Mỗi phần tử S c X được biéu diễn bởi một tập gồm n thuộc tính S=(s), So, $3,...Sp)

- Mét đối tượng S cũng có thé được biêu diễn kết hợp với lớp liên thuộc của nó hay nói cách khác có thể được biểu diễn dưới dạng nhãn: z = (s, c).

b. Ban chất của các dit liệu

Ban chất của các dir liệu có thé là các giá tri số trong tập số thực, các giá tri roi rac, các giá trị nhị phân, dãy các phan tử trong một bảng chữ cái (alphabet), ... Khơng gian biéu diễn của dữ liệu có thể biểu diễn dưới dạng thuần nhất (cùng kiểu) hoặc dưới dạng trộn

<small>(không cùng kiểu).</small>

c. Tiền xử lý dữ liệu

Là quá trình xử lý đữ liệu đầu vào nhằm mục đích làm giảm số chiều của dữ liệu đầu

<small>vào, giảm sô chiêu của vân đê, xử lý nhiễu, ...</small>

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<small>-10-d. — Q trình roi rac hóa dit liệu</small>

<small>Có những thuật tốn học khơng xử lý được các dữ liệu mang tính liên tục. Do vậy,</small>

cần phải biến đổi các dữ liệu mang tính liên tục thành các giá tri rời rac.

e. Tập mẫu

Tập mẫu là tập hữu hạn các ví dụ. Có ba kiểu tập mẫu:

<small>- Tap mau hoc hay tap hoc.</small>

<small>- Tap mau hop thức hoá hay tập hợp thức.- Tap mẫu thử hay tập thử.</small>

f Q trình tìm kiếm trong khơng gian giả thuyết

Trong một không gian các giả thiết X, học trở thành bài tốn tìm kiếm giả thiết tốt nhất trong X. Nếu ta đánh giá mỗi giả thiết bởi một hàm "mục tiêu" thì ta xét học như một bài tốn tối ưu hố. Nghĩa là bài tốn tìm phần tử của X làm tối ưu hàm mục tiêu. Trong

học máy người ta thường dùng tối ưu không ràng buộc hoặc tối ưu có ràng buộc. Các phương pháp tối ưu hố thường dùng trong học máy như Gradient, nhân tử Lagrange...

<small>2.2 Phân loại học may</small>

<small>2.2.1 Học có giám sát</small>

Học có giám sát (supervised learning) là một kỹ thuật của ngành học máy nhằm mục đích xây dựng một hàm f từ dữ tap dữ liệu huấn luyện (Training data). Dữ liệu huấn luyện bao gồm các cặp đối tượng đầu vào và đầu ra mong muốn. Đầu ra của hàm ƒ có thé là một giá trị liên tục hoặc có thể là dự đoán một nhãn phân lớp cho một đối tượng đầu vào.

<small>2.2.2. Học khơng có giám sát</small>

<small>Học khơng có giám sát (unsupervised learning) là một phương pháp học máy mà dữ</small>

liệu huấn luyện là dữ liệu hoan toàn chưa được gan nhãn, nhằm tìm ra một mơ hình phù hợp với các quan sát. Học khơng có giám sát khác với học có giám sát ở chỗ, là đầu ra đúng tương ứng cho mỗi đầu vào là chưa biết trước. Trong học khơng có giám sát, một tập dữ liệu đầu vao thường được thu thập một cách ngẫu nhiên, và sau đó một mơ hình mật độ kết hợp

<small>sẽ được xây dựng cho tập dir liệu đó.</small>

<small>2.2.3 Học nửa giám sát</small>

<small>Học nửa giám sát (semi-supervised learning) là một phương pháp hoc máy mà dữ</small>

liệu huấn luyện là sự kết hợp cua đữ liệu được gan nhãn và dữ liệu chưa được gán nhãn.

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<small>-ll-2.3. Phương pháp Naive Bayes</small>

2.3.1 Co sở lý thuyết

a. Cơng thức xác suất cĩ điều kiện

Ý tưởng cơ bản của cách tiếp cận Nạve Bayes là sử dụng xác suất cĩ điều kiện giữa từ và các nhãn dé dự đốn xác suất nhãn của một câu văn cần phân lớp. Điểm quan trọng của phương pháp này chính là ở chỗ giả định rằng sự xuất hiện của tất cả các từ trong câu đều độc lập với nhau.

Định lý Bayes cho phép tính xác xảy ra của một sự kiện ngẫu nhiên A khi biết sự

<small>kiện liên quan B đã sảy ra. Cơng thức tính như sau:</small>

<small>P(B)Suy ra: P( AIB ). P(B ) = P( BIA). P(A ) = P(AB)</small>

P(A|B) =

<small>e P(A): xác suất say ra của riêng A mà khơng quan tâm tới B.</small>

<small>e P(B): xác suất say ra của riêng B mà khơng quan tâm tới A.</small>

<small>e P(BIA): xác suất (cĩ điều kiện) của sự kiện B xay ra, nếu biết rằng sự kiện A đã xảy ra.</small>

<small>e P(AIB): xác suất (cĩ điều kiện) của sự kiện A xảy ra, nếu biết rang sự kiện B đã xảy ra.</small>

b. Cơng thức xác suất đầy di

Gia sử Bị, B;..., B, là nhĩm day đủ các biến cố. Xét biến cơ A sao cho A xảy ra chỉ khi một trong các biến cĩ sử By, B;..., By xảy ra. Khi đĩ:

P(A) =) P(A|B,) + PB)

c. Phát biểu thuật tốn Naive Bayes

Thuật tốn Naive Bayes dựa trên định ly Bayes được phát biểu như sau:

<small>P(XY) _ P(X|Y)P(Y)</small>

"ŒlX) = Soy = Pex)

<small>Trong đĩ:</small>

<small>e _ Y đại diện một giả thuyết, giả thuyết này được suy luận khi cĩ được chứng cứ mới X.e P(X): xác suất X xay ra.</small>

<small>e PCY): xác suất Y xảy ra.</small>

<small>e P(XIY): xác suất X xảy ra khi Y xảy ra (xác suất cĩ điều kiện, khả năng của X khi Y đúng).</small>

<small>e P(YIX): xác suất Y xảy ra khi X xảy ra (xác suất cĩ điều kiện, khả năng của Y khi X đúng).</small>

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<small>-12-2.3.2 Bài toán phân lớp với Naive Bayes</small>

Phân lớp NB (Naive Bayes classifier) là một thuật ngữ trong xử lý số liệu thống kê Bayesian với một phân lớp xác suất dựa trên các ứng dụng định lý Bayes với giả định độc lập bền vững. Một thuật ngữ mô tả chỉ tiết cho những mô hình xác suất sẽ là “mơ hình đặc

<small>trưng khơng phụ thuộc”.</small>

Phân lớp Bayes đơn giản sử dụng trong trường hợp mỗi ví dụ được cho bằng tập các thuộc tinh <x), Xz...., xạ> và cần xác định nhãn phân lớp y, y có thé nhận giá trị từ một tập

e P(x; | c¡) được tính từ dữ liệu huấn luyện băng số lần x; xuất hiện cùng với c; chia cho số lần Cj xuất hiện.

e P(c;) là xác suất của nhãn trên tập huấn luyện. Ta có thể tóm tắt lại cách phân lớp này như sau:

Theo tinh chat độc lập điều kiện:

POXIG) = | | PGC) = PCr IG) * P@¿|0) + „+ PGa|6)

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

e P(C;) được tính dựa trên tần suất xuất hiện tài liệu trong tập huấn luyện.

e P(X, | C;) được tính từ những tập thuộc tinh đã được tính trong quá trình huấn <small>luyện.</small>

<small>2.4 Phương pháp SVM</small>

<small>2.4.1 Nội dung thuật tốn SVM</small>

Support Vector Machine (SVM) là một phương pháp phân lớp dựa trên lý thuyết học thống kê. Để đơn giản ta sẽ xét bài toán phân lớp nhị phân, sau đó sẽ mở rộng vấn đề ra cho bài tốn phân nhiều lớp. Xét một ví dụ của bài tốn phân lớp như hình vẽ 2-3 ở đó ta phải tìm một đường thắng sao cho bên trái nó tồn là các điểm đỏ, bên phải nó tồn là các điểm xanh. Bài toán mà dùng đường thắng để phân chia này được gọi là phân lớp tuyến tính

<small>(linear classification).</small>

<small>Hình 2-1 Đường phân lớp tuyến tinh</small>

Hàm tuyến tính phân biệt hai lớp như sau:

" (x) € RTM là véc to đặc trưng, ở làm hàm ánh xạ từ không gian đầu vào sang

<small>không gian đặc trưng.</small>

</div>

×