Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.75 MB, 22 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
THÀNH PHỐ HỒ CHÍ MINH 2022-2023
<b>BỘ GIÁO DỤC VÀ ĐÀO TẠO</b>
<b>TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINHKHOA CƠNG NGHỆ THƠNG TIN</b>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">Lời đầu tiên, nhóm em xin gửi lời cám ơn sâu sắc thầy Nhã đã hướng dẫn, giúp đỡ nhóm em trong qua trình học tập. Qua bài tập nhóm này, em đã có thể nắm rõ hơn về bộ môn Hệ tư vấn thông tin, cũng như cách vận dụng bộ môn này vào thực tiễn, rút ra nhiều bài học và kinh nghiệm để có thể thu được kinh nghiệm thực tiễn một cách hiệu quả nhất. Do chưa có nhiều kinh nghiệm làm đề tài cũng như hạn chế về kiến thức, nên chắc chắn trong bài tập này sẽ không tránh khỏi những thiếu sót. Nhóm em rất mong nhận được sự nhận xét, ý kiến đóng góp, phê bình từ phía thầy để bài đồ án được hồn thiện hơn.
Em rất vui khi được học với thầy trong học phần này, nếu có thể em mong là sẽ gặp lại thầy trong nhiều học phần khác trong năm học tiếp theo. Cảm ơn thầy vì đã giúp đỡ bọn em trong khoảng thời gian vừa qua. Chúng em xin chân thành cảm ơn !
<b>Thành phố Hồ Chí Minh, ngày 18 tháng 3 năm 2023.</b>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3"><b>Lời cảm ơn...2</b>
<b>I. Tổng quan hệ thống tư vấn:...4</b>
<b>1. Giới thiệu về Hệ thống tư vấn (Recommender Systems – RS):...4</b>
<b>2. Khái niệm trong RS:...4</b>
<b>3. Thông tin phản hồi từ người dùng và hai dạng bài tốn chính trong RS:...4</b>
<b>II.Những lĩnh vực ứng dụng của hệ thống tư vấn:...5</b>
<b>1. Thương mại điện tử:...6</b>
<b>III.Chức năng hệ thống tư vấn:...9</b>
<b>IV.Phân loại hệ thống tư vấn:...10</b>
<b>1. Lọc cộng tác:...11</b>
<b>2. Lọc dựa trên nội dung:...13</b>
<b>3. Hệ thống gợi ý lai (Hybrid recommender systems):...16</b>
<b>4. Có bảy kỹ thuật lai cơ bản (hybridization techniques):...19</b>
<b>5. Các kỹ thuật khơng cá nhân hóa:...19</b>
<b>6. Áp dụng kỹ thuật mới:...20</b>
<b>KẾT LUẬN...21</b>
<b>Nguồn tham khảo...22</b>
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4"><b>I.</b>
<b>1. Giới thiệu về Hệ thống tư vấn (Recommender Systems – RS):</b>
Hệ thống tư vấn (Recommender Systems – RS) là một loại phần mềm hoặc công nghệ tích hợp các thuật tốn và dữ liệu để tư vấn và hỗ trợ người dùng trong việc giải quyết các vấn đề hoặc đưa ra các quyết định thông minh (là một hệ thống lọc thông tin đặc biệt, hệ thống cho phép lọc thông tin dựa trên sự quan tâm của người dùng và nội dung của văn bản).
Ví dụ, trong hệ thống bán hàng trực tuyến (chẳng hạn như Amazon), nhằm tối ưu hóa khả năng mua sắm của khách hàng (user), người ta quan tâm đến việc những khách hàng nào đã ‘yêu thích’ những sản phẩm (item) nào bằng cách dựa vào dữ liệu quá khứ của họ (dữ liệu này có thể là xếp hạng mà người dùng đã bình chọn trên sản phẩm, thời gian duyệt (browse) trên sản phẩm, số lần click chuột trên sản phẩm,..) từ đó hệ thống sẽ dự đốn được người dùng có thể thích sản phẩm nào và đưa ra những gợi ý phù hợp cho họ.
<b>2. Khái niệm trong RS:</b>
Hệ thống tư vấn trong RS (Recommendation System) là một phần mềm hoặc dịch vụ trực tuyến được thiết kế để giúp người dùng tìm kiếm và phân loại thơng tin theo sở thích cá nhân của họ. Hệ thống này sử dụng các thuật tốn máy học để phân tích lịch sử tìm kiếm và hoạt động của người dùng, từ đó đưa ra các gợi ý và khuyến nghị về các sản phẩm, dịch vụ hoặc nội dung liên quan.
<b>3. Thông tin phản hồi từ người dùng và hai dạng bài tốn chính trong RS:</b>
Thơng tin phản hồi từ người dùng là một yếu tố quan trọng trong hệ thống RS. Khi người dùng tương tác với hệ thống, ví dụ như đánh giá sản phẩm, nhấn vào các liên kết gợi ý hoặc đăng ký nhận thông tin, hệ thống sẽ thu thập các dữ liệu này để cải thiện khả năng tư vấn.
Có hai dạng bài tốn chính trong RS:
<b>- Bài tốn tiên đốn (Prediction problem): Bài toán này liên quan đến việc dự </b>
đoán sở thích của người dùng cho các sản phẩm, dịch vụ hoặc nội dung tương tự mà họ
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">đã tương tác trước đó. Để giải quyết bài toán này, hệ thống RS sử dụng các thuật tốn tiên đốn, ví dụ như collaborative filtering (lọc cộng tác) hoặc content-based filtering (lọc dựa trên nội dung).
<b>- Bài toán xếp hạng (Ranking problem): Bài toán này liên quan đến việc sắp xếp </b>
và đưa ra các gợi ý sản phẩm, dịch vụ hoặc nội dung tốt nhất cho người dùng. Hệ thống RS sử dụng các thuật toán xếp hạng như collaborative ranking (xếp hạng cộng tác) hoặc content-based ranking (xếp hạng dựa trên nội dung) để giải quyết bài toán này. Từ các kết quả dự đoán và xếp hạng, hệ thống RS đưa ra các gợi ý sản phẩm, dịch vụ hoặc nội dung tương tự mà người dùng đã tương tác trước đó, tạo ra trải nghiệm người dùng tốt hơn và tăng cường doanh số bán hàng cho các doanh nghiệp.
Hiện tại, các công ty lớn như Amazon, Netflix, Launch, Google, YouTube và Facebook đang sử dụng và dựa nhiều vào hệ thống giới thiệu để bán sản phẩm và dịch vụ của họ bằng cách giới thiệu các mặt hàng phù hợp nhất cho người dùng, giúp tăng doanh thu đáng kể.
- Recommendation Systems được chia làm 3 loại: Collaborative Filtering (lọc cộng tác) Content-Based Filtering (lọc dựa trên nội dung)
Hybrid Recommendation Systems (Hệ thống khuyến nghị lại)
Hầu như bất kỳ doanh nghiệp nào cũng có thể hưởng lợi từ một hệ thống đề xuất. Có hai khía cạnh quan trọng quyết định mức độ lợi ích mà một doanh nghiệp có thể đạt được từ công nghệ.
Độ rộng của dữ liệu: Một doanh nghiệp chỉ phục vụ một số ít khách hàng cư xử theo những cách khác nhau sẽ không nhận được nhiều lợi ích từ hệ thống đề xuất tự động. Con người vẫn tốt hơn nhiều so với máy móc trong lĩnh vực học hỏi từ một vài ví dụ. Trong những trường hợp như vậy, nhân viên của bạn sẽ sử dụng logic và sự hiểu biết định tính và định lượng của họ về khách hàng để đưa ra các khuyến nghị chính xác.
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">Độ sâu của dữ liệu: Có một điểm dữ liệu duy nhất trên mỗi khách hàng cũng khơng hữu ích cho các hệ thống đề xuất. Dữ liệu chuyên sâu về các hoạt động trực tuyến của khách hàng và, nếu có thể, mua hàng ngoại tuyến có thể hướng dẫn các đề xuất chính xác. Với khn khổ này, chúng ta có thể xác định các ngành có lợi ích từ các hệ thống đề xuất:
<b>1. Thương mại điện tử:</b>
Là một ngành công nghiệp nơi các hệ thống khuyến nghị lần đầu tiên được sử dụng rộng rãi. Với hàng triệu khách hàng và dữ liệu về hành vi trực tuyến của họ, các công ty thương mại điện tử phù hợp nhất để đưa ra các đề xuất chính xác.
<b>2. Bán lẻ:</b>
Dữ liệu mua sắm là dữ liệu có giá trị nhất vì nó là điểm dữ liệu trực tiếp nhất về ý định của khách hàng. Các nhà bán lẻ với kho dữ liệu mua sắm luôn đi đầu trong việc các công ty đưa ra các khuyến nghị chính xác.
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7"><b>3. Truyền thơng:</b>
Tương tự như thương mại điện tử, các doanh nghiệp truyền thông là một trong những doanh nghiệp đầu tiên nhảy vào các khuyến nghị. Thật khó để xem một trang web tin tức mà khơng có hệ thống đề xuất.
<b>4. Ngân hàng:</b>
Một sản phẩm thị trường đại chúng được tiêu thụ kỹ thuật số bởi hàng triệu người. Ngân hàng cho đại chúng và các doanh nghiệp vừa và nhỏ là những khuyến nghị hàng đầu. Biết được tình hình tài chính chi tiết của khách hàng, cùng với sở thích trong quá khứ của họ, cùng với dữ liệu của hàng nghìn người dùng tương tự, khá mạnh mẽ.
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8"><b>5. Viễn thơng:</b>
Nó chia sẻ động lực tương tự với ngân hàng. Các cơng ty viễn thơng có quyền truy cập vào hàng triệu khách hàng mà mọi tương tác đều được ghi lại. Phạm vi sản phẩm của họ cũng khá hạn chế so với các ngành công nghiệp khác, làm cho các khuyến nghị trong viễn thông trở thành một vấn đề dễ dàng hơn.
<b>6. Tiện ích:</b>
Động lực tương tự với viễn thơng, nhưng các tiện ích có phạm vi sản phẩm thậm chí cịn hẹp hơn, đưa ra các khuyến nghị khá đơn giản.
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">Ngoài lĩnh vực thương mại điện tử như đã thấy ở ví dụ trên, hiện tại RScũng được ứng dụng khá thành công trong nhiều lĩnh vực khác như trong giảitrí: gợi ý bài hát cho người nghe (ví dụ, hệ thống của LastFM - www.last.fm),gợi ý phim ảnh (ví dụ, hệ thống của Netflix - www.netflix.com), gợi ý các video clip (ví dụ, hệ thống của YouTube - www.youtube.com); trong giáo dục và đào tạo (gợi ý nguồn tài nguyên học tập như sách, bài báo, địa chỉ web,… cho người học)
Hệ thống tư vấn, hay còn gọi là hệ thống chun mơn, là một hệ thống có chức năng giúp người sử dụng tìm các thơng tin và tư vấn chuyên môn trong một lĩnh vực cụ thể. Hệ thống tư vấn thường bao gồm các chun gia và kiến thức chun mơn được tích hợp vào một hệ thống thông tin nhằm giúp người dùng có thể tiếp cận và tìm kiếm thơng tin một cách dễ dàng.
Các chức năng chính của hệ thống tư vấn bao gồm:
Cung cấp thông tin và kiến thức chuyên môn: Hệ thống tư vấn cung cấp cho người dùng những thông tin chuyên sâu và kiến thức chuyên môn trong lĩnh vực mà hệ thống tư vấn hướng đến.
Tư vấn, giải đáp thắc mắc: Hệ thống tư vấn giúp người dùng giải quyết các thắc mắc, vấn đề cụ thể trong lĩnh vực mà hệ thống chuyên trách.
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">Hỗ trợ ra quyết định: Bằng việc cung cấp thông tin và tư vấn của chuyên gia, hệ thống giúp người dùng có cơ sở để đưa ra quyết định đúng đắn hơn.
Tự động hóa quy trình: Một số hệ thống tư vấn có khả năng tự động hóa quy trình tư vấn và giải đáp thắc mắc ở một mức độ nào đó. Điều này giúp tiết kiệm thời gian và tăng độ chính xác.
Cá nhân hóa cho từng người dùng: Một hệ thống tư vấn tốt có thể cá nhân hóa thơng tin và lời khun cho từng người dùng dựa trên hồ sơ và nhu cầu của họ. Điều này làm cho sự tương tác trở nên phù hợp và hữu ích hơn.
Sẵn sàng mọi lúc mọi nơi: Người dùng có thể truy cập vào hệ thống tư vấn thông tin mọi lúc mọi nơi thông qua Internet. Điều này mang lại rất nhiều tiện lợi và linh hoạt.
Giảm chi phí: Hệ thống tư vấn tự động có thể xử lý nhiều câu hỏi đơn giản và lặp đi lặp lại, giúp giảm chi phí thuê nhiều nhân viên tư vấn. Tuy nhiên, các chuyên gia về con người vẫn cần thiết cho những vấn đề phức tạp hơn.
Tóm lại, một hệ thống tư vấn thông tin nhằm cung cấp cho người sử dụng những thông tin và lời khuyên chuyên biệt một cách thuận tiện, cá nhân hóa và tiết kiệm chi phí. Mặc dù hệ thống khơng thể thay thế hồn tồn các chun gia con người, nhưng nó đóng một vai trò quan trọng trong việc hỗ trợ và trợ giúp họ.
Hiện tại, trong RS có rất nhiều giải thuật được đề xuất, tuy nhiên có thể gom chúng vào trong các nhóm chính: nhóm giải thuật lọc theo nội dung (content-based filtering), nhóm giải thuật lọc cộng tác (collaborative filtering), nhóm giải thuật lai ghép (hybrid filtering) và nhóm giải thuật khơng cá nhân hóa (non-personalization).
<b>1. Lọc cộng tác: </b>
Một cách tiếp cận để thiết kế các hệ thống recommender được sử dụng rộng rãi là lọc cộng tác. Các phương pháp lọc cộng tác dựa trên việc thu thập và phân tích một lượng lớn thơng tin về hành vi, hoạt động hoặc sở thích của người dùng và dự đốn những gì người dùng sẽ thích dựa trên sự tương đồng của họ với người dùng khác. Một lợi thế quan trọng của phương pháp lọc cộng tác là nó khơng dựa vào nội dung phân tích máy và do đó nó có khả năng đề xuất chính xác các mục phức tạp như phim mà khơng u cầu “hiểu biết” về mục đó. Nhiều thuật toán đã được sử dụng để đo lường sự giống nhau của người dùng hoặc sự tương đồng về mặt hàng trong các hệ thống giới thiệu. Ví dụ, cách tiếp cận hàng xóm gần nhất (k-nearest neighbor) và Pearson Correlation được Allen triển khai lần đầu tiên.
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">Lọc cộng tác dựa trên giả định rằng những người đã đồng ý trong quá khứ sẽ đồng ý trong tương lai và rằng họ sẽ thích các loại mặt hàng tương tự như họ thích trong quá khứ.
Khi xây dựng mơ hình từ hành vi của người dùng, sự phân biệt thường được thực hiện giữa các hình thức thu thập dữ liệu rõ ràng và tiềm ẩn.
Ví dụ về thu thập dữ liệu rõ ràng bao gồm:
Yêu cầu người dùng xếp hạng một mục trên thang trượt. Yêu cầu người dùng tìm kiếm.
Yêu cầu người dùng xếp hạng một bộ sưu tập các mục từ yêu thích đến ít u thích nhất.
Trình bày hai mục cho một người dùng và yêu cầu anh ta / cô ấy chọn một trong số chúng tốt hơn.
Yêu cầu người dùng tạo danh sách các mục mà anh / cô ấy thích. Ví dụ về thu thập dữ liệu ngầm bao gồm:
Quan sát các mục mà người dùng xem trong cửa hàng trực tuyến. Phân tích thời gian xem mục / người dùng.
Lưu giữ một bản ghi các mục mà người dùng mua trực tuyến.
Lấy danh sách các mục mà người dùng đã nghe hoặc xem trên máy tính của họ. Phân tích mạng xã hội của người dùng và khám phá những lượt thích và khơng thích tương tự.
Hệ thống recommender so sánh dữ liệu đã thu thập với dữ liệu tương tự và khác nhau được thu thập từ những người khác và tính tốn danh sách các mục được đề xuất cho người dùng. Một số ví dụ thương mại và phi thương mại được liệt kê trong bài viết về các hệ thống lọc cộng tác .
Một trong những ví dụ nổi tiếng nhất về lọc cộng tác là lọc cộng tác theo từng mục (những người mua x cũng mua y), một thuật toán được phổ biến rộng rãi bởi hệ thống gợi ý của Amazon.com. Các ví dụ khác bao gồm:
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">Như đã đề cập chi tiết ở trên, Last.fm đề xuất âm nhạc dựa trên so sánh thói quen nghe của những người dùng tương tự, trong khi Readgeek so sánh xếp hạng sách cho các đề xuất.
Facebook , MySpace , LinkedIn và các mạng xã hội khác sử dụng tính năng lọc cộng tác để giới thiệu bạn bè, nhóm và các kết nối xã hội khác (bằng cách kiểm tra mạng kết nối giữa người dùng và bạn bè của họ). Twitter sử dụng nhiều tín hiệu và tính toán trong bộ nhớ để giới thiệu cho người dùng của họ rằng họ nên “theo dõi”.
Các phương pháp lọc cộng tác thường gặp phải ba vấn đề: Cold Start, khả năng mở rộng và sự thưa thớt (sparsity).
Cold Start: Các hệ thống này thường yêu cầu một lượng lớn dữ liệu hiện có của người dùng để đưa ra các đề xuất chính xác.
Khả năng mở rộng: Trong nhiều môi trường mà các hệ thống này đưa ra các khuyến nghị, có hàng triệu người dùng và sản phẩm. Do đó, một lượng lớn cơng suất tính tốn thường là cần thiết để tính tốn các gợi ý.
Sparsity: Số lượng các mặt hàng được bán trên các trang web thương mại điện tử lớn là cực kỳ lớn. Những người dùng tích cực nhất sẽ chỉ đánh giá một tập con nhỏ của cơ sở dữ liệu tổng thể. Do đó, ngay cả những mặt hàng phổ biến nhất cũng có rất ít xếp hạng.
Một loại thuật toán lọc cộng tác cụ thể sử dụng hệ số ma trận hóa (matrix factorization), kỹ thuật xấp xỉ ma trận cấp thấp (low-rank matrix approximation).
Các phương pháp lọc cộng tác được phân loại là bộ lọc cộng tác dựa trên bộ nhớ và dựa trên mơ hình. Một ví dụ nổi tiếng về các phương pháp dựa trên bộ nhớ là thuật toán dựa trên người dùng và các phương pháp dựa trên mô hình là Kernel-Mapping Recommender.
<b>2. Lọc dựa trên nội dung: </b>
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">Một cách tiếp cận phổ biến khác khi thiết kế hệ thống recommender là lọc nội dung . Phương pháp lọc dựa trên nội dung dựa trên mô tả về mặt hàng và hồ sơ về các tùy chọn của người dùng.
Trong hệ thống gợi ý dựa trên nội dung, từ khóa được sử dụng để mơ tả các mục và hồ sơ người dùng được xây dựng để chỉ ra loại mục mà người dùng này thích. Nói cách khác, các thuật tốn này cố gắng đề xuất các mục tương tự với các mục mà người dùng đã thích trong quá khứ (hoặc đang kiểm tra trong hiện tại). Cụ thể, các mục đề cử khác nhau được so sánh với các mục được đánh giá trước đây bởi người dùng và các mục phù hợp nhất được đề xuất. Cách tiếp cận này có nguồn gốc từ việc thu thập thông tin và nghiên cứu lọc thông tin .
Để tóm tắt các tính năng của các mục trong hệ thống, một thuật tốn trình bày mục được áp dụng. Một thuật toán được sử dụng rộng rãi là biểu diễn tf – idf (còn được gọi là biểu diễn không gian vectơ).
Để tạo hồ sơ người dùng, hệ thống chủ yếu tập trung vào hai loại thông tin: 1. Một mơ hình ưu tiên của người dùng.
2. Lịch sử tương tác của người dùng với hệ thống gợi ý.
</div>