Tải bản đầy đủ (.pdf) (42 trang)

(Tiểu Luận) Môn Quản Trị Cơ Sở Dữ Liệu Đề Tài Phân Tích Và Gợi Ý Giá Laptop Cho Người Dùng.pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.76 MB, 42 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>TRƯỜNG ĐẠI HỌC KINH TẾ ĐÀ NẴNG KHOA THƯƠNG MẠI ĐIỆN TỬ</b>

<b>MÔN: QUẢN TRỊ CƠ SỞ DỮ LIỆU</b>

<i><b>ĐỀ TÀI:</b></i>

<b> </b>

<b>Phân tích và gợi ý giá laptop cho người dùng </b>

<b>Giảng viên hướng dẫn : GV. Cao Thị NhâmNhóm: 5</b>

<b>Sinh viên thực hiện: </b>

1. Nguyễn Thị Như Bình (nhóm trưởng)2. Nguyễn Thị Giang

3. Lê Thị Mỹ Linh

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

2.2. Tạo database và cấu hình database sử dụng...

2.3. Kết nối tới SQL Server...

3. Mô tả dữ liệu...

4. Tiền xử lý dữ liệu với ngơn ngữ SQL...

4.1. Xóa dữ liệu khơng dùng...

4.2. Xử lý dữ liệu null...

4.3. Kiểm tra và loại bỏ dữ liệu trùng...

4.4. Tách lấy giá trị cần dùng...

4.5. Chuyển đổi dữ liệu...

4.6. Xóa cột khơng cần thiết và các ký tự đặc biệt...

5. Back up dữ liệu vừa tiền xử lý...

6. Trực quan hóa dữ liệu...

<b>III. XÂY DỰNG MƠ HÌNH GỢI Ý GIÁ...</b>

1. Tổng quan về mơ hình...

1.1. Các mơ hình dự báo nghiên cứu...

1.2. Chỉ số đánh giá mơ hình...

1.3. Xử lý dữ liệu trước khi đưa vào mơ hình...

2. Xây dựng hệ thống gợi ý giá laptop cho người dùng...

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>I.MỞ ĐẦU1. Lý do chọn đề tài</b>

Nền kinh tế Việt Nam trong những năm thế kỷ 21 đã ngày càng hội nhập vớinền kinh tế thế giới. Khi mà Việt Nam đã gia nhập WTO và Việt Nam vàCPTTP vào cuối năm 2019 với hơn 13 hiệp định thương mại tự do FTA, đây lànhững cơ hội thuận lợi cho các doanh nghiệp Việt Nam phát triển đặc biệt là hệthống Doanh nghiệp thương mại của Việt Nam có điều kiện đẩy mạnh pháttriển. Song môi trường hội nhập cũng nhiều rủi ro thách thức đối với doanhnghiệp Việt Nam, sự cạnh tranh quyết liệt trong ngành chọn mua tiêu dùng thiếtbị điện tử nói chung và máy tính Laptop nói riêng với nhiều đối thủ là doanhnghiệp nước ngồi với tiềm lực về vốn và kinh nghiệm quản lý sẽ là đối thủcạnh tranh trực tiếp đối với doanh nghiệp trong nước của Việt Nam. Do đó màviệc mở rộng phát triển sản phẩm điện tử như Laptop được các doanh nghiệptrong ngành điện tử tiêu dùng tại Việt Nam coi là chìa khóa thành cơng để nângcao năng lực và mở rộng quy mô Doanh nghiệp nhằm cạnh tranh doanh nghiệpnước ngoài.

Là quốc gia đông dân thứ 15 trên thế giới, Việt Nam với dân số hơn 97 triệungười là một thị trường Đông Nam Á nhiều tiềm năng. Với tỷ lệ tăng dân sốhằng năm là hơn 1%, là quốc gia đang phát triển với nhu cầu tiêu dùng nóichung và tiêu dùng Laptop nói riêng ở mức cao. Đây là cơ hội rất thuận lợi chocác doanh nghiệp điện máy phát triển mở rộng thị trường thu hút khách hàng.Tuy nhiên để thu hút được khách hàng thì các doanh nghiệp điện máy cần quantâm đến quyết định của khách hàng khi chọn mua Laptop. Với lý do đó, nhómem chọn đề tài “Phân tích và gợi ý giá laptop cho người dùng” để làm báo cáo.

<b>2. Chủ đề và mục đích phân tích</b>

- Chủ đề tìm hiểu: “Phân tích và gợi ý giá laptop cho người dùng”

- Mục đích: Cung cấp thơng tin hữu ích và khách quan về các sản phẩmlaptop có sẵn trên thị trường, nhằm giúp người tiêu dùng có cái nhìn rõràng và chọn lựa thơng tin chính xác khi mua sắm. Trong thế giới cơng

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

khác nhau. Ngồi ra, thơng tin về giá cả cũng là yếu tố quan trọng để ngườitiêu dùng có thể lựa chọn sản phẩm phù hợp với ngân sách của mình. Mụcđích cuối cùng của việc tìm hiểu này là giúp người dùng tối ưu hóa trảinghiệm sử dụng laptop của họ, đáp ứng được nhu cầu công việc, giải trí, haycác hoạt động khác một cách hiệu quả nhất. Bằng cách này, người tiêu dùngcó thể đưa ra quyết định thơng minh và hài lịng với sản phẩm mà họ chọn.

<b>II.PHÂN TÍCH DỮ LIỆU1. Thu thập dữ liệu</b>

Nhóm lựa chọn trang nhiều trang web để thực hiện thu thập dữ liệu laptop cótrên trang web. Sau khi thực hiện quy trình, thì nhóm thu thập được 1303 dịngdữ liệu (tính tại thời điểm nhóm thực hiện quy trình).

<b>2. Quy trình xây dựng cơ sở dữ liệu trên Azure2.1. Đăng ký Azure</b>

<b>Bước 1: Truy cập vào liên kết ‘</b>

<b>Bước 2: Nhập các thông tin cần thiết, tạo tài khoản</b>

<b>Too long to read onyour phone? Save</b>

to read later onyour computer

Save to a Studylist

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>2.2. Tạo database và cấu hình database sử dụng </b>

Sau khi đăng ký thành công

<b>Bước 1: Bấm chọn SQL database và chọn Create SQL database</b>

<b>Bước 2: Điền thông tin đầy đủ, chọn resource group. Bấm vào Create new để</b>

tạo Server.

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>Bước 3: Sau khi đã tạo server, chọn thiết lập cho DB</b>

<b>Bước 4: Bấm “Review + Create” và sau đó chỉ việc chọn Create ngồi chờ.</b>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>Bước 5: Sau khi thấy ‘Your deployment is complete’ bạn bấm Go to resource </b>

để xem Database Server mình vừa tạo ra.

Database Server đã được tạo thành công.

<b>2.3. Kết nối tới SQL Server </b>

<b>Bước 1: Thêm Client IP và Firewall</b>

Vì lý do bảo mật, chỉ các máy ảo/app service nằm chung resource group/virtualnetwork với database server mới có thể kết nối tới server đó.

Do vậy, bạn phải thêm IP của mình vào whitelist để khơng bị chặn. Chỉ cần bấm“Set server firewall” ở góc trên bên trái, bấm “Add Client IP” sau đó Save là ok.

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<b>Bước 3: Ta có thể xem table, query, edit dữ liệu một cách dễ dàng trên Azure</b>

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>3. Mô tả dữ liệu</b>

Index Columns Data type Description

1 F1 Float Số thứ tự của sản phẩm Laptop

2 Company Nvarchar(255) Tên của công ty sản xuất hoặc cung cấpsản phẩm Laptop

3 TypeName Nvarchar(255) Loại hình hoặc dòng sản phẩm cụ thểcủa Laptop.

4 Inches Float Độ lớn của màn hình được đo bằng đơnvị inches (in)

5 ScreenResolution

Nvarchar(255) Thông tin về độ phân giải của mànhình, bao gồm chiều rộng và chiều caohoặc các thơng số khác liên quan đếnchất lượng hình ảnh.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

6 Cpu Nvarchar(255) Thông tin về bộ xử lý (CentralProcessing Unit) của Laptop, bao gồmtên mã, tốc độ, và các đặc điểm kháccủa CPU.

7 Ram Nvarchar(255) Dung lượng bộ nhớ RAM (RandomAccess Memory) của Laptop, thườngđược đo bằng đơn vị gigabytes (GB).

8 Memory Nvarchar(255) Dung lượng bộ nhớ lưu trữ trongLaptop, có thể bao gồm ổ đĩa cứng(HDD) hoặc ổ đĩa SSD (Solid StateDrive), và được đo bằng đơn vịgigabytes (GB) hoặc terabytes (TB).

9 Gpu Nvarchar(255) Thông tin về bộ xử lý đồ họa, bao gồmtên mã, dung lượng bộ nhớ đồ họa, vàcác đặc điểm khác của GPU.

10 OpSys Nvarchar(255) Hệ điều hành mà Laptop sử dụng,chẳng hạn như Windows, macOS,Linux, vv.

11 Weight Float Trọng lượng của Laptop, thường đượcđo bằng đơn vị kilogram (kg).

12 Price Nvarchar(255) Giá của Laptop, có thể được đưa ratrong đơn vị tiền tệ cụ thể.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<b>4. Tiền xử lý dữ liệu với ngơn ngữ SQL 4.1. Xóa dữ liệu khơng dùng</b>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

- Tách giá trị cột Cpu

- Cập nhật dữ liệu cột 'Memory'

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

- Tách cột Gpu

<b>4.5. Chuyển đổi dữ liệu</b>

- Đổi giá trị cột Price (VND) về dạng triệu VNĐ

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<b>4.6. Xóa cột khơng cần thiết và các ký tự đặc biệt</b>

<b>5. Back up dữ liệu vừa tiền xử lý </b>

Thực hiện Back up dữ liệu trên SQL server

<b>Bước 1: Đăng nhập Server name. Nhấn chuột phải chọn Task → chọn </b>

Export Data-tier Application

<b>Bước 2: Xuất hiện cửa sổ Introduction → Next → Sau đó chọn đường dẫn lưu </b>

file backup →Next → Finish. Q trình sao lưu hồn tất

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

<b>6. Trực quan hóa dữ liệu</b>

<b>- Mối quan hệ giữa Company và Price </b>

Nhìn vào đồ thị ta có thể thấy: Hãng Dell chiếm số lượng bán ra gần như vượttrội so với các dòng Laptop khác vì nổi tiếng với sự bền bỉ. Cịn Razer có giá trịtrung bình các mặt hàng là cao nhất vì đây là hãng laptop hướng đến người dùnglà Game thủ với thiết kế từ mỏng nhẹ nhưng cấu hình tốt cũng như những dịngmáy tính với thiết kế hầm hố nên giá thường sẽ cao hơn mặt bằng chung.

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Mức giá của các hãng khác nhau đều đặc trưng:

● Hãng Razer đứng đầu với giá cao nhất, lên đến 52 triệu VND.

● Hãng Mediacom và Chuwi có giá trung bình thấp hơn, lần lượt là 4 triệuVND và 4.9 triệu VND.

● Hàng Verio nằm giữa với mức giá là 3 triệu VND.

Nhìn chung, sự chênh lệch giá này có thể phản ánh sự đa dạng về chất lượng,hiệu suất và thương hiệu giữa các hãng sản xuất

<b>- Mối quan hệ giữa TypeName và Price </b>

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Qua biểu đồ TypeName và Price, chênh lệch giá giữa các loại máy tính rất đángkể. Workstation có giá cao nhất (35 triệu), trong khi Netbook có giá thấp nhất(10 triệu), là lựa chọn phổ biến cho máy tính di động giá rẻ. Gaming có giá27.213 VND, phản ánh yêu cầu cao về hiệu suất. Ultrabook (24 triệu) và 2 in 1Convertible (20 triệu) nằm giữa, linh hoạt cho người dùng đòi hỏi di động vàhiệu suất. Biến động lớn về giá thể hiện đa dạng về cấu hình và tính năng, tạonhiều lựa chọn cho người tiêu dùng.

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Kích thước màn hình ảnh hưởng đáng kể đến giá của máy tính. Kích thước lớnnhư 15.4 inch và 18.4 inch có giá cao nhất, lần lượt là 39 triệu và 43 triệuVND. Ngược lại, các kích thước nhỏ như 11.6, 10.1, 14.1 và 17.0 inch có giáthấp nhất, đặc biệt là 14.1 inch chỉ 5 triệu VND. Sự chênh lệch giá này thể hiệnxu hướng giảm giá với kích thước màn hình giảm.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

Dữ liệu trực quan về mối quan hệ giữa độ phân giải và giá của các màn hìnhhiển thị cho thấy sự đa dạng trong phân khúc giá của các sản phẩm. Độ phângiải cao nhất, 3840x2160, có giá 38 triệu VND, trong khi độ phân giải thấp nhất,1366x768, có giá 8.6 triệu VND. Tuy có sự tăng giảm giá theo độ phân giải,nhưng không luôn tuân theo quy luật tuyến tính. Ví dụ, màn hình 2880x1800 cógiá cao hơn 3840x2160 với mức 39 triệu VND. Ngược lại, màn hình 3200x1800

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

Dữ liệu trực quan về mối quan hệ giữa loại CPU và giá của các máy tính chothấy sự đa dạng trong mức giá dựa trên CPU. CPU có giá cao nhất là Intel Corei7, với mức giá là 25.3412 triệu VND. Trái ngược, CPU có giá thấp nhất là IntelCeleron Dual, chỉ 4.9 triệu VND. Nhìn chung, có sự tăng giảm giá tùy thuộc vàoloại CPU. Các CPU cao cấp như Intel Core i7 và i5 thường có giá cao hơn,trong khi các CPU tầm trung và thấp cấp như Intel Celeron Dual và AMD E-series có giá thấp hơn. Điều này phản ánh sự ảnh hưởng quan trọng của CPUđối với giá cả trong thị trường máy tính.

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

Dữ liệu trực quan về mối quan hệ giữa CPU và giá của máy tính cho thấy sự đadạng đáng kể trong mức giá, tùy thuộc vào tốc độ của CPU. CPU có tốc độ caonhất, 3.1 GHz, đi kèm với giá cao nhất là 45.8 triệu VND. Ngược lại, CPU cótốc độ thấp nhất, 0.9 GHz, có giá thấp nhất là 10.99 triệu VND. Nhìn chung,giữa tốc độ CPU và giá có sự tương quan, với tốc độ cao thường đi kèm với giácao hơn. Tuy nhiên, cũng có những ngoại lệ, như CPU 1.5 GHz có giá thấp là4.6 triệu VND. Điều này cho thấy tốc độ CPU không phải là yếu tố duy nhấtquyết định giá của máy tính, và còn nhiều yếu tố khác như thương hiệu, hiệusuất và tính năng.

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

Dữ liệu trực quan về mối quan hệ giữa dung lượng RAM và giá của máy tínhcho thấy sự ảnh hưởng lớn của RAM đối với mức giá. RAM có dung lượngcao nhất, 64GB, đi kèm với giá cao nhất là 62.48 triệu VND. Ngược lại,RAM có dung lượng thấp nhất, 2GB, có giá thấp nhất là 3.8 triệu VND. Nhìnchung, có sự tương quan giữa dung lượng RAM và giá, với dung lượng RAMcao thường đi kèm với giá cao hơn. Điều này phản ánh xu hướng người tiêudùng chọn mức RAM phù hợp với nhu cầu sử dụng của họ, và đồng thời ảnhhưởng đáng kể đến giá cả của sản phẩm.

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

Dữ liệu trực quan về mối quan hệ giữa dung lượng bộ nhớ (Memory) và giá củamáy tính cho thấy ảnh hưởng lớn của bộ nhớ đối với mức giá. Bộ nhớ có dunglượng cao nhất, 2000GB (2TB), đi kèm với giá cao nhất là 16.6 triệu VND.Ngược lại, bộ nhớ có dung lượng thấp nhất, 32GB, có giá thấp nhất là 4.17 triệuVND. Nhìn chung, có sự tương quan giữa dung lượng bộ nhớ và giá, với dunglượng lớn thường đi kèm với giá cao hơn. Điều này phản ánh sự quan trọng củabộ nhớ đối với giá cả của máy tính và sự lựa chọn của người tiêu dùng dựa trênnhu cầu sử dụng.

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

Dữ liệu trực quan về mối quan hệ giữa dung lượng bộ nhớ SSD và giá của máytính cho thấy ảnh hưởng lớn của SSD đối với mức giá. SSD có dung lượng caonhất, 1000GB (1TB), đi kèm với giá cao nhất là 49.37 triệu VND. Ngược lại,SSD có dung lượng thấp nhất, 16GB, có giá thấp nhất là 3.5 triệu VND. Nhìnchung, có sự tương quan giữa dung lượng bộ nhớ SSD và giá, với dung lượnglớn thường đi kèm với giá cao hơn. Điều này phản ánh sự quan trọng của SSDđối với giá cả của máy tính, và người tiêu dùng thường chọn dung lượng SSDdựa trên nhu cầu lưu trữ và hiệu suất mong muốn.

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

Biểu đồ cho thấy sự ảnh hưởng của Flash Storage đối với mức giá. FlashStorage có dung lượng cao nhất, 512GB, đi kèm với giá cao nhất là 19.205 triệuVND. Ngược lại, Flash Storage có dung lượng thấp nhất, 32GB, có giá thấpnhất là 4.945 triệu VND. Nhìn chung, có sự tương quan giữa dung lượng bộ nhớFlash Storage và giá, với dung lượng lớn thường đi kèm với giá cao hơn. Điềunày phản ánh sự quan trọng của Flash Storage đối với giá cả của máy tính và sựlựa chọn của người tiêu dùng dựa trên nhu cầu lưu trữ và hiệu suất.

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

Dữ liệu về mối quan hệ giữa dung lượng bộ nhớ Hybrid và giá của máy tính chothấy sự đa dạng trong giá cả. Bộ nhớ Hybrid có dung lượng cao nhất là 1000GB(1TB), đi kèm với giá là 20.9 triệu VND. Ngược lại, dung lượng thấp nhất là0GB, có giá là 17.8281 triệu VND. Tổng quan, có thể thấy giá của máy tính vớibộ nhớ Hybrid tăng lên khi dung lượng tăng. Điều này phản ánh sự ảnh hưởngcủa dung lượng lưu trữ đối với giá cả, và người tiêu dùng có thể chọn lựa dựatrên nhu cầu lưu trữ cụ thể của họ.

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

<b>- Mối quan hệ giữa Gpu và Price </b>

Dữ liệu về mối quan hệ giữa GPU (Graphics Processing Unit) và giá của máytính cho thấy sự biến động đáng kể về giá cả. GPU có giá cao nhất là NvidiaQuadro, lên đến 38.6429 triệu VND. Trái ngược, GPU có giá thấp nhất là IntelHD Graphics, chỉ 1.46 triệu VND. Có thể thấy sự chênh lệch đáng kể về giágiữa các loại GPU khác nhau. Các GPU cao cấp như Nvidia Quadro có giá cao,trong khi các GPU thơng thường như Intel HD Graphics có giá thấp. Sự chênhlệch này thể hiện sự ưu tiên của người tiêu dùng đối với hiệu suất đồ họa và cáctính năng đặc biệt của GPU trong máy tính của họ.

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

<b>- Mối quan hệ giữa OpSys và Price </b>

Dữ liệu về mối quan hệ giữa hệ điều hành (OpSys) và giá của máy tính cho thấysự đa dạng trong phân khúc giá dựa trên hệ điều hành. Hệ điều hành có giá caonhất là macOS, lên đến 27.499 triệu VND, trong khi hệ điều hành có giá thấpnhất là Android, chỉ 6.82 triệu VND. Tổng quan, giá của máy tính phụ thuộc lớnvào hệ điều hành đi kèm. Hệ điều hành dành cho máy tính cá nhân nhưWindows 10 và Ubuntu Linux thường có giá ổn định, trong khi hệ điều hànhmacOS của Apple có giá cao hơn do đó là hệ điều hành chuyên dụng cho sảnphẩm của họ.

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

<b>III.XÂY DỰNG MƠ HÌNH GỢI Ý GIÁ1. Tổng quan về mơ hình</b>

<b>1.1. Các mơ hình dự báo nghiên cứu</b>

Trong bài nghiên cứu này, chúng ta sẽ sử dụng ba mơ hình để phân tích và gợi ýgiá laptop cho người dùng bao gồm: Linear Regression, Random Forest,Bagging.

<b>❖ Linear Regression</b>

Linear Regression là một thuật toán học có giám sát (supervised learning) trongMachine Learning, nó là một phương pháp thống kê dùng để ước lượng mốiquan hệ giữa các biến độc lập (input features) và biến phụ thuộc (output target).Linear Regression giả định rằng sự tương quan giữa các biến là tuyến tính, từ đótìm ra hàm tuyến tính tốt nhất để biểu diễn mối quan hệ này. Thuật toán này dựbáo giá trị của biến output từ các giá trị của các biến đầu vào. Mục tiêu củaLinear Regression là tìm ra hệ số góc và điểm giao với trục tung sao cho hàm dựđoán tuyến tính đạt được sai số nhỏ nhất.

Chúng ta xem xét mơ hình hồi quy tuyến tính đa biến, phương trình của nó códạng:

Trong phương trình này, a là điểm giao với trục tung, <small>b1, b2, ..., b</small> là các hệ sốgóc, <small>x</small><sub>1</sub><small>, x</small><sub>2</sub><small>, ... ,</small> là các biến độc lập, và ε là sai số. Mục tiêu của chúng ta là tìm racác hệ số của phương trình để tối thiểu hóa tổng bình phương sai số (RSS):

<small>RSS=</small>

<small>i=1m</small>

</div>

×