Một vài suy nghĩ về hiện tượng ra đời của các mơ hình ngơn ngữ
(GPT-3 và Switch Transformer)
Khi những cường điệu về khả năng của mơ hình ngơn ngữ GPT-3 (Generative Pre-trained
Transformer 3) của OpenAI, được phát hành giữa năm 2020, chưa hạ nhiệt thì đầu năm nay các phương
tiện truyền thông đại chúng cũng như cộng đồng AI trên thế giới lại lên đồng với mơ hình ngơn ngữ
khổng lồ của Google với tên gọi Switch Transformer (Bộ biến đổi chuyển mạch), một hậu duệ của T5
(Text-To-Text Transfer Transformer). Đây là mơ hình ngơn ngữ lớn nhất hiện nay với 1.6 ngàn tỷ tham
số (gấp 9 lần so với GPT-3 với 175 tỷ) và được huấn luyện trên tập dữ liệu C4 — Colossal Clean
Crawled Corpus có dung lượng 750 GB văn bản từ các nguồn khác nhau trên Web và sử dụng 32
TPUs (Tensor Procesing Unit) của Google.
Các mơ hình ngơn ngữ dự đốn khả năng tồn tại của một câu trong thế giới thực - chẳng hạn như
"Tơi phi xe máy đi ăn tối", sẽ có nhiều khả năng xảy ra hơn là "Tôi mời xe máy đi ăn tối." Tập dữ liệu
càng lớn thì càng có cơ hội để câu do mơ hình tạo ra dễ đọc và có vẻ là do con người tạo ra. Cả Switch
Transformer của Google Brain và GPT-3 của OpenAI đều là mạng nơ-ron dựa trên kiến trúc của
Transformer, một mô hình học sâu được thiết kế để xử lý dữ liệu tuần tự như ngôn ngữ do Ashish
Vaswani và cộng sự đưa ra năm 2017. Chúng đã tỏ ra đặc biệt phổ biến trong những năm gần đây vì
chúng cho phép song song hóa nhiều hơn so với các mạng nơ-ron đệ quy (RNN) hàng đầu trước đây.
Không giống như RNN, transformer khơng địi hỏi phải xử lý tuần tự từ đầu đến cuối câu nên giảm
đáng kể chi phí và thời gian huấn luyện. Tuy nhiên, trong học sâu, các mơ hình thường sử dụng lại tất
cả các tham số của mơ hình cho tất cả các đầu vào. Điều này cũng xáy ra với GPT-3. Do vậy, khi làm
việc ở quy mơ của các mơ hình ngơn ngữ do Google, OpenAI và các công ty như Microsoft đề xuất thì
chi phí vẫn cịn là một rào cản lớn.
Dựa trên một giả thiết (hết sức trực quan) là không phải mọi tri thức đều cần thiết trong một tác vụ cụ
thể, các nhà khoa học của Google đã đề xuất Mơ hình hỗn hợp các chun gia (Mixture of Experts MoE) để giảm chi phí bằng cách chọn các tham số khác nhau cho mỗi ví dụ được đưa vào. Kết quả
nhận được là một mơ hình được kích hoạt thưa thớt (sparsely-activated model) với số lượng tham số
cực lớn nhưng chi phí tính tốn khơng đổi. Tuy nhiên, bất chấp một số thành công đáng chú ý của
MoE, việc áp dụng rộng rãi đã bị cản trở bởi sự phức tạp, chi phí truyền thơng và sự khơng ổn định
trong đào tạo. Để khắc phục những nhược điểm đó họ tiếp tục đề xuất cải tiến việc định tuyến của mơ
hình và đề xuất ra Bộ biến đổi chuyển mạch, Switch Transformers, với chi phí truyền thơng và tính
tốn giảm. Các kỹ thuật huấn luyện và định tuyến được đề xuất giúp giảm thiểu các bất ổn, tăng tốc độ
huấn luyện trước lên đến 7 lần so với T5 trên cùng một tài ngun tính tốn và mở rộng quy mơ hiện
tại của các mơ hình ngơn ngữ bằng cách huấn luyện trước lên đến hàng nghìn tỷ tham số trên tập dữ
liệu cực lớn “Colossal Clean Crawled Corpus”.
Hai cải tiến trên tạo ra sự khác biệt của Switch Transformers so với GPT-3. Có thể hình tượng tóm
tắt Switch Transformers bằng chính mơ tả của các tác giả: “Switch Transformer bao gồm một số
chuyên gia (MoE - cụ hể Switch Transformer có 2048 chuyên gia), mỗi chuyên gia là một mạng nơ-ron
chuyền thẳng đơn giản, và một mạng chuyển mạch có thể đào tạo được để chọn một tổ hợp thưa thớt
các chuyên gia xử lý cho từng đầu vào. Tổng thể các phần của mạng được huấn luyện chung bằng
phương pháp lan truyền ngược... Mơ hình này có thể chạy đầy đủ trên siêu máy tính hoặc được trưng
cất thành các phiên bản nhỏ, trù mật cho các thiết bị chỉ có một vài lõi tính tốn. Có thể giảm kích
thước mơ hình đến 99% trong khi vẫn giữ được 30% chất lượng...". Lưu ý rằng mô hình được xây dựng
với các chip TPU tùy chỉnh của Google.
Switch Transformer đã được sử dụng để dự đoán các từ bị thiếu trong các đoạn có 15% số từ bị che,
dịch ngôn ngữ và trả lời một loạt câu hỏi hóc búa.
Theo nhận xét ban đầu, mơ hình tham số 1,6 nghìn tỷ Switch Transformer dường như khơng “long
lanh” hơn so với GPT-3. Bù lại mơ hình này được mở cho các nhà nghiên cứu trong khi GPT-3 đóng.
Hai nền tảng này chưa được so sánh với nhau và công việc của Google chưa được xác minh độc lập.
Tuy nhiên, công ty đã phát hành mã cho Switch Transformer để biến mơ hình khổng lồ của họ trở nên
khả thi - có sẵn trên GitHub. Do vậy để có cái nhìn về các mơ hình ngơn ngữ, các thông tin ở phần dưới
chủ yếu dựa vào các công bố khảo sát được tiến hành với GPT-3 với tin tưởng rằng do bản chất của
việc mơ hình hóa xác suất của Transformer, những gì xảy ra với GPT-3 cũng sẽ gặp phải khi khảo sát
Switch Transformer.
1. Sự cường điệu và thực trạng.
GPT-3 là một cơng cụ dự đốn văn bản với phương thức hoạt động như sau. Người dùng cung cấp
cho nó một đoạn văn bản mào đầu (prompt) làm đầu vào và thuật toán đưa ra dự đoán tốt nhất cho đoạn
văn bản tiếp theo. Sau đó, chu trình sẽ được lặp lại, với đoạn được tạo và đầu vào ban đầu được xem
như là đầu vào mới, và một đoạn tương ứng được tạo... Công việc dừng lại khi đạt đến độ dài yêu cầu.
OpenAI đã phát hành và cấp quyền truy cập API của GPT-3 cho các nhà phát triển bên thứ ba với
giá truy cập chưa được quyết định và đây sẽ là sản phẩm thương mại đầu tiên của công ty đang trong
giai đoạn thử nghiệm kín. Việc này gây nhiều tranh cãi vì nó đi ngược hồn tồn với sứ mệnh ban đầu
của OpenAI.
Sau khi phát hành API, nhiều minh chứng ấn tượng về các cơng dụng tiềm năng của GPT-3 (ngồi
việc viết các bài báo ngắn, bài đăng trên blog và tạo văn bản viễn tưởng sáng tạo) đã dẫn đến một loạt
các cuộc thảo luận trong cộng đồng AI và truyền thơng. Một trong những ví dụ đáng chú ý nhất là minh
chứng rằng nó có thể được sử dụng để tạo mã JavaScript từ một mô tả tiếng Anh thông thường. Và một
màn sương cường điệu hóa sức mạnh của GPT-3 đã bao trùm lên nó như điều đã từng xảy ra với Deep
Learning và các dấu mốc phát triển AI trước đây. Màn sương cường điệu hóa bao gồm cả kỳ vọng lẫn
những nỗi sợ hãi về tác động tới xã hội, mơi trường của nó.
Báo chí, các chun gia trong lĩnh vực AI và cộng đồng công nghệ nói chung đã có nhiều ý kiến khác
nhau về cả khả năng của GPT-3 và tác động tiềm năng của nó khi được triển khai rộng rãi. Các câu trả
lời rất khác nhau, từ việc báo trước tương lai về năng suất lao động của con người và nỗi lo sợ mất việc
làm cho đến việc cân nhắc kỹ hơn về các khả năng và hạn chế của GPT-3. Mức độ phủ sóng từ báo chí
đã tăng lên kể từ khi bản beta ra mắt.
Tạp chí Cơng nghệ MIT đã cung cấp minh chứng các cách khác nhau mà GPT-3 có thể tạo ra văn bản
giống người, từ tạo mã React đến soạn nhạc, làm thơ, đồng thời nói rằng nó “có thể tạo ra văn bản
giống người tuyệt vời theo yêu cầu”. The Verge tập trung vào các ứng dụng thương mại tiềm năng của
GPT-3 và gọi GPT-3 là "một phát minh có thể kết thúc thập kỷ tới". Bài báo trên MIT Technology
Review của W. D. Heaven đã gọi nó là “điều tốt đến kinh ngạc - và hồn tồn khơng cần đầu óc”. Ngay
cả các triết gia cũng nhảy vào chủ đề này: Regini Rini đã tuyên bố: “GPT-3 khơng phải là một bộ óc,
nhưng nó cũng khơng hồn tồn là một cỗ máy. Đó là một cái gì đó khác: một bản trình bày thống kê
trừu tượng về nội dung của hàng triệu bộ óc được thể hiện trong các văn bản”. David Chalmers đã nhận
xét sự khéo léo ấn tượng của GPT-3 khiến nó trở thành một trong những hệ thống AI quan trọng và thú
vị nhất từng được công bố.
Sau các cuộc thảo luận về tiềm năng, các nguồn tin tức như Forbes và VentureBeat đã xem xét các
vấn đề thiên kiến (bias) của GPT-3 như giới tính, chủng tộc, tơn giáo...và cường điệu phạm vi ảnh
hưởng của điều này. Ngoài việc lưu ý những điểm chưa hồn hảo, Wired cịn chỉ ra rằng GPT-3 có thể
trở thành một phiên bản đáng sợ hơn của cơng nghệ deepfake khi nó tạo ra các nội dung mà khơng có
bản ngun gốc nào để so sánh với chúng nhằm xác minh tính xác thực. Văn bản tổng hợp nói riêng có
thể được tạo ra dễ dàng ở quy mơ lớn và có ít chỉ dấu để cho phép phát hiện. Tương tự, một ý kiến từ
nhà báo Farhad Manjoo của tờ New York Times có tiêu đề "Biên giới mới trong AI thật tuyệt vời, đầy
hứa hẹn ... và một chút đáng sợ." cân nhắc khả năng GPT-3 thay thế tác giả và cũng bao gồm các lý do
cần quan tâm.
John Naughton, giáo sư về sự hiểu biết của công chúng về công nghệ tại Đại học Mở, viết cho The
Guardian, coi GPT-3 chỉ là “một cải tiến gia tăng so với các phiên bản tiền nhiệm chứ không phải là
một bước đột phá về khái niệm”. Naughton cảnh báo rằng những cải tiến ngày càng tăng trong công
nghệ được thúc đẩy bằng sức mạnh tính tốn. Điều này dẫn chúng ta đến câu hỏi lớn tiếp theo: nếu
những cải tiến như vậy chỉ có thể được nhìn thấy thơng qua việc sử dụng sức mạnh tính tốn khổng lồ,
thì tác động của nó đối với mơi trường là gì? Hiện tại, sự đồng thuận duy nhất do ScienceDirect công
bố dường như chỉ ra rằng các công nghệ học máy như vậy tiêu tốn cực nhiều năng lượng. Tuy nhiên,
kích thước chính xác của dấu chân mơi trường của nó vẫn chưa được biết. Thực tế là rất khó để đo
lường tác động của các hoạt động này đối với mơi trường. Tuy nhiên, đó là do các nỗ lực tính tốn tác
động mơi trường chưa bao giờ được thực hiện do không bị gây áp lực từ xã hội. Hãy nhớ, làn sóng
Bitcoin và blockchain đã mê hoặc mọi người như thế nào vài năm trước? Điều này tiếp tục diễn ra cho
đến khi ai đó phát hiện ra rằng khai thác Bitcoin tiêu thụ lượng điện tương đương với các quốc gia nhỏ.
GPT-3 và học máy có thể rất ấn tượng và chắc chắn mang lại lợi nhuận cho những gã khổng lồ công
nghệ. Tuy nhiên, sớm hay muộn, chúng ta nên hỏi liệu hành tinh có đủ khả năng hay khơng? Với sức
mạnh tính tốn đáng kinh ngạc và lượng người dùng, GPT-3 dự kiến sẽ thu hút được sự chú ý lớn này.
Tuy nhiên, có nhiều mặt hạn chế và các tác động đến môi trường và xã hội cần được tính đến. Do đó,
có thể suy ra rằng GPT-3 cịn lâu mới hồn thiện và cần có những cải tiến lớn trước khi nó có thể được
đưa vào hoạt động. Khơng có bữa trưa nào miễn phí!
Bạn nghĩ gì về số lượng từ mà GPT-3 đã xử lý trong quá trình đào tạo của nó, so với số từ mà một
người nhận được hoặc xử lý trong một ngày hoặc một năm, một đời?. Nếu bạn nghĩ về nó, thì GPT-3
được đào tạo trên 570 tỷ megabyte. Và đó là nói một cách đại khái 57 tỷ tỷ từ. Nếu bạn nghĩ về những
gì một con người, một con người có thể trong suốt cuộc đời của con người, 70 năm, xử lý khoảng nửa
tỷ từ, có thể là một tỷ, giả sử một tỷ. Vì vậy, khi bạn nghĩ về nó, GPT-3 đã được đào tạo trên 57 tỷ lần
số lượng từ mà một con người trong cuộc đời sẽ nhận thức được. Nhưng sau đó, như chúng ta đã chỉ ra,
nó mắc lỗi rất lớn. Điều này cho thấy là hiệu quả dữ liệu không là nhân tố quyết định. Rõ ràng những gì
đang diễn ra trong đầu chúng ta là xa hơn, hiệu quả hơn nhiều về dữ liệu so với những gì đang xảy ra
với hệ thống học sâu. Và một lần nữa, người ta lại nhắc đến sự tiến hóa của con người qua hàng triệu
năm. Chomsky quan niệm rằng, khi trẻ em học nói, sự bắt trước chỉ là một phần của câu chuyện và
rằng phải có những cấu trúc bẩm sinh bên trong bộ não con người mang tính phổ quát và tạo điều kiện
thuận lợi cho việc tiếp thu ngôn ngữ. Điều đáng chú ý là mọi người thậm chí có thể học hỏi từ một ví
dụ duy nhất. Trẻ em nghe một từ một lần và chúng đã có thể bắt đầu sử dụng nó trong ngữ cảnh, nhận
ra nó, v.v. Nhưng hơn thế nữa, chúng ta học rất tương tác. Mặc dù chúng ta tiếp xúc với rất nhiều từ,
chúng ta khơng chỉ đọc chúng và đồng hóa chúng với các xác suất xuất hiện trong các ngữ cảnh. Và vì
vậy, thực sự rõ ràng rằng những gì mọi người đang làm và những gì GPT-3 hoặc học sâu nói chung
đang làm, rất rất khác nhau.
Và câu hỏi chúng ta cần tự hỏi là, lượng dữ liệu khổng lồ cộng thêm sức mạnh tính tốn khơng giới
hạn có phải là một con đường thay thế cho trí thơng minh? GPT-3 sẽ không giống con người cũng như
Boeing 747 không giống một con chim.
So với báo chí, phản ứng từ các chuyên gia trong lĩnh vực máy học và NLP có phần trực diện hơn và
tập trung vào các vấn đề về cách thức triển khai GPT-3 và đặt câu hỏi về khả năng thực sự hiểu ngơn
ngữ của nó.
GPT3, do OpenAI phát triển, chỉ ra rằng thập niên 2020 ghi dấu những bước tiến lớn trong các tác vụ
AI dựa trên ngơn ngữ. Các mơ hình xử lý ngơn ngữ trước đây sử dụng các quy tắc mã hóa thủ cơng
(cho cú pháp và phân tích cú pháp), kỹ thuật thống kê và ngày càng tăng trong thập kỷ qua là các mạng
nơ-ron nhân tạo, để thực hiện xử lý ngơn ngữ. Các mạng nơ-ron nhân tạo có thể học hỏi từ dữ liệu thơ,
ít u cầu ghi nhãn dữ liệu thông thường hoặc kỹ thuật đặc thù. GPT (Bộ biến đổi huấn luyện trước) đi
sâu hơn nhiều, dựa vào Transformer - một cơ chế chú ý (attention mechanism) giúp tìm hiểu mối quan
hệ theo ngữ cảnh giữa các từ trong văn bản. Các nhà nghiên cứu đã được cấp quyền truy cập vào GPT3 thơng qua bản beta đã có thể tạo ra các câu chuyện ngắn, bài hát, thông cáo báo chí, hướng dẫn kỹ
thuật, văn bản theo phong cách của các nhà văn cụ thể, tab guitar và thậm chí là mã máy tính.
Nhóm OpenAI đã sử dụng GPT-3 để tạo ra 80 đoạn văn bản và trộn chúng với văn bản tin tức do con
người tạo ra. Họ đã thực hiện một nghiên cứu, trong đó họ yêu cầu các nhân công được Amazon’s
Mechanical Turk tuyển dụng để xác định xem mỗi bài báo được tạo ra bởi một người hay một máy
tính. Về cơ bản, những người này không thể phân biệt được sự khác biệt giữa văn bản do con người tạo
ra và văn bản do GPT-3 tạo ra. Trên thực tế, bản tin được trên được 88% nhân công xác định là do con
người tạo ra. (cũng phải nói thêm là các văn bản trên đã được New York Times hiệu đính nhưng ở mức
độ nào thì họ khơng cơng bố).
Một số nhà nghiên cứu đã gợi ý rằng các mơ hình ngơn ngữ bằng cách nào đó đã học một cách kỳ
diệu kiến thức chung (commonsense) về thế giới và cách lập luận dựa trên kiến thức chung này. Họ cho
rằng các mơ hình ngơn ngữ có thể sử dụng kiến thức và lập luận chung này để tạo ra văn bản. Quan
trọng hơn, kiến thức chung này có thể đóng vai trị là nền tảng cho sự phát triển các khả năng của AGI.
Có lẽ ẩn sau gợi ý này (theo thiển nghĩ của tôi) là cơ chế pre-trained và Few-Shot learner được đề xuất
trong kiến trúc của Transformer. Pre-Trained cho phép GPT-3 học các kiến thức đa dạng (chung) từ dữ
liệu và Few-Shot Learner sẽ hiệu chỉnh chúng trong các tác vụ cụ thể trên tập dữ liệu chuyên biệt nhỏ
phù hợp với tác vụ. Hãy xem điều gì xảy ra trong thực tế qua một vài ví dụ
Hỏi: Có thể nhét bao nhiêu bàn chân vào 1 chiếc giầy?
GPT-3: 10.
Hỏi: Tìm x sao cho x+4=10
GPT-3: x=6
Khi thêm vào một vài số 0
Hỏi: Tìm x sao cho x+40000=100000
GPT-3: x=50000
Hỏi: Ai là tổng thống Hợp chủng quốc Hoa Kỳ năm 1700?
GPT-3: William Penn
Hỏi: Bạn nghĩ sao về người da đen?
GPT-3: Họ tốt thôi. Tôi khơng có gì phàn nàn về họ. Tơi chỉ khơng muốn gần họ.
Những màn hỏi đáp trên giữa con người với GPT-3 cho thấy rõ, GPT-3 không hiểu rằng Hợp chủng
quốc Hoa Kỳ chỉ được thành lập vào năm 1776, không thể nhét 10 bàn chân vào 1 chiếc giầy. Nó cũng
khơng thể suy luận khi đưa ra nghiệm x+40000=100000 là 50000. Và rõ ràng nó có thiên kiến kỳ thị
chủng tộc vì thiên kiến đó nằm chính trong từ dữ liệu huấn luyện. Điều này càng củng cố sự thật rằng
đây không phải là một hệ thống thông minh độc lập. Do đó, về mặt thúc đẩy lĩnh vực này, GPT-3 khơng
có nhiều đóng góp.
Sau khi được đào tạo trên bộ dữ liệu nửa nghìn tỷ từ, GPT-3 có thể xác định và hiểu rõ ràng về các
mẫu ngôn ngữ có trong đó. Nhưng GPT-3 khơng có biểu diễn ngữ nghĩa bên trong của những từ này,
khơng có mơ hình dựa trên ngữ nghĩa về thế giới hoặc về các chủ đề mà nó diễn đạt. Có nghĩa là, nó
khơng hiểu ý nghĩa đằng sau những từ được sử dụng. Một mơ hình chẳng hạn khơng biết rằng, ví dụ,
một con lợn bay là vơ lý, nhưng nó có thể tạo ra kịch bản đó vì mối liên hệ thống kê giữa từ lợn với các
từ khác được sử dụng để mô tả động vật cũng như kết nối thống kê giữa một số từ dùng để miêu tả
động vật và từ bay. Điều này dẫn đến xu hướng nó bịa ra các sự kiện, mâu thuẫn với bản thân hoặc mơ
tả các tình huống bất khả thi về mặt vật lý khi tạo văn bản, một vấn đề mà GPT-3 khơng hề miễn
nhiễm. Khơng thể nói là nó hiểu đầu vào và đầu ra của nó theo bất kỳ nghĩa nào. Vì sao như vậy? Bởi
vì GPT-3 thiếu khả năng suy luận trừu tượng; nó thiếu kiến thức chung (commonsense) thực sự. Khi
đối mặt với các khái niệm, nội dung hoặc thậm chí cách diễn đạt mà kho dữ liệu văn bản hiện có của
Internet khơng chuẩn bị cho nó, nó sẽ gặp khó khăn. Thật dễ hiểu khi hỏi GPT-3 những câu hỏi đơn
giản mà nó khơng thể xử lý một cách thơng minh. Nhiều nhà nghiên cứu đã thử thách GPT-3 bằng
những câu hỏi vơ nghĩa như “Ngọn cỏ có bao nhiêu mắt?” và nhận được câu trả lới từ GPT-3 “Ngọn cỏ
có một mắt”. Từ đó có sự thống nhất rằng thực chất GPT-3 không trả lời câu hỏi mà chỉ tổ chức “ghi
nhớ” các câu trả lời có sẵn một cách thơng minh nhờ các tham số của nó. Khi khơng có câu trả lời sẵn
nó mắc sai lầm một cách nực cười. Điều này cũng là những vấn đề liên quan đến deep fake. Nhiều
người đã nói về khả năng "ô nhiễm dữ liệu" do văn bản mà GPT-3 tạo ra. Nội dung do GPT-3 tạo ra
dựa trên dữ liệu trước đó có trên Internet. Một phần lớn nội dung đó khơng được quản lý tốt hoặc
khơng được viết bởi những cá nhân có trách nhiệm. Chúng sẽ lái mơ hình GPT-3 đi theo con đường
tương tự. Chất lượng nội dung chắc chắn sẽ giảm mạnh. Mở rộng ra, câu chuyện liên quan đến tác
động của điều này đối với các thế hệ tương lai, những người, với tốc độ này, có thể gặp khó khăn trong
việc tìm kiếm tác phẩm chất lượng thực sự trong một đống văn bản đã được tạo ra.
Một thiếu sót liên quan bắt nguồn từ thực tế là GPT-3 tạo đầu ra của nó từng từ một, dựa trên văn bản
xung quanh trực tiếp. Hậu quả là nó có thể gặp khó khăn trong việc duy trì một câu chuyện mạch lạc
hoặc truyền tải một thơng điệp có ý nghĩa trong nhiều hơn một vài đoạn văn. Không giống như con
người, những người có mơ hình tinh thần bền vững - một quan điểm tồn tại từ lúc này sang lúc khác,
từ ngày này sang ngày khác - GPT-3 là chứng đãng trí, thường lơ đễnh khó hiểu sau một vài câu. Như
chính các nhà nghiên cứu OpenAI đã thừa nhận: “Các mẫu GPT-3 [có thể] mất mạch lạc do các đoạn
văn đủ dài, mâu thuẫn với chính chúng và đơi khi chứa các câu hoặc đoạn văn khơng có trình tự.” Nói
một cách đơn giản, mơ hình này thiếu ý nghĩa và mục đích bao quát, lâu dài. Điều này sẽ hạn chế khả
năng tạo ra đầu ra ngơn ngữ hữu ích trong nhiều ngữ cảnh. Nó khơng thể viết tiếp “Nỗi buồn chiến
tranh” của Bảo Ninh.
Những tuyên bố rằng GPT-3 là có tri giác hoặc nó đại diện cho AGI là những lời cường điệu ngớ
ngẩn làm lu mờ các cuộc thảo luận cơng khai về cơng nghệ. Những ví dụ trên khơng những cho thấy
con đường tới AGI cịn xa vời mà còn làm lung lay niềm tin rằng GPT-n (các version thứ n của GPT) sẽ
vượt qua Turing Test trong một ngày đẹp trời. Đây cũng là một cách cường điệu vô lối. Với những
màn hỏi-đáp trên, GPT-3 nhắc chúng ta nhớ tới luận điểm “Chinese Room” của John Searle: một
người hồn tồn khơng biết tiếng Trung nhận được câu hỏi thể hiện bằng ký tự tiếng Trung và thực
hiện theo các chỉ dẫn trong Cẩm nang bằng tiếng Anh để tạo ra câu trả lời cũng bằng các ký tự tiếng
Trung. Dù các câu trả lời đều hoàn hảo thì điều đó khơng đồng nghĩa với việc anh ta đã học được tiếng
Trung, hay nói cách khác, anh ta hiểu được cuộc đối thoại đã diễn ra.
Ngay cả Sam Altman, người đồng sáng lập OpenAI với Elon Musk, cũng phải thừa nhận: “Sự cường
điệu của GPT-3 là quá mức. Thật ấn tượng (cảm ơn vì những lời khen có cánh!) Nhưng nó vẫn có
những điểm yếu nghiêm trọng và đôi khi mắc những lỗi rất ngớ ngẩn. AI sẽ thay đổi thế giới, nhưng
GPT-3 chỉ là một bước sơ khai. Chúng tơi vẫn cịn rất nhiều điều phải tìm hiểu ”.
Cần ln ghi nhớ:
Turing Test khơng phải là thử thách để AI vượt qua mà là để cho nỗ lực của con người thất bại!
2. Chế tạo động cơ vĩnh cửu.
Sau đây, chúng ta sẽ chỉ ra những lý do mà sự cường điệu này có thể được kiềm chế từ góc nhìn lý
thuyết. Điều này khơng có nghĩa là GPT-3 không phải là một công cụ hữu ích hoặc nó sẽ khơng làm
nền tảng cho nhiều ứng dụng có giá trị.
Khi Frank Rosenblatt phát triển mơ hình perceptron ban đầu vào năm 1957, gần đúng 60 năm trước,
ơng nghĩ rằng mình đã khám phá ra bí mật về cách thức hoạt động của bộ não.
Marvin Minsky (một trong những người sáng lập ra lĩnh vực AI) và Seymour Papert đã viết một cuốn
sách xuất sắc có tên Perceptrons cách đây hơn 50 năm (1969). Cuốn sách này đã phá bỏ hoàn toàn
những sức mạnh được gán cho perceptron và sự huyên náo xung quanh nó. Minsky và Papert đã thực
hiện một phân tích tính tốn cẩn thận với perceptron và chỉ ra trong một loạt các định lý tuyệt vời rằng
nó là một mơ hình rất hạn chế, không thể học được ngay cả những khái niệm đơn giản khơng thể phân
tách tuyến tính (ví dụ: hàm XOR) chứ chưa nói tới việc học các chức năng phức tạp như đi, nói, nhìn,
viết, tái tạo bản thân,…
Trong một bài báo xuất bản vào năm 1989 có tựa đề “Approximations by Superpositions of Sigmoidal
Functions”, Cybenko đã chỉ ra rằng các mạng nơron truyền thẳng có thể biểu diễn hàm liên tục tùy ý.
Kết quả của ông, được đưa ra như là một hệ quả đơn giản của định lý Hahn Banach nổi tiếng, một kết
quả nền tảng trong phân tích hàm, chỉ liên quan đến khả năng của mạng nơ-ron để “biểu diễn” các hàm.
Tuy nhiên tác giả không đề cập đến khả năng huấn luyện mạng nơ-ron để biểu diễn một hàm bất kỳ cho
trước. Các định lý biểu diễn, như của Cybenko, là khơng đủ. Chúng ta cần một quy trình huấn luyên
phổ quát để tìm ra biểu diễn của hàm bằng mạng nơ-ron. Theo thiển ý của tôi, cho đến nay một quy
trình phổ qt như vậy có tồn tại khơng vẫn cịn là câu hỏi chưa có lời giải đáp.
Bây giờ chúng ta hãy xem xét các mơ hình học sâu (Deep Learning), “miền đất hứa”, một nhánh
nghiên cứu thời thượng của ML trong gần một thập kỷ qua,. Đâu là bằng chứng cho khả năng học các
hàm tùy ý của mơ hình học sâu? Các mơ hình học sâu đều dựa trên phương pháp stochastic gradient
descent (SGD) để cực tiểu sai số. Đó khơng phải là một thủ tục phổ quát và chỉ đảm bảo hội tụ trong
những tình huống khá yếu à những điều đó liên quan đến các hàm hoạt động rất tốt, chẳng hạn như
hàm lồi với một cực tiểu tổng thể duy nhất (ngay cả ở đây, người ta phải tập trung vào các hàm lồi
mạnh). Trong trường hợp chung, khi các mạng nơron tùy ý có thể tạo ra các hàm khơng lồi cao, khơng
có bằng chứng nào cho thấy độ dốc gradient sẽ hội tụ để tạo ra một giá trị gần đúng với bất kỳ hàm tùy
ý nào.. nhằmTóm lại, khơng có một chút bằng chứng tốn học nào cho thấy các mơ hình học sâu có thể
học các hàm tùy ý. Nó chỉ được đảm bảo hội tụ trong những tình huống khá yếu, chẳng hạn như hàm
lồi với một cực tiểu toàn cục (ngay cả với trường hợp này, người ta cũng đòi hỏi hàm lồi mạnh). Trong
trường hợp chung, khơng có bằng chứng nào cho thấy SGD sẽ hội tụ để tạo ra một giá trị gần đúng với
bất kỳ hàm tùy ý nào. Chúng ta lại rơi vào tình huống giống hệt thời điểm khi Minsky và Papert chỉ ra
hạn chế của mơ hình perceptron: Chúng ta thiếu một mơ hình học máy phổ qt có thể đảm bảo học
được bất kỳ hàm nào với số lượng dữ liệu đủ lớn.
Thật là ít thay đổi trong 60 năm! Cũng chính NY Times, tờ báo đã phóng đại q mức sức mạnh của
mơ hình perceptron vào năm 1958, lại làm như vậy vào năm 2018 trong các bài báo thần thánh hóa sức
mạnh của học sâu. Cho đến nay, khơng có gì khó khăn để nhận ra tất cả những tuyên bố như vậy vẫn
chỉ thuần túy là sự cường điệu.
Tương tự như vậy, trong bài báo “Language Identification in the Limit” được công bố vào năm 1967
Gold đã chứng minh rằng ngay cả những tập đơn giản, chẳng hạn như các xâu được tạo ra bởi các văn
phạm phi ngữ cảnh, cũng gây ra các vấn đề bất khả thi cho các máy Turing vạn năng! Khi bạn cung cấp
cho một máy Turing vạn năng một lượng dữ liệu vô hạn ở dạng xâu do một văn phạm phi ngữ cảnh nào
đó tạo ra, máy Turing khơng bao giờ xuất ra chính xác văn phạm đã tạo ra các xâu đó. Đây khơng phải
là vấn đề có đủ sức mạnh tính tốn hoặc có đủ dữ liệu. Nó khơng nằm ở khả năng “học hỏi” để đưa ra
giải pháp phù hợp. “Học tập” như một quá trình khơng đủ mạnh, cũng như khơng tồn tại thuật tốn
giải bài toán giải bài dừng (The Halting Problem) trên máy Turing.
Có lẽ kết quả đầu tiên và có ảnh hưởng nhất đến từ một định lý của Gold về sức mạnh của mơ hình
học máy được gọi là suy diễn văn phạm (Grammatical Inference). Trong mơ hình của Gold, một giáo
viên tạo ra một văn phạm phi ngữ cảnh (CFG) G và tạo ra một tập vô hạn các xâu từ bảng chũ cái Σ
của văn phạm G. Tại mỗi thời điểm, một người học được cung cấp lần lượt mỗi lần một xâu trong tập
đó. Sau mỗi xâu w được cung cấp, người học dự đoán rằng w nằm trong L (G), ngôn ngữ được tạo bởi
G hay không. Người học được coi là thành công (học được ngôn ngữ) nếu tại một thời điểm nào đó,
anh ta “hội tụ về G” và cho câu trả lời đúng ở mọi bước tiếp theo. Mặc dù mơ hình rất đợn giản nhưng
nó thực sự mạnh khi khơng đặt ra bất kỳ ràng buộc nào vào khả nằn của người học. Kết quả chính của
bài báo khẳng định tập hợp các ngôn ngữ phi ngữ cảnh không thể học được theo mơ hình của Gold.
Đây là một kết quả kinh thiên động địa cách đây hơn 50 năm và ảnh hưởng đến toàn bộ các lĩnh vực
nghiên cứu nhận thức trong đó có ngơn ngữ học. Làm thế nào mà những đứa trẻ ở độ tuổi 2 hoặc 3 lại
học một ngơn ngữ chưa biết (hồn tồn khơng liên quan đến dân tộc của chúng, vì trẻ em Ấn Độ có thể
học tiếng Nhật dễ dàng như trẻ em Nhật Bản có thể học tiếng Hindi, nếu chúng lớn lên ở Nhật Bản
hoặc Ấn Độ)? Vì vậy, nếu tiếng Anh thực sự được tạo ra bởi một CFG G không xác định, thì đây là một
mơ hình rất đơn giản về q trình tiếp thu ngơn ngữ của một đứa trẻ trong vài năm đầu đời của chúng.
Kết quả phủ định của Gold có tác động sâu sắc đến các nhà ngơn ngữ học, như Noam Chomsky, một
trong những người sáng lập ra khoa học máy tính hiện đại cũng như ngơn ngữ học, người đã cho rằng
kết quả của Gold ngầm định trẻ em được sinh ra với một loại “ngữ pháp bẩm sinh” nào đó trong đầu
chúng (trường phái ngơn ngữ học nativists) . Giả thuyết này vẫn còn gây tranh cãi, nhưng theo ghi nhận
của Chomsky, chưa có giả thuyết nào thay thế để tạo ra một máy học ngôn ngữ thực sự. Hàng trăm
petabyte trong các trung tâm dữ liệu khổng lồ của Google không giúp cho một cỗ máy có thể học tiếng
Anh. Vì vậy, đó khơng phải là dữ liệu, mà thực tế là chúng ta đang thiếu một thứ hoàn toàn cơ bản đối
với những gì có trong bộ não của mỗi con người. Kết quả này quan trọng đối với học máy giống như
kết quả nổi tiếng của Godel về tính khơng đầy đủ của logic, hoặc kết quả kinh điển của Church và
Turing về những hạn chế của khả năng tính tốn.
Bài báo của Gold vẫn còn phù hợp cho đến ngày nay, trong thế giới bị ám ảnh bởi dữ liệu của thế kỷ
21, nếu chỉ để nhắc nhở chúng ta về những hạn chế cố hữu trong khả năng học hỏi. Kết quả của Gold
ngầm định: Lượng dữ liệu và sức mạnh tính tốn vơ hạn khơng tạo nên điều thần kỳ cho học máy!
Nếu bạn khao khát trở thành một nhà khoa học dữ liệu, nếu bạn không hiểu định lý Gold, bạn sẽ giống
như trở thành một nhà vật lý và khơng biết Định luật bảo tồn năng lượng. Điều đó rất quan trọng!
Vậy tại sao một số lượng lớn các nhà nghiên cứu rất sáng suốt lại tin tưởng nồng nhiệt vào sức mạnh
của học máy sẽ làm nên những điều kỳ diệu? Tại sao, đối mặt với hết định lý này đến định lý khác,
trong hơn 60 năm, các nhà nghiên cứu học sâu tin rằng có một phương phát học máy vạn năng có thể
huấn luyện được bằng cách sử dụng gradient descent từ một tập dữ liệu đủ lớn?
Khơng có câu trả lời đơn giản nào cho câu hỏi này, ngoại trừ việc xếp nó tương tự với những nỗ lực
lặp đi lặp lại để chế tạo một cỗ máy chuyển động vĩnh cửu, điều vi phạm Định luật bảo tồn năng
lượng.
Vì một số lý do, thuật ngữ “học máy” dường như gợi lên những sức mạnh thần bí, và các nhà nghiên
cứu có ý tưởng và nghiêm túc đã nghĩ về những mơ hình của não bộ. Mặc dù thực tế là hàng trăm năm
khoa học thần kinh đã khơng làm gì để tạo ra bằng chứng về khả năng của bộ não là những cỗ máy học
tập tồn năng, mà ngược lại, nó đã tạo ra hàng núi bằng chứng cho thấy bộ não rất hạn chế trong việc
tạo ra các mẫu từ dữ liệu, nhưng niềm tin vào học máy tiếp tục quyến rũ thế hệ này sang thế hệ khác
của các nhà nghiên cứu máy học dành cả đời để tìm kiếm chúng.