Giải thích ngôn ngữ của AI
Thế giới mới dũng cảm của trí tuệ nhân tạo (AI) đang đến với chúng ta, và giờ đây tất cả chúng ta đều đang vật lộn với những gì điều này có thể có nghĩa là cho bản thân, cho xã hội và thế giới. Đừng nhầm lẫn, những thay đổi lớn đang đến, nhưng giữa những biến động không thể tránh khỏi cũng có rất nhiều sự phóng đại và vô nghĩa.
Như thường lệ, chúng tôi tại Tom’s Guide ở đây để giúp bạn tìm ra một số ý nghĩa trong sự điên rồ này. Công việc của chúng tôi là đi sâu vào sự thật và đảm bảo rằng độc giả của chúng tôi có được cái nhìn tổng quan thông minh, cân bằng và có thông tin về AI là gì và không phải là gì.
Như một phần của vai trò này, tôi sẽ giúp giải thích các yếu tố cốt lõi của hệ sinh thái AI bằng tiếng Anh đơn giản. Và Team KenkAi xin dịch sang tiếng Việt lại. Hy vọng rằng hướng dẫn này sẽ giúp bạn vượt qua những thuật ngữ chuyên ngành và cho bạn một ý tưởng rõ ràng hơn về những phần nào là quan trọng, và phần nào chỉ là trang trí bề ngoài. Đến cuối cùng, bạn sẽ có thể tự tin tham gia vào một bữa tiệc khi ai đó bắt đầu nói về AI mà rõ ràng không hiểu những điều cơ bản.
Vậy hãy cùng xem một số thuật ngữ chính mà bạn sẽ cần để gây ấn tượng với mọi người.
Những điều cơ bản về AI
AI — trí tuệ nhân tạo
Vậy trí tuệ nhân tạo là gì? Ở cốt lõi của nó, AI là bất kỳ hệ thống nào cố gắng bắt chước trí thông minh của con người bằng cách thao tác dữ liệu theo cách tương tự như bộ não của chúng ta. Các hình thức AI sớm nhất khá thô sơ, như hệ thống chuyên gia và thị giác máy. Ngày nay, sự bùng nổ trong sức mạnh tính toán đã tạo ra một thế hệ AI mới cực kỳ mạnh mẽ.
AGI — Trí tuệ nhân tạo tổng quát
AGI là cấp độ tiếp theo của AI mạnh mẽ. Trong khi AI hiện tại vẫn chủ yếu bị hạn chế trong những gì nó có thể làm, AGI hứa hẹn sẽ thoát khỏi những giới hạn đó và cung cấp khả năng ‘giải quyết vấn đề’ hoặc ‘lập luận’ như chúng ta.
Lưu ý: Có nhiều tranh cãi về việc điều này có dẫn đến ‘ý thức’ hoặc ‘cảm xúc’ hay không. Một cuộc trò chuyện càng trở nên khó khăn hơn bởi thực tế là chúng ta vẫn chưa có định nghĩa rõ ràng về những thuật ngữ đó.
Không ai thực sự có định nghĩa rõ ràng cho AGI, nhưng một phiên bản có thể như sau:
- AGI I: khả năng cấp độ máy tính tiên tiến (chất lượng GPT-4?)
- AGI II: năng lực cấp độ con người tiên tiến (chất lượng GPT-5?)
- AGI III: năng lực cấp độ AI cực kỳ cao (có thể là GPT-6?)
- ASI: trí tuệ siêu nhân tạo — hoàn toàn vượt trội hơn khả năng của con người.
ASI — Trí tuệ đặc biệt nhân tạo
Trí tuệ siêu nhân tạo (ASI) là một hình thức AI chưa tồn tại và thường bị nhầm lẫn với AGI. Trong một tương lai lý thuyết, ASI sẽ là một hệ thống có trí tuệ và khả năng vượt xa con người trong tất cả các lĩnh vực.
Mạng nơ-ron
Mạng nơ-ron là cấu trúc tính toán, được lấy cảm hứng từ chức năng của bộ não con người, thực hiện việc xử lý dữ liệu để tạo ra các mô hình được sử dụng trong AI. Những mạng máy tính này tính toán các quy trình toán học với tốc độ nhanh không tưởng, sử dụng các mảng bộ xử lý khổng lồ. Có lẽ tốt nhất là để nó như vậy.
Machine Learning – Học Máy (học sâu)
Máy tính đọc dữ liệu, xác định các mẫu và tạo ra mối liên hệ giữa các điểm dữ liệu, tất cả đều không cần lập trình rõ ràng. Các mô hình kết quả cung cấp khả năng tương tác của AI với thế giới. Các thuật toán học sâu là cốt lõi của mọi mô hình AI.
Lưu ý: Phần đáng sợ là khi mô hình sử dụng dữ liệu này và học cách thực hiện những điều hoàn toàn bất ngờ mà không được đào tạo hoặc hướng dẫn. Những kỹ năng này được gọi là kỹ năng phát sinh, và là điều khiến các đội ngũ an toàn AI phải lo lắng vào ban đêm.
NLP (Xử Lý Ngôn Ngữ Tự Nhiên)
Đây là công nghệ phần mềm cho phép các mô hình hiểu, diễn giải và tạo ra ngôn ngữ con người. Những quy trình này là một phần của những gì mang lại cảm giác ‘nhân văn’ cho AI khi tương tác với người dùng.
Ideology (Ý Thức)
Công Nghệ Mở So Với Thương Mại (Commercial vs Open Source)
Trong góc xanh, công nghệ dựa trên mã nguồn mở. Hiện tại được dẫn dắt bởi tập đoàn lớn Meta với mô hình LlaMA, đây là hy vọng tốt nhất hiện nay cho một tương lai mở, không thương mại cho AI nói chung. Tương tự, Stability AI đã thúc đẩy cuộc cách mạng trong việc tạo ra hình ảnh và nghệ thuật AI mã nguồn mở với các mô hình StableDiffusion.
Chúng ta cũng có tân binh Black Forest Labs với gia đình mô hình mạnh mẽ Flux.01 đã nhanh chóng lan tỏa trên web và được tích hợp vào Grok trên X.
Trong góc đỏ, tất cả những người khác. Các công ty AI thương mại, vì lợi nhuận như OpenAI, Anthropic, Google, Microsoft và những công ty khác.
Và đây chỉ là các mô hình nền tảng. Khi chúng ta đi xuống các ứng dụng, có rất nhiều người tham gia từ cả hai phía. Các doanh nhân từ Rome đến Bangalore hiện đang mã hóa tương lai một cách điên cuồng để sản xuất các sản phẩm thương mại và mã nguồn mở tạo ra nghệ thuật, âm nhạc, phân tích tài chính và nhiều hơn nữa.
Mô Hình – Models
Mô Hình Nền Tảng (Foundation Models)
Còn được gọi là Mô Hình Nền Tảng Sinh Tạo, đây là các kho dữ liệu khổng lồ đã được tiền huấn luyện bằng mạng nơ-ron và một lượng lớn dữ liệu để xử lý nhiều loại nhiệm vụ khác nhau. Các mô hình này sau đó được tinh chỉnh để tạo ra các mô hình nhỏ hơn, rẻ hơn và dễ sử dụng hơn cho các mục đích khác nhau. GPT của OpenAI là một mô hình nền tảng, cũng như Gemini của Google, Claude của Anthropic, LlaMA của Meta và nhiều mô hình khác.
Lưu ý: Nhiều nếu không muốn nói là tất cả các mô hình nền tảng lớn nhất đang được sử dụng ngày nay đều bắt đầu từ việc được tiền huấn luyện trên Tập Dữ Liệu Common Crawl miễn phí và mở, chứa hàng petabyte dữ liệu thu thập từ internet từ năm 2008. Tập dữ liệu này chứa 250 tỷ trang, với 3 đến 5 tỷ trang được thêm vào mỗi tháng. Tất cả dữ liệu này đều trải qua một quy trình phức tạp để làm sạch và kiểm tra trước khi được sử dụng.
Mô Hình Ngôn Ngữ Lớn (LLMs)
Mô hình tham chiếu phổ biến nhất trong AI là các mô hình ngôn ngữ lớn. Điều này là do những thực thể này đã trở thành tâm điểm của những tiến bộ thú vị trong AI mà chúng ta đã thấy trong vài năm qua. Một Mô Hình Ngôn Ngữ Lớn là một gói dữ liệu và mã phần mềm sử dụng đào tạo và các phép toán toán học cường độ cao để nhận diện các mối liên hệ giữa các từ. ChatGPT và Microsoft CoPilot là những ví dụ nổi tiếng. Nhưng có nhiều biến thể khác nhau, như chúng ta sẽ thấy bên dưới.
Lưu ý: Các mô hình hoàn toàn khác với cơ sở dữ liệu. Thú vị là: LLMs giống như những chiếc hộp đen. Ngay cả những người tạo ra chúng cũng không biết điều gì đang diễn ra sâu bên trong LLM khi nó hoạt động. Thú vị, phải không?
Mô Hình Tạo Sinh (Generative Models)
Các mô hình nền tảng đã được tinh chỉnh thường được gọi là Mô Hình AI Sinh Tạo. Hai loại phổ biến nhất hiện nay là transformer và diffusion.
Mô Hình Transformer
Mô hình Transformer được giới thiệu với thế giới trong một bài báo khoa học năm 2017 do một nhóm nghiên cứu AI của Google công bố. Công nghệ đột phá mới này sử dụng các tính năng như tự chú ý và xử lý song song để tăng tốc độ phản hồi của AI một cách đáng kể. Kết quả là, các transformer đã mở ra một kỷ nguyên mới của AI nhanh chóng và linh hoạt, đặc biệt là dưới hình thức gia đình GPT của OpenAI. GPT là viết tắt của Generative Pre-Trained Transformers.
Lưu ý: Các mô hình transformer, chẳng hạn như trong ChatGPT, rất dễ mở rộng, đào tạo nâng cao và tinh chỉnh. Chúng cũng có thể được ‘xếp chồng’ lên nhau, điều này khiến chúng hoàn hảo cho các cuộc trò chuyện phức tạp và tinh tế liên quan đến sự hài hước, mỉa mai hoặc các tham chiếu văn hóa. Chúng cũng tuyệt vời cho việc dịch ngôn ngữ, tóm tắt văn bản và các nhiệm vụ truy xuất dữ liệu khác.
Mô Hình Diffusion
Mô hình diffusion lần đầu tiên được giới thiệu bởi một nhóm tại Đại học Stanford vào năm 2015. Phương pháp mới sáng tạo này tạo ra nội dung bằng cách phân tích tiếng ồn thông qua một quy trình khuếch tán. Chuyển đổi hình ảnh của một con chó thành một khối tiếng ồn kỹ thuật số, sau đó tạo ra một hình ảnh con chó mới bằng cách loại bỏ tiếng ồn cho đến khi kết quả giống như một biến thể của con chó gốc. Các mô hình tạo nghệ thuật AI Stable Diffusion và DALL-E là những ví dụ của thể loại này.
Lưu ý: Gần đây, nước đã bị làm đục bởi sự bổ sung của các mô hình lai như diffusion transformers (DiT), kết hợp hai công nghệ này thành một nhà điều hành hiệu quả hơn, nhanh hơn. Các ví dụ bao gồm công cụ chuyển đổi văn bản thành video sắp ra mắt của OpenAI, Sora, và Stable Diffusion 3.
Chatbots
Các tác nhân hội thoại được hỗ trợ bởi AI có khả năng hiểu và phản hồi các truy vấn của người dùng bằng ngôn ngữ tự nhiên, cung cấp thông tin, hướng dẫn hoặc giải trí. Chatbots được tinh chỉnh trên các mô hình ngôn ngữ lớn (LLMs) để thể hiện các kỹ năng giao tiếp cụ thể, đồng thời cũng mang lại hiệu suất kiến thức tổng quát ấn tượng.
Lưu ý: Tất cả các chatbot cơ bản chỉ là những cỗ máy dự đoán. Chúng dự đoán từ tiếp theo trong một câu nên là gì, dựa trên ngữ cảnh, phân tích xác suất và các yếu tố thông minh khác.
Generatively Pre-Trained Transformer (GPT)
Hầu hết mọi người nghĩ đến ChatGPT khi họ nghĩ về AI hiện đại. Điều này là vì nó là AI thân thiện với người tiêu dùng đầu tiên xuất hiện trên thế giới vào tháng 11 năm 2022. Đây là lần đầu tiên thế giới thấy sức mạnh tiềm ẩn của dữ liệu khổng lồ kết nối với một giao diện trò chuyện siêu dễ sử dụng. Và nó thật mê hoặc.
Người dùng có thể sử dụng công cụ này cho lập trình, làm bài tập về nhà, phân tích kinh doanh, tiếp thị và nhiều hơn nữa. Ví dụ, phần lớn thế giới tài chính hiện nay làm việc với các chatbot tinh chỉnh dựa trên GPT-4. Những công cụ này thực hiện các mô hình và phân tích tài chính phức tạp, hỗ trợ việc triển khai toàn cầu hàng triệu triệu đô la.
Mô hình đa phương thức
Một phương thức trong thuật ngữ AI là một loại dữ liệu. Vì vậy, văn bản, hình ảnh, video, âm thanh và nhiều thứ khác đều là các phương thức. Khi sức mạnh tính toán tăng lên, khả năng thu thập và lưu trữ các loại dữ liệu khác nhau cũng tăng theo, bao gồm các ví dụ băng thông lớn như video. Những mô hình có thể xử lý các phương thức khác nhau, ví dụ như thị giác và/hoặc âm thanh, được gọi là mô hình đa phương thức.
Mô hình thị giác lớn (LVM)
Mô hình thị giác lớn được thiết kế đặc biệt để xử lý dữ liệu hình ảnh như video hoặc hình ảnh. Ranh giới giữa LVM và LLM đang mờ dần khi các GPT đa phương thức xuất hiện trên thị trường, nhưng vẫn có một số ứng dụng cụ thể cần các tính năng chuyên biệt của một mô hình hình ảnh dành riêng. Hai ví dụ là CLIP của OpenAI có thể được sử dụng cho phụ đề và chú thích, và ViT của Google cho các ứng dụng phân tích và phân loại hình ảnh.
Model Architecture Basics (Cơ bản về kiến trúc mô hình)
Prompts (and Prompt Engineering) – Lời nhắc (và Kỹ thuật Lời nhắc)
Prompt (Lời nhắc) là các hướng dẫn được sử dụng để trích xuất phản hồi cần thiết từ một mô hình AI. Chúng có thể dựa trên văn bản hoặc đa phương tiện, và cách chúng được tạo ra sẽ ảnh hưởng đến kết quả cuối cùng. Ngôn ngữ tự nhiên có thể rất không chính xác, và máy tính phản hồi tốt hơn với các hướng dẫn rõ ràng, không mơ hồ. Đây là lúc ‘Prompt Engineering‘ (‘kỹ thuật lời nhắc’) phát huy tác dụng. Bằng cách dành thời gian tạo ra một Prompt chính xác và cụ thể hơn, chúng ta có thể cải thiện kết quả cuối cùng.
Cơ bản về Prompt :
a. Prompt (người dùng hướng dẫn hoặc yêu cầu mô hình AI điều gì đó) – Suy diễn (mô hình AI tính toán phản hồi dựa trên Prompt) – Hoàn thành (kết quả được cung cấp cho người dùng).
b. Context Window (Cửa sổ ngữ cảnh) là tổng số văn bản mà mô hình có thể xử lý tại bất kỳ thời điểm nào. Context Window càng lớn, phản hồi của AI càng hoàn chỉnh và chính xác hơn. Context Window cũng giúp mô hình theo dõi các cuộc trò chuyện dài hơn, vì nó có thể ‘nhớ’ nhiều từ hơn trong giao diện trò chuyện.
c. In Context Learning (Học trong ngữ cảnh) cũng quan trọng đối với quá trình lời nhắc. Điều này liên quan đến việc cung cấp các ví dụ trong Prompt để giúp cải thiện kết quả. Ví dụ — “Viết cho tôi một bài haiku về gà, đây là một bài haiku ví dụ: Blah blah…”
Cấu trúc lời nhắc kiểu này được gọi là Prompt không có ví dụ, một ví dụ hoặc vài ví dụ. Không có ví dụ cung cấp không có ví dụ nào, một ví dụ cung cấp một ví dụ và vài ví dụ cung cấp nhiều hơn một ví dụ. Sử dụng kỹ thuật một hoặc vài ví dụ trong lời nhắc có thể cải thiện đáng kể kết quả của các mô hình AI, đặc biệt là những mô hình có tập dữ liệu nhỏ hơn.
d. Instruction vs Role Prompting (Hướng dẫn vs Lời nhắc vai trò) phản ánh sự khác biệt giữa việc đưa ra một hướng dẫn đơn giản (‘thêm 2+2’) hoặc trước tiên cung cấp cho AI một vai trò để thực hiện (‘bạn là một giáo viên toán học chuyên gia’).
Kỹ thuật lời nhắc toàn diện nhất sẽ bao gồm tất cả những điều trên. Với việc xem xét cửa sổ ngữ cảnh và kích thước mô hình, Prompt có thể bắt đầu bằng cách cung cấp cho AI một vai trò, đưa ra hướng dẫn và sau đó thêm vào một số ví dụ vài để hướng dẫn AI.
Lưu ý: Những kỹ thuật này sẽ trở nên ít quan trọng hơn theo thời gian khi sức mạnh và kích thước của các mô hình AI tăng lên. Tuy nhiên, có khả năng rằng conversational prompts (các lời nhắc hội thoại) hoạt động với nhiều lời nhắc trò chuyện (multiple chat prompts) sẽ tiếp tục mang lại kết quả tối ưu theo cách mà việc tinh chỉnh một tìm kiếm web thường mang lại câu trả lời tốt nhất.
Token và Phân tách Token
Token được sử dụng trong cả quá trình huấn luyện trước và tương tác lời nhắc với các mô hình. Phân tách token chia nhỏ văn bản đầu vào thành các token đại diện cho các từ hoặc tiểu từ riêng lẻ, để mô hình có thể hiểu và xử lý đầu vào (hay còn gọi là chạy suy diễn như đã đề cập ở trên).
Tham số (Parameters)
Tham số là các giá trị quan trọng được sử dụng bởi mạng nơ-ron của một mô hình để quản lý cách nó xử lý dữ liệu. Chúng bao gồm trọng số, độ thiên lệch và các yếu tố khác được tính toán ảnh hưởng đến cách mà mô hình tạo ra đầu ra của nó. Tham số có thể điều chỉnh và cũng được xác định trong quá trình huấn luyện. Nói chung, tham số xác định cách mà mô hình hoạt động, tương tự như cách mà lượng nguyên liệu khác nhau trong một công thức quyết định hương vị của món ăn cuối cùng.
Tính nhất quán (Coherence)
Tính nhất quán liên quan đến mức độ hợp lý và nhất quán của văn bản hoặc hình ảnh đầu ra của một mô hình AI khi hoàn thành. Kết quả không nhất quán thường dẫn đến văn bản bị rối hoặc vô nghĩa hoặc hình ảnh không có ý nghĩa. Tính nhất quán cũng có thể bị ảnh hưởng tiêu cực bởi một cửa sổ ngữ cảnh quá nhỏ.
Ảo giác (Hallucination)
Ảo giác thường là sản phẩm phụ của sự không nhất quán trong suy diễn văn bản. Nó bao gồm những lời nói dối hoặc hoàn toàn vô nghĩa được xuất ra như một kết quả của một lời nhắc. Điều này có thể có nghĩa là mô hình quá nhỏ để xử lý yêu cầu (không đủ dữ liệu) hoặc cửa sổ ngữ cảnh đã hạn chế một câu trả lời hợp lý, và do đó mô hình ảo giác để đáp ứng yêu cầu tốt nhất có thể.
Nhiệt độ (Temperature)
Một yếu tố chính điều chỉnh đầu ra của một mô hình. Đây là một tham số kiểm soát độ ngẫu nhiên của đầu ra do AI tạo ra. Nó cũng có thể được biết đến như ‘sự sáng tạo’ trong việc tạo hình ảnh. Nó được điều chỉnh bởi người dùng vào thời điểm nhắc, và nhiệt độ cao hơn có thể tạo ra những kết quả kỳ lạ và tuyệt vời hoặc hoàn toàn ảo giác. Ngược lại, các giá trị nhiệt độ thấp hơn (tức là dưới 1.0) sẽ tạo ra những kết quả tập trung và mong đợi hơn.
Fine-tuning (Tinh chỉnh)
Điều chỉnh một mô hình đã được huấn luyện trước để thực hiện một nhiệm vụ cụ thể hoặc một loạt các nhiệm vụ bằng cách sử dụng dữ liệu bổ sung. Lợi ích của việc tinh chỉnh một mô hình lớn là giảm kích thước mô hình và chi phí huấn luyện/sử dụng. Điều này là vì mô hình không còn phải là một người làm mọi thứ, mà thay vào đó có thể trở thành một chuyên gia trong một lĩnh vực cụ thể. Tất cả các mô hình chuyên biệt, ví dụ như chatbot y tế hoặc lập trình, đều đã được tinh chỉnh từ một mô hình lớn hơn để tạo ra một công cụ hiệu quả hơn cho việc sử dụng trong lĩnh vực của nó.
Lưu ý: Tinh chỉnh bao gồm một lĩnh vực rất rộng. Tất cả các chatbot, mô hình chuyên biệt, thậm chí các mô hình được thiết kế để chạy trên máy tính hoặc điện thoại cục bộ, có thể đã được tinh chỉnh từ một LLM cơ bản. ChatGPT-4o là một phiên bản tinh chỉnh của GPT-4 có thêm các kỹ năng hội thoại và đa phương thức, khiến nó trở thành một trợ lý cá nhân hoàn hảo. Hoặc bạn gái!
Training (Đào tạo)
Thường được gọi là tiền đào tạo, đây là quá trình đào tạo cơ bản được cung cấp cho một mô hình để nó hoạt động như một thực thể AI. Đào tạo này có thể được giám sát (như trong việc hiển thị cho mô hình các hình ảnh có nhãn để dạy nó về mèo) hoặc tự giám sát, ví dụ như cung cấp cho mô hình một tập hợp các quy tắc cơ bản để tuân theo, và sau đó để nó tự tìm ra chức năng đúng đắn của mình. Đào tạo thường liên quan đến đánh giá của con người, đặc biệt là Phản hồi Con người trong Học Tăng cường (RLHF).
RLHF
Sử dụng phản hồi và phần thưởng của con người để cải thiện kết quả hoạt động của một mô hình ngôn ngữ lớn (LLM). Kỹ thuật thử và sai này rất quan trọng trong các trường hợp đào tạo phức tạp, chẳng hạn như cố gắng dạy một mô hình về khái niệm “hài hước”. Bằng cách tiêm phản hồi của con người và củng cố các “đoán” đúng của mô hình, nó có thể được đào tạo để nhận diện “hài hước” trong các tình huống mà nó chưa gặp phải hoặc chưa được đào tạo trực tiếp. Cuối cùng, mô hình sẽ có một “chính sách” mà nó có thể sử dụng cho tất cả các nhu cầu tương tự trong tương lai.
Quantization (Lượng tử hóa)
Giảm độ chính xác của cấu trúc mô hình để giảm yêu cầu bộ nhớ và cải thiện tốc độ mô hình, trong khi vẫn duy trì hiệu suất đầu ra chấp nhận được. Lượng tử hóa thường được sử dụng với các mô hình mã nguồn mở để giảm kích thước của chúng, để chúng có thể hoạt động trên các thiết bị có bộ nhớ thấp như laptop và điện thoại.
Checkpoint (Điểm kiểm tra)
Một bức ảnh chụp trạng thái của một mô hình tại một thời điểm cụ thể trong quá trình đào tạo. Điều này cho phép tái đào tạo trong tương lai, đồng thời cung cấp quyền truy cập cho việc sử dụng công cộng và suy diễn.
Mixture of Experts (Hỗn hợp chuyên gia)
Kết hợp nhiều mô hình chuyên biệt (chuyên gia) để cải thiện hiệu suất AI. Bằng cách định tuyến đầu vào đến chuyên gia phù hợp nhất, các mô hình nhỏ hơn có thể hoạt động với tốc độ và hiệu quả của mô hình lớn.
Đánh giá
“Các tiêu chuẩn được sử dụng để đo lường và so sánh hiệu suất và tính hữu ích của một mô hình so với các mô hình khác trong nhiều nhiệm vụ khác nhau. Có một số bài kiểm tra tiêu chuẩn được chấp nhận rộng rãi được sử dụng để đo lường hiệu suất mô hình. Một ví dụ về bảng xếp hạng LLM có thể được tìm thấy từ OpenLM.
An toàn
Super—alignment (Siêu căn chỉnh)
Có mối quan tâm lớn về những rủi ro liên quan đến việc phát triển một hệ thống AI có thể thông minh hơn nhiều so với những người sáng tạo ra nó. Câu hỏi đặt ra là các nhà phát triển AI có thể “căn chỉnh” bất kỳ AI tương lai nào để nó luôn hoạt động theo các giá trị đạo đức của con người, và không trở nên nổi loạn. Nó có thể nghe như khoa học viễn tưởng, nhưng có lẽ tốt hơn là nên suy nghĩ về điều này ngay bây giờ hơn là sau này. Đặc biệt nếu chúng ta đang tiến tới ASI (xem trên).
Ban giám khảo vẫn đang xem xét liệu chúng ta có làm đủ, đủ nhanh để ngăn chặn một thảm họa có thể xảy ra hay không. Chẳng hạn, một AI siêu nổi loạn quyết định rằng con người đang chiến tranh là một mối đe dọa đối với sự tồn tại của nó, và quyết định thực hiện các bước để kiểm soát hành động của con người theo một cách nào đó.
Deepfakes
Trong ngắn hạn, khả năng đáng kinh ngạc của các mô hình AI để tạo ra gần như bất cứ điều gì mà con người có thể nghĩ ra đã làm tăng rủi ro của “deepfakes”. Đây là nội dung đa phương tiện giả mạo như video, âm thanh hoặc hình ảnh, phản ánh một thực tế sai lệch. Ví dụ, một video giả mạo của một chính trị gia nói điều gì đó gây sốc, hoặc một người nổi tiếng làm điều gì đó kinh khủng. Các công cụ đang được triển khai để phát hiện các hoạt động giả mạo như vậy, nhưng dường như đang trở thành một cuộc chạy đua vũ trang, giống như cách chúng ta chống lại spam.
Jailbreaking
Jailbreaking là thực hành vượt qua các bộ lọc và biện pháp bảo vệ được trang bị cho hầu hết các mô hình AI hiện đại, nhằm ngăn chặn lạm dụng. Lạm dụng bao gồm việc tạo ra nội dung thù hận, sự suy đồi và các tài liệu xã hội khác bị cấm. Các kỹ thuật jailbreaking bao gồm việc làm quá tải các yêu cầu, nơi cửa sổ ngữ cảnh của mô hình bị quá tải cố ý với các yêu cầu để phá vỡ bất kỳ rào cản nào trong việc cung cấp kết quả không an toàn. Mỗi mô hình hiện tại đều dễ bị tổn thương trước các kỹ thuật jailbreaking khác nhau. Các mô hình không bị kiểm duyệt – thường là mã nguồn mở – thường không có bất kỳ biện pháp bảo vệ nào.
Frontier AI (AI Biên giới)
Đây là các mô hình nền tảng tiên tiến cao có thể gây ra những rủi ro nghiêm trọng đối với an toàn công cộng. Những rủi ro này có thể bao gồm việc tạo ra các mối đe dọa an ninh mạng, hoặc làm mất ổn định xã hội theo một cách nào đó. Một lượng lớn công việc đang được thực hiện để xem xét các biện pháp phòng ngừa, và sự hợp tác giữa các nhà phát triển AI toàn cầu và chính phủ cũng như cơ quan thực thi pháp luật để giảm thiểu rủi ro của việc điều gì đó đi sai.
Miscellaneous
Singularity (Điểm kỳ diệu)
Điểm kỳ diệu — hoặc kỳ diệu công nghệ — là một điểm giả thuyết trong tương lai xa nơi tiến bộ công nghệ đạt đến mức vượt quá khả năng của con người để quản lý hoặc kiểm soát các sự kiện. Tại điểm này, thường được mô tả như một cao trào dystopian trong khoa học viễn tưởng, nhân loại trở nên phục tùng máy tính, AI và vũ trụ cơ khí của nó.
AI Bias (Thiên kiến AI)
Thiên kiến là mức độ mà một mô hình đã được đào tạo với một tập dữ liệu thể hiện thiên kiến đối với một hoặc nhiều khía cạnh của một thế giới quan cụ thể. Điều này có thể bao gồm thiên kiến văn hóa, định kiến đối với các nhóm thiểu số và các khía cạnh khác có thể dẫn đến kết quả bị bóp méo hoặc lạm dụng. Các đặc điểm như thiên kiến chủng tộc trong các hệ thống nhận diện khuôn mặt AI và các hệ thống y tế đã dẫn đến hiệu suất bị lệch lạc, gây hại trực tiếp hoặc gián tiếp cho các bộ phận của xã hội.
Knowledge Cut Off (Cắt đứt kiến thức)
Mỗi mô hình được đào tạo đến một thời điểm nhất định trước khi được phát hành cho công chúng. Điểm cắt đứt kiến thức là ngày gần nhất của thông tin có sẵn cho mô hình. Vì vậy, ví dụ, nếu một mô hình có điểm cắt đứt kiến thức là 31 tháng 12 năm 2023, thì không có dữ liệu nào sau ngày đó được đưa vào các tập dữ liệu tiền đào tạo hoặc đào tạo của nó. Do đó, một sự kiện xảy ra vào tháng 1 năm 2024 sẽ không có sẵn cho người dùng của mô hình AI cho đến khi ngày đó được mở rộng với việc đào tạo thêm, hoặc với việc bổ sung quyền truy cập internet trực tiếp.
Reasoning (Lập luận)
Lập luận, tự nhận thức và các kỹ năng phát sinh được công nhận rộng rãi là những dấu hiệu của các hệ thống AGI tiên tiến. Điều này là bởi vì ở giai đoạn này, thuật toán đang đưa ra các suy luận và suy diễn giống như con người mà nó chưa được đào tạo cụ thể. Nó đang “suy nghĩ” như một con người. Câu hỏi lớn là làm thế nào để xác định liệu hoặc khi nào lập luận mô phỏng đã chuyển sang hoạt động nhận thức thực sự. Nhiều người tin rằng điều này sẽ không bao giờ xảy ra.
Text-to-Speech (TTS) and Speech-to-Text (STT) – Chuyển văn bản thành giọng nói (TTS) và chuyển giọng nói thành văn bản (STT)
Chuyển văn bản thành giọng nói (TTS), thường được gọi là “công nghệ đọc to” — chuyển đổi nội dung văn bản trên màn hình (hoặc trong hệ thống) thành âm thanh, và đọc kết quả cho người dùng. Tương tự, các mô hình chuyển giọng nói thành văn bản (STT) sẽ chấp nhận và xử lý các yêu cầu âm thanh của người dùng, chuyển đổi chúng thành văn bản và xử lý chúng để thực hiện hành động như bình thường.
Các “trợ lý kỹ thuật số AI” tối thượng như trong bộ phim Her – và ChatGPT4o mới – sử dụng nhanh chóng và mạnh mẽ cả TTS và STT như một phần chức năng cơ bản của chúng. Hãy tưởng tượng bạn có thể trò chuyện với máy tính của mình mà không cần bàn phím. Các nhà công nghệ rõ ràng tin rằng đây là tương lai của sự tương tác của chúng ta với công nghệ nói chung.
API (Giao diện lập trình ứng dụng)
Một tập hợp các giao thức và công cụ cho phép các ứng dụng phần mềm khác nhau giao tiếp và tương tác với nhau. Trong hệ sinh thái AI, điều này cung cấp một lộ trình nhanh chóng và dễ dàng để tích hợp AI mô hình lớn vào các ứng dụng khác nhau như trình duyệt web hoặc plugin. Điều này có thể cho phép người dùng tương tác từ xa với các LLM, ngay cả khi họ không có máy tính đủ mạnh để xử lý tại chỗ.
Để lại một bình luận