(Bài viết này được đăng cách đây hơn 1 năm)
Khi chúng tôi ra mắt AI 50 gần năm năm trước, tôi đã viết, “Mặc dù trí tuệ nhân tạo tổng quát (AGI)… nhận được nhiều sự chú ý trong phim ảnh, lĩnh vực đó vẫn còn xa vời.” Ngày nay, tương lai khoa học viễn tưởng đó dường như gần hơn rất nhiều.
Sự thay đổi lớn nhất là sự nổi lên của AI tạo sinh, đặc biệt là việc sử dụng các bộ chuyển đổi (transformers) (một loại mạng nơ-ron) cho mọi thứ từ tạo văn bản và hình ảnh đến gấp protein và hóa học tính toán. Khoảng một phần ba số công ty trong năm nay sử dụng AI tạo sinh theo một cách nào đó.
Lịch sử của AI Tạo sinh (GenAI)
GenAI, đề cập đến AI xử lý một lượng lớn dữ liệu để tạo ra thứ gì đó hoàn toàn mới, không phải là điều mới mẻ. Chatbot ELIZA nổi tiếng vào những năm 1960 cho phép người dùng nhập câu hỏi cho một nhà trị liệu mô phỏng, nhưng những câu trả lời có vẻ mới lạ của chatbot thực ra dựa trên một bảng tra cứu dựa trên quy tắc. Một bước tiến lớn là Mạng đối nghịch tạo sinh (GANs) của nhà nghiên cứu Google Ian Goodfellow vào năm 2014, tạo ra những hình ảnh độ phân giải thấp nhưng hợp lý bằng cách đặt hai mạng đối đầu nhau trong một trò chơi có tổng bằng không (generated plausible low resolution images by pitting two networks against each other in a zero sum game). Trong những năm tiếp theo, những khuôn mặt mờ ảo trở nên chân thực hơn (blurry faces became more photorealistic), nhưng GANs vẫn khó đào tạo và mở rộng quy mô.
Vào năm 2017, một nhóm khác tại Google đã công bố bài báo nổi tiếng về Transformers, “Attention Is All You Need”, để cải thiện hiệu suất dịch văn bản. Trong trường hợp này, attention đề cập đến các cơ chế cung cấp ngữ cảnh (context) dựa trên vị trí của từ trong văn bản, thay đổi tùy theo ngôn ngữ. Các nhà nghiên cứu nhận thấy rằng các mô hình hoạt động tốt nhất đều có các cơ chế attention này, và đề xuất loại bỏ các phương tiện khác để thu thập mẫu từ văn bản để ưu tiên cho attention.
Những ảnh hưởng cuối cùng đối với cả hiệu suất và hiệu quả đào tạo hóa ra là rất lớn. Thay vì xử lý một chuỗi văn bản từng từ một (processing a string of text word by word), như các phương pháp xử lý ngôn ngữ tự nhiên trước đây, transformers có thể phân tích toàn bộ chuỗi cùng một lúc (transformers can analyze an entire string all at once). Điều này cho phép các mô hình transformer được đào tạo song song, làm cho các mô hình lớn hơn (larger models) trở nên khả thi, chẳng hạn như các transformers được đào tạo trước tạo sinh (generative pretrained transformers), các GPT, hiện đang cung cấp năng lượng cho ChatGPT, GitHub Copilot và Bing mới được hồi sinh của Microsoft. Những mô hình này được đào tạo trên các bộ sưu tập rất lớn về ngôn ngữ con người, và được gọi là Mô hình Ngôn ngữ Lớn (LLMs).
Mặc dù transformers hiệu quả cho các ứng dụng thị giác máy tính (computer vision applications), một phương pháp khác gọi là khuếch tán tiềm ẩn (hoặc ổn định) (latent (or stable) diffusion) hiện tạo ra một số hình ảnh độ phân giải cao ấn tượng nhất (stunning high-resolution images) thông qua các sản phẩm từ các startup như Stability và Midjourney. Các mô hình khuếch tán này kết hợp những yếu tố tốt nhất của GANs và transformers, thêm vào một chút vật lý và có kích thước nhỏ hơn nhiều so với các GPT mới nhất. Kích thước nhỏ hơn và tính khả dụng mã nguồn mở của một số mô hình này đã biến chúng thành nguồn đổi mới (fount of innovation) cho những người muốn thử nghiệm.
Bốn xu hướng trong danh sách năm nay
1. Hạ tầng AI Tạo sinh (Generative AI Infrastructure): OpenAI đã gây tiếng vang lớn năm ngoái với việc ra mắt ChatGPT và một lần nữa trong năm nay với GPT-4, nhưng đặt cược lớn của họ vào quy mô và kỹ thuật gọi là Học Tăng cường với Phản hồi của Con người (RLHF) chỉ là một trong nhiều hướng đi của các Mô hình Ngôn ngữ Lớn (LLM). Anthropic và chatbot Claude của họ sử dụng một phương pháp khác gọi là RL-CAI cho học tăng cường với AI theo hiến pháp. Phần CAI mã hóa một tập hợp các nguyên tắc thân thiện với con người được thiết kế để hạn chế lạm dụng và ảo giác trong đầu ra. Trong khi đó, Inflection, một startup bí mật được thành lập bởi Mustafa Suleyman của DeepMind và Reid Hoffman của Greylock, đang tập trung vào các ứng dụng tiêu dùng.
Và đây chỉ là những người tham gia nổi tiếng ở phía mã nguồn đóng. Trong thế giới mã nguồn mở, Hugging Face đã trở thành nền tảng hàng đầu cho các nhà phát triển muốn đào tạo mô hình riêng hoặc tinh chỉnh các mô hình hiện có. Cùng với các sản phẩm mã nguồn mở của Stability, Hugging Face cũng lưu trữ các mô hình tiên tiến gần đây như LLaMA của Facebook và Alpaca của Stanford.
2. Hạ tầng Dự đoán (Predictive Infrastructure): Trong cơn sốt vàng (the Gold Rush), nhiều thợ đào cá nhân đã phá sản, nhưng những người bán cuốc xẻng lại kiếm được kha khá. Đây là lý do tại sao các nhà đầu tư thường tập trung vào các công ty hạ tầng mới (novel infrastructure companies) trong các thay đổi công nghệ. AI trong nhiều hình thức của nó là về dự đoán (AI in its many forms is about prediction), vì vậy hãy gọi danh mục mới này là “hạ tầng dự đoán” (predictive infrastructure).
Các công ty hạ tầng lớn nhất lưu trữ lượng dữ liệu khổng lồ cần thiết cho các ứng dụng AI doanh nghiệp trong một định dạng tạo điều kiện cho tất cả các loại đường ống dữ liệu (data pipelines). Databricks đã tự phân biệt mình với Snowflake, một công ty đương nhiệm đáng chú ý trong lĩnh vực này, bằng cách được thiết kế đặc biệt cho nhu cầu của các nhóm dữ liệu AI/ML.
Vì gán nhãn dữ liệu (data labeling), làm sạch (cleaning) và các quy trình khác rất quan trọng đối với việc đào tạo mô hình (model training), hiện có bốn công ty trong danh mục này trong danh sách năm nay: Coactive, Scale, Snorkel và Surge, tăng từ chỉ một công ty năm ngoái (Scale). Hai công ty mới khác trong AI 50, MosaicML và Weights & Biases, đặc biệt giúp các chuyên gia AI đào tạo và tinh chỉnh mô hình. Arize và Hugging Face cũng giúp dễ dàng triển khai mô hình ở quy mô lớn.
3. Ứng dụng AI Tạo sinh (Generative AI Applications): Midjourney và Stable Diffusion đã được hưởng lợi từ sự lan truyền của họ trên mạng xã hội, đặt AI tạo sinh vào trung tâm của văn hóa đại chúng. Sau đó ChatGPT đã thu hút sự chú ý của thế giới và trở thành sản phẩm nhanh nhất đạt 100 triệu người dùng. Trong khi Google chạy đua bắt kịp với chatbot Bard của mình, Neeva đã trở thành công cụ tìm kiếm bản địa AI tạo sinh đầu tiên (generative AI native search engine). (tuy nhiên Neeva đã “dẹp tiệm” vào June 2 2023)
Vì LLM chủ yếu được thiết kế để tạo văn bản, các ứng dụng viết tạo sinh là một danh mục đang phát triển nhanh chóng. Hai trong số các ứng dụng này có trong danh sách năm nay: Jasper, sử dụng GPT-4 để giúp các nhà văn tiếp thị, và Writer, đã đào tạo mô hình độc quyền của riêng mình và tập trung vào các trường hợp sử dụng doanh nghiệp. Khi các mô hình ngôn ngữ trở nên có khả năng hơn, chúng có thể xử lý các ứng dụng phức tạp hơn, như văn bản pháp lý. Harvey đang sử dụng GPT-4 để làm công việc cấp cộng sự tại các công ty luật và dịch vụ chuyên nghiệp khác, trong khi Ironclad đã tự động hóa nhiều quy trình hợp đồng cho các nhóm pháp lý nội bộ.
AI tạo sinh vốn mang tính sáng tạo, vì vậy tự nhiên là chúng ta thấy nhiều đổi mới trong các lĩnh vực sáng tạo khác. Runway tạo ra, chỉnh sửa và áp dụng hiệu ứng cho video đạt tiêu chuẩn chất lượng cho đội ngũ đoạt giải Oscar đứng sau Everything Everywhere All at Once. Descript tập trung vào cả quy trình làm việc podcast và video, sử dụng AI tạo sinh để làm cho quá trình chỉnh sửa bớt vất vả hơn. ChatGPT, Bing và Bard là các chatbot đa năng, nhưng việc tạo ra các chatbot tùy chỉnh là một không gian sáng tạo mới nổi được hỗ trợ bởi Character.AI, được thành lập bởi một trong những tác giả của bài báo Transformer gốc, Noam Shazeer.
Tạo bài thuyết trình PowerPoint là điều gần nhất mà nhiều người có thể sáng tạo trong công việc, nhưng các ứng dụng AI tạo sinh mới như Tome giúp dễ dàng thiết kế các bài thuyết trình đẹp mắt mang ý tưởng của bạn vào cuộc sống chỉ với các lệnh văn bản. Một cách tiếp cận khác về năng suất làm việc đến từ Adept, đã xây dựng một mô hình hành động, ACT-1, được đào tạo về cách mọi người tương tác với máy tính của họ. Mục tiêu của nó là cuối cùng tự động hóa một số việc tìm kiếm, nhấp chuột và cuộn trang mà bạn phải làm bây giờ để hoàn thành công việc.
4. Ứng dụng AI Dự đoán (Predictive AI applications): Một cách hữu ích khác để sử dụng sức mạnh dự đoán của AI là phát hiện các bất thường và sau đó tìm cách giảm thiểu chúng. Ví dụ, Abnormal Security phân tích môi trường email đám mây của một công ty để xác định các nỗ lực lừa đảo và các mối đe dọa khác và loại bỏ các email độc hại. Về mặt y tế, Viz.ai nhanh chóng hiển thị hình ảnh bệnh nhân cần được chuyên gia xem xét và phối hợp nhóm chăm sóc để cải thiện kết quả cho bệnh nhân bị đột quỵ và các tình trạng khẩn cấp khác.
Tương lai của AI
Đến khi danh sách năm tới được công bố, tôi tin rằng AI tạo sinh và các mô hình ngôn ngữ lớn (LLM) vẫn sẽ chiếm ưu thế. Tuy nhiên, bối cảnh đang thay đổi nhanh chóng và có nhiều cơ hội lớn cho các công ty có thể thích ứng với nó. Dưới đây là ba điều cần chú ý trong năm tới:
Đến khi danh sách năm tới được công bố, tôi tin rằng AI tạo sinh và các mô hình ngôn ngữ lớn (LLM) vẫn sẽ chiếm ưu thế. Tuy nhiên, bối cảnh đang thay đổi nhanh chóng và có nhiều cơ hội lớn cho các công ty có thể thích ứng với nó. Dưới đây là ba điều cần chú ý trong năm tới:
- Tầng hạ tầng (The Infrastructure layer) hiện đang rất “béo”, với những công ty lớn nhất trong lĩnh vực này cung cấp các mô hình (models) và dịch vụ đám mây (cloud services). Điều này sẽ thay đổi khi các công ty xây dựng ứng dụng (building applications) học cách nắm bắt giá trị.
- Việc sử dụng LLM sẽ trưởng thành (mature) với một số công ty ưa chuộng việc mua mô hình AI từ các cloud APIs và những công ty khác lại đam mê xây dựng mô hình riêng của họ. Nhiều người dự đoán rằng các startup sẽ chuyển từ việc sử dụng API sang các mô hình nhỏ hơn, hiệu quả hơn khi họ phát triển. Các công ty có kho dữ liệu lớn và độc đáo sẽ thấy rõ lợi thế khi đào tạo mô hình riêng của họ như một hàng rào bảo vệ. Thông báo gần đây của Bloomberg về LLM tùy chỉnh của họ, tập trung vào xử lý ngôn ngữ tài chính, là một ví dụ điển hình.
- Những ai nhanh nhạy nhưng có tầm nhìn xa sẽ tồn tại (The fast but far-sighted will survive) khi làn sóng AI này mang lại những thay đổi xã hội to lớn. Khả năng thích ứng, chuyển hướng và tận dụng (adapt, pivot and take advantage) những cơ hội không lường trước sẽ là chìa khóa. Bởi vì công nghệ này có tiềm năng to lớn trong việc biến đổi công việc, điều duy nhất không thay đổi chính là sự thay đổi. (Because this technology has huge potential to transform work, the only constant will be change.)
AI tạo sinh (Generative AI) đã đảo ngược nhiều giả định. Trong những ngày đầu, chúng ta nghĩ AI sẽ thay thế công việc thủ công (AI would replace manual work), nhưng robotics hóa ra lại khó khăn hơn một số phần của công việc tri thức nhận thức (robotics turned out to be harder than some parts of cognitive knowledge work). Và, điều đáng ngạc nhiên không kém, bản chất xấp xỉ của các mô hình tạo sinh khiến chúng tốt hơn mong đợi trong công việc sáng tạo và kém đáng tin cậy hơn trong các nhiệm vụ máy móc, lặp đi lặp lại. (. And, equally surprising, the approximate nature of generative models makes them better than expected at creative work and less than completely trustworthy on rote, mechanical tasks.)
Việc đạt được trí tuệ nhân tạo tổng quát (artificial general intelligence), hệ thống tự học tương lai (futuristic self-learning system) mà một số người lo sợ có thể đe dọa nhân loại, vẫn là một mục tiêu di động (a moving target). Nhưng không thể phủ nhận rằng sự tiến bộ của các mô hình ngôn ngữ lớn trong năm qua đã mang tính chất biến đổi – và các ứng dụng của chúng ngày càng trở nên phổ biến. Chúng ta đang thấy những trường hợp sử dụng mới mỗi ngày cho thấy AI sẽ thay đổi cách chúng ta làm việc, sáng tạo và giải trí như thế nào.
Tác giả: Konstantine Buhler published in Forbes on April 11, 2023
Link bài gốc: Generative AI Is Exploding. These Are The Most Important Trends You Need To Know
Dịch giả: Hoàng Phan – KenkAI Nhiều thứ hay
(*) Bạn có thể sao chép và chia sẻ thoải mái.
(**) Follow KenkAI Nhiều thứ hay để đọc các bài dịch khác và cập nhật thông tin bổ ích hằng ngày.
Để lại một bình luận