Công nghệ
GenAI đang bùng nổ. Đây là những xu hướng quan trọng nhất bạn cần biết
Published
9 months agoon

(Bài viết này được đăng cách đây hơn 1 năm)
Khi chúng tôi ra mắt AI 50 gần năm năm trước, tôi đã viết, “Mặc dù trí tuệ nhân tạo tổng quát (AGI)… nhận được nhiều sự chú ý trong phim ảnh, lĩnh vực đó vẫn còn xa vời.” Ngày nay, tương lai khoa học viễn tưởng đó dường như gần hơn rất nhiều.
Sự thay đổi lớn nhất là sự nổi lên của AI tạo sinh, đặc biệt là việc sử dụng các bộ chuyển đổi (transformers) (một loại mạng nơ-ron) cho mọi thứ từ tạo văn bản và hình ảnh đến gấp protein và hóa học tính toán. Khoảng một phần ba số công ty trong năm nay sử dụng AI tạo sinh theo một cách nào đó.

Lịch sử của AI Tạo sinh (GenAI)

GenAI, đề cập đến AI xử lý một lượng lớn dữ liệu để tạo ra thứ gì đó hoàn toàn mới, không phải là điều mới mẻ. Chatbot ELIZA nổi tiếng vào những năm 1960 cho phép người dùng nhập câu hỏi cho một nhà trị liệu mô phỏng, nhưng những câu trả lời có vẻ mới lạ của chatbot thực ra dựa trên một bảng tra cứu dựa trên quy tắc. Một bước tiến lớn là Mạng đối nghịch tạo sinh (GANs) của nhà nghiên cứu Google Ian Goodfellow vào năm 2014, tạo ra những hình ảnh độ phân giải thấp nhưng hợp lý bằng cách đặt hai mạng đối đầu nhau trong một trò chơi có tổng bằng không (generated plausible low resolution images by pitting two networks against each other in a zero sum game). Trong những năm tiếp theo, những khuôn mặt mờ ảo trở nên chân thực hơn (blurry faces became more photorealistic), nhưng GANs vẫn khó đào tạo và mở rộng quy mô.
Vào năm 2017, một nhóm khác tại Google đã công bố bài báo nổi tiếng về Transformers, “Attention Is All You Need”, để cải thiện hiệu suất dịch văn bản. Trong trường hợp này, attention đề cập đến các cơ chế cung cấp ngữ cảnh (context) dựa trên vị trí của từ trong văn bản, thay đổi tùy theo ngôn ngữ. Các nhà nghiên cứu nhận thấy rằng các mô hình hoạt động tốt nhất đều có các cơ chế attention này, và đề xuất loại bỏ các phương tiện khác để thu thập mẫu từ văn bản để ưu tiên cho attention.
Những ảnh hưởng cuối cùng đối với cả hiệu suất và hiệu quả đào tạo hóa ra là rất lớn. Thay vì xử lý một chuỗi văn bản từng từ một (processing a string of text word by word), như các phương pháp xử lý ngôn ngữ tự nhiên trước đây, transformers có thể phân tích toàn bộ chuỗi cùng một lúc (transformers can analyze an entire string all at once). Điều này cho phép các mô hình transformer được đào tạo song song, làm cho các mô hình lớn hơn (larger models) trở nên khả thi, chẳng hạn như các transformers được đào tạo trước tạo sinh (generative pretrained transformers), các GPT, hiện đang cung cấp năng lượng cho ChatGPT, GitHub Copilot và Bing mới được hồi sinh của Microsoft. Những mô hình này được đào tạo trên các bộ sưu tập rất lớn về ngôn ngữ con người, và được gọi là Mô hình Ngôn ngữ Lớn (LLMs).
Mặc dù transformers hiệu quả cho các ứng dụng thị giác máy tính (computer vision applications), một phương pháp khác gọi là khuếch tán tiềm ẩn (hoặc ổn định) (latent (or stable) diffusion) hiện tạo ra một số hình ảnh độ phân giải cao ấn tượng nhất (stunning high-resolution images) thông qua các sản phẩm từ các startup như Stability và Midjourney. Các mô hình khuếch tán này kết hợp những yếu tố tốt nhất của GANs và transformers, thêm vào một chút vật lý và có kích thước nhỏ hơn nhiều so với các GPT mới nhất. Kích thước nhỏ hơn và tính khả dụng mã nguồn mở của một số mô hình này đã biến chúng thành nguồn đổi mới (fount of innovation) cho những người muốn thử nghiệm.
Bốn xu hướng trong danh sách năm nay
1. Hạ tầng AI Tạo sinh (Generative AI Infrastructure): OpenAI đã gây tiếng vang lớn năm ngoái với việc ra mắt ChatGPT và một lần nữa trong năm nay với GPT-4, nhưng đặt cược lớn của họ vào quy mô và kỹ thuật gọi là Học Tăng cường với Phản hồi của Con người (RLHF) chỉ là một trong nhiều hướng đi của các Mô hình Ngôn ngữ Lớn (LLM). Anthropic và chatbot Claude của họ sử dụng một phương pháp khác gọi là RL-CAI cho học tăng cường với AI theo hiến pháp. Phần CAI mã hóa một tập hợp các nguyên tắc thân thiện với con người được thiết kế để hạn chế lạm dụng và ảo giác trong đầu ra. Trong khi đó, Inflection, một startup bí mật được thành lập bởi Mustafa Suleyman của DeepMind và Reid Hoffman của Greylock, đang tập trung vào các ứng dụng tiêu dùng.
Và đây chỉ là những người tham gia nổi tiếng ở phía mã nguồn đóng. Trong thế giới mã nguồn mở, Hugging Face đã trở thành nền tảng hàng đầu cho các nhà phát triển muốn đào tạo mô hình riêng hoặc tinh chỉnh các mô hình hiện có. Cùng với các sản phẩm mã nguồn mở của Stability, Hugging Face cũng lưu trữ các mô hình tiên tiến gần đây như LLaMA của Facebook và Alpaca của Stanford.
2. Hạ tầng Dự đoán (Predictive Infrastructure): Trong cơn sốt vàng (the Gold Rush), nhiều thợ đào cá nhân đã phá sản, nhưng những người bán cuốc xẻng lại kiếm được kha khá. Đây là lý do tại sao các nhà đầu tư thường tập trung vào các công ty hạ tầng mới (novel infrastructure companies) trong các thay đổi công nghệ. AI trong nhiều hình thức của nó là về dự đoán (AI in its many forms is about prediction), vì vậy hãy gọi danh mục mới này là “hạ tầng dự đoán” (predictive infrastructure).
Các công ty hạ tầng lớn nhất lưu trữ lượng dữ liệu khổng lồ cần thiết cho các ứng dụng AI doanh nghiệp trong một định dạng tạo điều kiện cho tất cả các loại đường ống dữ liệu (data pipelines). Databricks đã tự phân biệt mình với Snowflake, một công ty đương nhiệm đáng chú ý trong lĩnh vực này, bằng cách được thiết kế đặc biệt cho nhu cầu của các nhóm dữ liệu AI/ML.
Vì gán nhãn dữ liệu (data labeling), làm sạch (cleaning) và các quy trình khác rất quan trọng đối với việc đào tạo mô hình (model training), hiện có bốn công ty trong danh mục này trong danh sách năm nay: Coactive, Scale, Snorkel và Surge, tăng từ chỉ một công ty năm ngoái (Scale). Hai công ty mới khác trong AI 50, MosaicML và Weights & Biases, đặc biệt giúp các chuyên gia AI đào tạo và tinh chỉnh mô hình. Arize và Hugging Face cũng giúp dễ dàng triển khai mô hình ở quy mô lớn.
3. Ứng dụng AI Tạo sinh (Generative AI Applications): Midjourney và Stable Diffusion đã được hưởng lợi từ sự lan truyền của họ trên mạng xã hội, đặt AI tạo sinh vào trung tâm của văn hóa đại chúng. Sau đó ChatGPT đã thu hút sự chú ý của thế giới và trở thành sản phẩm nhanh nhất đạt 100 triệu người dùng. Trong khi Google chạy đua bắt kịp với chatbot Bard của mình, Neeva đã trở thành công cụ tìm kiếm bản địa AI tạo sinh đầu tiên (generative AI native search engine). (tuy nhiên Neeva đã “dẹp tiệm” vào June 2 2023)
Vì LLM chủ yếu được thiết kế để tạo văn bản, các ứng dụng viết tạo sinh là một danh mục đang phát triển nhanh chóng. Hai trong số các ứng dụng này có trong danh sách năm nay: Jasper, sử dụng GPT-4 để giúp các nhà văn tiếp thị, và Writer, đã đào tạo mô hình độc quyền của riêng mình và tập trung vào các trường hợp sử dụng doanh nghiệp. Khi các mô hình ngôn ngữ trở nên có khả năng hơn, chúng có thể xử lý các ứng dụng phức tạp hơn, như văn bản pháp lý. Harvey đang sử dụng GPT-4 để làm công việc cấp cộng sự tại các công ty luật và dịch vụ chuyên nghiệp khác, trong khi Ironclad đã tự động hóa nhiều quy trình hợp đồng cho các nhóm pháp lý nội bộ.
AI tạo sinh vốn mang tính sáng tạo, vì vậy tự nhiên là chúng ta thấy nhiều đổi mới trong các lĩnh vực sáng tạo khác. Runway tạo ra, chỉnh sửa và áp dụng hiệu ứng cho video đạt tiêu chuẩn chất lượng cho đội ngũ đoạt giải Oscar đứng sau Everything Everywhere All at Once. Descript tập trung vào cả quy trình làm việc podcast và video, sử dụng AI tạo sinh để làm cho quá trình chỉnh sửa bớt vất vả hơn. ChatGPT, Bing và Bard là các chatbot đa năng, nhưng việc tạo ra các chatbot tùy chỉnh là một không gian sáng tạo mới nổi được hỗ trợ bởi Character.AI, được thành lập bởi một trong những tác giả của bài báo Transformer gốc, Noam Shazeer.
Tạo bài thuyết trình PowerPoint là điều gần nhất mà nhiều người có thể sáng tạo trong công việc, nhưng các ứng dụng AI tạo sinh mới như Tome giúp dễ dàng thiết kế các bài thuyết trình đẹp mắt mang ý tưởng của bạn vào cuộc sống chỉ với các lệnh văn bản. Một cách tiếp cận khác về năng suất làm việc đến từ Adept, đã xây dựng một mô hình hành động, ACT-1, được đào tạo về cách mọi người tương tác với máy tính của họ. Mục tiêu của nó là cuối cùng tự động hóa một số việc tìm kiếm, nhấp chuột và cuộn trang mà bạn phải làm bây giờ để hoàn thành công việc.
4. Ứng dụng AI Dự đoán (Predictive AI applications): Một cách hữu ích khác để sử dụng sức mạnh dự đoán của AI là phát hiện các bất thường và sau đó tìm cách giảm thiểu chúng. Ví dụ, Abnormal Security phân tích môi trường email đám mây của một công ty để xác định các nỗ lực lừa đảo và các mối đe dọa khác và loại bỏ các email độc hại. Về mặt y tế, Viz.ai nhanh chóng hiển thị hình ảnh bệnh nhân cần được chuyên gia xem xét và phối hợp nhóm chăm sóc để cải thiện kết quả cho bệnh nhân bị đột quỵ và các tình trạng khẩn cấp khác.
Tương lai của AI
Đến khi danh sách năm tới được công bố, tôi tin rằng AI tạo sinh và các mô hình ngôn ngữ lớn (LLM) vẫn sẽ chiếm ưu thế. Tuy nhiên, bối cảnh đang thay đổi nhanh chóng và có nhiều cơ hội lớn cho các công ty có thể thích ứng với nó. Dưới đây là ba điều cần chú ý trong năm tới:
Đến khi danh sách năm tới được công bố, tôi tin rằng AI tạo sinh và các mô hình ngôn ngữ lớn (LLM) vẫn sẽ chiếm ưu thế. Tuy nhiên, bối cảnh đang thay đổi nhanh chóng và có nhiều cơ hội lớn cho các công ty có thể thích ứng với nó. Dưới đây là ba điều cần chú ý trong năm tới:
- Tầng hạ tầng (The Infrastructure layer) hiện đang rất “béo”, với những công ty lớn nhất trong lĩnh vực này cung cấp các mô hình (models) và dịch vụ đám mây (cloud services). Điều này sẽ thay đổi khi các công ty xây dựng ứng dụng (building applications) học cách nắm bắt giá trị.
- Việc sử dụng LLM sẽ trưởng thành (mature) với một số công ty ưa chuộng việc mua mô hình AI từ các cloud APIs và những công ty khác lại đam mê xây dựng mô hình riêng của họ. Nhiều người dự đoán rằng các startup sẽ chuyển từ việc sử dụng API sang các mô hình nhỏ hơn, hiệu quả hơn khi họ phát triển. Các công ty có kho dữ liệu lớn và độc đáo sẽ thấy rõ lợi thế khi đào tạo mô hình riêng của họ như một hàng rào bảo vệ. Thông báo gần đây của Bloomberg về LLM tùy chỉnh của họ, tập trung vào xử lý ngôn ngữ tài chính, là một ví dụ điển hình.
- Những ai nhanh nhạy nhưng có tầm nhìn xa sẽ tồn tại (The fast but far-sighted will survive) khi làn sóng AI này mang lại những thay đổi xã hội to lớn. Khả năng thích ứng, chuyển hướng và tận dụng (adapt, pivot and take advantage) những cơ hội không lường trước sẽ là chìa khóa. Bởi vì công nghệ này có tiềm năng to lớn trong việc biến đổi công việc, điều duy nhất không thay đổi chính là sự thay đổi. (Because this technology has huge potential to transform work, the only constant will be change.)
AI tạo sinh (Generative AI) đã đảo ngược nhiều giả định. Trong những ngày đầu, chúng ta nghĩ AI sẽ thay thế công việc thủ công (AI would replace manual work), nhưng robotics hóa ra lại khó khăn hơn một số phần của công việc tri thức nhận thức (robotics turned out to be harder than some parts of cognitive knowledge work). Và, điều đáng ngạc nhiên không kém, bản chất xấp xỉ của các mô hình tạo sinh khiến chúng tốt hơn mong đợi trong công việc sáng tạo và kém đáng tin cậy hơn trong các nhiệm vụ máy móc, lặp đi lặp lại. (. And, equally surprising, the approximate nature of generative models makes them better than expected at creative work and less than completely trustworthy on rote, mechanical tasks.)
Việc đạt được trí tuệ nhân tạo tổng quát (artificial general intelligence), hệ thống tự học tương lai (futuristic self-learning system) mà một số người lo sợ có thể đe dọa nhân loại, vẫn là một mục tiêu di động (a moving target). Nhưng không thể phủ nhận rằng sự tiến bộ của các mô hình ngôn ngữ lớn trong năm qua đã mang tính chất biến đổi – và các ứng dụng của chúng ngày càng trở nên phổ biến. Chúng ta đang thấy những trường hợp sử dụng mới mỗi ngày cho thấy AI sẽ thay đổi cách chúng ta làm việc, sáng tạo và giải trí như thế nào.
Tác giả: Konstantine Buhler published in Forbes on April 11, 2023
Link bài gốc: Generative AI Is Exploding. These Are The Most Important Trends You Need To Know
Dịch giả: Hoàng Phan – KenkAI Nhiều thứ hay
(*) Bạn có thể sao chép và chia sẻ thoải mái.
(**) Follow KenkAI Nhiều thứ hay để đọc các bài dịch khác và cập nhật thông tin bổ ích hằng ngày.
Công nghệ
Tìm hiểu về OpenAI o3: Khám phá mô hình AI tiên tiến nhất
Published
5 days agoon
18 May, 2025
OpenAI o3 nổi bật như một mô hình AI có khả năng lập luận mạnh mẽ nhất từ trước đến nay. Mô hình này thể hiện xuất sắc trong việc giải quyết các bài toán phức tạp và đã đạt thành tích ấn tượng với độ chính xác 91,6% trong Kỳ thi Toán học American Invitational Mathematics Examination (AIME) 2025.
Năng lực của o3 bao trùm nhiều lĩnh vực từ lập trình, toán học, khoa học cho đến nhận thức thị giác. So với phiên bản tiền nhiệm, mô hình này giảm 20% lỗi nghiêm trọng trong các tác vụ nền tảng, mặc dù tiêu tốn gấp 10 lần tài nguyên tính toán.
OpenAI o3 thể hiện bước tiến vượt bậc so với các mô hình tiền nhiệm. Kể từ ngày ra mắt 16 tháng 4 năm 2025, mô hình O-series mới nhất này áp dụng cơ chế lập luận mô phỏng, cho phép nó “suy ngẫm” trước khi đưa ra phản hồi. ChatGPT o3 tích hợp liền mạch nhiều công cụ, tạo nên trải nghiệm đa dạng. Mô hình này có khả năng tự quyết định thời điểm sử dụng tìm kiếm web và phân tích dữ liệu Python. Phiên bản o3 đầy đủ mang đến khả năng lập luận toàn diện nhất với với cửa sổ ngữ cảnh khổng lồ lên tới 200.000 token, trong khi các biến thể nhỏ gọn hơn sẽ được ra mắt trong tương lai.
Hãy cùng tìm hiểu những đặc điểm nổi bật của o3, từ khả năng lập luận trực quan đến vai trò của nó trong Khung Chuẩn bị mới “Preparedness Framework” của OpenAI. Mô hình này đánh dấu một bước tiến quan trọng khi là mô hình AI đầu tiên tích hợp các tính năng an toàn như cơ chế sắp xếp có chủ đích – một bước đột phá trong việc phát triển AI có trách nhiệm.
Video Tutorial: OpenAI o3 và o4-mini – Bước tiến mới trong AI
OpenAI o3 là gì và nó khác biệt như thế nào?
OpenAI o3 đánh dấu một bước nhảy vọt trong lĩnh vực trí tuệ nhân tạo, Ra mắt vào ngày 16 tháng 4 năm 2025, o3 là một phần trong dòng mô hình lập luận chuyên sâu của OpenAI. Trong khi các mô hình ngôn ngữ truyền thống chủ yếu tập trung vào việc tạo ra văn bản tổng quát, dòng o-series lại đi theo một hướng khác biệt. Mục tiêu của nó là nâng cao khả năng lập luận, tạo nên sự khác biệt rõ rệt so với các mô hình GPT quen thuộc của OpenAI.
Sự phát triển từ o1 đến o3
OpenAI lần đầu tiên tiết lộ o1 (tên mã “Strawberry”) vào tháng 9 năm 2024. Công ty đã mở rộng quyền truy cập o1 cho nhiều người hơn vào ngày 5 tháng 12 năm 2024. Chỉ hai tuần sau, họ đã xem trước o3 trong sự kiện ’12 Ngày Shipmas’ của họ. Tiến độ nhanh chóng này cho thấy sự cống hiến kiên định của họ đối với khả năng lập luận tốt hơn.
Những cải tiến rất ấn tượng. O3 mắc ít hơn 20% lỗi lớn so với o1 khi xử lý các nhiệm vụ thực tế khó khăn. Nó thực sự tỏa sáng trong lập trình, tư vấn kinh doanh và sáng tạo ý tưởng. Nhìn vào các thước đo cụ thể, o3 đạt độ chính xác 69,1% trong bài kiểm tra lập trình Verified SWE-bench, vượt trội hơn phiên bản tiền nhiệm. Mô hình này cũng đạt điểm ấn tượng 87,7% trong bài kiểm tra GPQA Diamond cho các vấn đề khoa học cấp độ chuyên gia.
Lý do OpenAI bỏ qua phiên bản o2
Bạn có thể nhận thấy không có mô hình OpenAI o2. Công ty đã nhảy thẳng từ o1 sang o3 vì vấn đề thương hiệu—”O2″ thuộc về một công ty viễn thông Anh do Telefonica UK điều hành. Sam Altman, CEO của OpenAI, nói rằng họ đã đưa ra lựa chọn này “vì sự tôn trọng” đối với Telefonica. Quyết định đặt tên này thực sự đã giúp OpenAI bằng cách làm cho mô hình có vẻ tiên tiến hơn.
Lập luận mô phỏng (Simulated reasoning) đối đầu với các mô hình ngôn ngữ lớn truyền thống
O3 hoạt động khác với các mô hình ngôn ngữ lớn truyền thống. GPT-4 và các mô hình tương tự xuất sắc trong các tác vụ ngôn ngữ chung và nhận dạng mẫu. Tuy nhiên, O3 sử dụng lập luận mô phỏng thay đổi toàn bộ cách tiếp cận xử lý thông tin của nó.
Lập luận mô phỏng này cho phép o3 dừng lại và suy nghĩ về quá trình tư duy nội tại của nó trước khi phản hồi—tương tự như cách con người suy nghĩ. Mô hình chia các vấn đề lớn thành các phần nhỏ hơn và khám phá các cách tiếp cận khác nhau. Nó kiểm tra lập luận của chính mình trước khi đưa ra câu trả lời. Cách tiếp cận này khác với các mô hình ngôn ngữ lớn thông thường chủ yếu sử dụng nhận dạng mẫu và dự đoán.
O3 suy nghĩ cẩn thận hơn về các thách thức phức tạp cần tư duy phân tích sâu sắc. Mô hình hoạt động tốt hơn trong toán học, lập trình và lập luận khoa học. Cách tiếp cận thận trọng này dẫn đến độ chính xác cao hơn trên các vấn đề khó, mặc dù mất nhiều thời gian hơn một chút để phản hồi.
Hiểu về o3-mini và o4-mini
Sự phát triển của các mô hình lập luận của OpenAI dẫn đến các phiên bản hiệu quả được thiết kế để tiết kiệm chi phí và ứng dụng chuyên biệt. Những mô hình “mini” này cung cấp khả năng ấn tượng trong khi giữ yêu cầu tính toán thấp hơn và thời gian phản hồi nhanh hơn.
o3-mini là gì?
OpenAI đã cho ra mắt o3-mini vào ngày 31 tháng 1 năm 2025, đánh dấu sự xuất hiện của mô hình lập luận nhỏ gọn đầu tiên của họ. Mô hình này đáp ứng các tính năng được nhà phát triển yêu cầu nhiều nhất, bao gồm khả năng gọi hàm, Structured Outputs, và developer messages. Là một giải pháp thay thế tiết kiệm chi phí cho mô hình o3 đầy đủ, o3-mini thể hiện xuất sắc trong các lĩnh vực STEM—đặc biệt mạnh mẽ trong khoa học, toán học và lập trình—đồng thời duy trì độ trễ thấp hơn.
Các chuyên gia thử nghiệm nhận thấy o3-mini tạo ra câu trả lời chính xác và rõ ràng hơn so với o1-mini, với 56% thời gian họ ưu tiên chọn phản hồi từ o3-mini. Mô hình này giảm 39% lỗi nghiêm trọng (major errors) khi xử lý các câu hỏi nền tảng khó so với o1-mini. Thời gian phản hồi cũng được cải thiện đáng kể, nhanh hơn 24% so với o1-mini, trung bình chỉ mất 7,7 giây so với 10,16 giây của phiên bản tiền nhiệm.
Giải thích về o3-mini-low, medium và high
Ba biến thể của o3-mini tồn tại dựa trên nỗ lực lập luận: thấp, trung bình và cao. Các nhà phát triển có thể tối ưu hóa cho các trường hợp sử dụng cụ thể—chọn quá trình suy nghĩ sâu hơn cho các vấn đề phức tạp hoặc ưu tiên tốc độ khi độ trễ quan trọng.
O3-mini phù hợp với hiệu suất của o1 trong các đánh giá lập luận và trí thông minh đầy thách thức với nỗ lực lập luận trung bình, bao gồm AIME và GPQA. Các tùy chọn lập luận cao cung cấp khả năng phân tích cải thiện với chi phí thời gian phản hồi hơi lâu hơn. Vì vậy, tất cả người dùng ChatGPT trả phí đều nhận được quyền truy cập vào cả o3-mini (sử dụng lập luận trung bình theo mặc định) và o3-mini-high trong bộ chọn mô hình.
Phiên bản 1 (Dịch sát nghĩa):
O4-mini là gì và nó so sánh với o3-mini như thế nào
OpenAI đã phát hành o4-mini cùng với o3 vào ngày 16 tháng 4 năm 2025, như một mô hình nhỏ hơn được tối ưu hóa cho lập luận nhanh và tiết kiệm chi phí. Mô hình nhỏ gọn này thể hiện hiệu suất đáng chú ý cho kích thước của nó và xuất sắc trong các nhiệm vụ toán học, lập trình và thị giác.
O4-mini vượt trội hơn o3-mini trong cả các nhiệm vụ STEM và phi STEM trong các đánh giá của chuyên gia, bao gồm các lĩnh vực khoa học dữ liệu. Phản hồi của người dùng cho thấy kết quả hỗn hợp—o4-mini cung cấp thông lượng cao hơn và giới hạn sử dụng cao hơn so với o3, nhưng một số người dùng báo cáo vấn đề với việc tạo mã và tính nhất quán so với o3-mini-high.
O4-mini có các biến thể lập luận tiêu chuẩn và cao, với phiên bản cao mất nhiều thời gian hơn để tạo ra câu trả lời có khả năng đáng tin cậy hơn.
Các khả năng chính của o3
O3 của OpenAI nổi bật so với các mô hình AI truyền thống với những khả năng đột phá. Mô hình học thông qua học tăng cường quy mô lớn và thể hiện kỹ năng đáng chú ý trên nhiều lĩnh vực. Điều này khiến nó trở thành một công cụ mạnh mẽ để giải quyết các vấn đề phức tạp.
Lập luận nâng cao và chuỗi suy nghĩ
OpenAI đã huấn luyện mô hình o3 để “suy nghĩ” trước khi đưa ra câu trả lời thông qua cái mà họ gọi là “chuỗi tư duy riêng tư”. Mô hình này lập kế hoạch trước và lập luận thông qua các nhiệm vụ bằng cách thực hiện các bước suy luận trung gian để giải quyết vấn đề. O3 có khả năng phân tích các thách thức phức tạp và cân nhắc nhiều phương pháp tiếp cận khác nhau. Nó tự đánh giá quá trình lập luận của mình trước khi đưa ra câu trả lời cuối cùng. Mặc dù quá trình này đòi hỏi nhiều sức mạnh tính toán hơn và mất nhiều thời gian hơn để phản hồi, nhưng kết quả đầu ra lại chính xác hơn đáng kể.
Visual reasoning: suy nghĩ bằng hình ảnh
Một trong những bước đột phá lớn nhất của o3 là biết cách lập luận với hình ảnh trực tiếp trong chuỗi suy nghĩ của nó. Mô hình không chỉ nhìn thấy hình ảnh – nó suy nghĩ với chúng. O3 làm việc với hình ảnh do người dùng tải lên bằng cách sử dụng các công cụ khác nhau. Nó cắt, phóng to, xoay và áp dụng các kỹ thuật xử lý khác. Điều này giúp o3 phân tích hình ảnh mờ, đảo ngược hoặc chất lượng thấp. Tính năng này chứng tỏ giá trị trong việc giải thích bảng trắng (whiteboards), sơ đồ sách giáo khoa hoặc phác thảo vẽ tay (hand-drawn sketches).
Sử dụng công cụ: duyệt web, lập trình, phân tích tệp
O3 kết hợp lập luận tiên tiến với các khả năng công cụ chi tiết. Bao gồm duyệt web, lập trình Python, phân tích hình ảnh, xử lý tệp và các tính năng bộ nhớ. Các công cụ không chỉ có sẵn – o3 biết chính xác khi nào và cách sử dụng chúng trong quá trình lập luận. Ví dụ, xem cách nó tìm kiếm dữ liệu tiện ích trên web, viết mã Python để dự báo và tạo biểu đồ giải thích – tất cả trong một tương tác.
Tự kiểm tra sự thật và tính năng bộ nhớ
O3 sử dụng sự sắp xếp có cân nhắc để lập luận về các chính sách an toàn khi nó phản hồi các lời nhắc có khả năng không an toàn. Tự kiểm tra sự thật tích hợp giúp phản hồi chính xác hơn. Mô hình cũng nhớ các chi tiết hữu ích giữa các cuộc trò chuyện. Điều này dẫn đến các phản hồi được tùy chỉnh và phù hợp.
Performance trong toán học, lập trình và khoa học
O3 cho thấy kết quả đặc biệt xuất sắc trong các lĩnh vực kỹ thuật:
- Toán học: Độ chính xác 91,6% trên AIME 2024 (so với 74,3% của o1)
- Lập trình: Độ chính xác 69,1% trên SWE-bench Verified (so với 48,9% của o1)
- Khoa học: Độ chính xác 83,3% trên thước đo GPQA Diamond
Safety, access, and pricing
OpenAI đang dẫn đầu trong việc triển khai an toàn và có trách nhiệm các mô hình lập luận của mình. Tài liệu an toàn mới nhất của họ cho thấy cách o3 và o4-mini áp dụng nhiều lớp bảo vệ, vừa ngăn chặn việc sử dụng sai mục đích, vừa hỗ trợ các ứng dụng có ích.
Deliberative alignment: Phương pháp an toàn mới
OpenAI đã phát triển phương pháp sắp xếp có chủ đích – một kỹ thuật an toàn đột phá giúp các mô hình lập luận hiểu trực tiếp các thông số kỹ thuật an toàn do con người viết. Khác với các phương pháp cũ, nơi các mô hình học hành vi mong muốn từ các ví dụ được gắn nhãn, o3 giờ đây có thể suy ngẫm về các thông số này trước khi đưa ra câu trả lời.
Cách tiếp cận này giúp o3 vượt trội hơn GPT-4o trong việc đáp ứng các tiêu chuẩn an toàn nội bộ và bên ngoài. Nó giảm thiểu các kết quả có hại và tránh việc từ chối không cần thiết đối với nội dung an toàn. Đây là một bước tiến vượt bậc so với các phương pháp an toàn truyền thống chỉ dựa vào đào tạo từ các ví dụ.
Preparedness Framework v2
Khung Chuẩn bị phiên bản 2 của OpenAI giờ đây xem xét năm tiêu chí rủi ro: tính khả thi, khả năng đo lường, mức độ nghiêm trọng, tính mới hoàn toàn và liệu rủi ro xảy ra tức thì hay không thể khắc phục.
Khung này đặt ra hai ngưỡng rõ ràng – Khả năng cao và Khả năng quan trọng – kèm theo các cam kết hoạt động cụ thể. O3 và o4-mini đã trải qua đánh giá trong ba lĩnh vực: mối đe dọa sinh học/hóa học, an ninh mạng và khả năng tự cải thiện của AI. Cả hai mô hình đều duy trì dưới ngưỡng ‘Cao’ của khung trong mọi hạng mục.
Cách truy cập o3 và o4-mini thông qua ChatGPT
Người dùng ChatGPT Plus, Pro và Team có thể truy cập o3, o4-mini và o4-mini-high trực tiếp từ bộ chọn mô hình. Người dùng Enterprise và Edu được truy cập một tuần sau khi phát hành ban đầu. Mỗi cấp độ đăng ký có giới hạn khác nhau:
- Plus, Team, Enterprise & Edu: 100 tin nhắn hàng tuần với o3, 300 tin nhắn hàng ngày với o4-mini và 100 tin nhắn hàng ngày với o4-mini-high
- Pro: Truy cập gần như không giới hạn (tùy thuộc vào các biện pháp bảo vệ tự động)
- Miễn phí: Truy cập giới hạn vào o4-mini bằng cách chọn ‘Think’ trong trình soạn thảo
Giá API và giới hạn sử dụng
Các nhà phát triển có thể sử dụng o3 qua API với giá 254.148,34 VND cho mỗi triệu token đầu vào và 1.016.593,35 VND cho mỗi triệu token đầu ra. O4-mini có giá thấp hơn ở mức 27.956,32 VND cho mỗi triệu token đầu vào và 111.825,27 VND cho mỗi triệu token đầu ra. Người dùng cần xác minh tổ chức ở cấp độ 1-3 để truy cập o3, trong khi tất cả người dùng đã xác minh có thể sử dụng o4-mini. Cả hai mô hình đều hoạt động với cửa sổ ngữ cảnh 200k token và có thể xuất ra tối đa 100k token, điều này cung cấp nhiều không gian cho các tác vụ lập luận phức tạp.

Kết luận
OpenAI o3 đánh dấu một bước ngoặt quan trọng trong lịch sử phát triển AI, khi nó vượt xa khỏi việc đơn thuần so khớp mẫu để hướng tới khả năng lập luận đích thực. Những mô hình này hứa hẹn sẽ phát triển khả năng giải quyết vấn đề ngày càng tinh vi, đi kèm với các biện pháp an toàn được cải thiện. Dòng o chứng minh rằng tương lai của AI không nằm ở việc tạo ra các phản hồi đơn thuần, mà là ở khả năng lập luận thấu đáo trước những vấn đề phức tạp
Câu hỏi thường gặp
C1. Các tính năng chính của mô hình o3 của OpenAI là gì? OpenAI o3 là một mô hình AI tiên tiến sử dụng lập luận mô phỏng để xuất sắc trong các nhiệm vụ giải quyết vấn đề phức tạp. Nó có thể tạm dừng và suy ngẫm trước khi phản hồi, có khả năng lập luận trực quan và tích hợp các công cụ khác nhau như tìm kiếm web và lập trình Python. Mô hình cũng có các biện pháp an toàn nâng cao và cửa sổ ngữ cảnh khổng lồ 200.000 token.
C2. O3 so sánh như thế nào với các mô hình AI trước đây về mặt hiệu suất? O3 thể hiện những cải tiến đáng kể so với các phiên bản tiền nhiệm, mắc ít hơn 20% lỗi lớn trong các nhiệm vụ thực tế khó khăn. Nó đạt độ chính xác 91,6% trên AIME 2025, 69,1% độ chính xác trên điểm chuẩn lập trình SWE-bench Verified, và 87,7% trên điểm chuẩn GPQA Diamond cho các vấn đề khoa học cấp độ chuyên gia.
C3. O3-mini và o4-mini là gì, và chúng khác với mô hình o3 đầy đủ như thế nào? O3-mini và o4-mini là các phiên bản tinh gọn của mô hình o3, được thiết kế để tiết kiệm chi phí và ứng dụng chuyên biệt. Chúng cung cấp khả năng ấn tượng với yêu cầu tính toán thấp hơn và thời gian phản hồi nhanh hơn. O3-mini có các biến thể nỗ lực lập luận thấp, trung bình và cao, trong khi o4-mini được tối ưu hóa cho lập luận nhanh, tiết kiệm chi phí.
C4. Người dùng có thể truy cập các mô hình o3 và o4-mini như thế nào? Người dùng ChatGPT Plus, Pro, Team và Enterprise có thể truy cập o3, o4-mini và o4-mini-high thông qua bộ chọn mô hình. Giới hạn sử dụng thay đổi theo cấp độ đăng ký. Đối với các nhà phát triển, cả hai mô hình đều có sẵn thông qua API với cấu trúc giá khác nhau. Người dùng miễn phí có quyền truy cập hạn chế vào o4-mini bằng cách chọn ‘Think’ trong trình soạn thảo.
C5. Các biện pháp an toàn nào được triển khai trong mô hình o3? O3 kết hợp một phương pháp an toàn mới gọi là sắp xếp có cân nhắc, dạy mô hình lập luận rõ ràng về các thông số kỹ thuật an toàn. Nó cũng có khả năng tự kiểm tra sự thật và được đánh giá theo Khung Chuẩn bị v2 cập nhật của OpenAI, đánh giá rủi ro trên các tiêu chí khác nhau để đảm bảo triển khai AI có trách nhiệm.
Dieter R.

Chào bạn đến với khóa học AI tạo sinh 5 ngày độc đáo. Khóa học được tổ chức bởi Google trên nền tảng Kaggle. Đây là một cơ hội hiếm có để học hỏi trực tiếp từ các chuyên gia hàng đầu của Google. Đặc biệt là từ đội ngũ Google DeepMind.
Nội dung chính
Khóa Học AI Tạo Sinh 5 Ngày: Livestream Ngày 1
Paige Bailey sẽ thảo luận về các bài tập với các tác giả khóa học. Bên cạnh đó có những khách mời đặc biệt khác từ Google. Khách mời hôm nay bao gồm Warren Barkley, Logan Kilpatrick, Kieran Milan, Anant Nawalgaria, Irina Sigler và Mat Velloso.
Video có phụ đề tiếng Việt.
Video gốc (không có phụ đề tiếng Việt): https://www.youtube.com/live/WpIfAeCIFc0
Thông tin thêm
Đào Tạo Toàn Diện cho Hơn 140.000 Nhà Phát Triển
Khóa học Generative AI 5 ngày của Google không chỉ là một chuỗi bài giảng đơn thuần. Nó còn là một hành trình học tập toàn diện. Khóa học được thiết kế cẩn thận. Nhằm cung cấp kiến thức chuyên sâu về AI tạo sinh. Với số lượng hơn 140.000 nhà phát triển đã đăng ký tham gia. Đây là một trong những sự kiện quan trọng nhất từng được tổ chức cho các nhà phát triển.
Khóa học đã được thiết kế tinh tế. Kết hợp giữa lý thuyết, thực hành và tương tác cộng đồng. Nhằm giúp những người tham gia có được hiểu biết vững chắc về Gen AI. Từ cơ bản đến nâng cao.
Mỗi ngày trong khóa học đều tập trung vào một chủ đề cụ thể. Nhằm mang đến cho người học góc nhìn toàn diện về công nghệ AI tạo sinh.
- Ngày 1 khám phá về Các Mô hình Nền tảng và Kỹ thuật Prompt;
- Ngày 2 đi sâu vào Embeddings và Vector Stores/Databases;
- Ngày 3 tập trung vào Generative AI Agents;
- Ngày 4 nghiên cứu về Domain-Specific LLMs;
- và cuối cùng, Ngày 5 giới thiệu về MLOps cho AI tạo sinh.
Cách tiếp cận đa dạng này giúp người học có thể nắm bắt được cả lý thuyết nền tảng. Lẫn các ứng dụng thực tế của AI tạo sinh.
Trải Nghiệm Học Tập Toàn Diện Với Podcast AI, Phòng Thí Nghiệm Mã Và Tương Tác Trực Tiếp Cùng Chuyên Gia
Điểm đặc biệt của khóa học là các bài tập được thiết kế đa dạng, bao gồm podcast được tạo bởi AI (sử dụng NotebookLM), các bài báo trắng (white papers) thông tin do các chuyên gia Google viết, và các phòng thí nghiệm mã (code labs) để người học có thể trải nghiệm thực tế với Gemini API và các công cụ khác. Người học cũng có cơ hội tham gia vào các buổi phát trực tiếp với các khách mời chuyên gia từ Google, nơi họ có thể đặt câu hỏi và tương tác với những người tạo ra khóa học. Đây là cơ hội quý báu để đi sâu hơn vào các chủ đề chuyên đề và hiểu rõ hơn về ứng dụng của AI tạo sinh.
Ngoài ra, khóa học còn cung cấp một kênh Discord được hỗ trợ tích cực bởi các nhân viên Google, tạo ra một không gian cộng đồng sôi động để trao đổi kiến thức và chia sẻ trải nghiệm. Các phòng thí nghiệm mã trên Kaggle cho phép người tham gia thử nghiệm với các kỹ thuật và công cụ AI tạo sinh khác nhau, bao gồm Gemini API, Embeddings, công cụ mã nguồn mở như Langraph cũng như Vertex AI. Đối với những ai đã bỏ lỡ khóa học trực tiếp, một số nội dung phổ biến nhất đã được điều chỉnh thành định dạng tự học và có sẵn dưới dạng Kaggle Learn Guide, giúp mọi người vẫn có thể tiếp cận với kiến thức quý giá này
Danh sách tham khảo
[1] 5-Day Gen AI Intensive Course with Google Learn Guide – Kaggle
[2] Google and Kaggle launch five-day intensive Generative AI course
[3] Kaggle’s 5-Day Gen AI Intensive Course
Công nghệ
AI Cách Mạng: Khởi Nghiệp Công Nghệ Tương Lai Ngay
Ông Lee cho biết: “Nếu thuộc thế hệ trước, chúng tôi dễ dàng có tới 200 nhân viên. Chúng tôi có cơ hội để suy nghĩ lại về điều đó, về cơ bản là viết lại kịch bản”.
Published
3 months agoon
23 February, 2025
Khởi nghiệp AI đang định hình tương lai kinh doanh. Với sức mạnh công nghệ, startup AI giải phóng tiềm năng sáng tạo, tối ưu hóa quy trình và mở ra những cơ hội kinh doanh chưa từng có trong kỷ nguyên số.
DeepSeek đang tạo ra một bước ngoặt mới cho Thung lũng Silicon.
Hầu như ngày nào, doanh nhân Grant Lee cũng được các nhà đầu tư thuyết phục xuống tiền. Một số người thậm chí còn gửi cho ông và những người đồng sáng lập khác nhiều giỏ quà đắt đỏ để lấy lòng.
Ông Lee, 41 tuổi, trước đây đã giúp thành lập một công ty khởi nghiệp AI có tên Gamma. Giống như nhiều startup trẻ khác ở Thung lũng Silicon, Gamma theo đuổi một chiến lược mới: sử dụng các công cụ trí tuệ nhân tạo để tăng năng suất của nhân viên, từ dịch vụ khách hàng, tiếp thị đến mã hóa và nghiên cứu.
Điều đó có nghĩa là Gamma không cần thêm tiền mặt nữa, ông Lee cho biết. Công ty của ông chỉ tuyển dụng 28 người cũng có thể tạo ra hàng chục triệu USD doanh thu định kỳ hàng năm với gần 50 triệu người dùng. Gamma cũng có lãi.
Ông Lee cho biết: “Nếu thuộc thế hệ trước, chúng tôi dễ dàng có tới 200 nhân viên. Chúng tôi có cơ hội để suy nghĩ lại về điều đó, về cơ bản là viết lại kịch bản”.
Mô hình Thung lũng Silicon cũ chỉ ra rằng các công ty khởi nghiệp nên huy động một khoản tiền lớn từ các nhà đầu tư mạo hiểm, sau đó chi tiền thuê một đội ngũ nhân viên để mở rộng quy mô. Trong khi đó, Gamma vẫn kiếm được tiền và phát triển nhanh chóng dù không cần vốn tài trợ hay số lượng lớn nhân viên.
Những câu chuyện thành công này đã thu hút sự chú ý của Thung lũng Silicon. Anysphere, một công ty khởi nghiệp tạo ra phần mềm mã hóa Cursor, đạt doanh thu 100 triệu USD trong vòng chưa đầy hai năm với chỉ 20 nhân viên. ElevenLabs, một công ty A.I. công ty khởi nghiệp bằng giọng nói, cũng làm nên kỳ tích tương tự với khoảng 50 nhân sự.
Khả năng A.I. cho phép các công ty khởi nghiệp làm được nhiều việc hơn với ít nhân viên hơn đã dẫn đến những suy đoán hoang đường về tương lai. Sam Altman, giám đốc điều hành của OpenAI, dự đoán rằng một ngày nào đó có thể có một công ty một người trị giá 1 tỷ USD.

Với các công cụ A.I., một số công ty khởi nghiệp hiện đang tuyên bố ngừng tuyển dụng ở một quy mô nhất định. Runway Financial, một công ty phần mềm tài chính, cho biết chỉ tuyển tối đa 100 nhân viên vì mỗi người sẽ tăng năng suất gấp rưỡi. Agency, startup sử dụng A.I. cho dịch vụ khách hàng, cũng có kế hoạch tuyển dụng không quá 100 nhân viên.
“Mục đích là loại bỏ những vai trò không cần thiết”, Elias Torres, người sáng lập Agency, cho biết.
Ý tưởng này được thúc đẩy bởi DeepSeek, công ty khởi nghiệp A.I. của Trung Quốc xây dựng các công cụ trí tuệ nhân tạo với chi phí chỉ bằng một phần nhỏ so với chi phí thông thường. Bước đột phá, được xây dựng trên các công cụ nguồn mở có sẵn miễn phí trực tuyến, đã tạo ra sự bùng nổ của các công ty xây dựng sản phẩm mới giá rẻ.
“DeepSeek là một bước ngoặt”, Gaurav Jain, một nhà đầu tư tại công ty đầu tư mạo hiểm Afore Capital, đơn vị đã hỗ trợ Gamma, cho biết. “Chi phí điện toán sẽ giảm rất, rất nhanh, rất nhanh”.

Ông Jain so sánh các công ty khởi nghiệp A.I. mới với làn sóng cuối những năm 2000, sau khi Amazon bắt đầu cung cấp các dịch vụ điện toán đám mây giá rẻ. Điều đó đã làm giảm chi phí thành lập công ty, dẫn đến một loạt các công ty khởi nghiệp mới có thể được xây dựng với chi phí rẻ.
Trước cơn sốt A.I. này, các công ty khởi nghiệp thường đốt 1 triệu USD để đạt được doanh thu 1 triệu USD. Bây giờ, để đạt được doanh thu 1 triệu USD, chi phí chỉ bằng 1/5 và cuối cùng có thể giảm xuống còn 1/10, theo phân tích của Afore đối với 200 công ty khởi nghiệp.
Ông Jain cho biết: “Lần này, chúng tôi đang tự động hóa con người chứ không chỉ tự động hóa các trung tâm dữ liệu”.
Tuy nhiên, nếu các công ty khởi nghiệp vẫn có thể có lãi mà không cần chi nhiều tiền, điều đó có thể trở thành vấn đề lớn đối với các nhà đầu tư mạo hiểm, những người phân bổ hàng chục tỷ USD để đầu tư vào các công ty khởi nghiệp A.I. Năm ngoái, các công ty A.I. đã huy động được 97 tỷ USD tiền tài trợ, chiếm 46% tổng số tiền đầu tư mạo hiểm tại Mỹ, theo PitchBook.
“Vốn đầu tư mạo hiểm chỉ hiệu quả nếu bạn rót tiền vào những người chiến thắng”, Terrence Rohan, một nhà đầu tư của Quỹ Otherwise, tập trung vào các công ty khởi nghiệp rất trẻ, cho biết.
“Nếu người chiến thắng trong tương lai cần ít tiền hơn, không biết dòng vốn đầu tư mạo hiểm sẽ ra sao?”.
Hiện tại, các nhà đầu tư vẫn tiếp tục đấu tranh để đầu tư vào các công ty đang phát triển mạnh nhất, nhiều công ty trong số đó không cần thêm tiền. Một số nhà đầu tư lạc quan rằng hiệu quả do A.I. thúc đẩy sẽ thôi thúc các doanh nhân thành lập nhiều công ty hơn, dẫn đến nhiều cơ hội đầu tư hơn. Họ hy vọng khi các công ty khởi nghiệp đạt đến một quy mô nhất định, họ sẽ áp dụng mô hình cũ là các nhóm lớn và tiền lớn.
Quay trở lại với Gamma.
Ông Lee cho biết ông đang có kế hoạch tăng gấp đôi lực lượng lao động trong năm nay lên 60, tuyển dụng cho bộ phận thiết kế, kỹ thuật và bán hàng. Nhân sự phải có kiến thức tổng quát có thể thực hiện nhiều nhiệm vụ thay vì một việc như trước đây. Theo ông Lee, mô hình hiệu quả với AI đã giúp giải phóng thời gian. Bây giờ ông chỉ việc tập trung tư vấn khách hàng và cải thiện sản phẩm.
“Đó thực sự là giấc mơ của mọi nhà sáng lập”, ông Lee nói.
Theo: Financial Times, WSJ
Hashtags: #StartupAI #CongNgheKhoiNghiep #KinhDoanhCongNghe #AIKhaiPha #StartupCongNghe
Nguồn: markettimes.vn / 21-Feb-2025 / https://markettimes.vn/deepseek-khoi-phat-ky-nguyen-startup-gia-re-chi-20-nhan-su-cung-tao-ra-hang-chuc-trieu-usd-cac-cong-ty-khong-con-khat-tien-mat-77486.html
Trending
-
Khóa học9 months ago
41 Tài Nguyên Về “Reinforcement Learning” (Học Tăng Cường) Tốt Nhất
-
Video3 months ago
Video Truyền Cảm Hứng Thành Công Mạnh Mẽ Nhất
-
Khóa học6 months ago
Đây là 38 Khóa học Miễn phí về Khoa học Dữ liệu trên Coursera mà bạn nên biết vào năm 2024.
-
Công nghệ9 months ago
44 công ty khởi nghiệp AI triển vọng nhất năm 2024
-
Công nghệ6 months ago
Giải thích các Mô hình Trí Tuệ Nhân tạo Tạo sinh 🤖Phần 1
-
Công nghệ5 months ago
Câu chuyện tình yêu ❤️Ch3
-
Công nghệ8 months ago
Robo Advisor là gì?
-
Giải trí5 months ago
Câu chuyện tình yêu ❤️Ch4
George
9 October, 2024 at 1:15 am
What’s Happening i am new to this, I stumbled upon this I’ve discovered It absolutely helpful and it has
aided me out loads. I’m hoping to give a contribution & assist other customers like its helped me.
Good job.
admin
9 October, 2024 at 2:22 pm
Hi George, thanks for your comment. It means a lot to me 😊 – Dieter R.
Stephanie
26 October, 2024 at 3:31 pm
Ahaa, its fastidious discussion regarding this piece of writing at this
place at this blog, I have read all that, so now me also commenting at this place.
admin
27 October, 2024 at 9:12 am
Hi Stephanie, Thank you 😊