Trong giới phần cứng AI, hầu như ai cũng nói về suy luận (inference). Giám đốc tài chính của Nvidia, Colette Kress, cho biết trong cuộc gọi thu nhập của công ty vào thứ Tư rằng suy luận chiếm khoảng 40% trong tổng doanh thu 26,3 tỷ USD từ trung tâm dữ liệu của Nvidia trong quý hai. Giám đốc điều hành AWS, Matt Garman, gần đây đã nói trên podcast No Priors rằng suy luận có thể chiếm một nửa công việc được thực hiện trên các máy chủ điện toán AI ngày nay. Và tỷ lệ này có khả năng tăng lên, thu hút các đối thủ cạnh tranh muốn làm suy yếu vị thế của Nvidia.
Do đó, nhiều công ty đang tìm cách chiếm thị phần từ Nvidia bắt đầu với suy luận. Một nhóm sáng lập gồm các cựu nhân viên của Google đã thành lập Groq, tập trung vào phần cứng suy luận và đã huy động được 640 triệu USD với mức định giá 2,8 tỷ USD vào tháng 8.
Vào tháng 12 năm 2023, Positron AI đã ra mắt với một chip suy luận mà họ tuyên bố có thể thực hiện các phép tính tương tự như Nvidia H100, nhưng rẻ hơn năm lần. Amazon đang phát triển cả chip huấn luyện và suy luận — được đặt tên là Trainium và Inferentia tương ứng. “Tôi nghĩ rằng càng có nhiều sự đa dạng thì chúng ta càng tốt hơn,” Garman nói trên cùng một podcast.
Và Cerebras, công ty California nổi tiếng với các chip huấn luyện AI quá khổ, đã công bố tuần trước rằng họ đã phát triển một chip suy luận lớn tương đương và là nhanh nhất trên thị trường, theo CEO Andrew Feldman.
Không phải tất cả các chip suy luận đều được xây dựng như nhau
Các chip được thiết kế cho các công việc AI phải được tối ưu hóa cho huấn luyện hoặc suy luận. Huấn luyện là giai đoạn đầu tiên của việc phát triển một công cụ AI — khi bạn đưa dữ liệu có nhãn và chú thích vào một mô hình để nó có thể học cách tạo ra các kết quả chính xác và hữu ích. Suy luận là hành động tạo ra các kết quả đó sau khi mô hình đã được huấn luyện.
Các chip huấn luyện thường tối ưu hóa cho sức mạnh tính toán tuyệt đối. Các chip suy luận yêu cầu ít sức mạnh tính toán hơn, thực tế một số suy luận có thể được thực hiện trên CPU truyền thống. Các nhà sản xuất chip cho nhiệm vụ này quan tâm nhiều hơn đến độ trễ vì sự khác biệt giữa một công cụ AI gây nghiện và một công cụ gây khó chịu thường nằm ở tốc độ. Đó là điều mà CEO của Cerebras, Andrew Feldman, đang đặt cược vào.
Chip của Cerebras có băng thông bộ nhớ gấp 7.000 lần so với Nvidia H100, theo công ty. Đó là điều cho phép Feldman gọi là “tốc độ chớp nhoáng”. Công ty, đang bắt đầu quá trình phát hành IPO, cũng đang triển khai dịch vụ suy luận với nhiều cấp độ, bao gồm cả cấp độ miễn phí.
“Suy luận là một vấn đề băng thông bộ nhớ,” Feldman nói với Business Insider.
Kiếm tiền từ AI, mở rộng khối lượng công việc suy luận
Việc chọn tối ưu hóa thiết kế chip cho huấn luyện hay suy luận không chỉ là quyết định kỹ thuật, mà còn là quyết định thị trường. Hầu hết các công ty làm công cụ AI sẽ cần cả hai vào một thời điểm nào đó, nhưng phần lớn nhu cầu của họ có thể sẽ nằm ở một lĩnh vực nào đó, tùy thuộc vào giai đoạn phát triển của công ty.
Khối lượng công việc huấn luyện lớn có thể được coi là giai đoạn R&D của AI. Khi một công ty chuyển sang chủ yếu là suy luận, điều đó có nghĩa là bất kỳ sản phẩm nào họ đã xây dựng đang hoạt động cho khách hàng cuối cùng — ít nhất là trên lý thuyết.
Suy luận được dự đoán sẽ chiếm phần lớn các nhiệm vụ tính toán khi nhiều dự án AI và startup trưởng thành. Thực tế, theo Garman của AWS, đó là điều cần phải xảy ra để nhận ra lợi nhuận chưa thực hiện được từ hàng trăm tỷ USD đầu tư vào hạ tầng AI.
“Các khối lượng công việc suy luận phải chiếm ưu thế, nếu không tất cả các khoản đầu tư vào các mô hình lớn này sẽ không thực sự mang lại hiệu quả,” Garman nói với No Priors.
Tuy nhiên, sự phân chia đơn giản giữa huấn luyện và suy luận cho các nhà thiết kế chip có thể không kéo dài mãi mãi.
“Một số cụm máy trong các trung tâm dữ liệu của chúng tôi, khách hàng sử dụng chúng cho cả hai,” Raul Martynek, CEO của chủ sở hữu trung tâm dữ liệu Databank, nói.
Việc Nvidia gần đây mua lại Run.ai có thể hỗ trợ dự đoán của Martynek rằng bức tường giữa suy luận và huấn luyện có thể sớm bị phá vỡ.
Vào tháng 4, Nvidia đã đồng ý mua lại công ty Israel Run:ai, nhưng thỏa thuận này chưa được hoàn tất và đang bị Bộ Tư pháp xem xét, theo Politico. Công nghệ của Run:ai giúp GPU hoạt động hiệu quả hơn, cho phép thực hiện nhiều công việc hơn trên ít chip hơn.
“Tôi nghĩ đối với hầu hết các doanh nghiệp, họ sẽ hợp nhất. Bạn sẽ có một cụm máy vừa huấn luyện vừa suy luận,” Martynek nói.
Nvidia từ chối bình luận về báo cáo này.
Tác giả: Emma Cosgrove
Link bài gốc: Nvidia might actually lose in this key part of the AI chip business |businessinsider.com| bài được đăng vào ngày 01/09/2024
Dịch giả: Hoàng Phan – KenkAI Nhiều thứ hay
(*) Bạn có thể sao chép và chia sẻ thoải mái.
(**) Follow KenkAI Nhiều thứ hay để đọc các bài dịch khác và cập nhật thông tin bổ ích hằng ngày.
Để lại một bình luận