Trong thế giới AI, đang diễn ra cuộc tìm kiếm cấp bách một giải pháp thay thế cho GPU của Nvidia, và AMD Radeon graphics đang sẵn sàng đáp ứng thách thức này. AMD đã công bố chi tiết AMD GPU roadmap cập nhật của mình, với next-gen AMD GPUs (phần cứng mới) sẽ ra mắt vào năm 2024, 2025 và 2026. Trước đây, AMD phát hành GPU theo chu kỳ khoảng 1,5 đến hai năm, nhưng nhu cầu áp đảo về machine learning hardware (phần cứng AI) đang tạo áp lực lên công ty. Lần đầu tiên, AMD công bố GPU MI400, dự kiến ra mắt vào năm 2026. Nó được định vị như “kẻ hủy diệt GPU Nvidia” cho năm 2026, thể hiện rõ cuộc cạnh tranh khốc liệt AMD vs NVIDIA trong thị trường AI hardware solution.
Kế hoạch của AMD cho tương lai gần
- 2024: GPU MI325X
- 2025: GPU MI350 3-nanometer, sử dụng bộ nhớ HBM3E, với AMD GPU manufacturing process tiên tiến
- 2026: GPU MI400, dựa trên kiến trúc CDNA-Next, phục vụ cho cả suy luận và huấn luyện AI, hứa hẹn mang lại AMD GPU compute capabilities vượt trội
AMD chưa chia sẻ thêm chi tiết về GPU MI400 ngoài việc nó sẽ được sử dụng cho cả suy luận và huấn luyện (inferencing and training) AI, đáp ứng nhu cầu về AI hardware innovation.
Lộ trình AMD: Cuối cùng cũng rõ ràng
Doanh số GPU của AMD đang tăng trưởng tốt, nhưng công ty chưa cung cấp một GPU roadmap (lộ trình GPU) rõ ràng cho đến tuần này.
Các nhà phân tích cảm thấy không thoải mái về việc thiếu thông tin về kế hoạch GPU của AMD cho năm 2025 và 2026, trong khi Nvidia đã công bố kế hoạch GPU hàng năm cho 2025 và 2026 từ năm ngoái.
Lisa Su, CEO của AMD, cho biết lộ trình của công ty được thúc đẩy bởi phản hồi của khách hàng. “Họ đang… cung cấp cho chúng tôi phản hồi đáng kể về lộ trình và những gì chúng tôi cần để đáp ứng nhu cầu của họ. Kiến trúc chiplet của chúng tôi thực sự rất linh hoạt, và điều đó cho phép chúng tôi thực hiện các thay đổi đối với lộ trình khi cần thiết,” Su nói trong cuộc gọi báo cáo thu nhập (earnings call) tháng 4.
Cách tiếp cận của AMD phù hợp với yêu cầu tính toán thay đổi nhanh chóng của các workload AI. Việc huấn luyện mô hình AI đã thúc đẩy doanh số GPU ban đầu, và hiện nay có sự tập trung rộng hơn vào việc trả lời các truy vấn của người dùng đối với các mô hình ngôn ngữ lớn (LLM).
Vẫn còn xa mới bắt kịp Nvidia
Su cũng cho biết trong cuộc gọi báo cáo thu nhập (earnings call) rằng doanh số MI300 của AMD đang bùng nổ và đạt 1 tỷ đô la trong chưa đầy hai quý.
“Chúng tôi hiện kỳ vọng doanh thu GPU trung tâm dữ liệu sẽ vượt 4 tỷ đô la vào năm 2024, tăng từ mức 3,5 tỷ đô la mà chúng tôi đã dự báo vào tháng 1,” Su nói, cho thấy triển vọng tích cực về GPU sales forecast.
Doanh thu trung tâm dữ liệu của AMD trong quý gần đây nhất là 2,3 tỷ đô la, so với 22,6 tỷ đô la của Nvidia. AMD vẫn đang tụt hậu so với Nvidia về GPU market share (thị phần) nhưng đang thấy sự áp dụng rộng rãi hơn từ khách hàng.
Microsoft Azure đã giúp AMD phát triển GPU MI300X và thông báo vào tháng trước rằng họ đang cung cấp AMD Instinct accelerator (bộ tăng tốc) này trong máy ảo ND MI300X v5 trên Azure. “Nó cung cấp hiệu suất giá tốt nhất trên GPT-4 cho suy luận,” Satya Nadella, CEO của Microsoft, nói trong bài phát biểu chính tại hội nghị Microsoft Build tháng trước, cho thấy tiềm năng của AMD AI accelerators trong data center AI.
Một khối gồm tám GPU AMD MI300X bao gồm 1,5 TB HBM và băng thông HBM 5,3 terabit mỗi giây. Microsoft cung cấp nhiều loại GPU khác nhau và có kế hoạch đưa GPU Blackwell của Nvidia lên Azure.
GPU sắp tới
- MI325X (2024): Bộ tăng tốc (accelerator) này sẽ ra mắt vào cuối năm nay. Nó sẽ là bản nâng cấp cho dòng MI300 hiện tại và sẽ có sẵn vào cuối năm. MI325X sẽ bao gồm 288GB bộ nhớ HBM3E và băng thông bộ nhớ sáu terabyte mỗi giây. Nvidia đã đưa bộ nhớ HBM3E vào GPU H200 của họ. MI325X có khả năng tương thích ngược (backward compatibility), cho thấy đây chỉ là bản nâng cấp bộ nhớ.
- MI350 (2025): AMD tuyên bố sẽ mang lại sự cải thiện 35 lần trong suy luận (35x boost in inferencing) so với dòng GPU MI300. Ngoài tuyên bố này, AMD đang cố gắng nhấn mạnh những cải tiến kiến trúc cho suy luận (architectural improvements for inferencing), điều đang trở nên quan trọng hơn việc huấn luyện. MI350 sẽ được sản xuất bằng quy trình 3-nanometer.
Cải tiến CPU của AMD
AMD cho biết bộ xử lý AMD thế hệ thứ 5, mã hiệu “Turin” và dựa trên kiến trúc Zen 5 x86, sẽ được xuất xưởng trong vòng sáu tháng tới. Các chip này, với tối đa 192 lõi và 384 luồng, sẽ cạnh tranh với CPU Granite Rapids của Intel.
Công ty cũng công bố thiết kế chip AMD Embedded+, kết hợp CPU Ryzen với chip AI Versal, một thành quả từ Xilinx acquisition. Chip này sẽ được sử dụng trong các sản phẩm nhúng, như robot, cần khả năng AI ở biên (AI capabilities on the edge).
ROCm IT
AMD cho biết họ tiếp tục hoàn thiện ROCm software stack (các công cụ phát triển phần mềm ROCm) để hỗ trợ các GPU mới. ROCm dựa trên các open-source tools (công cụ mã nguồn mở) và bao gồm các thư viện và công cụ phát triển cho phép khách hàng tinh chỉnh các công cụ phần mềm của họ cho GPU của AMD.
AMD đã thừa nhận rằng họ còn nhiều việc phải làm về hỗ trợ nhà phát triển cho AI. Không có sự phối hợp về các bản phát hành phần mềm với hỗ trợ cho tensor cores trong các GPU mới, mặc dù khả năng tương thích ngược của GPU MI325 cho thấy không có thay đổi môi trường.
Các nhà sản xuất chip lớn, bao gồm Intel và AMD, đã ra mắt UXL Foundation vào năm ngoái trong nỗ lực tạo ra một số loại cạnh tranh với CUDA. Nền tảng của tổ chức này là OneAPI của Intel, có công cụ SYCLomatic loại bỏ mã CUDA để tải AI trên nhiều loại GPU và bộ tăng tốc khác nhau.
Hoàng Phan dịch,
Nguồn: Chuyển thể từ một bài viết về [AI, Edge, Hardware, Processors] được đăng trên [hpcwire.com]. [https://www.hpcwire.com/2024/06/03/amd-clears-up-messy-gpu-roadmap-upgrades-chips-annually]
Để lại một bình luận