Kết quả huấn luyện trợ lý AI tiếng Việt của Viettel Solutions và Nvidia

Kết quả huấn luyện trợ lý AI tiếng Việt của Viettel Solutions và Nvidia

Nội dung chính:

  • Viettel Solutions và Nvidia đã công bố miễn phí bộ dữ liệu lớn phục vụ huấn luyện trợ lý AI tiếng Việt cho cộng đồng nghiên cứu và phát triển AI Việt Nam.
  • Bộ dữ liệu được xây dựng thông qua sự hợp tác giữa Viettel Solutions và Nvidia, với sự hỗ trợ của nền tảng NeMo Framework và hạ tầng tính toán GPU của Nvidia.
  • Quá trình xử lý dữ liệu sử dụng công cụ NeMo Curator, giúp tăng tốc quản lý dữ liệu và tiết kiệm thời gian đáng kể.
  • Đội ngũ Viettel Solutions đã xử lý cùng lúc hơn 500GB dữ liệu text, tương đương 120 triệu văn bản và 135 tỷ tokens.
  • Viettel Solutions và Nvidia sẽ tiếp tục phát triển bộ dữ liệu tiếng Việt đa dạng hơn và hướng đến việc xây dựng các bộ dữ liệu chuyên biệt cho các lĩnh vực như y tế, giáo dục, thương mại và hành chính công.
Đội ngũ phát triển của Viettel Solutions. Ảnh: Thu Hà
Đội ngũ phát triển của Viettel Solutions. Ảnh: Thu Hà

Viettel Solutions và Nvidia chia sẻ miễn phí bộ dữ liệu lớn phục vụ huấn luyện trợ lý AI tiếng Việt cho cộng đồng nghiên cứu và phát triển AI Việt Nam.

Bộ dữ liệu được công bố trên trang chia sẻ công nghệ của Nvidia nhằm tạo nền tảng cho sự phát triển mạnh mẽ của các mô hình ngôn ngữ lớn (Large Language Models – LLM) Tiếng Việt.

Sản phẩm là thành quả hợp tác đầu tiên giữa Viettel Solutions và Nvidia. Các kỹ của Viettel Solution trực tiếp thu thập, xử lý dữ liệu từ các nguồn khác nhau, chuẩn hóa, phân loại, làm sạch và tổng hợp. Quá trình này có sự hỗ trợ của nền tảng NeMo Framework và hạ tầng tính toán GPU do Nvidia cung cấp.

Hiện nay, các trợ lý AI được phát triển dựa trên các mô hình LLM nhưng chủ yếu được huấn luyện trên các bộ dữ liệu tiếng Anh. Do đó, bộ dữ liệu của Viettel Solutions và Nvidia có thể giúp các ứng dụng AI phù hợp hơn với người Việt và mở ra nhiều tiềm năng phát triển cho cộng đồng trí tuệ nhân tạo Việt Nam.

Đại diện Viettel cho biết, quá trình hợp tác với Nvidia giúp doanh nghiệp xây dựng dữ liệu sạch hơn, mô hình tốt hơn khi loại bỏ dữ liệu trùng lặp và không phù hợp. Dữ liệu tinh gọn hơn cũng giúp quá trình huấn luyện nhanh gấp 4 lần.

Đội ngũ phát triển của Viettel Solutions cũng sử dụng công cụ NeMo Curator, thư viện được thiết kế riêng cho việc xử lý dữ liệu cho AI tạo sinh như tiền huấn luyện mô hình ngôn ngữ nền tảng, tiền huấn luyện thích ứng miền (DAPT), tinh chỉnh có giám sát (SFT) và tinh chỉnh hiệu quả tham số (PEFT). Công cụ này hỗ trợ tăng tốc quản lý dữ liệu bằng cách tận dụng GPU với Dask và RAPIDS, giúp tiết kiệm thời gianđáng kể.

“Nhờ sử dụng tài nguyên phần cứng và thư viện NeMo, chúng tôi đã xử lý cùng lúc hơn 500GB dữ liệu text, tương đương 120 triệu văn bản, 135 tỷ tokens. Những thành tựu này mở ra nhiều tiềm năng phát triển cho cộng đồng AI Việt Nam”, đại diện Viettel Solutions nói thêm.

Đội ngũ Viettel Solutions sẽ phát triển bộ dữ liệu tiếng Việt đa dạng hơn. Ảnh: Thu Hà
Đội ngũ Viettel Solutions sẽ phát triển bộ dữ liệu tiếng Việt đa dạng hơn. Ảnh: Thu Hà

Thành quả giữa Viettel Solutions và Nvidia là bộ dữ liệu lớn phục vụ huấn luyện trợ lý AI tiếng Việt chất lượng cao đầu tiên được công bố, công khai toàn bộ mã nguồn xử lý, đóng góp cho cộng đồng nghiên cứu, phát triển và huấn luyện AI. Trong tương lai, hai đơn vị sẽ tiếp tục bổ sung thêm các nguồn dữ liệu mới, đảm bảo bộ dữ liệu Tiếng Việt đa dạng hơn về chủ đề và chuẩn xác, sâu sắc hơn về nội dung.

Ngoài ra, Viettel Solutions và Nvidia cũng hướng đến việc xây dựng các bộ dữ liệu chuyên biệt phục vụ phát triển trợ lý AI trong các lĩnh vực quan trọng như y tế, giáo dục, thương mại, hành chính công, đồng thời, tiếp tục hợp tác phát triển các công cụ, công nghệ AI theo hướng mở, thúc đẩy sự phát triển của cộng đồng nghiên cứu AI tại Việt Nam.

Bộ dữ liệu lớn phục vụ huấn luyện trợ lý AI tiếng Việt cũng góp phần khẳng định tầm nhìn chiến lược chung của cả Viettel Solutions và Nvidia: Đưa Việt Nam trở thành một AI Hub, nơi các trí tuệ nhân tạo tiên tiến nhất được nghiên cứu phát triển và ứng dụng rộng rãi.

Trước đó, Viettel và Nvidia đã thiết lập mối quan hệ hợp tác chiến lược về AI, mở đầu cho các hoạt động nghiên cứu, ứng dụng tại Việt Nam từ năm 2022. Mới đây, ngày 5/12, Chính phủ Việt Nam và Nvidia tiếp tục ký kết thành lập Trung tâm Nghiên cứu và Phát triển AI của Nvidia và Trung tâm Dữ liệu AI của Viettel.

Nguồn: Báo vnexpress.net – 21/12/2024 / https://vnexpress.net/ket-qua-huan-luyen-tro-ly-ai-tieng-viet-cua-viettel-solutions-va-nvidia-4830208.html


Bình luận

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *