Các doanh nhân đang xây dựng công nghệ tại tuyến đầu của AI giọng nói giờ đây được trang bị tốt hơn bao giờ hết để cung cấp các giao diện ngày càng tự nhiên và mang tính đối thoại, có khả năng hoạt động gần như ngang tầm con người.
Những kiến trúc giọng nói mới là nền tảng cho những tiến bộ này. Chúng ta đang chứng kiến sự chuyển dịch từ kiến trúc xếp tầng (ví dụ: ASR chuyển âm thanh thành văn bản, sau đó được đưa vào LLM, rồi văn bản lại được chuyển vào mô hình Text-to-Speech) sang kiến trúc bản địa cho giọng nói. Điều này được thể hiện qua các mô hình mới như GPT-4o, có khả năng xử lý và suy luận trực tiếp trên dữ liệu âm thanh thô mà không cần chuyển đổi thành văn bản, đồng thời phản hồi bằng âm thanh gốc.
Sự chuyển đổi này sẽ cho phép các sản phẩm giọng nói đối thoại có độ trễ thấp hơn nhiều và hiểu sâu sắc hơn về thông tin phi văn bản như cảm xúc, giọng điệu và tình cảm – những yếu tố thường bị mất đi trong kiến trúc xếp tầng. Ngoài ra, những tiến bộ này sẽ tạo ra trải nghiệm giọng nói đối thoại thực sự theo thời gian thực, có thể giúp người dùng giải quyết vấn đề nhanh hơn và ít gặp khó khăn hơn nhiều so với các thế hệ tự động hóa giọng nói trước đây.
… to be continued.
Để lại một bình luận