Trong quá trình dịch thuật từ tiếng Anh sang tiếng Việt, mình xin phép giữ nguyên một số cụm từ chuyên ngành. Ví dụ, thay vì dịch “deep learning” thành “học sâu”, mình sẽ giữ nguyên thuật ngữ “deep learning”. Lý do là vì để đảm bảo tính chính xác và thống nhất trong lĩnh vực công nghệ, đồng thời giúp cho người đọc dễ dàng tra cứu và tìm hiểu thêm thông tin liên quan.
“Deep learning” là một loại “machine learning” có khả năng, tự chủ và chính xác hơn so với machine learning truyền thống.
Deep learning đã tồn tại trong một thời gian, nhưng hầu hết chúng ta chưa từng sử dụng một công cụ dựa trên Deep learning cho đến khi OpenAI phát hành ChatGPT vào cuối năm 2022. (Và ngay cả khi chúng ta kinh ngạc trước các kết quả của ChatGPT, hầu hết chúng ta không biết rằng nó đang sử dụng Deep learning để tạo ra chúng.) Giống như các tiền nhiệm DALL-E, Imagen và PaLM của Google, Stable Diffusion và những công cụ khác, ChatGPT dựa vào các deep learning models lớn được đào tạo trên các bộ dữ liệu khổng lồ để tạo ra nội dung dựa trên các gợi ý. Nhưng không giống như các tiền nhiệm của nó, ChatGPT hoạt động thông qua một API truy cập mở, điều này có nghĩa là lần đầu tiên, công chúng có thể trải nghiệm sức mạnh của Deep learning.
Thế giới trí tuệ nhân tạo (artificial intelligence) và machine learning (mà deep learning là bước tiến hóa tiếp theo) đang trải qua một sự chuyển đổi mang tính thế hệ, từ một ý tưởng được các nhà khoa học nghiên cứu thành một công cụ được sử dụng bởi mọi người cho đủ loại nhiệm vụ. Phân tích của McKinsey cho thấy từ năm 2015 đến 2021, chi phí để đào tạo một hệ thống phân loại hình ảnh (chạy trên deep learning models) đã giảm 64%. Thời gian đào tạo cũng cải thiện 94% trong cùng kỳ. Chúng tôi cũng nhận thấy rằng AI tạo sinh (gen AI) có thể đóng góp tương đương tới 4,4 nghìn tỷ đô la hàng năm vào nền kinh tế toàn cầu. Những thay đổi sâu sắc này đều được thúc đẩy bởi deep learning.
Nhưng thực sự deep learning là gì?
Và làm thế nào nó có thể làm cho tất cả điều này trở thành hiện thực?
Hãy tiếp tục đọc để tìm hiểu.
What is machine learning?
Trước khi chúng ta chuyển sang “deep learning”, hãy nắm vững những kiến thức cơ bản. “Machine learning” là một hình thức trí tuệ nhân tạo có thể thích ứng với nhiều loại đầu vào khác nhau, bao gồm các tập dữ liệu lớn và hướng dẫn từ con người. Những thuật toán này có thể phát hiện các mẫu và học cách đưa ra dự đoán và đề xuất bằng cách xử lý dữ liệu và kinh nghiệm, thay vì nhận chỉ dẫn lập trình rõ ràng. Các thuật toán cũng thích ứng để đáp ứng với dữ liệu và kinh nghiệm mới nhằm cải thiện theo thời gian.
Khối lượng và độ phức tạp của dữ liệu đang được tạo ra hiện nay, quá rộng lớn để con người có thể nắm bắt, đã làm tăng nhu cầu về machine learning—và đã nâng cao tiềm năng của nó. Trong những năm kể từ khi được triển khai rộng rãi, machine learning đã có tác động đến một số ngành công nghiệp, bao gồm phân tích hình ảnh y tế và dự báo thời tiết độ phân giải cao.
“Deep learning” khác với “machine learning” như thế nào?
“Deep learning” là một phiên bản tiên tiến hơn của “machine learning”, đặc biệt thành thạo trong việc xử lý nhiều loại nguồn dữ liệu hơn (văn bản cũng như dữ liệu phi cấu trúc bao gồm hình ảnh), yêu cầu ít sự can thiệp của con người hơn, và thường có thể tạo ra kết quả chính xác hơn so với “machine learning” truyền thống. “Deep learning” sử dụng mạng nơ-ron – dựa trên cách các nơ-ron tương tác trong não người – để tiếp nhận và xử lý dữ liệu thông qua nhiều lớp nơ-ron nhận diện các đặc điểm ngày càng phức tạp của dữ liệu. Ví dụ, một lớp nơ-ron đầu tiên có thể nhận ra một vật có hình dạng cụ thể;dựa trên kiến thức này, một lớp sau có thể nhận diện hình dạng đó là biển báo dừng. Tương tự như “machine learning”, “deep learning” sử dụng lặp lại để tự điều chỉnh và cải thiện khả năng dự đoán của nó. Khi nó đã “học” được một vật trông như thế nào, nó có thể nhận ra vật đó trong một hình ảnh mới.
Mối quan hệ giữa “deep learning” và “gen AI” là gì?
ChatGPT đã làm cho AI trở nên hữu hình và dễ tiếp cận với công chúng lần đầu tiên. ChatGPT và các mô hình ngôn ngữ tương tự được đào tạo bằng các công cụ “deep learning” gọi là “Transformer networks” để tạo ra nội dung đáp ứng các “prompt”. “Transformer networks” cho phép các công cụ “gen AI” đánh giá các phần khác nhau của chuỗi đầu vào một cách khác nhau khi đưa ra dự đoán.
“Transformer networks”, bao gồm các lớp mã hóa và giải mã, cho phép các mô hình “gen AI” học các “relationship” và “dependencies” giữa các từ một cách linh hoạt hơn so với các mô hình “machine learning” và “deep learning” truyền thống. Điều này là do “Transformer networks” được đào tạo trên các phần lớn của internet (ví dụ: tất cả các đoạn phim giao thông đã được ghi lại và tải lên) thay vì một tập dữ liệu cụ thể (chẳng hạn như một số hình ảnh nhất định của biển báo dừng).
“Foundation models”, như sẽ được thảo luận thêm dưới đây, được đào tạo trên kiến trúc “Transformer networks” – như ChatGPT của OpenAI hoặc BERT của Google – có khả năng chuyển những gì chúng đã học từ một nhiệm vụ cụ thể sang một tập hợp nhiệm vụ tổng quát hơn, bao gồm cả việc tạo ra nội dung.Ở thời điểm này, bạn có thể yêu cầu một mô hình tạo ra một video về một chiếc xe đi qua biển báo dừng.
“Foundation models” có thể tạo ra nội dung, nhưng chúng không biết sự khác biệt giữa đúng và sai, hoặc thậm chí những gì là và không được chấp nhận về mặt xã hội. Khi ChatGPT được tạo ra lần đầu tiên, nó đòi hỏi rất nhiều đầu vào từ con người để học hỏi. OpenAI đã thuê một số lượng lớn nhân viên trên toàn thế giới để giúp tinh chỉnh công nghệ, làm sạch và gán nhãn các bộ dữ liệu, xem xét và gán nhãn nội dung độc hại, sau đó đánh dấu để loại bỏ. Đầu vào từ con người này là một phần lớn làm cho ChatGPT trở nên cách mạng như vậy.
Các loại mạng neural nào được sử dụng trong deep learning?
Có ba loại mạng neural nhân tạo được sử dụng trong deep learning:
— Mạng neural truyền thẳng (Feed-forward neural network). Trong mạng neural đơn giản này, được đề xuất lần đầu vào năm 1958, thông tin chỉ di chuyển theo một hướng: tiến về phía trước từ lớp đầu vào của model đến lớp đầu ra, mà không bao giờ di chuyển ngược lại để được model phân tích lại. Điều đó có nghĩa là bạn có thể cung cấp hoặc nhập dữ liệu vào model, sau đó “huấn luyện” model để dự đoán điều gì đó về các tập dữ liệu khác nhau. Ví dụ, mạng neural truyền thẳng được sử dụng trong ngành ngân hàng, cùng với các ngành khác, để phát hiện các giao dịch tài chính gian lận. Đây là cách nó hoạt động: đầu tiên, bạn huấn luyện một model để dự đoán liệu một giao dịch có gian lận hay không dựa trên một tập dữ liệu mà bạn đã sử dụng để gắn nhãn thủ công các giao dịch là gian lận hoặc không. Sau đó, bạn có thể sử dụng model để dự đoán liệu các giao dịch mới, đang đến có gian lận hay không để bạn có thể đánh dấu chúng để nghiên cứu kỹ hơn hoặc chặn chúng hoàn toàn.
— Mạng neural tích chập (Convolutional neural network – CNN). CNN là một loại mạng neural truyền thẳng có kết nối được lấy cảm hứng từ tổ chức của vỏ não thị giác, phần não xử lý hình ảnh. Do đó, CNN rất phù hợp cho các nhiệm vụ nhận thức, như có khả năng nhận dạng các loài chim hoặc thực vật dựa trên ảnh chụp. Các trường hợp sử dụng trong kinh doanh bao gồm chẩn đoán bệnh từ hình ảnh y tế hoặc phát hiện logo công ty trên mạng xã hội để quản lý danh tiếng thương hiệu hoặc xác định các cơ hội tiếp thị chung tiềm năng.
Dưới đây là cách chúng hoạt động:
- Đầu tiên, CNN nhận một hình ảnh—ví dụ, chữ cái “A”—mà nó xử lý như một tập hợp các pixel.
- Trong các lớp ẩn, CNN xác định các đặc điểm độc đáo—ví dụ, các đường riêng lẻ tạo nên chữ cái “A.”
- Sau đó, CNN có thể phân loại một hình ảnh khác là chữ cái “A” nếu nó thấy rằng hình ảnh mới có cùng các đặc điểm độc đáo đã được xác định trước đó là tạo nên chữ cái đó.
— Mạng nơ-ron hồi quy (Recurrent neural network – RNN). RNN là các mạng nơ-ron nhân tạo có các kết nối bao gồm các vòng lặp, nghĩa là model vừa đưa dữ liệu tiến về phía trước vừa lặp lại nó về phía sau để chạy lại qua các lớp trước đó. RNN hữu ích trong việc dự đoán cảm xúc hoặc kết thúc của một chuỗi, như một mẫu lớn văn bản, giọng nói hoặc hình ảnh. Chúng có thể làm điều này vì mỗi đầu vào riêng lẻ được đưa vào model một cách độc lập cũng như kết hợp với đầu vào trước đó.
Tiếp tục với ví dụ về ngân hàng, RNN có thể giúp phát hiện các giao dịch tài chính gian lận giống như các mạng nơ-ron feed-forward có thể làm, nhưng theo cách phức tạp hơn. Trong khi các mạng nơ-ron feed-forward có thể giúp dự đoán liệu một giao dịch riêng lẻ có khả năng gian lận hay không, các mạng nơ-ron hồi quy có thể “học” từ hành vi tài chính của một cá nhân—chẳng hạn như một chuỗi giao dịch như lịch sử thẻ tín dụng—và đo lường mỗi giao dịch so với hồ sơ tổng thể của người đó. Nó có thể làm điều này ngoài việc sử dụng các kiến thức chung từ model mạng nơ-ron feed-forward.
Một mô hình nền (foundation model) là gì?
Các “foundation models” là các “deep learning models” được đào tạo trên kiến trúc “transformer network”: với lượng lớn “unstructured, unlabeled data”. Các “foundation models” có thể được sử dụng cho nhiều nhiệm vụ khác nhau, hoặc sử dụng trực tiếp hoặc được điều chỉnh cho các nhiệm vụ cụ thể thông qua “Fine-tuning”. “Fine-tuning” liên quan đến một giai đoạn đào tạo tương đối ngắn trên một tập dữ liệu có nhãn, thường nhỏ hơn nhiều so với tập dữ liệu mà mô hình được đào tạo ban đầu. Việc đào tạo bổ sung này cho phép mô hình học và thích ứng với các sắc thái, thuật ngữ và các mẫu cụ thể được tìm thấy trong tập dữ liệu nhỏ hơn. Ví dụ về các “foundation model” bao gồm DALL-E 2, GPT-4 và Stable Diffusion.
“Large language model” là gì?
Các “large language model” là một lớp của “foundation models” có khả năng xử lý lượng lớn “unstructured text”. Những mô hình này có thể học các mối quan hệ giữa các từ hoặc các phần của từ, còn được gọi là “tokens”. Điều này cho phép các “large language model” tạo ra văn bản ngôn ngữ tự nhiên, hoặc thực hiện các nhiệm vụ như tóm tắt hoặc trích xuất kiến thức. Gemini của Google chạy trên một “large language model” có tên là LaMDA.
Các ngành nào có thể hưởng lợi từ “machine learning” và “deep learning”?
McKinsey đã tổng hợp hơn 400 trường hợp sử dụng “machine learning” và “deep learning” trên 19 ngành công nghiệp và chín chức năng kinh doanh. Dựa trên phân tích của chúng tôi, chúng tôi tin rằng gần như bất kỳ ngành nào cũng có thể hưởng lợi từ “machine learning” và “deep learning”. Dưới đây là một số ví dụ về “use cases” áp dụng cho nhiều lĩnh vực:
— Bảo trì dự đoán (Predictive maintenance). Trường hợp sử dụng này rất quan trọng đối với bất kỳ ngành công nghiệp hoặc doanh nghiệp nào phụ thuộc vào thiết bị. Thay vì chờ đợi cho đến khi một thiết bị bị hỏng, các công ty có thể sử dụng bảo trì dự đoán để dự báo khi nào cần bảo trì, từ đó giảm thời gian ngừng hoạt động tiềm ẩn và giảm chi phí vận hành. “Machine learning” và “deep learning” có khả năng phân tích lượng lớn dữ liệu đa chiều, có thể tăng độ chính xác của bảo trì dự đoán. Ví dụ, các chuyên gia AI có thể thêm dữ liệu từ các đầu vào mới, như dữ liệu âm thanh và hình ảnh, có thể bổ sung sắc thái cho phân tích của mạng neural.
— Tối ưu hóa hậu cần (Logistics optimization). Sử dụng AI để tối ưu hóa hậu cần có thể giảm chi phí thông qua dự báo thời gian thực và huấn luyện hành vi. Ví dụ, AI có thể tối ưu hóa định tuyến giao thông vận chuyển, cải thiện hiệu quả sử dụng nhiên liệu và giảm thời gian giao hàng.
— Dịch vụ khách hàng (Customer service). Các kỹ thuật AI trong các trung tâm cuộc gọi có thể giúp tạo ra trải nghiệm mượt mà hơn cho khách hàng và xử lý hiệu quả hơn. Công nghệ này không chỉ dừng lại ở việc hiểu lời nói của người gọi: phân tích “deep learning” về âm thanh có thể đánh giá giọng điệu của khách hàng. Nếu dịch vụ cuộc gọi tự động phát hiện ra người gọi đang trở nên khó chịu, hệ thống có thể chuyển hướng cuộc gọi đến một nhân viên hoặc quản lý.
Tác giả: mckinsey
Link bài gốc: What is deep learning? | Bài được đăng vào ngày 30/04/2024, trên www.mckinsey.com
Dịch giả: Hoàng Phan – KenkAI Nhiều thứ hay
(*) Bạn có thể sao chép và chia sẻ thoải mái.
(**) Follow KenkAI Nhiều thứ hay để đọc các bài dịch khác và cập nhật thông tin bổ ích hằng ngày.
Để lại một bình luận