Tại sao A.I. không thể tạo ra nghệ thuật | kenkai.vn

Tại sao A.I. Không thể tạo ra Nghệ thuật (p1)

bởi

trong

Để tạo ra một tiểu thuyết hay một bức tranh, người nghệ sĩ phải đưa ra những lựa chọn mà trí nhân tạo không thể thực hiện được.

Vào năm 1953, Roald Dahl xuất bản “The Great Automatic Grammatizator,” một câu chuyện ngắn về một kỹ sư điện bí mật mong muốn trở thành nhà văn.

Một ngày nọ, sau khi hoàn thành việc chế tạo chiếc máy tính nhanh nhất thế giới, kỹ sư nhận ra rằng “ngữ pháp tiếng Anh được điều khiển bởi các quy tắc gần như toán học trong sự nghiêm ngặt của chúng.” Anh chế tạo ra một chiếc máy viết tiểu thuyết có thể sản xuất một câu chuyện ngắn năm nghìn từ trong 30 giây; một cuốn tiểu thuyết mất mười lăm phút và yêu cầu người vận hành điều khiển các cần gạt và bàn đạp chân, giống như lái xe hoặc chơi đàn organ, để điều chỉnh mức độ hài hước và cảm xúc. Những cuốn tiểu thuyết được tạo ra trở nên phổ biến đến mức, trong vòng một năm, một nửa số tiểu thuyết xuất bản bằng tiếng Anh là sản phẩm của phát minh của người kỹ sư.

Có điều gì về nghệ thuật khiến chúng ta nghĩ rằng nó không thể được tạo ra chỉ bằng cách nhấn nút, như trong trí tưởng tượng của Dahl?

Hiện tại, các tác phẩm văn học được tạo ra bởi các mô hình ngôn ngữ lớn như ChatGPT rất tệ, nhưng người ta có thể tưởng tượng rằng các chương trình như vậy có thể cải thiện trong tương lai. Chúng có thể tốt đến mức nào? Chúng có thể giỏi hơn con người trong việc viết tiểu thuyết—hoặc tạo ra tranh hoặc phim—giống như máy tính giỏi hơn trong việc cộng và trừ?

Nghệ thuật nổi tiếng là khó định nghĩa, và sự khác biệt giữa nghệ thuật tốt và nghệ thuật xấu cũng vậy. Nhưng hãy để tôi đưa ra một khái quát: nghệ thuật là thứ được tạo ra từ việc đưa ra rất nhiều lựa chọn. Điều này có thể dễ dàng giải thích nhất nếu chúng ta sử dụng việc viết tiểu thuyết làm ví dụ. Khi bạn viết tiểu thuyết, bạn—có ý thức hoặc vô thức—đưa ra lựa chọn về gần như từng từ bạn gõ; để đơn giản hóa, chúng ta có thể tưởng tượng rằng một câu chuyện ngắn mười nghìn từ yêu cầu khoảng mười nghìn lựa chọn. Khi bạn cung cấp cho một chương trình A.I. tạo sinh một lời nhắc Prompt, bạn đang đưa ra rất ít lựa chọn; nếu bạn cung cấp một lời nhắc Prompt dài một trăm từ, bạn đã đưa ra khoảng một trăm lựa chọn.

Nếu một A.I. tạo ra một câu chuyện dài mười nghìn từ dựa trên “gợi ý” của bạn, nó phải lấp đầy tất cả các lựa chọn mà bạn không thực hiện. Có nhiều cách để nó làm điều đó. Một là lấy trung bình các lựa chọn mà các nhà văn khác đã thực hiện, như được thể hiện qua văn bản tìm thấy trên Internet; trung bình đó tương đương với những lựa chọn ít thú vị nhất có thể, đó là lý do tại sao văn bản do A.I. tạo ra thường nhạt nhẽo. Một cách khác là hướng dẫn chương trình tham gia vào việc bắt chước phong cách, mô phỏng các lựa chọn do một nhà văn cụ thể thực hiện, điều này tạo ra một câu chuyện rất phái sinh (highly derivative story). Trong cả hai trường hợp, nó đều không tạo ra nghệ thuật thú vị.

Tôi nghĩ rằng nguyên tắc cơ bản tương tự cũng áp dụng cho nghệ thuật thị giác (visual art), mặc dù khó định lượng hơn các lựa chọn mà một họa sĩ có thể thực hiện. Những bức tranh thực sự mang dấu ấn của một số lượng lớn quyết định. So sánh, một người sử dụng chương trình chuyển văn bản thành hình ảnh như DALL-E nhập một gợi ý như “Một hiệp sĩ áo giáp chiến đấu với rồng phun lửa” và để chương trình làm phần còn lại. (Phiên bản mới nhất của DALL-E chấp nhận các prompt dài tới bốn nghìn ký tự—hàng trăm từ, nhưng không đủ để mô tả mọi chi tiết của một cảnh.) Hầu hết các lựa chọn trong hình ảnh kết quả phải được mượn từ các bức tranh tương tự được tìm thấy trực tuyến; hình ảnh có thể được hiển thị một cách tinh xảo, nhưng người điền prompt không thể nhận công lao cho điều đó.

Một số nhà bình luận tưởng tượng rằng các trình tạo ảnh (image generators) sẽ ảnh hưởng đến văn hóa thị giác nhiều như sự xuất hiện của nhiếp ảnh đã từng làm. Mặc dù điều này có vẻ hợp lý bề ngoài, ý tưởng rằng nhiếp ảnh tương tự như A.I. tạo ra cần được xem xét kỹ hơn.

Khi nhiếp ảnh lần đầu tiên được phát triển, tôi nghi ngờ rằng nó không được coi là một phương tiện nghệ thuật, vì không rõ ràng rằng có nhiều lựa chọn để thực hiện; Bạn chỉ cần thiết lập máy ảnh và bắt đầu phơi sáng (start the exposure) . Nhưng theo thời gian, mọi người nhận ra rằng có nhiều điều bạn có thể làm với máy ảnh, và nghệ thuật nằm ở nhiều lựa chọn mà một nhiếp ảnh gia thực hiện.

Có thể không phải lúc nào cũng dễ dàng diễn đạt các lựa chọn là gì, nhưng khi bạn so sánh ảnh của một người nghiệp dư với một chuyên gia, bạn có thể thấy sự khác biệt.

Vậy câu hỏi trở thành: Có cơ hội tương tự để thực hiện một số lượng lớn các lựa chọn bằng cách sử dụng trình tạo ảnh từ văn bản không?

Tôi nghĩ câu trả lời là không. Một nghệ sĩ—dù làm việc kỹ thuật số hay bằng sơn dầu—ngầm thực hiện nhiều quyết định hơn trong quá trình tạo ra một bức tranh so với những gì có thể phù hợp trong một gợi ý văn bản vài trăm từ.

Chúng ta có thể tưởng tượng một trình tạo hình ảnh từ văn bản mà, trong suốt nhiều phiên, cho phép bạn nhập hàng chục nghìn từ vào hộp văn bản của nó để cho phép kiểm soát chi tiết cực kỳ tinh vi đối với hình ảnh bạn đang tạo ra; điều này sẽ tương tự như Photoshop với giao diện hoàn toàn bằng văn bản. Tôi sẽ nói rằng một người có thể sử dụng một chương trình như vậy và vẫn xứng đáng được gọi là nghệ sĩ. Đạo diễn phim Bennett Miller đã sử dụng DALL-E 2 để tạo ra một số hình ảnh rất ấn tượng đã được trưng bày tại phòng trưng bày Gagosian; để tạo ra chúng, ông đã chế tác các gợi ý văn bản chi tiết và sau đó hướng dẫn DALL-E sửa đổi và thao tác các hình ảnh được tạo ra nhiều lần. Ông đã tạo ra hơn một trăm nghìn hình ảnh để có được hai mươi hình ảnh trong triển lãm. Nhưng ông đã nói rằng ông không thể đạt được kết quả tương tự trên các phiên bản sau của DALL-E. Tôi nghi ngờ điều này có thể là vì Miller đã sử dụng DALL-E cho một điều mà nó không được thiết kế để làm; nó giống như ông đã hack Microsoft Paint để làm cho nó hoạt động như Photoshop, nhưng ngay khi một phiên bản mới của Paint được phát hành, các hack của ông ngừng hoạt động. OpenAI có lẽ không cố gắng xây dựng một sản phẩm để phục vụ những người dùng như Miller, vì một sản phẩm yêu cầu người dùng làm việc trong nhiều tháng để tạo ra một hình ảnh không hấp dẫn đối với một đối tượng rộng lớn. Công ty muốn cung cấp một sản phẩm tạo ra hình ảnh với ít nỗ lực.

(…còn nữa)

Tác giả: Ted Chiang

Link bài gốc: Why A.I. Isn’t Going to Make Art | Bài được đăng vào ngày 02/09/2024, trên báo điện tử newyorker.com

Dịch giả: Hoàng Phan – KenkAI Nhiều thứ hay

(*) Bạn có thể sao chép và chia sẻ thoải mái.

(**) Follow KenkAI Nhiều thứ hay để đọc các bài dịch khác và cập nhật thông tin bổ ích hằng ngày.


Bình luận

Một bình luận cho “Tại sao A.I. Không thể tạo ra Nghệ thuật (p1)”

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *