AI thất bại thường xuyên hơn bạn nghĩ trên các đầu ra có cấu trúc

Ngay cả những mô hình AI tiên tiến nhất cũng thất bại thường xuyên hơn bạn nghĩ trên các đầu ra có cấu trúc — làm dấy lên nghi ngờ về tính hiệu quả của các trợ lý lập trình

Các trợ lý AI hoàn toàn không hề hoàn hảo, chúng thất bại trong các tác vụ đầu ra có cấu trúc quan trọng.

  • Báo cáo nhận thấy các trợ lý lập trình AI thường xuyên thất bại ở một trong bốn tác vụ đầu ra có cấu trúc
  • Ngay cả các mô hình độc quyền tiên tiến cũng chỉ đạt độ chính xác xấp xỉ 75%
  • Các mô hình AI mã nguồn mở có hiệu suất kém hơn, với độ tin cậy trung bình chỉ gần 65%

Lời hứa hẹn về trí tuệ nhân tạo như một trợ lý lập trình không biết mệt mỏi đã vấp phải một rào cản đáng kể sau khi nghiên cứu mới khẳng định những công cụ như vậy có thể gặp phải hàng loạt vấn đề.

Một nghiên cứu gần đây từ Đại học Waterloo phát hiện ra rằng AI gặp khó khăn trong việc phát triển phần mềm, với ngay cả những mô hình tiên tiến nhất cũng thất bại ở một trong bốn tác vụ đầu ra có cấu trúc.

Nghiên cứu đã đánh giá 11 mô hình ngôn ngữ lớn trên 18 định dạng có cấu trúc khác nhau và 44 tác vụ để kiểm tra xem các hệ thống có thể tuân theo các quy tắc được xác định trước tốt như thế nào, và phát hiện ra sự chênh lệch rõ ràng giữa hiệu suất trên các tác vụ dựa trên văn bản với các đầu ra liên quan đến đa phương tiện hoặc cấu trúc phức tạp.

Quá trình đánh giá hiệu suất bộc lộ một khoảng cách đáng lo ngại về độ tin cậy

Trong khi các tác vụ liên quan đến văn bản nhìn chung được xử lý với mức độ thành công tương đối, thì các tác vụ yêu cầu tạo hình ảnh, video hoặc trang web lại tỏ ra có vấn đề hơn nhiều. Độ chính xác trong các lĩnh vực này sụt giảm mạnh, làm dấy lên những câu hỏi về cách thức tích hợp an toàn các công cụ AI này vào quy trình làm việc chuyên nghiệp.

“Với nghiên cứu kiểu này, chúng tôi muốn đo lường không chỉ cú pháp của mã — tức là liệu nó có tuân theo các quy tắc đã đặt ra hay không — mà còn cả việc liệu các đầu ra được tạo ra cho các tác vụ khác nhau có chính xác hay không,” Dongfu Jiang, một nghiên cứu sinh tiến sĩ và là đồng tác giả chính của nghiên cứu, cho biết.

Các đầu ra có cấu trúc, được thiết kế để áp đặt sự nhất quán về định dạng thông qua JSON, XML hoặc Markdown, vốn nhằm mục đích làm cho các phản hồi của AI trở nên đáng tin cậy hơn đối với các nhà phát triển. Các công ty AI, bao gồm OpenAI, Google và Anthropic, đã giới thiệu các đầu ra có cấu trúc để ép các phản hồi vào các định dạng có thể dự đoán được. Nghiên cứu của Waterloo chỉ ra rằng cách tiếp cận này vẫn chưa mang lại mức độ đáng tin cậy mà các nhà phát triển yêu cầu.

Đánh giá của Waterloo cho thấy ngay cả các mô hình độc quyền tiên tiến nhất cũng chỉ đạt độ chính xác khoảng 75%, trong khi các giải pháp mã nguồn mở thay thế chỉ đạt mức gần 65%. Những kết quả này cho thấy, bất chấp những cải tiến, các hệ thống AI vẫn mắc phải những lỗi đáng kể không thể bỏ qua trong các môi trường phát triển chuyên nghiệp.

Báo cáo nhấn mạnh sự cần thiết của việc giám sát từ con người, lưu ý rằng: “Các nhà phát triển có thể để những tác tử này làm việc cho họ, nhưng chúng vẫn cần sự giám sát đáng kể từ con người.”

Mặc dù các đầu ra có cấu trúc là một bước tiến so với các phản hồi ngôn ngữ tự nhiên dạng tự do, nhưng lỗi vẫn còn phổ biến. Công nghệ này chưa đủ mạnh để hoạt động độc lập trong các kịch bản phát triển phức tạp. Người ta có thể đặt câu hỏi một cách hợp lý rằng liệu sự nhiệt tình của ngành công nghiệp đối với AI và các trợ lý lập trình có đang vượt quá khả năng thực tế của công nghệ lõi hay không.

Ngay cả các mô hình tiên tiến nhất cũng thể hiện tỷ lệ thất bại đáng kể trên các tác vụ có cấu trúc, bộc lộ một khoảng cách lớn giữa những tuyên bố tiếp thị và hiệu suất thực tế. Do đó, trong hiện tại, các nhà phát triển nên coi những công cụ này như những phương tiện hỗ trợ mang tính thử nghiệm thay vì những đồng nghiệp tự chủ.

Nguồn: TechRadar

Xem nhiều