GLM-5.1 vừa được Z.ai công bố đang trở thành một cái tên rất đáng chú ý trong làn sóng AI mã nguồn mở, khi mô hình này được giới thiệu với tham vọng làm việc tự động liên tục tới 8 giờ cho một tác vụ phức tạp. Điểm nhấn khiến cộng đồng công nghệ quan tâm là tuyên bố cho thấy GLM-5.1 vượt qua một số đối thủ lớn như Claude Opus 4.6 và GPT-5.4 trên bài đo SWE-Bench Pro, từ đó mở ra cuộc đua mới về khả năng làm việc dài hơi của các tác nhân AI.
Theo thông tin từ Z.ai, GLM-5.1 là mô hình Mixture-of-Experts với 754 tỷ tham số và cửa sổ ngữ cảnh 202.752 token. Thay vì chỉ tập trung vào tốc độ phản hồi hay số lượng token suy luận, mô hình này được tối ưu để duy trì mục tiêu qua nhiều vòng thử nghiệm, chỉnh sửa mã, biên dịch và kiểm tra công cụ. Đây là hướng đi rất khác so với kiểu dùng AI để hỗ trợ từng đoạn ngắn, bởi Z.ai đang muốn đẩy mô hình sang dạng “nhân sự kỹ thuật số” có thể bền bỉ xử lý một đầu việc lớn trong nhiều giờ.
Trong bài kiểm tra thực tế liên quan đến tối ưu cơ sở dữ liệu vector, mô hình này được cho là đã chạy qua hàng trăm vòng lặp và hơn 6.000 lần gọi công cụ. Z.ai cho biết GLM-5.1 không chỉ cải thiện từng chút một, mà còn tạo ra các bước nhảy hiệu năng theo từng “nấc thang”, tức là sau một thời gian tinh chỉnh, mô hình tự thay đổi chiến lược để đạt mức tối ưu cao hơn. Cách vận hành này giúp nó tiến xa hơn so với tình trạng hụt hơi thường thấy ở nhiều hệ thống AI agent trước đây.
Một trong những điểm gây chú ý là trên SWE-Bench Pro, GLM-5.1 đạt 58,4 điểm, cao hơn GPT-5.4 ở mức 57,7 và Claude Opus 4.6 ở mức 57,3 theo dữ liệu Z.ai công bố. Nếu các con số này tiếp tục được cộng đồng kiểm chứng rộng rãi, đây sẽ là một cột mốc đáng kể với phong trào AI mã nguồn mở, nhất là khi mô hình được phát hành dưới giấy phép MIT và cho phép doanh nghiệp tải về để tùy biến, thương mại hóa.
Ngoài khả năng viết mã, GLM-5.1 còn được Z.ai thử nghiệm ở nhiều bài toán tối ưu GPU kernel, benchmark agentic và các bài đo suy luận. Hãng nhấn mạnh rằng mô hình có thể duy trì chất lượng xử lý sau hàng trăm tới hơn một nghìn lượt sử dụng công cụ, tức là giảm tình trạng trôi chiến lược hoặc lỗi tích lũy trong quá trình làm việc kéo dài. Đây cũng là lý do ngày càng nhiều công ty AI xem “thời lượng tự chủ” là thước đo quan trọng tiếp theo, thay vì chỉ nhìn vào tốc độ hay khả năng trả lời hội thoại.
Về mặt thương mại, Z.ai chia GLM-5.1 thành các gói dịch vụ hướng tới nhà phát triển, đồng thời vẫn hỗ trợ triển khai cục bộ qua nhiều framework khác nhau. Song song với đó, hãng cũng duy trì chiến lược kết hợp giữa mô hình mở và sản phẩm đóng: GLM-5.1 được mở dưới MIT, còn một số biến thể tối ưu tốc độ hơn vẫn được giữ ở dạng thương mại. Cách tiếp cận này được xem là nỗ lực cân bằng giữa mở rộng hệ sinh thái và đảm bảo nguồn thu.
Tác động lớn nhất của GLM-5.1 có lẽ nằm ở việc nó góp phần thay đổi câu hỏi mà người dùng đặt ra cho AI. Nếu trước đây nhiều người hỏi “AI có thể trả lời điều gì?”, thì với các mô hình mới kiểu này, câu hỏi đang dần chuyển thành “AI có thể được giao việc gì trong vài giờ liên tục?”. Khi đó, cuộc cạnh tranh trong ngành sẽ không chỉ còn là mô hình nào nhanh hơn, mà là mô hình nào đáng tin hơn khi phải hoàn thành trọn vẹn một dự án nhiều bước.
Dù vậy, các chuyên gia cũng cho rằng con đường phía trước chưa hề đơn giản. Một mô hình có thể làm việc lâu hơn không đồng nghĩa lúc nào cũng đưa ra phương án tối ưu nhất. Các thách thức như tự đánh giá chất lượng, thoát khỏi ngõ cụt chiến lược và giữ độ ổn định sau hàng nghìn lần gọi công cụ vẫn là bài toán khó. Nhưng ít nhất, với màn ra mắt lần này, GLM-5.1 đang cho thấy AI mã nguồn mở vẫn đủ sức tạo ra cú hích lớn trong cuộc đua công nghệ toàn cầu.
