Mô hình AI Gemini 2.5 sử dụng máy tính vượt trội hơn các giải pháp AI hàng đầu khác

Tại Google I/O đầu năm nay, Google đã tiết lộ rằng họ sẽ tích hợp khả năng sử dụng máy tính vào API Gemini. Hôm nay, Google đã công bố Gemini 2.5 Computer Use, một mô hình chuyên biệt mới hỗ trợ các tác nhân có thể tương tác với giao diện người dùng (UI). Google tuyên bố rằng mô hình mới này vượt trội hơn các mô hình tương tự khác trên nhiều tiêu chuẩn kiểm soát web và thiết bị di động.

Công cụ computer_use của API Gemini hoạt động như sau:

Các nhà phát triển cần gửi yêu cầu của người dùng làm dữ liệu đầu vào cho công cụ, bao gồm ảnh chụp màn hình môi trường và lịch sử các hành động gần đây.

Cùng với dữ liệu đầu vào, các nhà phát triển cũng có thể chỉ định có nên loại trừ các chức năng khỏi danh sách đầy đủ các hành động UI được hỗ trợ hay cần thêm bất kỳ chức năng tùy chỉnh nào khác hay không.

Mô hình sẽ phân tích các dữ liệu đầu vào nhận được và tạo phản hồi, phản hồi này sẽ là một trong các hành động UI, chẳng hạn như nhấp chuột hoặc nhập liệu.

Nếu mô hình không chắc chắn, nó thậm chí có thể yêu cầu xác nhận của người dùng cuối. Ví dụ: nếu hành động liên quan đến việc mua một mặt hàng, người dùng sẽ cần xác nhận.

Mã phía máy khách sau đó thực thi hành động đã nhận, chẳng hạn như nhấp vào nút hoặc hiển thị xác nhận của người dùng cuối.
Khi hành động hoàn tất, một ảnh chụp màn hình mới của GUI hiện tại và URL hiện tại sẽ được gửi trở lại mô hình Sử dụng Máy tính dưới dạng phản hồi hàm, khởi động lại vòng lặp.
Cho đến khi đạt được mục tiêu nhiệm vụ chính, các bước trên sẽ được lặp lại.

Mặc dù mô hình Gemini 2.5 Computer Use được tối ưu hóa cho trình duyệt web, Google tuyên bố rằng mô hình này cũng hoạt động tốt cho các tác vụ điều khiển giao diện người dùng trên thiết bị di động. Google đặc biệt lưu ý rằng mô hình này vẫn chưa được tối ưu hóa cho việc điều khiển ở cấp độ hệ điều hành máy tính để bàn. Như bạn có thể thấy trong các điểm chuẩn bên dưới, Gemini 2.5 Computer Use mang lại kết quả tiên tiến nhất trong một số điểm chuẩn chính.