1.2K 28 49

Đã đăng vào thg 5 21, 8:35 SA

trong

21 phút đọc

408

Google I/O 2026: Toàn cảnh kỷ nguyên AI Agent mà Google đang đặt cược tất cả

MayFest2026

Google I/O 2026 diễn ra ngày 19/5/2026 với một thông điệp nhất quán xuyên suốt gần như mọi thông báo: agent AI tự động, không phải chatbot trả lời câu hỏi. Infinity News tổng hợp toàn bộ phát biểu và thông báo từ ngày đầu tiên của Google I/O 2026, cho thấy Google đang chuyển toàn bộ hạ tầng sản phẩm sang mô hình mà CEO Sundar Pichai gọi thẳng là "kỷ nguyên Gemini agent."

Tóm tắt các điểm chính

Gemini 3.5 Flash dẫn đầu MCP Atlas với 83,6% và Finance Agent v2 với 57,9%, trong khi Google tuyên bố doanh nghiệp xử lý 1 nghìn tỷ token/ngày có thể tiết kiệm hơn 1 tỷ USD/năm bằng cách chuyển 80% workload sang model này
Antigravity 2.0 mở rộng từ môi trường lập trình thành nền tảng đầy đủ để xây dựng, triển khai và quản lý nhiều agent AI song song
Google AI Ultra ra mắt ở mức 100 USD/tháng, cạnh tranh trực tiếp với ChatGPT Pro của OpenAI và Claude Max của Anthropic ở cùng mức giá
Gemini Spark là agent cá nhân chạy 24/7 trên máy chủ Google Cloud, không cần máy tính của bạn mở
AI Mode trong Google Search đã vượt 1 tỷ người dùng hoạt động hàng tháng; Google đang mở rộng thêm agent thông tin cá nhân hóa và giao diện tùy chỉnh động

Infinity News phân tích từng phát hiện dưới đây theo bối cảnh cuộc cạnh tranh AI toàn cầu và tác động thực tế với developer và doanh nghiệp.

Gemini 3.5 Flash mạnh đến đâu so với các model hàng đầu hiện tại?

Gemini 3.5 Flash là model nổi bật nhất từ I/O 2026, với tuyên bố chạy nhanh gấp 4 lần các model frontier cùng phân khúc trong khi vượt Gemini 3.1 Pro trên toàn bộ bài kiểm tra về tự động hóa và lập trình. Chưa thể xác nhận độc lập tuyên bố về tốc độ, nhưng dữ liệu benchmark là rõ ràng và đáng xem xét.

Bài kiểm tra	3.5 Flash	3 Flash	3.1 Pro	Claude Sonnet 4.6	Claude Opus 4.7	GPT-5.5
Terminal-Bench 2.1	76,2%	58,0%	70,3%	--	66,1%	78,2%
SWE-Bench Pro	55,1%	49,6%	54,2%	--	64,3%	58,6%
MCP Atlas	83,6%	62,0%	78,2%	69,5%	79,1%	75,3%
OSWorld	78,4%	65,1%	76,2%	72,5%	78,0%	78,7%
Finance Agent v2	57,9%	42,6%	43,0%	51,0%	51,5%	51,8%
CharXiv Reasoning	84,2%	80,3%	83,3%	72,4%	82,1%	84,1%
Humanity's Last Exam	40,2%	33,7%	44,4%	33,2%	46,9%	41,4%
ARC-AGI-2	72,1%	33,6%	77,1%	58,3%	75,8%	84,6%

Gemini 3.5 Flash dẫn đầu rõ ràng ở MCP Atlas (phối hợp nhiều công cụ), Finance Agent v2 (tự động hóa tài chính) và CharXiv Reasoning (đọc hiểu biểu đồ). GPT-5.5 vẫn dẫn trên ARC-AGI-2 và Terminal-Bench 2.1, trong khi Claude Opus 4.7 giữ vị trí mạnh nhất trên Humanity's Last Exam.

Góc độ chi phí đáng chú ý: Google tuyên bố doanh nghiệp xử lý khoảng 1 nghìn tỷ token mỗi ngày có thể tiết kiệm hơn 1 tỷ USD mỗi năm bằng cách chuyển 80% workload từ model frontier khác sang Gemini 3.5 Flash. Đây là lời chào hàng trực tiếp nhắm vào khách hàng doanh nghiệp của OpenAI và Anthropic. Model có mặt ngay hôm nay trên Gemini API, Google AI Studio và ứng dụng Gemini. Gemini 3.5 Pro đang chạy nội bộ và dự kiến ra mắt tháng tới.

Gemini Omni thay đổi gì trong cách tạo video bằng AI?

Gemini Omni là model tạo nội dung đa phương thức đầu tiên của Google DeepMind nhận bất kỳ kết hợp nào của văn bản, hình ảnh, âm thanh và video làm đầu vào, rồi xuất ra video trong một hệ thống duy nhất thay vì chuyển tiếp qua nhiều hệ thống riêng lẻ. Phiên bản đầu Gemini Omni Flash có mặt ngay hôm nay trong ứng dụng Gemini, Google Flow và YouTube Shorts.

Điểm kiến trúc quan trọng là Omni gộp ba hệ thống tách biệt trước đây (Veo cho video, Imagen cho ảnh, các hệ thống âm thanh riêng) thành một mô hình duy nhất, tạo ra chỉnh sửa liền mạch hơn và ít lỗi hơn khi làm việc với nhiều loại nội dung cùng lúc. Google chưa công bố điểm kiểm tra hiệu suất cụ thể cho Omni, nên đánh giá độc lập vẫn đang chờ. API cho developer và doanh nghiệp dự kiến có trong vài tuần tới.

Kết quả thử nghiệm thực tế cho thấy Omni Flash mạnh hơn ở chuyển đổi phong cách nghệ thuật (từ cảnh thực sang phong cách thảm thêu trung cổ cho kết quả ấn tượng), nhưng vẫn có điểm yếu về vật lý chính xác (góc chuyển động của vật thể không nhất quán giữa các khung hình). Omni Pro mạnh hơn được kỳ vọng ra mắt sớm.

Antigravity 2.0 mở rộng thành gì so với phiên bản trước?

Antigravity 2.0 là bản nâng cấp lớn nhất kể từ khi ra mắt, chuyển từ môi trường lập trình đơn thuần thành nền tảng đầy đủ để xây dựng, triển khai và quản lý nhiều agent AI tự động cùng lúc. Trung tâm của bản cập nhật là ứng dụng desktop độc lập mới, đóng vai trò hub điều phối cho phép chạy nhiều agent song song trên các tác vụ khác nhau cùng một lúc.

Hệ sinh thái Antigravity 2.0 giờ có bốn lớp riêng biệt cho developer. Ứng dụng desktop Antigravity 2.0 điều phối nhiều agent song song và hỗ trợ lập lịch tác vụ nền, tích hợp với Google AI Studio, Android và Firebase. Antigravity CLI là giao diện dòng lệnh cho developer muốn tạo và chạy agent mà không cần giao diện đồ họa; Google đang yêu cầu người dùng Gemini CLI chuyển sang đây. Antigravity SDK cung cấp quyền truy cập lập trình vào cùng khung điều phối đang chạy các sản phẩm của Google. Antigravity trong Gemini Enterprise Agent Platform kết nối trực tiếp với các dự án Google Cloud cho workload doanh nghiệp.

Hai tính năng mới quan trọng nhất cho agent lõi: agent giờ có thể tự spawn các agent phụ theo yêu cầu, mỗi agent chạy song song với không gian làm việc riêng biệt và kế thừa cấu hình công cụ cùng phân quyền từ agent cha. Các tác vụ chạy dài không còn chặn vòng lặp agent. JSON Hooks cho phép gắn script tùy chỉnh vào các thời điểm quan trọng trong quá trình thực thi (trước/sau khi gọi công cụ, gọi model hoặc khi dừng) để ghi log, tùy chỉnh tham số hoặc thêm hướng dẫn. Scheduled Tasks cho phép đặt lịch chạy agent định kỳ như tổng hợp PR hàng ngày hoặc kiểm tra triển khai hàng giờ.

Về quản lý, Antigravity 2.0 giới thiệu "project" như đơn vị tổ chức mới, phân quyền theo nhóm agent thay vì dùng quyền toàn cục cho mọi thứ. Giao diện bên cạnh được thiết kế lại hỗ trợ nhóm hội thoại theo project, trạng thái hoặc thời gian gần đây, với Git worktree tích hợp sẵn. Các lệnh mới gồm /goal cho chạy tự động, /grill-me để làm rõ yêu cầu trước khi bắt đầu tác vụ, /schedule cho lịch định kỳ và /browser cho phép truy cập trình duyệt theo yêu cầu. Antigravity 2.0 có mặt ngay hôm nay; gói Google AI Ultra (100 USD/tháng) bao gồm giới hạn sử dụng Antigravity cao gấp 5 lần so với gói AI Pro.

Infinity News nhận thấy Antigravity 2.0 đang cạnh tranh trên hai mặt trận cùng lúc: là công cụ developer độc lập thì cạnh tranh với Codex và Claude Code; là nền tảng điều phối thì cạnh tranh với LangChain, AutoGen và OpenAI Agents SDK. Sự tích hợp với hệ sinh thái Google Cloud là lợi thế và cũng là rủi ro phụ thuộc nhà cung cấp.

Managed Agents trong Gemini API mang lại gì cho developer?

Managed Agents trong Gemini API đưa khả năng agent trực tiếp vào tầng API, cho phép developer xây ứng dụng có agent AI mà không cần tự quản lý toàn bộ hạ tầng điều phối. Về thực tế, developer giờ có thể định nghĩa hành vi agent, tích hợp công cụ và tạo workflow nhiều bước qua Gemini API và để hạ tầng của Google xử lý việc thực thi.

Đây có tiềm năng là thay đổi thực sự quan trọng với team đang xây ứng dụng production cần thực thi tác vụ dài hạn mà không muốn dựng và quản lý hạ tầng agent riêng. Truy cập qua Google AI Studio; khách hàng doanh nghiệp tiếp cận qua Gemini Enterprise Agent Platform.

Một lưu ý thực tế: phản hồi ban đầu từ developer tại I/O cho thấy tài liệu hướng dẫn cho các agent flow phức tạp và xử lý lỗi vẫn còn thiếu. Giới hạn tốc độ và quản lý quota cũng được nêu là điểm ma sát. Đây là các vấn đề có khả năng được cải thiện theo thời gian nhưng đáng biết trước khi cam kết xây dựng trên stack này.

Gemini Spark khác gì các trợ lý AI hiện tại?

Gemini Spark là agent cá nhân mới của Google, chạy liên tục 24/7 trên máy chủ ảo trong Google Cloud, nghĩa là nó tiếp tục làm việc ngay cả khi bạn đóng máy tính lại. Spark được xây trên Gemini 3.5 và nền tảng điều phối Antigravity, cho phép xử lý tác vụ dài hạn ở nền.

Tính năng khi ra mắt bao gồm tích hợp với Google Workspace, Gmail và Calendar, với hỗ trợ công cụ bên thứ ba qua MCP đến trong vài tuần tới. Tương tác qua ứng dụng Gemini và sắp có qua email và chat. Spark sẽ hoạt động trực tiếp trong Chrome như lớp agent trình duyệt vào cuối hè này. Tiến trình tác vụ hiển thị qua Android Halo, không gian giao diện mới trên Android, dự kiến cuối năm nay.

So sánh thẳng thắn với hệ sinh thái agent của OpenAI và Anthropic: điểm khác biệt của Spark là thực thi bền vững 24/7 trên hạ tầng Google Cloud, kết hợp với tích hợp sâu vào Google Workspace. Nếu công việc của bạn đang nằm trong Gmail, Docs và Calendar, đây là lợi thế thực sự. Nếu không, giá trị ít rõ ràng hơn.

Quyền riêng tư là mối lo ngại chính đáng. Một agent liên tục theo dõi hộp thư, lịch và tài liệu của bạn đặt ra câu hỏi thực sự về dữ liệu được lưu ở đâu và tuân thủ các quy định nào, đặc biệt trong ngành có quy định chặt. Google chưa cung cấp câu trả lời chi tiết cho các câu hỏi này, ví dụ như điều gì xảy ra với bộ nhớ agent khi nhân viên rời công ty.

Spark đang triển khai cho người dùng thử nghiệm tuần này, với Beta dành cho người đăng ký Google AI Ultra (100 USD/tháng) tại Mỹ tuần tiếp theo.

Search và AI Mode của Google đang thay đổi như thế nào?

AI Mode trong Google Search, ra mắt tại I/O năm ngoái, đã vượt 1 tỷ người dùng hoạt động hàng tháng, và Google đang mở rộng thêm hai khả năng agent mới đáng kể. Đây là mốc tăng trưởng đáng chú ý cho một tính năng chưa đầy một năm tuổi.

Thứ nhất là agent thông tin cá nhân hóa trong Search: các agent nền được cấu hình để theo dõi chủ đề và đưa thông tin liên quan lên đúng lúc. Tính năng này triển khai trong mùa hè này, bắt đầu với người đăng ký Google AI Pro và Ultra. Thứ hai là giao diện tự tạo trong Search, dùng Gemini 3.5 Flash và Antigravity: Search sẽ xây dựng layout tùy chỉnh, hình ảnh tương tác và thậm chí bảng điều khiển bền vững hoặc ứng dụng nhỏ cho các truy vấn phức tạp, dài hạn. Khả năng giao diện tự tạo đến miễn phí cho mọi người dùng trong mùa hè; bảng điều khiển bền vững và ứng dụng tùy chỉnh dành trước cho người đăng ký Pro và Ultra tại Mỹ.

Infinity News ghi nhận rằng đây là mối lo ngại thực sự với nhà xuất bản và chuyên gia SEO. Khi câu trả lời do AI tạo ra giải quyết hoàn toàn truy vấn của người dùng ngay trong Search, không còn lý do để click vào trang nguồn. Cả AI Overviews lẫn lần triển khai đầu tiên của AI Mode đều đã dẫn đến sụt giảm traffic đáng kể. Google vẫn chưa đưa ra cách rõ ràng để chia sẻ doanh thu hoặc đảm bảo traffic cho nhà xuất bản có nội dung nuôi dưỡng các câu trả lời này.

Google Flow được nâng cấp như thế nào tại I/O 2026?

Google Flow, ra mắt tại I/O 2025 như công cụ làm phim AI, tiến thêm một bước lớn với ba cập nhật định hình lại cách nền tảng này hoạt động.

Agent lập kế hoạch thông minh hơn: agent Flow mới có thể lập kế hoạch và suy luận qua các dự án sáng tạo nhiều bước. Bạn đưa đầu vào (ý tưởng, ảnh tham chiếu, kịch bản thô) và nó giúp di chuyển từ brainstorming sơ khai qua tạo ra và chỉnh sửa, tất cả trong một môi trường. Agent mới này có mặt với mọi người ngay hôm nay.

Video qua Gemini Omni: Flow giờ xử lý tạo và chỉnh sửa video thông qua model Omni. Bạn mô tả thay đổi cho đoạn phim từ thư viện ảnh của mình bằng ngôn ngữ thông thường và lặp lại qua hội thoại. Độ nhất quán nhân vật cũng được cải thiện, giữ nguyên ngoại hình và giọng nói qua các cảnh khác nhau, đặc biệt hữu ích khi làm phim ngắn hoặc chiến dịch quảng cáo có nhân vật lặp lại.

Xây công cụ tùy chỉnh: thay vì bị giới hạn bởi công cụ Flow cung cấp sẵn, giờ bạn có thể xây công cụ của riêng mình trực tiếp trên nền tảng. Google trình diễn ví dụ như thiết kế hiệu ứng video tùy chỉnh, tạo công cụ hoạt hình vẽ tay và xây workflow đặt text lên video, tất cả không cần rời Flow. Ứng dụng mobile hiện có trong Beta trên Android và sắp đến iOS.

SynthID mở rộng có ý nghĩa gì với toàn ngành?

SynthID, hệ thống đánh dấu AI vô hình của Google, đã đánh dấu hơn 100 tỷ ảnh và video cùng 60.000 năm nội dung âm thanh kể từ khi ra mắt ba năm trước. Thông báo quan trọng nhất tại I/O không phải là con số này, mà là các đối tác mới: OpenAI, Kakao và ElevenLabs đang áp dụng SynthID cùng với Nvidia đã ký kết năm ngoái.

Việc áp dụng xuyên ngành là điều làm cho điều này có ý nghĩa. Hệ thống đánh dấu nguồn gốc chỉ hoạt động nếu đủ phổ biến để "không có dấu" trở thành tín hiệu hữu ích. Google cũng mở rộng xác minh Content Credentials (chuẩn C2PA) sang Search và Chrome, hiển thị cho người dùng liệu nội dung có xuất xứ từ AI hay camera và liệu nó có được chỉnh sửa bằng công cụ AI tạo sinh hay không. Sự kết hợp SynthID và C2PA tạo ra hai lớp xác thực độc lập, đúng hướng với thực tế rằng mỗi lớp đơn lẻ có thể bị gỡ bỏ.

Những thông báo đáng chú ý nào khác từ I/O 2026?

Ngoài các thông báo lớn, Google I/O 2026 còn có nhiều cập nhật nhỏ hơn nhưng đáng theo dõi.

Docs Live là tính năng mới dùng giọng nói trong Google Docs: bạn nói ý tưởng tự do và Gemini cấu trúc chúng thành tài liệu. Triển khai cho người đăng ký trong mùa hè này, với khả năng giọng nói đến Gmail và Google Keep cùng thời điểm.

Google Pics là công cụ tạo và chỉnh sửa ảnh AI mới xây trên model Nano Banana, xử lý mỗi phần tử trong ảnh như đối tượng riêng biệt thay vì ảnh phẳng. Đang triển khai cho người dùng thử nghiệm, sau đó đến người đăng ký Google AI Pro và Ultra trong mùa hè.

Android Halo là không gian giao diện mới trên Android để xem cập nhật trực tiếp và tiến trình tác vụ từ agent như Gemini Spark. Dự kiến cuối năm nay.

Daily Brief là agent có sẵn trong ứng dụng Gemini, tổng hợp bản tóm tắt buổi sáng cá nhân hóa từ hộp thư, lịch và danh sách việc cần làm của bạn với các bước tiếp theo được gợi ý.

TPU thế hệ 8 gồm hai dạng: 8t tối ưu cho huấn luyện model quy mô lớn (gần 3 lần sức mạnh tính toán thô so với thế hệ trước, mở rộng đến hơn 1 triệu chip) và 8i tối ưu cho phục vụ. Cả hai đạt hiệu suất trên mỗi watt điện cao gấp đôi thế hệ trước.

Gemini for Science kết nối Antigravity với hơn 30 cơ sở dữ liệu khoa học đời sống lớn. Science Skills có mặt ngay hôm nay trên GitHub và trực tiếp trong Antigravity.

Kết luận

Infinity News nhận thấy toàn bộ Google I/O 2026 chỉ về một kết luận: Google đang đặt cược rằng agent AI tự động thực thi là hướng đi tiếp theo của toàn ngành, và Gemini 3.5 Flash cùng Antigravity 2.0 là hạ tầng nằm dưới gần như mọi thứ khác được thông báo.

Những gì có thể dùng ngay hôm nay gồm Gemini 3.5 Flash (qua Gemini API và AI Studio), agent Flow mới, Gemini Omni Flash và ứng dụng desktop Antigravity 2.0. Gemini Spark, agent Search và các tính năng giao diện tự tạo trong Search đang triển khai trong mùa hè, chủ yếu giới hạn sau gói Google AI Ultra 100 USD/tháng trong giai đoạn đầu. Antigravity 2.0 là thông báo thú vị nhất, vì nó cạnh tranh đồng thời ở hai cấp độ: là công cụ độc lập thì nhắm vào Codex và Claude Code; là nền tảng SDK thì nhắm vào LangChain, AutoGen và OpenAI Agents SDK.

Google I/O 2026 Agent