+1

Gemini Omni ra mắt tại Google I/O 2026: Mô hình AI đầu tiên gộp video, ảnh và âm thanh vào một hệ thống

Gemini Omni, ra mắt tại Google I/O ngày 19/5/2026, là mô hình AI đầu tiên của Google DeepMind nhận bất kỳ loại nội dung nào làm đầu vào (văn bản, hình ảnh, âm thanh, video) và xuất ra video trong một hệ thống duy nhất thay vì chuyển tiếp qua nhiều mô hình riêng lẻ. Infinity News tổng hợp toàn bộ thông tin từ sự kiện Google I/O 2026 và thử nghiệm thực tế, cho thấy Omni đánh dấu sự kết thúc của kiến trúc dây chuyền lắp ráp trong tạo nội dung AI: không còn mô hình ảnh tách biệt mô hình video tách biệt mô hình âm thanh.


Tóm tắt các điểm chính

  • Phiên bản đầu tiên Gemini Omni Flash đang chạy trực tiếp trong ứng dụng Gemini, Google Flow và YouTube Shorts từ ngày 19/5/2026
  • Google trước đây dùng ba hệ thống tách biệt: Veo cho video, Imagen cho ảnh, và các hệ thống âm thanh riêng; Omni gộp tất cả vào một mô hình
  • Mọi video xuất ra đều được gắn hai lớp xác thực nguồn gốc: SynthID (dấu nước vô hình ở cấp pixel) và C2PA (chứng nhận mã hóa kèm theo file)
  • Google không công bố điểm kiểm tra hiệu suất cụ thể khi ra mắt; dữ liệu đánh giá độc lập dự kiến có trong vài tuần tới
  • Giá truy cập từ 7,99 USD/tháng (AI Plus) đến 249,99 USD/tháng (AI Ultra); API chưa mở, dự kiến trong vài tuần tới

Gemini Omni thực chất là gì và tại sao nó khác với những gì Google đã có?

Gemini Omni là mô hình tạo nội dung đa phương thức đầu tiên của Google DeepMind, trong đó "đa phương thức" có nghĩa thực sự hơn những lần Google dùng từ này trước đây. Phiên bản đầu tiên, Omni Flash, nhận bất kỳ kết hợp nào của văn bản, hình ảnh, âm thanh và video làm đầu vào, rồi xuất ra video. Điểm mấu chốt là không có sự chuyển tiếp nào xảy ra giữa các hệ thống khác nhau; đây là một mô hình duy nhất xử lý toàn bộ.

Trước Omni, Google vận hành ba hệ thống tách biệt: Veo cho video, Imagen cho hình ảnh, và các hệ thống riêng cho âm thanh. Mỗi lần chuyển tiếp giữa các hệ thống là một điểm mà chất lượng và tính liền mạch có thể bị mất đi. Omni gộp tất cả vào một mô hình duy nhất (đó là lý do có tên Omni!) có khả năng suy luận xuyên suốt các loại nội dung. Trong thực tế, điều đó tạo ra các chỉnh sửa liền mạch hơn và ít lỗi hiển thị hơn từ việc nối các hệ thống.

Google cũng gợi ý rằng Omni Flash chỉ là bước khởi đầu và một phiên bản Omni Pro sẽ theo sau, nhắm đến mức cạnh tranh cao hơn.


Tính năng nổi bật nào của Gemini Omni thực sự đáng chú ý?

Gemini Omni Flash mang đến bốn tính năng cốt lõi, trong đó chỉnh sửa video bằng hội thoại là điểm khác biệt lớn nhất so với mọi công cụ video AI hiện tại.

Chỉnh sửa video bằng hội thoại hoạt động như thế nào?

Chỉnh sửa bằng hội thoại là tính năng tiêu đề: bạn đưa cho Omni một đoạn video (tự quay hoặc tự tạo), rồi thay đổi nó bằng cách nói chuyện. "Làm cho ánh đèn mờ hơn." "Đổi góc máy sang phía sau vai cô ấy." "Làm cho cây vĩ cầm biến mất." Mỗi lệnh duy trì qua các lượt. Cảnh phát triển tiếp theo; không reset từ đầu.

Đây là tính năng quen thuộc với công cụ tạo ảnh như Nano Banana 2 hoặc ChatGPT Images 2.0, nhưng Omni lần đầu tiên đưa nó sang video. Ý nghĩa thực tế là quy trình tạo video sáng tạo không còn đòi hỏi phần mềm chỉnh sửa chuyên dụng cho những thay đổi cơ bản.

Omni hiểu vật lý thực tế đến mức nào?

Google nhấn mạnh tại buổi ra mắt rằng Omni có hiểu biết trực giác về trọng lực, động năng và chuyển động chất lỏng. Đây là điểm khác biệt quan trọng so với các mô hình video chỉ học pattern bề mặt mà không hiểu cách vật thể thực sự di chuyển trong thế giới thực.

Trong bài kiểm tra thực tế với prompt mô tả máy bắn đá thời trung cổ phóng bình đất nung vào thành đá quay ở tốc độ chậm, mô hình tạo ra video chỉ trong khoảng mười giây. Kết quả không hoàn hảo: góc của bình đất nung thay đổi không nhất quán giữa các khung hình. Điều này nhắc nhở rằng đây là phiên bản Flash; Omni Pro dự kiến sẽ xử lý tốt hơn.

Từ phác thảo đến video thực tế hoạt động thế nào?

Omni cho phép biến bản vẽ nguệch ngoạc thành đoạn phim có độ thực tế cao, trong đó bản phác thảo chỉ đóng vai trò hướng dẫn chuyển động chứ không phải tham chiếu hình ảnh cuối cùng. Tính năng này hữu ích cho giai đoạn tiền kỳ sản xuất, khi người sáng tạo muốn thử nghiệm ý tưởng chuyển động trước khi đầu tư vào cảnh quay thực.

SynthID và xác thực nguồn gốc video là gì?

Mọi video được tạo bởi Omni đều được gắn hai lớp xác thực nguồn gốc từ thời điểm xuất ra, không thêm vào sau. SynthID là dấu nước vô hình được nhúng trực tiếp vào từng pixel khi tạo video. Người xem không thể nhìn thấy nó. Nó được thiết kế để tồn tại qua cắt xén, lọc màu và mã hóa lại.

C2PA là chứng nhận mã hóa kèm theo file dưới dạng siêu dữ liệu có ký tên. Quan trọng: ngay cả khi ai đó xóa siêu dữ liệu file, tín hiệu ở cấp pixel vẫn còn đó.

Một điểm cần lưu ý: SynthID chỉ có trên mô hình của Google. "Không có dấu SynthID" không có nghĩa là "do người thật tạo ra", mà chỉ có nghĩa là "không phải từ mô hình Google." Với khả năng Omni có thể làm lại cảnh quay thực, xác thực nguồn gốc bền vững trên mọi đầu ra đang từ tính năng tốt để có trở thành điều kiện bắt buộc.


Thử nghiệm thực tế Gemini Omni Flash cho kết quả như thế nào?

Thử nghiệm thực tế với hai loại tác vụ khác nhau cho thấy rõ điểm mạnh và điểm yếu hiện tại của Omni Flash.

Bài kiểm tra vật lý với máy bắn đá tạo video trong khoảng mười giây, nhanh hơn nhiều so với thông báo "vài phút" của hệ thống. Kết quả có lỗi về góc nhìn không nhất quán giữa các khung hình, làm cho bình đất nung trông như máy bay thay vì vật phóng theo quán tính.

Bài kiểm tra chuyển đổi phong cách cho kết quả thuyết phục hơn. Từ kết quả bài kiểm tra trước, một ảnh chụp màn hình được tải lên và yêu cầu tái tạo toàn bộ cảnh theo phong cách thảm thêu Bayeux Tapestry thời trung cổ với nhân vật phẳng, màu chỉ thêu pha mờ (đỏ, vàng ochre, xanh) và chú thích Latin. Video mất nhiều thời gian hơn để tạo ra, nhưng kết quả đáng ngạc nhiên: lỗi vật lý từ bài trước không còn quan trọng vì phong cách thảm thêu cho phép sự không hoàn hảo, và cảnh máy bắn đá phóng ngược thực ra lại tạo ra hiệu ứng hài hước phù hợp. Infinity News ghi nhận rằng bài kiểm tra chuyển đổi phong cách cho thấy Omni Flash mạnh hơn ở nhiệm vụ tái diễn giải nghệ thuật so với mô phỏng vật lý chính xác, ít nhất ở phiên bản Flash hiện tại.


Gemini Omni đứng ở đâu trên các bài kiểm tra hiệu suất?

Gemini Omni không có điểm kiểm tra hiệu suất cụ thể nào được công bố tại thời điểm ra mắt. Thông báo của Google DeepMind tập trung vào mô tả tính năng như hiểu vật lý, kiến thức thế giới và chỉnh sửa bằng hội thoại, nhưng không cung cấp số liệu so sánh theo chuẩn đo lường độc lập. Đánh giá từ bên thứ ba dự kiến xuất hiện trong vài tuần tới.

Hiện tại, mô hình dẫn đầu Artificial Analysis Video Arena, bảng xếp hạng gần nhất với chuẩn ngành cho tạo video AI, là Seedance 2.0 của ByteDance với 1.269 điểm Elo cho text-to-video và 1.351 điểm Elo cho image-to-video. Omni chưa được xếp hạng trên bảng này.

Các bài kiểm tra quan trọng cần theo dõi khi dữ liệu có mặt:

Bài kiểm tra Đo lường gì
VBench 2.0 Vật lý, suy luận thường thức, độ trung thực với người thật, khả năng kiểm soát (18 chiều đánh giá)
Artificial Analysis Video Arena Xếp hạng theo sở thích người dùng kiểu Elo, so sánh trực tiếp
VABench Đánh giá kết hợp âm thanh và video; quan trọng vì Omni tạo âm thanh đồng bộ

Giá và cách truy cập Gemini Omni hiện tại là gì?

Gemini Omni Flash đang có mặt trong ba gói thuê bao AI của Google tại Mỹ, với quyền truy cập ngay hôm nay trong ứng dụng Gemini, Google Flow và YouTube Shorts.

Gói Giá Phân bổ tín dụng
AI Plus 7,99 USD/tháng 200 tín dụng AI/tháng
AI Pro 19,99 USD/tháng 1.000 tín dụng AI/tháng
AI Ultra 249,99 USD/tháng Cao nhất

Truy cập API chưa có, dự kiến trong vài tuần tới. Điều này có nghĩa là developer chưa thể tích hợp Omni vào ứng dụng hoặc dịch vụ của riêng mình ở thời điểm hiện tại.


Kết luận

Infinity News nhận thấy toàn bộ thông tin về Gemini Omni chỉ về một kết luận: tạo nội dung AI đang chuyển từ mô hình dây chuyền lắp ráp (mỗi loại nội dung một hệ thống riêng) sang mô hình một mô hình hiểu tất cả.

Cho đến nay, khi bạn dùng AI để tạo video có kèm âm thanh và dựa trên ảnh, quá trình đó đi qua nhiều bàn tay: văn bản đến mô hình ngôn ngữ, output đó đến mô hình ảnh, ảnh tĩnh đến mô hình video, khung hình đến mô hình âm thanh. Mỗi lần chuyển tiếp là một điểm mà chất lượng có thể rò rỉ. Tuyên bố lớn của Omni là nó suy luận xuyên suốt văn bản, hình ảnh, video và âm thanh trong cùng một lần xử lý.

Phiên bản Flash hiện tại có điểm yếu rõ ràng về vật lý chính xác, nhưng mạnh hơn ở chuyển đổi phong cách nghệ thuật. Câu hỏi thực sự sẽ được trả lời khi Omni Pro ra mắt và khi dữ liệu kiểm tra độc lập xuất hiện, đặc biệt là so sánh với Seedance 2.0 của ByteDance trên Artificial Analysis Video Arena.


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí