1.1K 12 21

Đã đăng vào thg 5 15, 1:41 CH 17 phút đọc

124

Có gì mới trong sự kiện công nghệ Google I/O 2024?

MayFest2024

Mở đầu

Với những cống hiến không ngừng trong lĩnh vực công nghệ thông tin và đổi mới sáng tạo, Google I/O năm nay hứa hẹn sẽ mang đến những bước đột phá mới trong việc định hình tương lai của ngành công nghiệp phần mềm và trải nghiệm người dùng.

Các công nghệ nổi bật tại sự kiện

Google ra mắt Project Astra, trợ lý ảo hỗ trợ trong cuộc sống hàng ngày

Project Astra là một chatbot trực quan và là một phiên bản cải tiến của Google Lens. Nó cho phép người dùng mở camera điện thoại của họ và đặt câu hỏi về bất cứ thứ gì xung quanh họ bằng cách hướng camera vào đồ vật. Google đã trình chiếu một video demo trong đó ai đó hỏi Astra nhiều câu hỏi liên tiếp dựa trên môi trường xung quanh họ. Astra có khả năng hiểu biết về không gian và ngữ cảnh tốt hơn, điều mà Google cho biết cho phép người dùng xác định mọi thứ trên thế giới như họ đang ở thị trấn nào, hoạt động bên trong của một số mã trên màn hình máy tính hoặc thậm chí nghĩ ra tên ban nhạc thông minh cho chú chó của bạn .

Google vừa tiết lộ trợ lý AI của tương lai với Project Astra, sử dụng video bạn quay bằng điện thoại và nhận dạng giọng nói để đưa ra câu trả lời theo ngữ cảnh cho câu hỏi của bạn. Một bản demo cho thấy ai đó sử dụng Project Astra để giúp họ giải quyết vấn đề mã hóa bằng máy ảnh, đồng thời theo dõi nơi họ để kính trước đó.

Bản demo cho thấy các tương tác bằng giọng nói của Astra hoạt động thông qua camera của điện thoại cũng như camera được nhúng trong một số kính thông minh (không xác định).

AI cho Android

Google cho biết Gemini sớm có thể cho phép người dùng đặt câu hỏi về video trên màn hình, và nó sẽ trả lời dựa trên phụ đề tự động. Đối với người dùng Gemini Advanced bản trả phí, nó cũng có thể đọc PDF và cung cấp thông tin. Những cập nhật đa phương thức đó và nhiều hơn nữa cho Gemini trên Android sẽ ra mắt trong vài tháng tới.

Gemini cũng sẽ thay thế Google Assistant, trở thành trợ lý AI mặc định trên điện thoại Android và có thể truy cập bằng cách nhấn và giữ nút nguồn. Cuối cùng, Gemini sẽ được phủ lên trên các dịch vụ và ứng dụng khác nhau, cung cấp hỗ trợ đa phương thức khi được yêu cầu. Khả năng đa phương thức của Gemini Nano cũng sẽ được tận dụng thông qua tính năng TalkBack của Android, cung cấp phản hồi mô tả chi tiết hơn cho người dùng bị mù hoặc thị lực kém.Cuối cùng, nếu bạn vô tình nhận một cuộc gọi spam, Gemini Nano có thể nghe và phát hiện các mẫu hội thoại đáng ngờ và thông báo cho bạn "Bỏ qua & tiếp tục" hoặc "Kết thúc cuộc gọi". Tính năng này có thể được chọn tham gia vào cuối năm nay.

Gemini 1.5 Flash

Năm nay, mô hình mới đó là Gemini 1.5 Flash. Điểm hấp dẫn của mô hình này là nó là mô hình Gemini nhanh nhất được phục vụ trong API và là một giải pháp thay thế tiết kiệm chi phí hơn so với Gemini 1.5 Pro trong khi vẫn có trí thông minh cao. Gemini 1.5 Flash có sẵn trong bản public preview trong studio AI của Google và Vertex AI bắt đầu từ hôm nay.

Mặc dù Gemini 1.5 Pro mới được ra mắt vào tháng 2, nhưng nó đã được nâng cấp để cung cấp các phản hồi chất lượng tốt hơn trong nhiều lĩnh vực khác nhau, bao gồm dịch thuật, lý luận, lập trình, v.v. Google chia sẻ rằng phiên bản mới nhất đã đạt được những cải tiến mạnh mẽ trên một số điểm chuẩn, bao gồm MMMU, MathVista, ChartQA, DocVQA, v.v.

Hơn nữa, Gemini 1.5 Pro, với cửa sổ ngữ cảnh 1 triệu, sẽ có sẵn cho người tiêu dùng trong Gemini Advanced. Điều này rất quan trọng vì nó sẽ cho phép người tiêu dùng nhận được hỗ trợ AI trên khối lượng công việc lớn, chẳng hạn như tệp PDF dài 1.500 trang.

Như thể cửa sổ ngữ cảnh đó vẫn chưa đủ lớn, Google đang cho preview cửa sổ ngữ cảnh 2 triệu trong Gemini 1.5 Pro và Gemini 1.5 Flash cho các nhà phát triển thông qua danh sách chờ trong Google AI Studio.

Gemini Nano, mô hình của Google được thiết kế để chạy trên điện thoại thông minh, đã được mở rộng để bao gồm cả hình ảnh ngoài văn bản. Google chia sẻ rằng bắt đầu với Pixel, các ứng dụng sử dụng Gemini Nano với Multimodality sẽ có thể hiểu được thị giác, âm thanh và ngôn ngữ nói.

Họ mô hình của Gemini, Gemma, cũng đang được nâng cấp lớn với việc ra mắt Gemma 2 vào tháng 6. Thế hệ tiếp theo của Gemma đã được tối ưu hóa cho TPU và GPU và đang ra mắt ở mức 27 tỷ tham số. Cuối cùng, PaliGemma, mô hình ngôn ngữ hình ảnh đầu tiên của Google, cũng đang được thêm vào họ mô hình Gemma.

Cụ thể, người dùng có thể tương tác với Gemini bằng nhiều cách:

Sử dụng văn bản (text): Người dùng có thể nhập văn bản để giao tiếp với Gemini, đặt câu hỏi hay đưa ra yêu cầu.
Sử dụng giọng nói (voice): Gemini có thể hiểu và phản hồi lại giọng nói của người dùng một cách tự nhiên. Người dùng có thể nói chuyện với Gemini thay vì phải gõ văn bản.
Sử dụng camera điện thoại: Gemini có thể phân tích và hiểu nội dung từ hình ảnh và video mà camera ghi lại. Ví dụ người dùng có thể chỉ camera vào một vật thể và hỏi Gemini về nó.

Gemini hỗ trợ người dùng trong các ứng dụng công việc

Google đang triển khai mô hình ngôn ngữ phổ biến nhất của mình, Gemini 1.5 Pro, vào sidebar trong Docs, Sheets, Slides, Drive và Gmail. Khi ra mắt với người đăng ký trả phí vào tháng tới, nó sẽ trở thành một trợ lý đa năng hơn trong các ứng dụng công việc, có thể lấy thông tin từ bất kỳ đâu, kể cả nội dung trong Drive của bạn.

Nó cũng có thể làm việc cho bạn, như viết email kết hợp thông tin từ tài liệu bạn đang xem hoặc nhắc bạn sau đó để trả lời email bạn đang xem qua. Một số người dùng thử nghiệm sớm đã có quyền truy cập vào các tính năng này, nhưng Google cho biết sẽ triển khai cho tất cả người đăng ký Gemini trả phí vào tháng tới.

Veo - công cụ cạnh tranh trực tiếp với Sora của OpenAI

Hiện tại, công ty đang tiết lộ mô hình mạnh mẽ nhất từ trước đến nay của mình, Veo, có thể tạo ra video chất lượng cao với độ phân giải 1080p và độ dài hơn một phút.

Mô hình này có thể hiểu rõ hơn ngôn ngữ tự nhiên để tạo ra video thể hiện gần hơn tầm nhìn của người dùng. Nó cũng hiểu các thuật ngữ điện ảnh như "timelapse" để tạo video theo nhiều phong cách khác nhau và cung cấp cho người dùng quyền kiểm soát nhiều hơn đối với sản phẩm cuối cùng.

Google chia sẻ rằng họ đã xây dựng dựa trên nhiều năm làm việc về video tạo sinh, bao gồm Lumiere và các mô hình phổ biến khác như Imagen-Video, VideoPoet, v.v. Mô hình này chưa có sẵn cho người dùng; tuy nhiên, nó có sẵn cho một số nhà sáng tạo được chọn dưới dạng bản xem trước riêng tư bên trong VideoFX và công chúng được mời tham gia danh sách chờ.

Công cụ tạo video này dường như là câu trả lời của Google cho mô hình chuyển đổi văn bản thành hình ảnh của Open AI, Sora, cũng chưa được phổ biến rộng rãi và đang trong giai đoạn xem trước riêng tư cho những người thử nghiệm và một số nhà sáng tạo được chọn.

Imagen 3

Google cũng đã tiết lộ công cụ tạo hình ảnh từ văn bản thế hệ tiếp theo của mình, Imagen 3. Theo Google, mô hình này tạo ra những hình ảnh có chất lượng cao nhất từ trước đến nay, với nhiều chi tiết hơn và ít tạo tác hơn trong hình ảnh để giúp tạo ra những hình ảnh chân thực hơn.

Imagen 3 đã cải thiện khả năng ngôn ngữ tự nhiên để hiểu rõ hơn lời nhắc của người dùng và ý định đằng sau chúng. Mô hình này có thể giải quyết một trong những thách thức lớn nhất đối với các trình tạo hình ảnh AI, văn bản, với Google cho biết Imagen 3 là tốt nhất để kết xuất nó.

Ask Photos

Nếu bạn đã từng mất hàng giờ cuộn qua nguồn cấp dữ liệu của mình để tìm kiếm một bức ảnh cụ thể, Google đã tiết lộ một giải pháp AI cho vấn đề của bạn. Sử dụng Gemini, người dùng có thể sử dụng prompt trong Google Photos để tìm hình ảnh họ đang tìm kiếm.

Trong ví dụ mà Google đưa ra, một người dùng muốn xem sự tiến bộ của con gái mình trong vai trò một vận động viên bơi lội theo thời gian, vì vậy họ hỏi Google Photos câu hỏi đó và nó sẽ tự động gói gọn những điểm nổi bật cho họ. Tính năng này được gọi là Ask Photos, và Google chia sẻ rằng họ sẽ tung ra nó vào cuối mùa hè này với nhiều khả năng hơn sắp tới.

Nâng cấp Gemini Advanced

Đầu tiên, là quyền truy cập vào Gemini 1.5 Pro, cho phép người dùng truy cập vào cửa sổ ngữ cảnh lớn hơn nhiều với một triệu token, mà Google cho biết là lớn nhất trong số các chatbot tiêu dùng phổ biến trên thị trường. Cửa sổ lớn hơn đó có thể được tận dụng để tải lên các tài liệu lớn hơn, chẳng hạn như tài liệu dài tới 1.500 trang hoặc 100 email. Chẳng bao lâu nữa, nó sẽ có thể xử lý một giờ video và codebases với tối đa 30.000 dòng.

Tiếp theo, một trong những tính năng ấn tượng nhất của toàn bộ lần ra mắt này là Gemini Live của Google, một trải nghiệm di động mới, trong đó người dùng có thể trò chuyện đầy đủ với Gemini, chọn từ nhiều giọng nói tự nhiên khác nhau và ngắt lời giữa cuộc trò chuyện.

Lấy một trang khác từ cuốn sách của OpenAI, Google đang giới thiệu Gems cho Gemini, hoàn thành mục tiêu tương tự như GPTs của ChatGPT. Với Gems, người dùng có thể tạo các phiên bản tùy chỉnh của Gemini cho phù hợp với các mục đích khác nhau. Tất cả những gì người dùng cần làm là chia sẻ hướng dẫn về nhiệm vụ mà họ muốn chatbot thực hiện và Gemini sẽ tạo ra một Gem phù hợp với mục đích đó.

Google Search

Theo Google, kể từ khi tổng quan AI được cung cấp thông qua Phòng thí nghiệm Tìm kiếm, tính năng này đã được sử dụng hàng tỷ lần và khiến mọi người sử dụng Tìm kiếm nhiều hơn và hài lòng hơn với kết quả của họ. Việc triển khai vào Google Tìm kiếm nhằm mục đích mang lại trải nghiệm tích cực cho người dùng và chỉ xuất hiện khi có thể thêm vào kết quả Tìm kiếm.

Một thay đổi quan trọng khác sắp tới với Tìm kiếm là trang kết quả được tổ chức bằng AI sử dụng AI để tạo tiêu đề duy nhất phù hợp hơn với nhu cầu tìm kiếm của người dùng. Theo Google, tìm kiếm được tổ chức bằng AI sẽ bắt đầu được triển khai cho các tìm kiếm bằng tiếng Anh ở Hoa Kỳ liên quan đến cảm hứng, bắt đầu với ăn uống và công thức nấu ăn, sau đó là phim ảnh, âm nhạc, sách, khách sạn, mua sắm, v.v.

Google cũng đang tung ra các tính năng Tìm kiếm mới, trước tiên sẽ được ra mắt trong Phòng thí nghiệm Tìm kiếm. Ví dụ: trong Phòng thí nghiệm Tìm kiếm, người dùng sẽ sớm có thể điều chỉnh tổng quan AI của mình để phù hợp nhất với sở thích của họ, với các tùy chọn để phân tích thêm thông tin hoặc đơn giản hóa ngôn ngữ, theo Google.

Người dùng cũng sẽ có thể sử dụng video để tìm kiếm, đưa tìm kiếm trực quan lên một tầm cao mới. Tính năng này sẽ sớm có sẵn trong Phòng thí nghiệm Tìm kiếm bằng tiếng Anh. Cuối cùng, Tìm kiếm có thể lên kế hoạch cho bữa ăn và chuyến đi với bạn bắt đầu từ hôm nay trong Phòng thí nghiệm Tìm kiếm, bằng tiếng Anh, tại Hoa Kỳ.

Kết

Google I/O 2024 đã một lần nữa khẳng định vị thế của sự kiện công nghệ trong việc dẫn dắt đổi mới công nghệ toàn cầu. Với những công bố đột phá về trí tuệ nhân tạo, thực tế ảo và nhiều lĩnh vực khác, sự kiện này đã truyền cảm hứng và thổi bùng ngọn lửa sáng tạo cho cộng đồng nhà phát triển trên toàn thế giới. Khi chúng ta bước vào một kỷ nguyên mới của công nghệ số, chắc chắn Google sẽ tiếp tục dẫn đầu bằng những sản phẩm và dịch vụ mang tính đột phá, giúp thay đổi cách chúng ta làm việc, giải trí và tương tác. Với triển vọng tươi sáng phía trước, chúng ta hãy chờ đợi những bất ngờ tuyệt vời nào sẽ được tiếp tục công bố trong tương lai gần.

GoogleI/o

Mở đầu

Các công nghệ nổi bật tại sự kiện

Kết

Mục lục