+1

GPT-Realtime-2 là gì? Ba model giọng nói mới của OpenAI và những gì thay đổi

Ra mắt chỉ hai ngày sau GPT-5.5 Instant, OpenAI đồng thời giới thiệu thêm hai model âm thanh chuyên biệt: GPT-Realtime-Translate cho dịch thuật giọng nói trực tiếp và GPT-Realtime-Whisper cho chuyển giọng nói thành văn bản theo luồng thời gian thực.

Tóm tắt các điểm chính

  • GPT-Realtime-2 nâng context window từ 32K lên 128K token, gấp bốn lần so với GPT-Realtime-1.5
  • GPT-Realtime-Translate hỗ trợ hơn 70 ngôn ngữ đầu vào và 13 ngôn ngữ đầu ra, dịch trong khi người nói vẫn đang nói
  • GPT-Realtime-Whisper sinh ra để thay thế Whisper gốc trong các tình huống cần phụ đề trực tiếp và nhận dạng giọng nói liên tục
  • Giá GPT-Realtime-2 là 32 USD per 1M audio input token và 64 USD per 1M audio output token; hai model còn lại tính phí theo phút
  • Benchmark Big Bench Audio đạt 96,6% ở mức reasoning cao, nhưng mặc định sản xuất chạy ở mức "low" vì lý do độ trễ

Ba model âm thanh mới này giải quyết vấn đề gì?

Ba model này không phải một sản phẩm mà là ba công cụ riêng biệt phục vụ ba tình huống khác nhau.

GPT-Realtime-2 là agent giọng nói đầy đủ chức năng: lắng nghe người dùng, suy luận, gọi công cụ và phản hồi bằng giọng nói. Đây là model bạn dùng khi cần trải nghiệm vào bằng giọng nói và ra bằng giọng nói.

GPT-Realtime-Translate là đường ống dịch thuật: giọng nói ngôn ngữ A vào, giọng nói ngôn ngữ B ra. Model này không tham gia vào cuộc trò chuyện mà đơn thuần chuyển đổi một luồng âm thanh sang ngôn ngữ khác trong thời gian thực.

GPT-Realtime-Whisper là đường ống chuyển giọng nói thành văn bản: giọng nói vào, văn bản ra. Không có suy luận, không có phản hồi âm thanh. Phù hợp cho phụ đề trực tiếp, ghi chép cuộc họp và mọi tình huống cần văn bản ngay khi người dùng đang nói.

GPT-Realtime-2 là gì và khác gì so với thế hệ trước?

GPT-Realtime-2 là model giọng nói thời gian thực mới nhất trong API của OpenAI, và là model giọng nói đầu tiên mà OpenAI mô tả là có "suy luận cấp GPT-5." Model được thiết kế cho tương tác giọng nói trực tiếp, tức là người dùng đang nói vào, không phải gõ. Điểm khác biệt so với GPT-Realtime-1.5 nằm ở ba thay đổi cốt lõi: context window tăng từ 32K lên 128K token, nghĩa là model xử lý được nhiều lịch sử hội thoại hơn trong một phiên mà không bị trôi ngữ cảnh; lập trình viên giờ có thể điều chỉnh mức độ suy luận từ thấp đến cao tùy theo độ phức tạp của yêu cầu; và các chi tiết nhỏ như câu đệm tự nhiên làm cho agent giọng nói nghe bớt máy móc hơn đáng kể.

GPT-Realtime-Translate hoạt động như thế nào?

GPT-Realtime-Translate là model dịch giọng nói trực tiếp của OpenAI, hỗ trợ hơn 70 ngôn ngữ đầu vào và 13 ngôn ngữ đầu ra. Model này được xây dựng cho tình huống mỗi người nói ngôn ngữ của mình và nhận bản dịch theo thời gian thực, không cần chờ người kia nói xong. GPT-Realtime-Translate được thiết kế để giữ nguyên ý nghĩa khi người nói chuyển ngữ cảnh, dùng phát âm vùng miền hoặc sử dụng thuật ngữ chuyên ngành. Danh sách đầy đủ ngôn ngữ được hỗ trợ chưa được OpenAI công bố tại thời điểm bài viết này.

GPT-Realtime-Whisper khác gì so với Whisper gốc?

GPT-Realtime-Whisper là model chuyển giọng nói thành văn bản theo luồng thời gian thực của OpenAI, được xây dựng để nhận dạng liên tục trong khi người dùng vẫn đang nói. Whisper gốc được thiết kế để xử lý các đoạn âm thanh đã hoàn chỉnh, tức là bạn cần ghi âm xong rồi mới gửi đi phân tích. GPT-Realtime-Whisper giải quyết vấn đề này bằng cách sinh ra văn bản theo từng mảnh nhỏ (transcript delta) ngay trong quá trình nói, phù hợp cho phụ đề phát sóng trực tiếp và voice agent cần hiểu người dùng liên tục thay vì chờ từng lượt.

GPT-Realtime-2 có những tính năng cốt lõi nào?

Câu đệm tự nhiên (Preambles) giải quyết vấn đề gì?

Preambles là tính năng cho phép lập trình viên cài đặt để model nói các câu ngắn như "để tôi kiểm tra điều đó" hoặc "một chút, tôi đang tìm hiểu" trước khi đưa ra phản hồi chính. Đây là tính năng quan trọng vì người dùng thường không chịu được khoảng im lặng trong hội thoại bằng giọng nói. Câu đệm kiểu con người là một trong những yếu tố làm agent nghe có vẻ có năng lực và tự nhiên hơn rõ rệt.

Gọi nhiều công cụ song song và tường thuật là gì?

GPT-Realtime-2 có thể gọi nhiều công cụ cùng lúc và tường thuật những gì nó đang làm trong quá trình đó. Thay vì im lặng trong khi xử lý tác vụ nhiều bước, người dùng nhận được bình luận liên tục về tiến trình. Đây chủ yếu là cải thiện về trải nghiệm người dùng, giảm cảm giác chờ đợi trong các tác vụ phức tạp.

Khả năng phục hồi khi gặp lỗi được cải thiện ra sao?

Khi có sự cố, ví dụ như công cụ thất bại hoặc yêu cầu không rõ ràng, GPT-Realtime-2 có thể nói "tôi đang gặp sự cố với điều đó lúc này" thay vì im lặng hoặc bịa ra câu trả lời. Hành vi phục hồi tốt hơn này giúp agent giọng nói duy trì sự tin tưởng của người dùng trong các tình huống ngoài kịch bản thông thường.

Context window 128K token mang lại lợi ích thực tế gì?

Nâng cấp context window từ 32K lên 128K token nghĩa là model xử lý được lượng lịch sử hội thoại và ngữ cảnh gấp bốn lần trong một phiên duy nhất. Điều này làm cho model phù hợp với các cuộc trò chuyện dài mà không bị mất mạch, đặc biệt quan trọng trong các tình huống dịch vụ khách hàng hoặc trợ lý chuyên ngành cần nhớ nhiều chi tiết trong suốt cuộc gọi.

Điều chỉnh mức độ suy luận hoạt động như thế nào?

Lập trình viên giờ có thể chọn từ năm mức reasoning: minimal, low, medium, high và xhigh. Mức "low" là mặc định để giữ độ trễ thấp cho hội thoại đơn giản. Các mức cao hơn được dùng khi yêu cầu phức tạp hơn và người dùng có thể chấp nhận thời gian phản hồi dài hơn để đổi lấy câu trả lời chính xác hơn.

Hiểu ngữ cảnh chuyên ngành và điều chỉnh giọng điệu cải thiện thế nào?

GPT-Realtime-2 giờ giữ được thuật ngữ chuyên ngành tốt hơn, bao gồm từ ngữ y tế và tài chính. Model cũng điều chỉnh cách truyền đạt theo tình huống: bình tĩnh hơn khi xử lý sự cố, đồng cảm khi người dùng thất vọng, tích cực khi xác nhận hành động thành công.

GPT-Realtime-2 đạt kết quả benchmark như thế nào?

OpenAI so sánh GPT-Realtime-2 với GPT-Realtime-1.5, tạo ra bức tranh so sánh năm theo năm rõ ràng.

[ẢNH: Biểu đồ benchmark so sánh GPT-Realtime-2 và GPT-Realtime-1.5 trên Big Bench Audio và Audio MultiChallenge]

Trên Big Bench Audio (đánh giá hiểu biết âm thanh tổng quát): điểm tăng từ 81,4% lên 96,6%, tức tăng 15,2 điểm. Trên Audio MultiChallenge (đánh giá tuân theo hướng dẫn trong hội thoại giọng nói): điểm tăng từ 34,7% lên 48,5%, tức tăng 13,8 điểm.

Điểm 96,6% trên Big Bench Audio cho thấy benchmark này đang tiếp cận ngưỡng bão hòa, tức là sẽ khó cải thiện thêm nhiều trong tương lai. Audio MultiChallenge vẫn dưới 50%, vì vậy benchmark thứ hai này là kiểm tra thực tế hữu ích hơn. "Tốt hơn model giọng nói năm ngoái" và "sẵn sàng cho triển khai không giám sát" là hai tiêu chí hoàn toàn khác nhau. Một điểm cần lưu ý: các con số này được đo ở mức reasoning "high" và "xhigh". Mặc định trong sản xuất sẽ là "low" vì lý do độ trễ, vì vậy trải nghiệm thực tế của người dùng có thể khác so với kỳ vọng từ kết quả benchmark tiêu đề.

Giá và cách truy cập GPT-Realtime-2 như thế nào?

Cả ba model âm thanh đều có mặt ngay trong Realtime API với cấu trúc giá như sau.

Model Loại phí Giá
GPT-Realtime-2 Audio input $32 per 1M token
GPT-Realtime-2 Audio input (cached) $0,40 per 1M token
GPT-Realtime-2 Audio output $64 per 1M token
GPT-Realtime-2 Text input/output $4 / $24 per 1M token
GPT-Realtime-Translate Theo phút $0,034 per phút
GPT-Realtime-Whisper Theo phút $0,017 per phút

GPT-Realtime-Translate và GPT-Realtime-Whisper tính phí theo thời lượng âm thanh thay vì token, giúp dự toán chi phí dễ hơn đáng kể so với mô hình tính phí theo token. Với GPT-Realtime-2 tính phí theo token, lập trình viên nên dành thời gian mô hình hóa chi phí kỳ vọng trước khi triển khai hoặc cam kết với bất kỳ con số cụ thể nào. Bạn có thể thử GPT-Realtime-2 trong Playground của OpenAI. OpenAI cũng hướng lập trình viên đến Codex với starter prompt để tích hợp vào ứng dụng có sẵn.

GPT-Realtime-2 có những rủi ro an toàn nào cần biết?

Về phía OpenAI, các bộ phân loại chủ động có thể dừng phiên khi vi phạm hướng dẫn nội dung có hại, và lập trình viên có thể thêm lớp bảo vệ của riêng mình qua Agents SDK.

Tuy nhiên, giọng nói đặt ra những rủi ro đặc thù mà văn bản không có. Kích hoạt nhầm xảy ra khi hệ thống bắt đầu lắng nghe hoặc phản hồi dù không ai có ý định nói chuyện với nó. Thu thập âm thanh môi trường là vấn đề nghiêm trọng hơn: một khi microphone bật, nó ghi lại mọi thứ trong phòng, không chỉ người dùng — điều đó bao gồm hội thoại trong nền, trẻ em, đồng nghiệp, tivi hay cuộc họp bảo mật ở phòng bên cạnh. Mạo danh giọng nói là rủi ro thứ ba: giọng nói là dữ liệu sinh trắc học, và giọng nói tổng hợp nghe giống người thật có thể dùng để mạo danh, gian lận hoặc vượt qua hệ thống xác thực bằng giọng nói — đây là vấn đề cả ở đầu vào lẫn đầu ra.

Kết luận

GPT-Realtime-2 gộp những yếu tố làm cho agent giọng nói nghe có năng lực thực sự, bao gồm câu đệm tự nhiên, tường thuật khi gọi công cụ, phục hồi khi gặp lỗi, context window lớn và dial suy luận thực sự, vào một model cũng có khả năng suy luận theo đúng nghĩa. Kết quả với người dùng là ít khoảng im lặng gượng gạo hơn và hội thoại ít có khả năng bị vỡ mạch hơn. Đó là bước tiến đáng kể trong trải nghiệm voice AI thực tế.


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí