Tại sự kiện thường niên Google I/O 2025 diễn ra vào ngày 21/5, Google đã chính thức giới thiệu tính năng dịch giọng nói trực tiếp trong các cuộc gọi điện thoại. Đây được xem là một trong những bước tiến đáng chú ý trong nỗ lực ứng dụng trí tuệ nhân tạo nhằm cải thiện khả năng giao tiếp toàn cầu.

Theo chia sẻ từ CEO Sundar Pichai, công nghệ mới này không chỉ dịch ngôn ngữ theo thời gian thực mà còn có thể đồng bộ giọng điệu và biểu cảm của người nói. Điều này giúp cuộc trò chuyện giữa những người sử dụng ngôn ngữ khác nhau trở nên tự nhiên, trôi chảy và sống động hơn rất nhiều.

Google cho phép dịch giọng nói trực tiếp trong cuộc gọi.
Google cho phép dịch giọng nói trực tiếp trong cuộc gọi.

Trong đoạn video minh họa do Google chia sẻ, công nghệ dịch giọng nói cho thấy khả năng chuyển đổi ngôn ngữ một cách linh hoạt. Cụ thể, khi một người nói tiếng Tây Ban Nha, AI sẽ tự động chuyển giọng sang tiếng Anh với âm sắc tự nhiên, và ngược lại. Mặc dù vẫn tồn tại một độ trễ nhỏ, hệ thống vẫn giữ được giọng gốc của người nói để phát nền với âm lượng thấp, tạo cảm giác chân thực và không làm mất đi sắc thái ban đầu của cuộc trò chuyện.

Theo Google, tính năng này sẽ đặc biệt hữu ích trong các tình huống như kết nối giữa các thành viên gia đình sống tại nhiều quốc gia khác nhau hoặc trong môi trường làm việc tại các công ty đa quốc gia. Trong giai đoạn đầu, Google sẽ triển khai công nghệ này trên nền tảng hội họp trực tuyến Google Meet, trước khi mở rộng sang các dịch vụ khác.

Theo Google, độ trễ khi dịch rất thấp, đây là tín hiệu tích cực khi các giải pháp khác hiện nay vẫn chưa làm được.

Ở giai đoạn đầu, tính năng dịch giọng nói trực tiếp trong cuộc gọi của Google mới chỉ áp dụng cho hai ngôn ngữ là tiếng Anh và tiếng Tây Ban Nha. Tính năng này hiện được cung cấp cho người dùng đăng ký các gói cao cấp như Google AI Pro và Ultra. Trong thời gian tới, Google dự kiến sẽ mở rộng sang nhiều ngôn ngữ khác và tiến hành thử nghiệm với nhóm khách hàng doanh nghiệp sử dụng nền tảng Workspace.

Công nghệ dịch trực tiếp này thực chất là một phần trong những kết quả đầu tiên của Dự án Starline – một sáng kiến được Google ấp ủ từ năm 2021, với mục tiêu tạo ra trải nghiệm gọi điện chân thực và tự nhiên hơn giữa con người với nhau. Dự án đặt tham vọng thu hẹp khoảng cách giao tiếp toàn cầu bằng cách kết hợp trí tuệ nhân tạo với khả năng mô phỏng giọng nói và hình ảnh.

Không chỉ dừng lại ở ngôn ngữ, Google còn đang phát triển hệ thống camera 3D để tái tạo hình ảnh người gọi một cách sống động trong thời gian thực. Đáng chú ý, tại sự kiện Google I/O 2025, hãng cũng giới thiệu Google Beam – một thiết bị phần cứng chuyên dụng, đóng vai trò hỗ trợ đắc lực cho các tính năng tiên tiến thuộc Dự án Starline.

Hà Trần (t/h)