
Sự cải thiện hiệu suất đáng kinh ngạc này đến từ việc Nvidia tối ưu hóa công nghệ mixture-of-experts (MoE)—một phương pháp xử lý câu hỏi bằng cách chia nhỏ và giao cho các "chuyên gia" (các phần nhỏ hơn của mô hình) xử lý riêng biệt. Kỹ thuật MoE đã bùng nổ sau khi DeepSeek của Trung Quốc ra mắt mô hình mã nguồn mở hiệu quả vào đầu năm 2025.
Từ đó, máy chủ mới của Nvidia đã tăng hiệu suất của mô hình Kimi K2 Thinking của Moonshoot AI lên gấp 10 lần. Mức cải thiện tương tự cũng được ghi nhận với các mô hình của DeepSeek.
Máy chủ AI thế hệ mới của Nvidia tích hợp 72 chip hàng đầu trong một hệ thống duy nhất, với tốc độ kết nối cực cao giữa các chip. Nvidia khẳng định lợi thế chính của hãng nằm ở khả năng "nhồi" số lượng chip lớn vào máy chủ cùng với liên kết tốc độ cao—một yếu tố mà hãng vẫn vượt trội so với các đối thủ như AMD và Cerebras.
Việc Nvidia liên tục nâng cấp hiệu suất và củng cố hạ tầng diễn ra trong bối cảnh cạnh tranh ngày càng khốc liệt. Đối thủ AMD cũng đang phát triển máy chủ đa chip mạnh mẽ, dự kiến ra mắt vào năm tới.
Sự tối ưu hóa này là một bước đi chiến lược quan trọng, bởi ngành AI đang chuyển trọng tâm sang việc triển khai các mô hình để phục vụ hàng triệu người dùng, nơi tốc độ suy luận và vận hành là yếu tố quyết định sự thành bại.
Tâm An(t/h)























