NVIDIA hé lộ chiến lược Groq: "Mảnh ghép" giải bài toán độ trễ thấp tương tự thương vụ Mellanox
-
Người viết: Sebastian
/
Kế hoạch của NVIDIA dành cho các đơn vị LPU (Language Processing Units) của Groq đang là chủ đề gây tranh cãi trong giới công nghệ. Tuy nhiên, khi Jensen Huang được hỏi về vấn đề này trong buổi báo cáo kết quả kinh doanh quý 4 năm 2026, ông đã đưa ra những gợi ý cực kỳ thú vị.
Chuỗi thâu tóm và hợp tác của NVIDIA trong năm nay diễn ra vô cùng mạnh mẽ. Trong đó, một trong những bước đi quan trọng nhất là thỏa thuận không cấp phép (non-licensing agreement) với Groq trị giá lên tới 20 tỷ USD – khoản đầu tư lớn nhất từ trước đến nay của "đội Xanh". Thông báo này từng xuất hiện khá im ắng vào đêm Giáng sinh và NVIDIA hầu như không đưa ra thêm chi tiết nào sau đó. Thật may là trong cuộc họp cổ đông vừa qua, CEO NVIDIA đã trực tiếp giải đáp thắc mắc về việc công ty sẽ làm gì với Groq, qua đó hé lộ cách các LPU sẽ định hình tương lai cho các giải pháp AI của hãng.
LPU của Groq sẽ giúp NVIDIA thống trị các tác vụ nhạy cảm về độ trễ
"Liên quan đến cách chúng tôi nhìn nhận về Groq và bộ giải mã (decoder) độ trễ thấp, tôi có một số ý tưởng tuyệt vời muốn chia sẻ với các bạn tại GTC sắp tới."
"Những gì chúng tôi sẽ làm với Groq là – bạn sẽ thấy rõ hơn tại GTC – chúng tôi sẽ mở rộng kiến trúc của mình với Groq như một bộ tăng tốc, theo cách rất giống với việc chúng tôi từng mở rộng kiến trúc NVIDIA bằng Mellanox."
- CEO NVIDIA, Jensen Huang chia sẻ.
Ý tưởng đằng sau việc bắt tay với Groq khá đơn giản: NVIDIA muốn nhắm mục tiêu vào các khối lượng công việc nhạy cảm với độ trễ. Trong bối cảnh hiện nay, giai đoạn suy luận (inference) đang trở nên quan trọng hơn bao giờ hết. Các ứng dụng liên quan đến môi trường đại lý AI (agentic AI) yêu cầu phản hồi siêu nhanh, khiến độ trễ trở thành nút thắt cổ chai lớn đối với các nhà cung cấp hạ tầng tính toán. Dù NVIDIA đã thống trị mảng huấn luyện (training) với Hopper và Blackwell, nhưng với thế hệ Vera Rubin, suy luận là lĩnh vực mà họ cần củng cố vị thế dẫn đầu. Các đơn vị LPU của Groq sẽ đóng vai trò then chốt trong việc thiết lập một tiêu chuẩn mới tại đây.

Việc Jensen Huang so sánh Groq với thương vụ Mellanox là một chi tiết rất đáng chú ý. Cho những ai chưa biết, Mellanox chính là chìa khóa giúp NVIDIA giải quyết bài toán mạng (networking). Mellanox đã cung cấp nền tảng cho InfiniBand, dẫn đến cái mà NVIDIA gọi là "thiết kế đồng bộ cực hạn" (extreme co-design), giúp chiến lược trung tâm dữ liệu của hãng bứt phá ngoạn mục. Groq sẽ đóng vai trò tương tự. Việc Jensen đề cập đến việc "mở rộng kiến trúc" ám chỉ rằng chúng ta sẽ sớm thấy các LPU được tích hợp ở quy mô tủ rack (rack-scale).
Giải mã (Decode) và Nạp dữ liệu (Prefill): Hai mảnh ghép hoàn hảo
Decode và Prefill là hai giai đoạn chính của quá trình suy luận. Trong trường hợp của AI Agent, giai đoạn giải mã (decode) có tầm quan trọng lớn hơn nhiều. Với các tác vụ đa đại lý, khả năng giải mã nhanh cho phép các AI thực hiện các bước lập luận phức tạp chỉ trong vài giây – điều kiện tiên quyết khi thế giới chuyển dịch sang các nhóm AI Agent làm việc phụ thuộc lẫn nhau. Với kiến trúc Rubin CPX, NVIDIA về cơ bản đã xử lý tốt giai đoạn Prefill thông qua các engine tăng tốc attention và sức mạnh tính toán NVFP4 khổng lồ.

Đối với việc giải mã, NVIDIA sẽ tận dụng Groq. Các LPU của Groq sử dụng bộ nhớ SRAM ngay trên chip (on-die) để cung cấp băng thông nội bộ lên tới hàng chục terabyte mỗi giây. Công nghệ SRAM này cũng đang được các đối thủ như Cerebras hay Microsoft áp dụng rộng rãi. Hiện tại, có hai giả thuyết chính về cách các LPU sẽ được tích hợp vào hệ sinh thái NVIDIA:
1. Thiết kế các nút tính toán lai (Hybrid compute nodes): NVIDIA có thể thiết kế các cụm máy chủ kết hợp nhiều LPU thông qua một chuẩn kết nối thống nhất.
2. Tích hợp trực tiếp trên chip (On-die): LPU có thể được đặt cùng trên đế chip với GPU Feynman thông qua công nghệ đóng gói Hybrid Bonding.

Theo nguồn tin từ GF Securities, NVIDIA có thể sẽ trình làng một hệ thống "LPX rack" tại GTC năm nay, chứa tới 256 đơn vị LPU trong một cụm duy nhất. Để kết nối các LPU với nhau, hãng có thể sử dụng giao thức chip-to-chip bản địa. Còn đối với kết nối LPU-to-GPU, NVLink Fusion có khả năng sẽ được huy động để xử lý lượng lớn dữ liệu KV cache được chuyển giao từ GPU trong giai đoạn Prefill. Tuy nhiên, ở thời điểm hiện tại, phương án tích hợp quy mô rack-scale dường như khả thi hơn cả.
Tóm lại, sự kết hợp giữa kiến trúc GPU truyền thống và bộ tăng tốc LPU từ Groq sẽ giúp NVIDIA chiếm ưu thế tuyệt đối trong các tác vụ nhạy cảm về độ trễ. Tại buổi báo cáo tài chính, Jensen cũng tiết lộ rằng doanh thu và năng lực tính toán hiện đang tăng trưởng theo tỷ lệ 1:1, được thúc đẩy bởi sự phát triển mạnh mẽ của lớp ứng dụng AI. Mọi ánh mắt hiện đang đổ dồn về sự kiện GTC sắp tới để chứng kiến màn ra mắt chính thức của liên minh đầy quyền lực này.