xAI Chỉ Dùng 11% Trong Tổng Số 550.000 GPU NVIDIA, Trong Khi Meta và Google Tận Dụng Đến 43-46%

xAI Chỉ Dùng 11% Trong Tổng Số 550.000 GPU NVIDIA, Trong Khi Meta và Google Tận Dụng Đến 43-46%


xAI, công ty phần mềm đứng sau Gorq và nhiều thành phần AI quan trọng khác, được cho là chỉ đang sử dụng khoảng 10% tổng số GPU NVIDIA mà họ sở hữu. Báo cáo mới đây đã chỉ ra rằng nguyên nhân chủ yếu nằm ở việc tối ưu hóa bộ phần mềm AI còn chưa hiệu quả.


Theo báo cáo từ The Information, đội ngũ GPU của xAI do Elon Musk sáng lập chỉ đạt mức sử dụng khoảng 11%. Con số này đã bộc lộ rõ ràng mức độ khó khăn mà các phòng thí nghiệm AI đang gặp phải trong việc tận dụng tối đa phần cứng NVIDIA đắt đỏ của mình.

Hiện tại, xAI đang vận hành khoảng 550.000 GPU NVIDIA, bao gồm cả dòng H100 và H200. Các GPU này được triển khai trong các cụm Memphis và Colussus của xAI, với một số cấu hình thậm chí còn được trang bị hệ thống làm mát bằng chất lỏng. Dù thuộc thế hệ cũ hơn so với các sản phẩm Blackwell mới nhất, quy mô của số lượng GPU được xAI triển khai vẫn là một con số cực kỳ ấn tượng.

Thế nhưng, dù sở hữu một lượng lớn GPU như vậy, công ty chỉ có thể tận dụng 11% trong tổng số 550.000 đơn vị. Điều này tương đương với việc chỉ khoảng 60.000 GPU được sử dụng, trong khi hơn nửa triệu GPU khác nằm im lìm trong các máy chủ của xAI. Vậy, điều gì đang gây ra nút thắt cổ chai lớn đến mức khó tin này?

Để lý giải, đối với các thiết lập quy mô nhỏ (từ 1.000 đến 10.000 GPU), đây không phải là vấn đề lớn. Tuy nhiên, khi các máy chủ mở rộng và tích hợp hàng trăm nghìn GPU, thời gian chờ không hoạt động sẽ tích tụ nhanh chóng và tỷ lệ sử dụng giảm mạnh. Điều này dẫn đến nhiều sự không nhất quán trong bộ phần mềm AI, hiện đang lộ rõ tại xAI. Và đây không chỉ là vấn đề riêng của xAI; đó là một vấn đề cấu trúc phổ biến trong ngành AI, bởi vì việc đạt được hiệu quả ở quy mô lớn là vô cùng khó khăn.

 

A large data center with multiple rows of server racks and visible cables neatly organized.

Siêu máy tính Colossus của xAI.

 

Một số công ty khác đã đầu tư mạnh vào bộ phần mềm của mình và có thể đạt được tỷ lệ sử dụng vượt quá 40%, thậm chí hơn mức thông thường từ 35-45%. Meta và Google là những ví dụ điển hình, với tỷ lệ sử dụng lần lượt đạt 43% và 46%.

Đối với xAI, mạng lưới đào tạo phân tán và bộ phần mềm vẫn chưa đủ trưởng thành. Điều này dẫn đến thời gian GPU chờ lâu hơn, như đã đề cập ở trên, và các nút thắt cổ chai liên tục xuất hiện trong các giai đoạn xử lý dữ liệu và phân tích.

Tuy nhiên, xAI có kế hoạch giải quyết vấn đề tỷ lệ sử dụng này với mục tiêu đạt 50%. Hiện chưa có khung thời gian cụ thể, nhưng thay đổi then chốt sẽ nằm ở việc tối ưu hóa cơ sở hạ tầng và bộ phần mềm. xAI cũng có thể sẽ cung cấp dịch vụ cho thuê cụm GPU khổng lồ của mình khi họ chuyển các khối lượng công việc trong tương lai sang phần cứng đáp ứng yêu cầu của AI Agentic.

Về mặt này, Musk đang dồn toàn lực vào dự án TeraFab, thiết kế nhiều chip silicon nội bộ như một phần của gia đình “AI” của mình, đồng thời tận dụng công nghệ 14A của Intel để tạo ra các giải pháp tiên tiến cho các dự án tương lai của xAI, SpaceX và các liên doanh khác. Có lẽ chúng ta sẽ sớm thấy hàng trăm nghìn GPU đó được sử dụng để tạo ra các trò chơi GenAI quy mô lớn vào cuối năm 2026.