Siêu máy tính 'Colossus' của Elon được xây dựng với 100K GPU NVIDIA H100 được đưa lên mạng, bản nâng cấp H200 sắp ra mắt
-
Người viết: Sebastian
/
Siêu máy tính lớn nhất Colossus của xAI thuộc sở hữu của Elon Musk đã đi vào hoạt động với 100.000 GPU H100 và sẽ sớm tăng gấp đôi quy mô với 50.000 GPU NVIDIA H200.
Công ty xAI của Elon Musk cuối cùng đã hoàn thành việc phát triển Siêu máy tính 'Colossus', máy tính này đã đi vào hoạt động vào ngày Lễ Lao động cách đây vài ngày. Musk cho biết Colossus là 'hệ thống training AI mạnh mẽ nhất thế giới' được hoàn thành trong 122 ngày tính từ khi bắt đầu đến khi kết thúc. Siêu máy tính Colossus sử dụng 100.000 GPU NVIDIA H100 dành cho trung tâm dữ liệu, khiến nó trở thành cụm máy training AI lớn nhất sử dụng số lượng H100 khổng lồ như vậy.
"Cuối tuần này, @xAI đã đưa cụm đào tạo Colossus với 100.000 GPU H100 của chúng tôi vào hoạt động. Từ lúc bắt đầu đến khi hoàn thành, nó được thực hiện trong 122 ngày.
Colossus là hệ thống traning AI mạnh mẽ nhất thế giới. Hơn nữa, nó sẽ tăng gấp đôi quy mô lên 200.000 (50.000 H200) trong vài tháng tới.
Tuyệt vời..."
— Elon Musk (@elonmusk) ngày 2 tháng 9 năm 2024
Elon cũng thông báo rằng trong những tháng tới, Colossus sẽ được nâng cấp với thêm 50.000 GPU H200, đây là GPU dành cho trung tâm dữ liệu hàng đầu sử dụng kiến trúc Hopper. H200 mạnh hơn đáng kể so với H100, mang lại hiệu suất tính toán cao hơn gần 45% trong các tác vụ AI tạo sinh và HPC cụ thể.
NVIDIA đã chúc mừng team xAI vì đã hoàn thành một dự án lớn như vậy chỉ trong 4 tháng.
Dự án xAI Colossus được khởi công vào tháng 6 tại Memphis và quá trình training của nó bắt đầu vào tháng 7. Điều này sẽ chuẩn bị cho GROK 3 vào tháng 12, thay thế GROK 2 để cung cấp khả năng xử lý AI mạnh mẽ nhất thế giới. Siêu máy tính Colossus ra đời sau khi Elon kết thúc hợp đồng với Oracle, công ty đang cho xAI thuê máy chủ của họ. Siêu cụm máy mới giờ đây mạnh mẽ hơn những gì Oracle có thể cung cấp và sẽ tăng gấp đôi hiệu suất trong vài tháng tới với việc bổ sung thêm 50.000 GPU H200.
H200 được trang bị bộ nhớ cao hơn gần 61GB với băng thông bộ nhớ cao hơn đáng kể là 4,8TB/s so với 3,35TB/s trên H100. Do đó, với sự thay đổi mạnh mẽ như vậy trong thông số kỹ thuật, H200 tiêu thụ thêm 300W điện năng và sẽ yêu cầu được làm mát bằng chất lỏng giống như các GPU H100 đang sử dụng trong Colossus điều phải sử dụng làm mát bằng chất lỏng.
Hiện tại, Colossus là siêu máy tính duy nhất được trang bị 100.000 GPU NVIDIA, tiếp theo là Google AI với 90.000 GPU, và sau đó là OpenAI nổi tiếng, sử dụng 80.000 GPU H100. Meta AI và Microsoft AI đứng kế tiếp với 70.000 và 60.000 GPU.