Trung Quốc và 'lối đi riêng' để phá vỡ thế độc tôn CUDA của NVIDIA: Không sao chép mà là tái định nghĩa phần cứng

Trung Quốc và 'lối đi riêng' để phá vỡ thế độc tôn CUDA của NVIDIA: Không sao chép mà là tái định nghĩa phần cứng


Trung Quốc vẫn đang miệt mài tìm cách thâm nhập vào "pháo đài" CUDA của NVIDIA, và một trong những phương án đề xuất mới đây thực sự rất đáng để chúng ta lưu tâm. Thay vì chạy đua tạo ra một bản sao, họ đang muốn thay đổi hoàn toàn cuộc chơi.


Mỗi khi Jensen Huang được hỏi về lý do đằng sau sự thống trị tuyệt đối của NVIDIA trong ngành AI, ông luôn nhắc đến CUDA như một "con hào ngăn cách" (moat) vững chãi nhất. Việc kiên trì xây dựng và nâng cấp hệ sinh thái phần mềm này chính là thứ tạo nên khác biệt giữa "đội Xanh" và phần còn lại của thế giới.

Có vẻ như phía Trung Quốc đang thực sự lo ngại về việc ngành công nghiệp trong nước quá phụ thuộc vào CUDA. Đó là lý do Wei Shaojun, một quan chức cấp cao tại Hiệp hội Công nghiệp Bán dẫn Trung Quốc, cho rằng Bắc Kinh nên phát triển các lựa chọn thay thế cho CUDA và các linh kiện nguồn gốc từ phương Tây.

"Ngay cả khi công nghệ của chúng ta ban đầu chưa đủ tốt, chúng ta vẫn phải sử dụng nó. Thử nghiệm và sai sót có thể không dẫn đến thành công ngay, nhưng nếu không thử, chúng ta chắc chắn sẽ tụt hậu."
– Wei Shaojun

Nói riêng về CUDA, ông Shaojun cho rằng Trung Quốc có lẽ nên ngừng tập trung vào việc tạo ra một giải pháp thay thế trực tiếp theo kiểu "sao y bản chính". Thay vào đó, ông đề xuất một chiến lược ít được thảo luận hơn: Chip định nghĩa bằng phần mềm (SDC). Ý tưởng cốt lõi là chuyển trí thông minh tính toán về phía phần mềm, thay vì cấu hình phần cứng cố định như hiện nay.

Hiện tại, các nhà phát triển ưa chuộng CUDA vì hệ sinh thái này đã quá chín muồi, nhưng điều này vô tình buộc họ phải gắn chặt với phần cứng của NVIDIA. SDC sẽ đảo ngược cuộc chơi này.

 

Huawei Ascend 910 AI Processor

 

Sự linh hoạt từ phần mềm thay vì gông cùm phần cứng

Với SDC, các nhà phát triển sẽ không cần đến lớp "CUDA" để thực hiện các phép toán. Thay vào đó, các con chip được cấu hình với một lưới có thể tái cấu trúc (reconfigurable grid), sử dụng luồng bit cấu hình (configuration bitstream) được tạo ra từ trình biên dịch. Nói một cách đơn giản hơn, cả trình biên dịch lẫn biểu diễn mã nguồn đều không phụ thuộc vào một kiến trúc tập lệnh (ISA) cố định, giúp nó linh hoạt hơn rất nhiều.

So với GPU hoạt động thông qua một bộ lập lịch (scheduler) chuyên dụng, SDC dựa trên việc biên dịch xác định (deterministic compilation). Điều này có nghĩa là mọi chuyển động của dữ liệu, tính đến từng chu kỳ xung nhịp, đều được theo dõi sát sao.

Theo Giáo sư Wei Shaojun, chi phí để tạo ra các lớp chuyển đổi hoặc các hệ sinh thái độc lập nhằm tái hiện thành công của CUDA là quá lớn. Lộ trình SDC vì thế là một ván cược khả thi hơn cho Trung Quốc.

Tuy nhiên, cũng phải thừa nhận rằng việc phụ thuộc hoàn toàn vào trình biên dịch chính là một "cơn ác mộng" về mặt kỹ thuật. Nó bao gồm các vấn đề về định tuyến, phân nhánh và những thay đổi cấu trúc đi ngược lại với các quy chuẩn kỹ thuật phần cứng thông thường. Một số ví dụ điển hình của SDC hiện nay có thể kể đến đơn vị RDU của SambaNova hay LPU của Groq, nhưng chúng hiện được thiết kế để bổ trợ cho các khối lượng công việc cụ thể hơn là thay thế hoàn toàn GPU.