Dalam langkah signifikan bagi komunitas pengembangan AI, DeepSeek telah merilis DeepEP, sebuah perpustakaan komunikasi expert-parallel yang efisien dirancang untuk model Mixture-of-Experts (MoE). Rilis ini telah menghasilkan kegembiraan yang cukup besar di kalangan pengembang dan peneliti, terutama karena sifatnya yang open-source dan teknik optimasi yang canggih.
Arsitektur Komunikasi Canggih
DeepEP memperkenalkan kernel komunikasi GPU all-to-all yang canggih, mendukung operasi intranode dan internode melalui teknologi NVLink dan RDMA. Perpustakaan ini mencapai metrik kinerja yang mengesankan, dengan operasi intranode mencapai bandwidth hingga 158 GB/s melalui NVLink, sementara komunikasi internode mempertahankan kinerja konsisten sekitar 40-46 GB/s melalui RDMA.
Catatan Teknis: RDMA (Remote Direct Memory Access) memungkinkan akses memori langsung dari satu komputer ke komputer lain tanpa melibatkan sistem operasi manapun, memungkinkan jaringan dengan throughput tinggi dan latensi rendah.
Sorotan Kinerja:
- Intranode ( NVLink ): Bandwidth hingga 158 GB/s
- Internode ( RDMA ): Bandwidth 39-46 GB/s
- Operasi latensi rendah: 163-194 μs untuk dispatch, 318-369 μs untuk combine
- Skala efisien dari 8 hingga 256 expert
Persyaratan:
- GPU Hopper
- Python 3.8+
- CUDA 12.3+
- PyTorch 2.1+
- NVLink untuk komunikasi intranode
- Jaringan RDMA untuk komunikasi internode
Optimasi PTX Inovatif
Salah satu aspek yang paling banyak dibahas dari rilis ini adalah penggunaan instruksi PTX tingkat lanjut. Perpustakaan ini mengimplementasikan instruksi PTX khusus behavior-out-of-doc (ld.global.nc1::no_allocate.L2::256B) yang, meskipun secara teknis merupakan perilaku yang tidak terdefinisi, telah diuji secara menyeluruh untuk kebenaran pada arsitektur Hopper. Optimasi ini telah menarik minat khusus dari komunitas teknis, dengan pengembang mencatat potensi dampaknya pada kinerja.
Saya merasa seperti anak kecil di toko permen. Beberapa trik ini akan membutuhkan waktu terlalu lama untuk direkayasa ulang dengan benar berdasarkan makalah.
Dampak Komunitas dan Filosofi Open Source
Rilis ini telah memicu diskusi tentang keadaan pengembangan AI open-source, dengan banyak anggota komunitas membuat perbandingan yang menguntungkan antara pendekatan DeepSeek dan perusahaan AI lainnya. Dokumentasi yang komprehensif, termasuk metrik kinerja terperinci dan contoh implementasi, menunjukkan komitmen untuk pengembangan yang transparan dan kolaboratif yang telah beresonansi kuat dengan komunitas pengembang.
Peluncuran perpustakaan ini merupakan langkah signifikan dalam demokratisasi teknologi AI canggih, berpotensi memungkinkan lebih banyak peneliti dan pengembang untuk bekerja dengan model MoE secara efektif. Dengan dukungan untuk operasi FP8 dan kontrol sumber daya GPU yang fleksibel, DeepEP menyediakan fondasi yang kuat untuk pengembangan dan optimasi model AI di masa depan.
Referensi: DeepEP: an efficient expert-parallel communication library