Teknik Interleaving FFMA SASS DeepGEMM Memberikan Peningkatan Performa Lebih dari 10% untuk Operasi Matriks FP8

BigGo Editorial Team

Teknik Interleaving FFMA SASS DeepGEMM Memberikan Peningkatan Performa Lebih dari 10% untuk Operasi Matriks FP8

Perpustakaan DeepGEMM yang baru-baru ini dirilis oleh DeepSeek AI telah menarik perhatian komunitas teknis dengan teknik optimisasi inovatifnya untuk operasi matriks FP8. Sementara perpustakaan ini menawarkan beberapa peningkatan performa untuk General Matrix Multiplications (GEMMs), teknik interleaving FFMA SASS-lah yang secara khusus mengesankan para ahli teknis, memberikan peningkatan performa melebihi 10% dalam beberapa kasus.

Keajaiban di Balik Interleaving FFMA SASS

Tim DeepGEMM menemukan peningkatan performa dalam kernel CUTLASS FP8 antara versi kompiler NVCC 12.2 dan 12.3. Melalui analisis cermat terhadap kode SASS (Streaming Assembly) yang dikompilasi, mereka mengidentifikasi bahwa bit tertentu dalam instruksi FADD diubah dalam pola interleaving. Bit ini mengontrol fungsi yield, yang pada dasarnya memungkinkan warp saat ini untuk menyerahkan eksekusi, berpotensi meningkatkan paralelisme tingkat warp dengan membiarkan warp lain bekerja.

Berdasarkan penemuan ini, tim mengembangkan skrip untuk memodifikasi instruksi FFMA (Fused Floating-point Multiply-Add) dalam binary yang dikompilasi. Mereka tidak hanya memanipulasi bit yield tetapi juga mengubah bit reuse, karena register tidak dapat digunakan kembali jika warp diserahkan. Modifikasi kecil ini menciptakan lebih banyak peluang untuk menumpuk instruksi Matrix Multiply-Accumulate (MMA) dengan instruksi FFMA promosi, menghasilkan peningkatan performa yang signifikan.

Saya akan mengatakan ini benar-benar mengagumkan.

Optimasi Khusus untuk Infrastruktur AI Kritis

Diskusi komunitas menyoroti bahwa meskipun optimasi performa semacam itu adalah tipikal dalam matematika matriks ketika performa sangat penting, optimasi tersebut belum banyak diterapkan pada masalah spesifik ini oleh perusahaan AI lainnya. Seperti yang dicatat oleh seorang komentator, sebagian besar pelaku AI mengandalkan operasi GEMM berperforma tinggi tetapi biasanya menetap dengan implementasi standar seperti CUTLASS atau cuBLAS daripada memanfaatkan fitur yang tidak terdokumentasi.

Tingkat optimasi ini menunjukkan sejauh mana perusahaan AI bersedia pergi untuk memeras setiap bit performa dari kluster GPU yang mahal. Bahkan peningkatan performa 10% dapat diterjemahkan menjadi penghematan biaya yang signifikan ketika beroperasi dalam skala besar. Seperti yang ditunjukkan dalam diskusi, keuntungan seperti itu berpotensi membayar gaji banyak orang ketika perusahaan berinvestasi ratusan juta dalam infrastruktur GPU.

Fitur Utama dan Persyaratan DeepGEMM

Peningkatan Kinerja: Hingga 2,7x lebih cepat dibandingkan dengan implementasi teroptimasi CUTLASS 3.6
Teknik Optimisasi:
- Spesialisasi warp persisten
- Fitur TMA (Tensor Memory Accelerator) Hopper
- Penjadwal blok terpadu dengan rasterisasi
- Desain JIT sepenuhnya
- Ukuran blok tidak selaras
- FFMA SASS interleaving
Persyaratan Perangkat Keras:
- GPU arsitektur Hopper dengan dukungan sm_90a
- Python 3.8+
- CUDA 12.3+ (12.8+ direkomendasikan)
- PyTorch 2.1+
- CUTLASS 3.6+

Dampak Industri dan Aksesibilitas

Rilis open-source DeepGEMM tampaknya diposisikan secara strategis untuk menguntungkan industri secara keseluruhan, terutama penyedia yang lebih besar yang melayani model AI. Perpustakaan ini membutuhkan GPU arsitektur Hopper (dengan dukungan sm_90a) dan dirancang khusus untuk skenario seperti yang ada di DeepSeek-V3, mendukung GEMM yang dikelompokkan baik normal maupun Mix-of-Experts (MoE).

Beberapa anggota komunitas telah mencoba menguji perpustakaan ini pada perangkat keras konsumen seperti RTX 5080, menghadapi keterbatasan terkait kapasitas memori bersama. Perpustakaan ini secara eksplisit dirancang untuk tensor core NVIDIA Hopper, menjadikannya terutama relevan untuk infrastruktur AI tingkat perusahaan daripada aplikasi konsumen.

Kedalaman teknis DeepGEMM menyoroti kecanggihan yang berkembang dalam optimasi infrastruktur AI. Seiring model AI terus bertambah dalam ukuran dan kompleksitas, optimasi yang tampaknya kecil pada level instruksi perangkat keras ini menjadi semakin berharga bagi organisasi yang mendorong batas-batas kemungkinan dengan perangkat keras saat ini.

Referensi: DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling

Berita Terkait

‌

‌
‌

‌

‌
‌

‌