Performa Perkalian Matriks WebGPU: Mencapai 1 TFLOP/s, namun Masih Jauh dari Puncak CUDA

BigGo Editorial Team
Performa Perkalian Matriks WebGPU: Mencapai 1 TFLOP/s, namun Masih Jauh dari Puncak CUDA

Perkembangan terbaru dalam WebGPU telah memicu diskusi tentang potensinya untuk komputasi kinerja tinggi di peramban web, khususnya dalam konteks operasi perkalian matriks yang sangat penting untuk aplikasi pembelajaran mesin. Meskipun pencapaian kinerja 1 TFLOP/s merupakan tonggak penting, tanggapan komunitas mengungkapkan baik kemajuan maupun keterbatasan WebGPU dibandingkan dengan solusi native.

Kesenjangan Kinerja dengan Solusi Native

Implementasi WebGPU saat ini mencapai sekitar 17% dari kinerja teoritis puncak pada perangkat keras Apple M2, jauh lebih rendah dibandingkan efisiensi CUDA yang mencapai 75% untuk konfigurasi matriks serupa. Kesenjangan ini menunjukkan adanya pertukaran antara aksesibilitas dan kinerja dalam solusi komputasi GPU berbasis web. Perbedaan kinerja ini berasal dari abstraksi tingkat tinggi WebGPU dan akses terbatas ke optimasi khusus perangkat keras.

Keterbatasan Spesifik Perangkat Keras

Wawasan penting dari komunitas pengembang adalah bahwa WebGPU saat ini tidak memiliki dukungan untuk fitur-fitur khusus perangkat keras yang penting. Seperti yang dicatat oleh salah satu pengembang:

WebGPU sayangnya tidak bisa mendekati karena mereka tidak memiliki dukungan untuk memori khusus perangkat keras atau primitif tingkat warp (seperti TMA atau tensorcores). Ini bukan berarti mendapatkan 80% kinerja, melainkan < 30% dari kinerja puncak untuk apa pun yang terkait dengan perkalian matriks komputasi berat

Solusi CPU Alternatif

Menariknya, diskusi mengungkapkan bahwa untuk beberapa beban kerja tertentu, solusi berbasis CPU mungkin lebih efisien. Akselerator AMX (Advanced Matrix Extensions) Apple, yang dapat diakses melalui framework Accelerate, dapat mencapai kinerja yang sama atau lebih baik sambil membiarkan sumber daya sistem lain tersedia. Ini menekankan pentingnya memilih alat yang tepat untuk kebutuhan komputasi tertentu daripada berasumsi akselerasi GPU selalu optimal.

Perkembangan Masa Depan

Kelompok kerja WebGPU secara aktif bekerja untuk mengatasi kesenjangan kinerja ini. Perkembangan terbaru, seperti pengenalan dukungan subgroup di Chrome 128, menunjukkan harapan untuk peningkatan kinerja. Selain itu, Safari dilaporkan sedang mempersiapkan untuk mengaktifkan dukungan WebGPU di iOS 18.2, yang dapat secara signifikan memperluas jangkauan teknologi ini di berbagai platform.

Kesimpulan

Meskipun pencapaian kinerja 1 TFLOP/s WebGPU patut dicatat, hal ini merepresentasikan kompromi antara aksesibilitas universal dan kinerja puncak. Untuk aplikasi berbasis web yang memerlukan operasi matriks, WebGPU menawarkan solusi yang layak, meskipun pengembang yang membutuhkan kinerja maksimal mungkin perlu mempertimbangkan implementasi khusus platform menggunakan CUDA atau metal.

Sumber: Optimizing a WebGPU Matmul Kernel for 1TFLOP+ Performance