TScale, sebuah framework pelatihan dan inferensi transformer baru yang ditulis dalam C++ dan CUDA, telah memicu diskusi di antara para pengembang yang sedang memeriksa kualitas kode dan pilihan implementasinya. Proyek ini bertujuan untuk membuat pelatihan model bahasa besar (LLM) lebih mudah diakses pada perangkat keras konsumen, namun umpan balik awal dari komunitas menunjukkan bahwa proyek ini mungkin dirilis terlalu dini.
Repository ini, yang menjanjikan arsitektur transformer yang dioptimalkan dengan konvergensi lebih cepat dan biaya perhatian yang berkurang, telah menarik perhatian karena klaim ambisius tentang kemampuan pelatihannya. Menurut dokumentasinya, TScale dapat melatih model dengan parameter 1,5B dengan biaya sekitar 500 dolar AS menggunakan beberapa instance spot dengan GPU NVIDIA 4090. Ini juga memperkenalkan teknik indeks 1T yang menarik yang dilaporkan mencapai pengurangan perpleksitas yang signifikan dengan model yang lebih kecil.
Fitur Utama TScale:
- Arsitektur transformer yang dioptimalkan dengan konvergensi lebih cepat dan biaya attention yang berkurang ~2x
- Dukungan untuk presisi bobot model dan aktivasi fp8 dan int8
- Dioptimalkan untuk GPU NVIDIA konsumen dengan pelatihan presisi rendah yang cepat
- CPU offload untuk mengurangi kebutuhan memori GPU
- Pelatihan terdistribusi sinkron pada host dengan konfigurasi sama
- Kompresi gradien 1-bit untuk interkoneksi ethernet reguler
- Pelatihan terdistribusi asinkron pada host yang beragam dengan lalu lintas jaringan minimal
Klaim Performa:
- Pelatihan model 1,5B: 2 hari dengan biaya USD $500 pada instance spot dengan GPU 4090
- Model 125M dengan indeks 1T: Pengurangan perpleksitas dari 19,02 menjadi 2,28
Tantangan Sistem Build
Salah satu masalah paling mendesak yang diangkat oleh anggota komunitas adalah tidak adanya file sistem build yang disebutkan dalam dokumentasi. Seorang pengguna melaporkan bahwa fo.cpp, generator file solusi/build ringan yang dijelaskan dalam instruksi pengaturan, sebenarnya tidak ada dalam repository, sehingga tidak mungkin mengikuti proses build seperti yang diuraikan.
Saya mencoba menjalankan ini tetapi fo.cpp tidak ada dalam repository. Saya membuat masalah, lihat https://github.com/Foreseerr/TScale/issues/1
Perbedaan ini menunjukkan bahwa proyek tersebut mungkin telah dipublikasikan sebelum benar-benar siap untuk penggunaan publik, dengan beberapa pengembang berspekulasi bahwa ini mungkin proyek akhir pekan yang dibagikan terlalu dini.
Menemukan Kembali Roda
Poin perdebatan lain di antara pengembang adalah implementasi TScale terhadap komponen dasar seperti parser file konfigurasi key-value, yang banyak dianggap tidak perlu mengingat ketersediaan pustaka yang sudah mapan. Ini telah memicu diskusi yang lebih luas tentang manajemen dependensi dalam proyek C/C++.
Beberapa pengembang berpendapat bahwa kecenderungan untuk membuat utilitas sendiri alih-alih menggunakan pustaka yang ada tertanam dalam-dalam dalam budaya C/C++, tidak selalu karena keterbatasan teknis tetapi lebih pada preferensi budaya. Meskipun alat modern seperti CMake telah membuat manajemen dependensi lebih mudah, praktik meminimalkan dependensi eksternal tetap umum.
Seorang pengembang menyarankan pendekatan ini mungkin dipengaruhi oleh kekhawatiran tentang rantai dependensi:
Dependensi cenderung memiliki dependensi sendiri (yang memiliki...). Bukan tentang kesulitannya melainkan kesadaran akan hal itu yang membuat saya meminimalkan dependensi saya seminimal mungkin.
Yang lain berspekulasi bahwa beberapa pola kode mungkin merupakan gejala dari pengkodean berbantuan LLM, di mana alat AI terkadang mengimplementasikan solusi kompleks untuk masalah yang dapat diselesaikan dengan pustaka yang ada.
Indeks 1T yang Misterius
Penyebutan proyek tentang teknik indeks 1T telah menimbulkan keingintahuan. TScale mengklaim pendekatan ini memungkinkan pelatihan model 1T di rumah dengan membangun model dengan indeks 1T yang kita cari untuk setiap token untuk membuat prediksi dengan model yang jauh lebih kecil. Menurut dokumentasi, konstruksi ini mencapai hasil luar biasa dalam hal log loss dan perpleksitas, dengan pengurangan perpleksitas 8x yang dilaporkan ketika menggunakan model parameter 125M dengan indeks.
Anggota komunitas telah mengungkapkan minat untuk memahami teknik ini lebih baik, dengan beberapa berspekulasi bahwa ini mungkin melibatkan pengindeksan istilah serupa dengan metode yang dijelaskan dalam literatur akademik tentang penalaran otomatis, mungkin diimplementasikan sebagai struktur pohon-awalan yang membantu mengenali generalisasi.
![]() |
---|
Grafik garis ini mengilustrasikan tren data yang mungkin berkorelasi dengan klaim performa teknik indeks 1T dari TScale |
Hambatan Jaringan dalam Inferensi Terdistribusi
Diskusi juga menyentuh tantangan inferensi terdistribusi, terutama mengenai hambatan jaringan. Sementara TScale menyebutkan kemampuan pelatihan terdistribusi, termasuk pelatihan terdistribusi asinkron pada host yang terpisah secara geografis, komunitas mencatat bahwa keterbatasan jaringan tetap menjadi tantangan signifikan untuk sistem LLM terdistribusi apa pun.
Seperti yang dikatakan seorang komentator dengan singkat: setiap pipeline pelatihan atau inferensi LLM yang cukup canggih pada akhirnya menyadari bahwa hambatan sebenarnya adalah jaringan!
Sebagai kesimpulan, meskipun TScale menyajikan ide-ide menarik untuk membuat pelatihan LLM lebih mudah diakses pada perangkat keras konsumen, respons awal komunitas menunjukkan bahwa mungkin perlu pengembangan lebih lanjut sebelum dapat memenuhi janjinya. Diskusi menyoroti tantangan teknis dalam menciptakan framework pelatihan LLM yang efisien dan aspek budaya pengembangan perangkat lunak dalam ekosistem C/C++.
Referensi: TScale