Sistem File 3FS DeepSeek Mencapai Throughput 6,6 TiB/s, Dioptimalkan untuk Beban Kerja AI

BigGo Editorial Team

Sistem File 3FS DeepSeek Mencapai Throughput 6,6 TiB/s, Dioptimalkan untuk Beban Kerja AI

DeepSeek telah merilis Fire-Flyer File System (3FS), sebuah sistem file terdistribusi berkinerja tinggi yang dirancang khusus untuk beban kerja pelatihan dan inferensi AI. Sistem ini telah dikembangkan sejak 2019, awalnya dibuat untuk aplikasi perdagangan frekuensi tinggi, dan kini telah dioptimalkan untuk pola akses data yang unik dalam pelatihan AI skala besar.

Performa Luar Biasa untuk Beban Kerja Baca Acak

3FS mencapai kinerja luar biasa, dengan tes benchmark menunjukkan throughput baca sekitar 6,6 TiB/s di seluruh klaster yang terdiri dari 180 node penyimpanan. Tingkat kinerja ini secara signifikan melampaui sistem file terdistribusi tradisional seperti Ceph, yang baru-baru ini merayakan pencapaian 1 TiB/s. Sistem ini dirancang khusus untuk pola baca acak yang umum dalam beban kerja pelatihan AI, di mana mekanisme caching tradisional memberikan sedikit manfaat.

Bagi yang tertarik, desainnya awalnya dipublikasikan di sini... Sistem file ini telah dikembangkan dan digunakan oleh mereka selama beberapa tahun. Dibandingkan dengan sistem file tradisional, sistem ini lebih fokus pada pelatihan model yang mengandung banyak pembacaan acak. Cache baca dan prefetching tidak berguna dalam kasus ini.

Yang membuat 3FS unik adalah penghilangan fitur cache baca dan prefetching secara sengaja—fitur yang merupakan komponen utama dalam sistem file konvensional tetapi tidak memberikan keuntungan untuk beban kerja pelatihan AI di mana data jarang digunakan kembali dalam jangka pendek. Sebagai gantinya, 3FS menggunakan antarmuka AIO berbasis Linux dan io_uring dengan mode Direct I/O, melewati cache file sepenuhnya untuk mencegah konsumsi memori yang tidak perlu.


Metrik kinerja yang menunjukkan kemampuan baca acak luar biasa dari Fire-Flyer File System

Arsitektur dan Implementasi Teknis

Sistem ini menggunakan arsitektur terpisah yang menggabungkan throughput dari ribuan SSD dengan bandwidth jaringan dari ratusan node penyimpanan. Sistem ini menerapkan Chain Replication with Apportioned Queries (CRAQ) untuk konsistensi yang kuat dan menggunakan layanan metadata stateless yang didukung oleh penyimpanan nilai-kunci transaksional.

Meskipun 3FS menggunakan FUSE untuk manajemen metadata, mencapai kinerja tinggi mengharuskan aplikasi terhubung langsung ke pustaka klien C++ untuk operasi baca dan tulis. Pilihan desain ini telah memicu beberapa diskusi dalam komunitas tentang apakah ini membatasi kegunaan umum sistem, meskipun binding Python tersedia untuk meningkatkan aksesibilitas.

Klaster benchmark yang mencapai throughput 6,6 TiB/s terdiri dari 180 node penyimpanan, masing-masing dilengkapi dengan 2x200Gbps NIC InfiniBand dan enam belas SSD NVMe 14TiB, dengan sekitar 500+ node klien untuk uji stres baca. Konfigurasi ini menunjukkan kemampuan sistem untuk menskalakan secara efektif di seluruh klaster besar.

Sorotan Performa 3FS:

Throughput Puncak: 6,6 TiB/s throughput baca di 180 node penyimpanan
Konfigurasi Node: Setiap node penyimpanan dilengkapi dengan 2x200Gbps NIC InfiniBand dan enam belas SSD NVMe 14TiB
Performa GraySort: Menyortir 110,5 TiB data dalam 30 menit dan 14 detik (3,66 TiB/menit)
Performa KVCache: Throughput baca puncak hingga 40 GiB/s

Perbandingan dengan Ceph:

3FS: 180 node, 2x200Gbps InfiniBand, 16x 14TiB SSD NVMe per node, ~500 klien, 6,6 TiB/s throughput baca
Ceph: 68 node, 2x100Gbps Mellanox, 10x 14TiB SSD NVMe per node, 504 klien, 1 TiB/s throughput baca acak


Metrik throughput server yang mengilustrasikan penskalaan dan kinerja efektif dari arsitektur terdisagregasi dalam 3FS

Posisi Di Antara Pesaing

Diskusi komunitas menyoroti bahwa 3FS memasuki bidang yang didominasi oleh solusi mapan seperti Lustre dan opsi yang lebih baru seperti Weka untuk penyimpanan terdistribusi berkinerja tinggi. Sistem penyimpanan objek tradisional seperti MinIO, Ceph, dan SeaweedFS umumnya dianggap terlalu lambat untuk tuntutan throughput ekstrem dari pelatihan AI skala besar.

Lustre tetap menjadi pemimpin utama sistem file paralel terdistribusi tetapi terkenal sulit untuk diatur dan dioperasikan. 3FS bertujuan untuk memberikan kinerja yang sebanding atau lebih baik dengan arsitektur yang lebih modern dan mudah dikelola. Throughput sistem sebesar 6,6 TiB/s secara signifikan melampaui tonggak Ceph yang baru-baru ini dirayakan sebesar 1 TiB/s, yang dicapai dengan klaster yang lebih kecil yaitu 68 node.

Di Luar Pelatihan: KVCache untuk Inferensi

Selain akses data pelatihan, 3FS juga menawarkan fungsionalitas KVCache, yang mengoptimalkan inferensi LLM dengan menyimpan vektor kunci dan nilai dari token sebelumnya di lapisan decoder. Fitur ini membantu menghindari komputasi berulang selama inferensi, dengan hasil benchmark menunjukkan throughput baca puncak mencapai hingga 40 GiB/s.

Kemampuan ini tampaknya menjadi bagian dari strategi DeepSeek untuk layanan inferensi yang hemat biaya, yang berpotensi menjelaskan bagaimana mereka dapat menawarkan harga kompetitif pada cache prompt yang hit.

Perilisan 3FS menambah portofolio alat infrastruktur DeepSeek yang terus berkembang, menyusul publikasi terbaru mereka tentang komponen lain dari tumpukan AI mereka. Seperti yang dicatat oleh seorang komentator, latar belakang perusahaan dalam perdagangan frekuensi tinggi, di mana kinerja diukur dalam nanodetik daripada milidetik, kemungkinan telah memengaruhi pendekatan mereka dalam membangun infrastruktur AI berkinerja tinggi.

Bagi organisasi yang berjuang dengan biaya tinggi dan keterbatasan kinerja solusi yang ada seperti AWS EFS, 3FS mungkin merupakan alternatif yang menjanjikan, meskipun sifatnya yang khusus berarti sistem ini paling cocok untuk beban kerja AI tertentu daripada kebutuhan penyimpanan untuk tujuan umum.

Referensi: Fire-Flyer File System

Berita Terkait

‌

‌
‌

‌

‌
‌

‌