Apple Silicon Muncul sebagai Perangkat Hemat Energi untuk Menjalankan LLM Lokal

BigGo Editorial Team
Apple Silicon Muncul sebagai Perangkat Hemat Energi untuk Menjalankan LLM Lokal

Di lanskap yang didominasi oleh GPU NVIDIA untuk beban kerja AI, chip Apple Silicon sedang membuat ceruk sebagai alternatif hemat energi untuk menjalankan model bahasa besar secara lokal. Saat pengembang menjelajahi kemampuan MLX, kerangka kerja pembelajaran mesin Apple yang dioptimalkan untuk silicon kustom mereka, pengguna melaporkan metrik kinerja mengesankan yang menyoroti potensi sistem ini untuk aplikasi AI.

Kerangka Kerja MLX Semakin Populer

MLX, kerangka kerja pembelajaran mesin Apple yang dirancang khusus untuk Apple Silicon, telah secara bertahap mendapatkan perhatian di komunitas pengembang meskipun baru berusia satu tahun lebih. Mirip dengan NumPy dan PyTorch tetapi eksklusif untuk Apple Silicon, MLX menyediakan fondasi untuk menjalankan berbagai model AI secara lokal pada perangkat Mac. Kerangka kerja ini memungkinkan pengguna menjalankan LLM (Large Language Models), model visi, dan semakin banyak model audio tanpa memerlukan perangkat keras GPU khusus yang mahal. Anggota komunitas mencatat bahwa aktivitas ekosistem sekitar MLX sangat mengesankan, dengan alat seperti mlx-lm muncul sebagai alternatif llama.cpp yang dibangun khusus untuk arsitektur Apple.

Metrik Kinerja Menunjukkan Potensi

Laporan kinerja dari anggota komunitas menyoroti efisiensi Apple Silicon untuk menjalankan LLM. Seorang pengguna yang menjalankan DeepSeek-R1-Distill-Llama-70B yang dikuantisasi 4-bit pada MacBook Pro M4 Max melaporkan mencapai 10,2 token per detik saat terhubung ke listrik dan 4,2 token per detik saat menggunakan baterai. Untuk model Gemma-3-27B-IT-QAT yang lebih kecil, sistem yang sama mencapai 26,37 token per detik dengan daya listrik dan 9,7 token per detik dalam mode hemat baterai. Metrik ini menunjukkan bahwa Mac modern dapat menjalankan model AI yang substansial dengan kinerja yang wajar, membuat kemampuan yang sebelumnya terikat pada server menjadi dapat diakses pada perangkat keras konsumen.

Metrik Kinerja pada Apple Silicon

Model Perangkat Mode Daya Kinerja
DeepSeek-R1-Distill-Llama-70B (4-bit) MacBook Pro M4 Max Terhubung listrik 10,2 tok/detik
DeepSeek-R1-Distill-Llama-70B (4-bit) MacBook Pro M4 Max Baterai/Daya Rendah 4,2 tok/detik
Gemma-3-27B-IT-QAT (4-bit) MacBook Pro M4 Max Terhubung listrik 26,37 tok/detik
Gemma-3-27B-IT-QAT (4-bit) MacBook Pro M4 Max Baterai/Daya Rendah 9,7 tok/detik

Perbandingan Efisiensi Energi

Perangkat Keras Skor Benchmark OpenCL Konsumsi Daya
NVIDIA GeForce RTX 5090 376.224 400-550W (GPU) + 250-500W (sistem)
Apple M3 Ultra 131.247 ~200W (total sistem)

Perbandingan Efisiensi Energi

Ketika membandingkan efisiensi energi antara Apple Silicon dan GPU NVIDIA, diskusi komunitas menunjukkan Apple mungkin memiliki keunggulan dalam hal kinerja per watt. Sementara kartu high-end NVIDIA seperti RTX 5090 mencapai kinerja mentah yang lebih tinggi (mencetak 376.224 dalam benchmark OpenCL dibandingkan dengan 131.247 milik M3 Ultra), mereka mengkonsumsi daya yang jauh lebih banyak—sekitar 400-550W hanya untuk GPU plus kebutuhan daya sistem tambahan. Sebaliknya, M3 Ultra beroperasi pada sekitar 200W total daya sistem, berpotensi menjadikannya lebih hemat energi untuk beban kerja AI tertentu meskipun kinerja absolutnya lebih rendah.

Tantangan Pengalaman Pengguna

Meskipun ada manfaat kinerja, manajemen dependensi Python tetap menjadi titik kesulitan yang signifikan bagi banyak pengguna yang mencoba menjalankan aplikasi berbasis MLX. Beberapa komentator menggambarkan pengalaman yang membuat frustrasi dengan pengaturan lingkungan Python, menyoroti hambatan umum bagi pengembang non-Python yang hanya ingin menjalankan aplikasi yang kebetulan ditulis dalam Python. Pengalaman satu pengguna membaik dengan menentukan versi Python 3.12 dengan parameter perintah -p 3.12, menunjukkan bahwa MLX mungkin memiliki binary wheels yang hanya tersedia untuk versi Python tertentu.

Python termasuk dalam kategori hal-hal yang tidak bisa Anda gunakan begitu saja tanpa menjadi ahli dalam detailnya. Ini sangat disayangkan karena ada banyak orang yang bukan pengembang Python yang ingin menjalankan program yang kebetulan ditulis dalam Python.

Aplikasi Praktis

Pengguna melaporkan berhasil menggunakan berbagai model melalui MLX untuk tugas yang beragam. Model populer termasuk Mistral Small 3.1 (membutuhkan sekitar 20GB RAM), Gemma3:12B untuk tugas umum seperti pembuatan cerita dan coding ringan, Qwen2.5-coder:32B untuk bantuan pemrograman, dan model Qwen2.5:0.5B yang mengejutkan mampu. Proyek tutorial tiny-llm yang disorot dalam artikel asli bertujuan untuk membantu pengembang memahami teknik di balik efisiensi pelayanan model LLM, khususnya berfokus pada model Qwen2, dengan membangun infrastruktur pelayanan model dari awal menggunakan API array/matrix MLX.

Seiring kemampuan perangkat keras konsumen terus meningkat dan kerangka kerja seperti MLX matang, kita menyaksikan demokratisasi teknologi AI yang sebelumnya terbatas pada pusat data khusus. Meskipun tantangan tetap ada, terutama seputar dependensi perangkat lunak dan alur kerja pengembangan, Apple Silicon muncul sebagai platform menarik bagi penggemar AI dan profesional yang ingin menjalankan model canggih secara lokal dengan kinerja yang wajar dan efisiensi energi yang sangat baik.

Referensi: tiny-llm - LLM Serving in a Week