Peluncuran terbaru model Skywork-OR1 (Open Reasoner 1) telah memicu diskusi signifikan di komunitas AI, khususnya mengenai bagaimana model-model ini dipresentasikan dibandingkan dengan pendekatan pengembangan sebenarnya. Meskipun model-model tersebut menunjukkan performa mengesankan pada benchmark matematika dan pengkodean, anggota komunitas telah mengangkat kekhawatiran tentang transparansi dalam cara model-model ini dijelaskan dan dipasarkan.
Penyempurnaan vs. Arsitektur Asli
Seri Skywork-OR1, yang mencakup Skywork-OR1-Math-7B, Skywork-OR1-32B-Preview, dan Skywork-OR1-7B-Preview, telah dipromosikan karena performa kuatnya pada benchmark seperti AIME24, AIME25, dan LiveCodeBench. Namun, anggota komunitas telah menyoroti bahwa model-model ini adalah versi yang disempurnakan dari model yang sudah ada, bukan arsitektur yang sepenuhnya baru - sebuah fakta yang hanya disebutkan di bagian bawah pengumuman Skywork.
Bukan untuk mengurangi kerja keras mereka, tetapi ini seharusnya tidak disembunyikan di bagian bawah halaman - ada perbedaan besar antara model yang benar-benar baru dan penyempurnaan.
Model-model ini dibangun di atas DeepSeek-R1-Distill-Qwen-7B dan DeepSeek-R1-Distill-Qwen-32B, yang keduanya adalah versi destilasi dari model lain. Pendekatan berlapis dalam pengembangan model ini telah memicu diskusi tentang konvensi penamaan dan transparansi dalam komunitas penelitian AI. Beberapa komentator mencatat bahwa perusahaan lain seperti Meta secara eksplisit mengharuskan karya turunan untuk menyertakan nama model asli (seperti Llama) di awal nama model baru.
![]() |
---|
Repositori GitHub untuk model Skywork-OR1, menampilkan kode dan strukturnya, relevan dengan diskusi tentang fine-tuning versus arsitektur asli |
Relevansi Benchmark Dipertanyakan
Poin perdebatan lain dalam diskusi komunitas berpusat pada benchmark yang digunakan untuk mengevaluasi model. Beberapa pengguna mempertanyakan relevansi penggunaan skor AIME24 ketika model tersebut kemungkinan dilatih pada dataset yang sama. Seorang komentator menunjukkan bahwa ini adalah masalah universal dalam evaluasi model AI, karena sebagian besar dataset benchmark akhirnya masuk ke dalam data pelatihan.
Penurunan signifikan dalam performa antara skor AIME24 dan AIME25 (misalnya, Skywork-OR1-Math-7B mencetak 69,8 pada AIME24 tetapi hanya 52,3 pada AIME25) tampaknya memvalidasi kekhawatiran ini, menunjukkan bahwa model berkinerja lebih baik pada data yang kemungkinan telah dilihatnya selama pelatihan.
Perbandingan Performa Model (Avg@32)
Model | AIME24 | AIME25 | LiveCodeBench (Avg@4) |
---|---|---|---|
DeepSeek-R1-Distill-Qwen-7B | 55.5 | 39.2 | 37.6 |
Light-R1-7B-DS | 59.1 | 44.3 | 39.5 |
Skywork-OR1-Math-7B | 69.8 | 52.3 | 43.6 |
Skywork-OR1-7B-Preview | 63.6 | 45.8 | 43.9 |
DeepSeek-R1-Distill-Qwen-32B | 72.9 | 59.0 | 57.2 |
Skywork-OR1-32B-Preview | 79.7 | 69.0 | 63.9 |
DeepSeek-R1 (671B) | 79.8 | 70.0 | 65.9 |
|  |
---|
*dari bahasa Inggris ke bahasa Indonesia dengan mempertahankan struktur aslinya. Saya akan memastikan terjemahan mengalir dengan lancar dan terdengar alami dalam bahasa Indonesia, sambil mempertahankan istilah teknis seperti "Skywork-OR1-Math-7B", "AIME24 dataset", dan "benchmark". |
Grafik garis yang menggambarkan kinerja Skywork-OR1-Math-7B pada dataset AIME24, mengilustrasikan kekhawatiran tentang relevansi benchmark yang diangkat dalam diskusi
Pertimbangan Performa Model Lokal
Diskusi juga menyentuh topik yang lebih luas tentang menjalankan model AI secara lokal versus menggunakan layanan berbasis cloud. Anggota komunitas berbagi pengalaman mereka dengan berbagai model lokal, mencatat bahwa meskipun mereka bisa lebih cepat untuk tugas-tugas tertentu, sering ada pertukaran antara kecepatan, akurasi, dan keserbagunaannya.
Bagi pengguna dengan keterbatasan perangkat keras tertentu, seperti memori GPU terbatas, memilih model yang tepat menjadi sangat penting. Beberapa komentator menyebutkan bahwa meskipun tidak ada model lokal yang melakukan segalanya dengan baik seperti model berbasis cloud seperti ChatGPT atau Gemini, model khusus dapat unggul dalam tugas-tugas spesifik seperti pengkodean (dengan model seperti qwen 2.5 coder 32b yang direkomendasikan).
Komitmen Open Source
Terlepas dari kekhawatiran yang diangkat, komunitas telah merespons positif terhadap komitmen Skywork untuk membuka sumber karya mereka. Perusahaan telah berjanji untuk merilis tidak hanya bobot model tetapi juga data pelatihan dan kode mereka, meskipun pada saat pengumuman, beberapa sumber daya ini masih tercantum sebagai Segera Hadir.
Pendekatan terbuka ini berpotensi mengatasi beberapa kekhawatiran transparansi yang diangkat oleh komunitas, memungkinkan orang lain untuk lebih memahami bagaimana model-model ini dikembangkan dan berpotensi membangun lebih lanjut berdasarkan model tersebut.
Model-model Skywork-OR1 merepresentasikan studi kasus yang menarik dalam lanskap pengembangan model AI yang terus berkembang, di mana batas antara penelitian asli, destilasi, dan penyempurnaan terus mengabur. Seiring praktik ini menjadi lebih umum, komunitas AI tampaknya menuntut standar yang lebih jelas tentang bagaimana karya seperti itu dipresentasikan dan diberikan kredit.
Referensi: Skywork-OR1 (Open Reasoner 1)