Apple telah merilis CA-1M, sebuah dataset komprehensif untuk deteksi objek 3D dalam ruangan, bersama dengan Cubify Transformer (CuTR), sebuah model yang dirancang untuk mendeteksi dan menempatkan kotak pembatas 3D di sekitar objek dalam ruangan. Meskipun teknologi ini menunjukkan potensi untuk aplikasi AR/VR, tanggapan komunitas menunjukkan adanya kegembiraan tentang kemampuannya sekaligus kekhawatiran tentang batasan lisensinya.
Ikhtisar Dataset CA-1M & Cubify Transformer
- Dataset: CA-1M - Dianotasi secara menyeluruh dengan kotak 3D yang agnostik terhadap kelas
- Model: Cubify Transformer (CuTR) - Tersedia dalam varian RGB-D dan RGB-only
- Struktur Lisensi:
- Kode sampel: Lisensi Kode Sampel Apple
- Dataset: CC-by-NC-ND
- Model: Ketentuan Penggunaan Model Penelitian ML Apple
Fitur Utama:
- Ground-truth kotak 3D per-frame
- Pose GT terdaftar ke pemindai laser
- Kedalaman GT pada resolusi 512 x 384
- Frame berorientasi tegak
- Dukungan untuk menjalankan pada tangkapan dari perangkat pengguna melalui aplikasi NeRF Capture
![]() |
---|
Ruang interior yang dapat memperoleh manfaat dari teknologi deteksi objek 3D canggih untuk desain rumah dan aplikasi AR |
Struktur Lisensi Kompleks Menciptakan Kebingungan
Pendekatan lisensi proyek ini telah memicu diskusi signifikan di antara pengembang. Apple telah menerapkan struktur lisensi bertingkat: kode sampel di bawah Apple Sample Code License, dataset di bawah CC-by-NC-ND, dan model di bawah Apple ML Research Model Terms of Use. Pendekatan yang terfragmentasi ini telah menuai kritik dari komunitas pengembang.
They overcomplicate by using 3-4 different (sub) licenses in one project... why making it so confusing and elaborate? It's so useless to even use by 3rd party devs for making apps and releasing on their platform.
Lisensi Attribution-NonCommercial-NoDerivatives untuk dataset sangat membatasi, membatasi potensi aplikasi komersial. Beberapa komentator mencatat bahwa kompleksitas lisensi ini mungkin menghambat adopsi yang lebih luas dan eksperimen dengan teknologi tersebut.
Kinerja Teknis Memunculkan Pertanyaan
Umpan balik komunitas tentang kinerja teknis Cubify Transformer beragam. Beberapa pengguna telah menunjukkan masalah akurasi dengan deteksi kotak pembatas, terutama dengan objek seperti gambar di dinding dan balok langit-langit. Seorang komentator mencatat bahwa model sering tidak menggunakan [kubus yang dirotasi] ketika seharusnya, yang menyebabkan batas yang berlebihan, menunjukkan bahwa sistem terkadang kesulitan dengan penyelarasan objek yang tepat.
Menariknya, beberapa pengembang mengklaim telah melihat kinerja yang lebih baik dari jaringan saraf pribadi yang berjalan di iPad menggunakan hanya data RGB tanpa informasi kedalaman. Ini memunculkan pertanyaan apakah pendekatan berbasis transformer optimal untuk tugas visi komputer tertentu ini.
Aplikasi Praktis untuk Desain Rumah
Terlepas dari kekhawatiran teknis dan lisensi, banyak pengguna melihat potensi aplikasi berharga untuk teknologi ini. Salah satu kasus penggunaan yang paling menarik yang dibahas adalah desain rumah dan penataan furnitur. Pengguna menyatakan ketertarikan untuk memindai rumah mereka dengan kamera ponsel dan LiDAR untuk membuat model 3D di mana furnitur dapat diatur ulang secara virtual.
Solusi saat ini seperti Scaniverse membuat mesh lengkap tetapi tidak memisahkan objek individual, membuat pengaturan ulang virtual menjadi sulit. Pendekatan deteksi objek Cubify berpotensi memecahkan masalah ini dengan mengidentifikasi objek terpisah dalam ruang.
Integrasi dengan Teknologi Web
Komunitas sudah mengeksplorasi cara untuk memperluas dan mengintegrasikan teknologi ini dengan platform web. Beberapa komentator berbagi sumber daya untuk merender pemindaian USDZ di Three.js, pustaka 3D JavaScript populer, mendemonstrasikan ekosistem yang lebih luas yang berkembang di sekitar teknologi pemindaian 3D.
Ketersediaan penampil dan alat rendering menunjukkan bahwa pengembang secara aktif bekerja untuk membuat deteksi dan visualisasi objek 3D lebih mudah diakses di berbagai platform.
Integrasi Platform Apple di Masa Depan
Beberapa komentator berspekulasi tentang potensi integrasi dengan platform Apple, terutama Vision Pro. Seorang pengguna menyatakan keterkejutan bahwa teknologi ini belum menjadi bagian dari CoreML, kerangka pembelajaran mesin Apple, sementara yang lain menyarankan mungkin akan diumumkan pada konferensi pengembang WWDC yang akan datang.
Mengingat fokus Apple yang semakin meningkat pada pengalaman augmented reality, Cubify Transformer dapat mewakili blok bangunan penting untuk aplikasi AR di masa depan pada perangkat Apple, berpotensi memungkinkan pemahaman lingkungan dan interaksi objek yang lebih canggih.
Sebagai kesimpulan, meskipun dataset CA-1M dan teknologi Cubify Transformer dari Apple menunjukkan potensi untuk memajukan deteksi objek 3D, lisensi yang membatasi dan ulasan kinerja yang beragam menyoroti tantangan yang mungkin membatasi adopsinya. Namun demikian, teknologi ini merupakan langkah penting menuju pemahaman lingkungan yang lebih canggih untuk aplikasi AR/VR, dengan implikasi potensial untuk desain rumah, gaming, dan pengalaman realitas campuran.
Referensi: CA-1M and Cubify Anything