Para pelabur telah membelanjakan $6.1 bilion ke dalam robot humanoid dalam satu tahun baru-baru ini — empat kali ganda jumlah tahun sebelumnya. Lonjakan modal itu bukan datang daripada motor yang lebih baik atau penggerak yang lebih murah. Ia datang daripada kejayaan asas dalam cara robot belajar, satu kejayaan yang telah dibina secara senyap sejak 2015 dan kini telah menjadikan robot fiksyen sains sebagai sasaran kejuruteraan yang munasabah.
- Mengapa Pembelajaran Robot Mengubah Segalanya Selepas 2015
- Dari Peraturan ke Pengukuhan: Era Simulasi
- Bagaimana Model Asas Memberikan Robot Akal Sehat
- Had yang Masih Menahan Industri Ini
- Maksudnya bagi Pembeli Robotik dan Pasaran Perkakasan
- Soalan Lazim
Mengapa Pembelajaran Robot Mengubah Segalanya Selepas 2015
Untuk sebahagian besar sejarah robotik, kecerdasan bermaksud peraturan — ribuan arahan yang dikodkan secara manual oleh jurutera untuk merangkumi setiap situasi yang boleh dijangka. Sebuah lengan robot yang melipat pakaian memerlukan logik eksplisit untuk orientasi lengan, kekakuan fabrik, pengesanan kolar, dan berpuluh-puluh kes tepi. Set peraturan menjadi semakin kompleks sebelum ia menjadi boleh dipercayai.
Pendekatan itu menghasilkan robot industri yang boleh dipercayai untuk persekitaran berstruktur — talian kimpalan, sel pick-and-place, sistem penghantar — tetapi ia tidak boleh digeneralisasikan. Gerakkan lengan yang sama ke konteks yang berbeza, ubah pencahayaan, perkenalkan bentuk objek baharu, dan prestasi akan runtuh serta-merta.
Jurang antara apa yang robot boleh lakukan dan apa yang penyelidik impikan tetap luas. Kemudian, sekitar 2015, metodologi berubah.
Menurut penerokaan mendalam MIT Technology Review tentang sejarah kontemporari pembelajaran robot, perubahan penting adalah beralih daripada pengekodan peraturan kepada percubaan dan kesilapan berpandukan data — dan kemudian, selepas 2022, kepada model asas AI yang belajar daripada data berskala internet dan bukannya simulasi buatan tangan sahaja.
Dari Peraturan ke Pengukuhan: Era Simulasi
Sekitar 2015, makmal robotik terkemuka mula menggantikan peraturan tulisan tangan dengan pembelajaran pengukuhan (RL) — kaedah latihan di mana ejen AI menerima isyarat ganjaran untuk tindakan berjaya dan isyarat penalti untuk kegagalan, kemudian berulang berjuta-juta kali untuk menemui strateginya sendiri.
Projek Dactyl OpenAI, sebuah tangan robotik lima jari yang dilatih sepenuhnya dalam simulasi, menunjukkan kedua-dua kekuatan dan batasan utama pendekatan ini. Dactyl belajar memanipulasi kiub kecil dengan berlatih dalam persekitaran digital — pada dasarnya enjin fizik maya — sebelum digunakan pada perkakasan sebenar. Masalahnya: walaupun percanggahan kecil antara dunia simulasi dan realiti fizikal menyebabkan prestasi merosot secara mendadak.
Penyelesaian kejuruteraan ialah pengacakan domain — secara sengaja memperkenalkan variasi rawak merentasi berjuta-juta persekitaran latihan simulasi. Pekali geseran, keadaan pencahayaan, warna objek, dan tekstur permukaan semuanya diubah secara rawak supaya dasar yang dilatih akan cukup teguh untuk mengendalikan kekusutan dunia sebenar. Teknik ini berfungsi dengan cukup baik sehingga Dactyl akhirnya menyelesaikan Kiub Rubik — walaupun hanya 60% daripada masa pada caburan standard, menurun kepada 20% pada konfigurasi lebih sukar.
Angka-angka itu penting untuk memahami di mana bidang itu berdiri pada masa itu. RL latihan simulasi menghasilkan ketangkasan yang sangat mengagumkan, tetapi kebolehpercayaan tidak mencukupi untuk penggunaan komersial. OpenAI menutup bahagian robotiknya pada 2021, mencerminkan siling yang telah dicapai oleh teknik tersebut.
Jurang Simulasi-ke-Realiti: Cabaran Teknikal Utama
| Cabaran | Penerangan | Mitigasi Digunakan |
|---|---|---|
| Ketidakpadanan visual | Warna dan tekstur berbeza daripada simulasi | Pengacakan domain |
| Sifat fizikal | Geseran, ubah bentuk tidak dimodelkan dengan sempurna | Parameter fizik diacak |
| Bunyi sensor | Sensor sebenar memperkenalkan kependaman dan ralat | Suntikan bunyi dalam latihan |
| Kehausan mekanikal | Penggerak merosot dari masa ke masa | Tidak diselesaikan oleh sim-ke-realiti sahaja |
Bagaimana Model Asas Memberikan Robot Akal Sehat
Ketibaan model bahasa besar mengubah robotik secara lebih mendalam daripada sebarang kemajuan perkakasan dalam dekad yang lalu. Cerapan utama adalah seni bina: LLM belajar dengan meramalkan token (perkataan, sub-perkataan, atau aksara) seterusnya dalam urutan, menelan korpora teks yang besar untuk membina perwakilan dalaman yang kaya tentang bahasa dan pengetahuan dunia. Ahli robotik bertanya soalan yang jelas tetapi transformatif — bolehkah seni bina yang sama berfungsi jika token adalah bacaan sensor, bingkai kamera, dan kedudukan sendi dan bukannya perkataan?
Jawapan Google DeepMind ialah RT-1 dan penggantinya RT-2 (Robotic Transformer). RT-1 dilatih pada 17 bulan data teleoperasi merangkumi 700 tugasan berbeza, menerima paparan kamera robot dan keadaan sendi lengan sebagai input dan menjana arahan motor sebagai output. Pada tugasan yang pernah dilihat semasa latihan, ia mencapai kejayaan 97%. Pada arahan yang benar-benar baru, ia masih berjaya 76% — peningkatan dramatik berbanding apa-apa yang dicapai oleh pendekatan simulasi sahaja.
RT-2 melangkah lebih jauh dengan menggabungkan data imej dan teks berskala internet, memberikan robot satu bentuk akal sehat yang berasaskan dunia visual yang lebih luas daripada sekadar makmal robotik. Ini adalah lonjakan konsep utama: bukannya memprogram robot dengan peraturan, atau melatih mereka semata-mata pada data khusus robot, penyelidik mendapati bahawa pengetahuan dunia umum — jenis yang dibakar ke dalam model penglihatan-bahasa semasa prapelatihan berskala web — dipindahkan dengan mengejutkan baik kepada tugasan manipulasi fizikal.
Implikasi praktikal adalah signifikan. Robot yang telah melihat berjuta-juta imej dapur, laci, dan cawan semasa prapelatihan tiba dengan pemahaman kontekstual yang tidak boleh diperolehi oleh sistem berasaskan peraturan. Ia tidak pasti cawan mana yang manusia mahu, tetapi ia mempunyai prior yang munasabah. Prior itu secara dramatik mengurangkan jumlah data latihan khusus robot yang diperlukan untuk mencapai tahap prestasi yang berguna.
Had yang Masih Menahan Industri Ini
Keseronokan semasa adalah nyata, tetapi ia berbaloi untuk memetakan apa yang masih belum dapat diselesaikan. Model asas untuk robotik menghadapi masalah data yang tidak wujud untuk model bahasa dalam bentuk yang sama. Data teks adalah banyak, murah, dan mudah dikikis dari web. Data demonstrasi robot berkualiti tinggi — pelbagai, berasaskan fizikal, dan dilabel dengan tepat — adalah mahal untuk dikumpul, bergantung kepada perkakasan, dan sukar dipindahkan antara morfologi robot.
Robot sosial awal menggambarkan batasan yang berbeza: keupayaan tanpa kebolehpercayaan. Jibo, robot sosial rumah yang dibangunkan MIT yang mengumpul $3.7 juta dalam pendanaan awam dan dijual pada harga $749, mempunyai visi yang menarik tetapi akhirnya terjejas oleh teknologi bahasa pra-LLM pada zamannya. Perbualannya bergantung pada coretan respons yang telah ditulis skrip yang cepat terasa berulang dan cetek. AI suara hari ini akan mengubah apa yang Jibo mungkin menjadi — tetapi generasi baharu mainan berkuasa AI memperkenalkan risiko yang bertentangan. Sistem berskrip tidak boleh keluar landasan; sistem AI generatif pasti boleh, seperti yang ditunjukkan oleh kes terdokumentasi di mana rakan AI memberikan panduan berbahaya kepada kanak-kanak.
Bidang ini telah menukar satu set batasan (kekakuan, kerapuhan) untuk satu lagi (ketidakpastian, ketidakpastian keselamatan). Tiada masalah telah diselesaikan sepenuhnya. Apa yang berubah ialah trajektori peningkatan kini lebih curam secara terukur.
Maksudnya bagi Pembeli Robotik dan Pasaran Perkakasan
Revolusi pembelajaran AI bukan sekadar cerita akademik — ia sudah membentuk semula penilaian perkakasan dengan cara yang penting untuk pembeli dan pengendali sekarang.
Robot yang keupayaannya terkunci pada pengaturcaraan asal mereka menyusut nilai dengan cepat dalam pasaran semasa. Lengan industri generasi kedua dengan program gerakan tetap mempunyai nilai jualan semula yang menurun apabila pembeli semakin menjangkakan kebolehsuaian. Sementara itu, platform perkakasan yang direka untuk menjalankan perisian berasaskan pembelajaran — dengan pengkomputeran yang boleh diakses, API terbuka, dan muatan sensor yang mencukupi — memegang nilai dengan lebih kukuh.
Bagi pembeli yang menilai pembelian hari ini, beberapa implikasi menonjol:
- Kebolehlanjutan platform sama pentingnya dengan keupayaan semasa. Sebuah cobot yang menjalankan inferens ML moden secara setempat akan mempunyai hayat berguna yang lebih panjang daripada yang terkunci pada persekitaran pengaturcaraan khusus vendor.
- Harga perkakasan terpakai mencerminkan kesediaan AI. Robot dari platform yang telah menerima kemas kini perisian berasaskan pembelajaran utama mengekalkan nilai; yang ditinggalkan oleh pengeluar mereka diskaun secara signifikan.
- Infrastruktur data adalah pembeza baharu. Pembeli yang menggunakan berbilang unit harus merancang untuk pengumpulan data teleoperasi dari hari pertama — data demonstrasi itu menjadi korpus latihan untuk prestasi yang lebih baik.
Bagi pengendali yang mempertimbangkan penggunaan peringkat permulaan, pasaran robot industri terpakai semasa menawarkan akses kepada perkakasan yang mampu dengan kos yang dikurangkan, walaupun pembeli harus menilai peta jalan kemas kini perisian dengan teliti. Begitu juga, kategori cobot yang semakin berkembang berada dalam kedudukan yang baik untuk mendapat manfaat daripada penggunaan model asas, memandangkan konteks operasi cobot yang sememangnya fleksibel dan bersebelahan manusia.
Soalan Lazim
Pendorong utama adalah kematangan model asas AI — khususnya, penemuan bahawa model penglihatan-bahasa yang dilatih pada data berskala internet boleh disesuaikan untuk menjana arahan motor robot dengan generalisasi yang jauh lebih baik daripada pendekatan berasaskan peraturan atau simulasi sahaja sebelumnya. Pelaburan melonjak selepas penyelidikan menunjukkan bahawa model seperti RT-2 boleh melakukan tugasan baru tanpa latihan khusus tugasan, membuka laluan yang boleh dipercayai kepada robot tujuan umum. Angka terkini menunjukkan pelaburan meningkat empat kali ganda tahun ke tahun, mencecah $6.1 bilion.
Apakah pengacakan domain dalam robotik dan mengapa ia penting?
Pengacakan domain adalah teknik latihan simulasi di mana beribu-ribu persekitaran maya yang sedikit berbeza dihasilkan semasa latihan — mengubah pencahayaan, geseran, warna objek, dan parameter fizik secara rawak. Ia menangani jurang sim-ke-realiti (penurunan prestasi apabila dasar latihan simulasi berjalan pada perkakasan fizikal) dengan memaksa dasar yang dipelajari menjadi teguh merentasi banyak konfigurasi dunia yang mungkin. Dactyl OpenAI menggunakan pendekatan ini untuk mencapai penyelesaian Kiub Rubik dengan tangan robotik, walaupun kadar kejayaan mendatar pada 60% untuk tahap kesukaran standard.
Bagaimanakah model asas untuk robotik berbeza daripada LLM standard?
Model bahasa besar standard memproses token teks sebagai input dan output. Model asas robotik melanjutkan seni bina ini untuk menganggap bingkai kamera, bacaan sensor kedalaman, dan kedudukan sendi robot sebagai token input tambahan, dan arahan halaju motor sebagai token output. Tugasan ramalan teras — 'apa yang seterusnya diberikan konteks sebelumnya?' — kekal serupa dari segi struktur. Kelebihan kritikal adalah bahawa prapelatihan pada data visual dan bahasa berskala internet memberikan model ini pengetahuan dunia dan akal sehat yang tidak boleh disediakan oleh data demonstrasi robot tulen secara efisien.
Adakah robot penyesuaian AI akan menjadikan robot program tetap yang lebih lama usang dengan cepat?
Tidak serta-merta. Robot industri program tetap kekal sangat kos-efektif untuk tugasan volum tinggi, variasi rendah seperti kimpalan dan pengecapan, di mana kebolehsuaian tidak memberikan nilai. Tekanan keusangan adalah tertinggi dalam logistik SKU bercampur, pemasangan ringan, dan persekitaran perkhidmatan di mana kebolehubahan tugasan adalah semula jadi. Pembeli harus menilai sama ada profil tugasan khusus mereka sebenarnya mendapat manfaat daripada kebolehsuaian sebelum menganggap platform baharu berkemampuan AI mewajarkan premium harga berbanding perkakasan lama yang terbukti.
Apakah masalah utama yang belum selesai dalam pembelajaran robot hari ini?
Tiga cabaran kekal signifikan: (1) kos tinggi dan ketersediaan terhad data demonstrasi robot yang pelbagai berbanding data teks untuk model bahasa; (2) ketidakpastian keselamatan sistem AI generatif yang digunakan dalam persekitaran fizikal, terutamanya yang berinteraksi dengan populasi terdedah; dan (3) manipulasi cekap yang boleh dipercayai — tugas motor halus seperti memasang kabel atau mengendalikan bahan boleh ubah bentuk masih mengalahkan kebanyakan sistem semasa dalam keadaan dunia sebenar berbanding tetapan makmal terkawal.
Revolusi pembelajaran robot adalah nyata, tetapi ia belum selesai. Model asas telah memecahkan siling yang dikenakan oleh sistem berasaskan peraturan, dan angka pelaburan mencerminkan kemajuan teknologi sebenar dan bukannya spekulasi semata-mata. Jurang antara robot fiksyen sains dan perkakasan yang boleh digunakan telah mengecil lebih dalam tiga tahun lepas berbanding tiga dekad sebelumnya.
Kekangan seterusnya bukanlah algoritma. Ia adalah data, pengesahan keselamatan, dan kebolehpercayaan perkakasan pada skala — masalah kejuruteraan keras yang pembiayaan sahaja tidak boleh mempercepatkan melebihi rentak tertentu.
Pendekatan pembelajaran robot yang mana — pembelajaran pengukuhan, model asas, atau data teleoperasi — anda fikir akan menentukan siapa yang memenangi perlumbaan humanoid?










Sertai perbincangan
Which robot learning approach — RL, foundation models, or teleoperation data — will determine who wins the humanoid race?