AI Penembus Dinding MIT Selesaikan Masalah Persepsi Terbesar Robot Gudang (2026)

Penyelidik MIT menggunakan model AI generatif yang dilatih khas untuk mencipta sistem yang boleh melengkapkan bentuk objek 3D tersembunyi. Kredit: Ihsan penyelidik.

Robot yang beroperasi di gudang dan rumah pintar mempunyai satu titik buta asas: apa-apa yang terhalang daripada kamera mereka langsung tidak wujud bagi mereka. Penyelidik MIT kini telah menggunakan AI generatif untuk membetulkannya, menggunakan isyarat wayarles gelombang milimeter dan model AI yang dilatih khas untuk membina semula objek tersembunyi dan seluruh bilik dengan ketepatan hampir 20% lebih tinggi berbanding kaedah sebelumnya — tanpa menggunakan satu pun kamera.

Mengapa Penglihatan Robot Berasaskan Kamera Mempunyai Kelemahan Struktur
Bagaimana Wave-Former Membina Semula Objek Tersembunyi Melalui Dinding
RISE: Memetakan Seluruh Bilik daripada Satu Radar
Masalah Data Latihan — dan Bagaimana MIT Menyelesaikannya
Maksudnya untuk Robotik Gudang dan Perindustrian
Soalan Lazim

Mengapa Penglihatan Robot Berasaskan Kamera Mempunyai Kelemahan Struktur

Persepsi robot yang bergantung pada kamera gagal sebaik sahaja objek terkeluar daripada garis penglihatan — di sebalik pembungkusan, di bawah serpihan, atau di selekoh. Ini bukan kes pinggiran; ia adalah realiti operasi harian di gudang, hab logistik, dan persekitaran rumah di mana robot perlu mencari, mengenal pasti, dan menggenggam objek yang tidak dapat dilihat secara langsung.

Penyelesaian sedia ada — berbilang kamera, cahaya berstruktur, LiDAR — semuanya berkongsi kekangan yang sama: ia memerlukan laluan optik yang jelas. Sebaik sahaja kadbod, dinding kering, plastik, atau fabrik tebal memasuki persamaan, robot menjadi buta. Kekangan ini menyebabkan kesilapan mahal dalam operasi pemenuhan, termasuk item berbungkus yang tersalah kenal pasti dan cengkaman gagal yang memberhentikan barisan pengeluaran.

Kumpulan Signal Kinetics MIT, yang diketuai oleh Profesor Madya Fadel Adib, telah menghabiskan lebih sedekad membina alternatif menggunakan isyarat radar gelombang milimeter (mmWave) — jalur frekuensi yang sama digunakan dalam Wi-Fi moden — yang menembusi halangan biasa dan memantul dari objek tersembunyi. Cabarannya, sehingga kini, adalah pantulan tersebut terlalu tidak lengkap untuk berguna bagi manipulasi tepat.

Bagaimana Wave-Former Membina Semula Objek Tersembunyi Melalui Dinding

Wave-Former, sistem baharu MIT, menggabungkan radar mmWave dengan model AI generatif untuk membina semula bentuk 3D penuh objek yang tersembunyi di sebalik halangan — mencapai peningkatan ketepatan hampir 20% berbanding kaedah terkini sebelumnya merentas kira-kira 70 objek harian termasuk tin, kotak, perkakas, dan buah-buahan.

Masalah fizik asas adalah speculariti: isyarat mmWave memantul dari permukaan dalam satu arah, seperti cahaya dari cermin. Sensor radar hanya menangkap pantulan yang diarahkan semula kepadanya, bermakna permukaan atas objek tersembunyi sebahagiannya kelihatan manakala sisi dan bawahnya hampir tidak kelihatan. Sistem terdahulu cuba mentafsir titik-titik awan yang tidak lengkap ini menggunakan peraturan berasaskan fizik sahaja — pendekatan yang pada asasnya terhad.

Saluran paip Wave-Former berfungsi dalam tiga peringkat. Pertama, ia membina pembinaan semula separa objek tersembunyi daripada pantulan mmWave mentah. Kedua, ia memberikan bentuk separa itu kepada model AI generatif yang dilatih untuk meramalkan pelengkapan yang munasabah. Ketiga, ia memperhalusi permukaan secara berulang sehingga mencapai pembinaan semula 3D penuh. Hasilnya: robot bukan sahaja dapat mengesan objek tersembunyi, tetapi memahami geometrinya cukup baik untuk merancang cengkaman yang boleh dipercayai.

Menurut liputan Robohub mengenai penyelidikan ini, sistem ini telah disahkan merentas objek yang tersembunyi di belakang atau di bawah kadbod, kayu, dinding kering, plastik, dan fabrik — bahan-bahan tepat yang terdapat dalam persekitaran gudang dan logistik sebenar.

RISE: Memetakan Seluruh Bilik daripada Satu Radar

Sistem kedua MIT, RISE (Radar-based Indoor Scene Understanding), membina semula susun atur bilik lengkap — termasuk penempatan perabot — menggunakan pantulan daripada satu radar mmWave pegun. Ia mencapai kira-kira dua kali ketepatan ruang berbanding teknik sedia ada dan tidak memerlukan platform sensor bergerak.

Kebanyakan pendekatan semasa untuk pembinaan semula adegan wayarles memerlukan radar dipasang pada robot bergerak untuk menyapu persekitaran — kekangan operasi yang ketara. RISE mengambil pendekatan berbeza: ia mengeksploitasi pantulan berbilang laluan (multipath) yang dihasilkan oleh manusia yang bergerak secara semula jadi di dalam bilik.

Apabila seseorang bergerak, isyarat mmWave melantun dari mereka, kemudian memantul semula dari dinding dan perabot sebelum kembali ke radar. Gema sekunder ini — biasanya dibuang sebagai bunyi bising di bawah label "isyarat hantu" — sebenarnya mengekod maklumat ruang tentang susun atur bilik. Apabila orang itu bergerak, isyarat hantu berubah, dan kedudukan mereka yang berubah mendedahkan geometri permukaan sekeliling.

Sistem RISE membina semula keseluruhan pemandangan dalaman dengan memanfaatkan pantulan isyarat wayarles dari manusia yang bergerak di dalam bilik Pasukan ini juga membina sistem yang diperluas yang membina semula sepenuhnya pemandangan dalaman dengan memanfaatkan pantulan isyarat wayarles dari manusia yang bergerak di dalam bilik. Kredit: Ihsan penyelidik.

RISE telah disahkan pada lebih daripada 100 lintasan manusia yang ditangkap oleh satu radar pegun. Implikasi privasi juga ketara: tidak seperti sistem kamera, radar mmWave tidak menangkap imej visual individu, menjadikannya boleh digunakan dalam persekitaran di mana kamera menghadapi halangan kawal selia atau persetujuan.

Masalah Data Latihan — dan Bagaimana MIT Menyelesaikannya

Halangan asas untuk mana-mana model AI dalam ruang ini adalah kekurangan data: tiada set data mmWave cukup besar untuk melatih model generatif dari awal. Penyelesaian MIT adalah mensimulasikan fizik mmWave di atas set data penglihatan komputer berskala besar yang sedia ada — pada asasnya mengajar AI bahasa radar tanpa memerlukan data latihan khusus radar.

Melatih model generatif besar seperti GPT atau Claude memerlukan set data dengan berjuta atau berbilion contoh. Set data penyelidikan mmWave adalah lebih kecil beberapa urutan magnitud. Mengumpul data radar dunia sebenar yang mencukupi akan, seperti yang dijelaskan oleh pembantu penyelidik MIT Maisy Lam, "mengambil masa bertahun-tahun."

Penyelesaian pasukan adalah penyesuaian sintetik: mereka mengambil set data penglihatan komputer besar yang sedia ada dan secara pengiraan mengenakan sifat fizik pantulan mmWave — speculariti, ciri hingar, geometri isyarat — ke atas data imej. Ini mencipta set latihan sintetik tetapi tepat secara fizik yang boleh dipelajari oleh model generatif.

Pendekatan ini mewakili corak yang lebih luas yang muncul dalam penyelidikan AI Fizikal: menggunakan simulasi berasaskan fizik untuk memulakan latihan AI di mana data dunia sebenar adalah terhad atau mahal untuk dikumpul. Prinsip yang sama mendasari banyak kemajuan dalam pembelajaran manipulasi robot, di mana pemindahan sim-ke-nyata telah menjadi paradigma dominan.

Sistem	Tugas	Sumber Isyarat	Keuntungan Ketepatan	Konfigurasi Sensor
Wave-Former	Pembinaan semula 3D objek tersembunyi	Pantulan mmWave daripada objek	~20% berbanding SOTA	Radar mudah alih atau tetap
RISE	Pembinaan semula pemandangan bilik penuh	Pantulan mmWave daripada manusia bergerak	~2× ketepatan berbanding SOTA	Satu radar pegun

Maksudnya untuk Robotik Gudang dan Perindustrian

Bagi pembeli robot dan jurutera, kedua-dua sistem ini menangani masalah operasi yang berbeza tetapi sama mendesak: mengesahkan item yang dibungkus dalam bekas tertutup, dan membolehkan robot memahami persekitaran dinamik tanpa liputan sensor penuh.

Pengesahan Pemenuhan dan Bungkusan

Robot gudang pada masa ini tidak dapat mengesahkan apa yang ada di dalam kotak tertutup tanpa membukanya. Keupayaan Wave-Former untuk membina semula geometri objek 3D melalui kadbod dan plastik secara langsung menangani pengesahan pra-penghantaran — satu titik kesakitan yang ketara untuk pemenuhan e-dagang, di mana kadar pulangan daripada pesanan tersalah bungkus menjana kos yang besar. Robot yang dilengkapi dengan persepsi mmWave boleh mengesahkan kehadiran item dan geometri kasar sebelum kotak ditutup, tanpa memperlahankan barisan.

Penggunaan Pintar untuk Cobot dan AMR

Keupayaan pemetaan bilik radar tunggal RISE mempunyai implikasi segera untuk robot mudah alih autonomi (AMR) dan cobot yang digunakan di ruang yang dikongsi dengan manusia. Pendekatan pengesanan manusia semasa sama ada memerlukan liputan kamera padat (dengan kebimbangan privasi yang berkaitan) atau sensor dipasang pada robot bergerak itu sendiri. Radar tetap yang membina model ruang langsung bilik — termasuk lokasi manusia — daripada analisis isyarat hantu boleh membolehkan operasi cobot yang lebih selamat dan responsif dalam persekitaran dinamik.

Bagi pasukan yang menilai robot untuk aplikasi ini, adalah wajar meneroka robot industri terpakai dan cobot yang kini tersedia di Botmarket sambil menjejaki bagaimana sistem persepsi seperti Wave-Former berkembang ke arah integrasi komersial.

Garis Masa ke Penggunaan

Kedua-dua sistem berada di peringkat penyelidikan, dengan keputusan akan dibentangkan di IEEE Conference on Computer Vision and Pattern Recognition. Penyelidikan ini disokong oleh NSF, MIT Media Lab, dan Amazon — yang terakhir merupakan isyarat penting minat komersial. Matlamat seterusnya pasukan adalah membina model asas untuk isyarat wayarles, serupa dengan GPT atau Gemini untuk bahasa, yang akan mewakili perubahan langkah dalam kebolehgeneralisasian pendekatan ini merentas persekitaran dan jenis objek.

Soalan Lazim

Apakah Wave-Former dan bagaimana ia berfungsi?

Wave-Former adalah sistem yang dibangunkan MIT yang menggunakan isyarat radar gelombang milimeter (mmWave) untuk membina semula bentuk 3D objek yang tersembunyi di sebalik halangan seperti kadbod, dinding kering, dan plastik. Ia membina pembinaan semula separa daripada pantulan radar, kemudian menggunakan model AI generatif untuk melengkapkan geometri yang hilang. Dalam ujian merentas kira-kira 70 objek harian, ia mencapai ketepatan hampir 20% lebih baik berbanding kaedah terkini sebelumnya.

Bagaimana RISE membina semula bilik tanpa kamera?

RISE menggunakan satu radar mmWave pegun dan mengeksploitasi "isyarat hantu" — pantulan sekunder yang melantun dari manusia yang bergerak melalui bilik dan kemudian dari perabot dan dinding sekeliling. Dengan menjejaki bagaimana pantulan berbilang laluan ini berubah apabila orang itu bergerak, model AI generatif menyimpulkan susun atur ruang seluruh bilik. RISE menunjukkan kira-kira dua kali ketepatan ruang berbanding teknik pembinaan semula adegan wayarles sedia ada merentas lebih daripada 100 lintasan ujian.

Halangan apa yang boleh ditembusi isyarat mmWave?

Isyarat gelombang milimeter — julat frekuensi yang sama dengan Wi-Fi — menembusi bahan bukan logam biasa termasuk kadbod, kayu, dinding kering, plastik, dan fabrik. Ia tidak menembusi logam dengan berkesan. Ini menjadikannya sesuai untuk persekitaran gudang di mana barangan dibungkus dalam kadbod dan plastik, tetapi kurang sesuai dalam kandang industri yang banyak logam.

Adakah teknologi ini mengekalkan privasi lebih baik daripada kamera?

Ya. Radar mmWave tidak menangkap imej visual orang dalam persekitaran — ia hanya mengesan pantulan isyarat. Keupayaan pemetaan bilik RISE menggunakan pergerakan manusia sebagai sumber isyarat tanpa merakam sebarang data visual yang boleh dikenal pasti, yang memberikan kelebihan bermakna berbanding pemetaan ruang berasaskan kamera dalam penggunaan sensitif privasi seperti hospital, rumah, atau tempat kerja terkawal.

Bilakah teknologi ini akan tersedia dalam robot komersial?

Kedua-dua Wave-Former dan RISE kini pada peringkat penyelidikan, dengan kertas kerja akan dibentangkan di CVPR. Amazon adalah antara rakan pembiayaan, menunjukkan minat komersial yang aktif. Pasukan MIT telah menyatakan bahawa membina model asas isyarat wayarles adalah keutamaan pembangunan seterusnya. Integrasi komersial dalam sistem gudang atau cobot mungkin mengambil masa bertahun-tahun, tetapi trajektori ke arah perkakasan yang boleh digunakan adalah jelas.

Penyelidikan ini mewakili salah satu kemajuan dalam persepsi robot yang lebih praktikal dalam tahun lalu — bukan peningkatan penanda aras marginal, tetapi perubahan seni bina sebenar dalam cara robot boleh memodelkan dunia di sekeliling mereka. AI generatif bukan lagi sekadar alat bahasa atau imej; ia menjadi enjin inferens yang membolehkan sistem fizik menaakul tentang apa yang mereka tidak boleh perhatikan secara langsung.

AI Penembus Dinding MIT Selesaikan Masalah Persepsi Terbesar Robot Gudang