محققان MIT با استفاده از مدلهای هوش مصنوعی مولد آموزشدیده، سیستمی ساختند که میتواند شکل اشیاء سهبعدی پنهان را تکمیل کند. اعتبار: از سوی محققان.
رباتهایی که در انبارها و خانههای هوشمند کار میکنند یک نقطه کور اساسی دارند: هر چیزی که از دید دوربینشان مسدود شود، برای آنها وجود ندارد. محققان MIT اکنون هوش مصنوعی مولد را برای رفع این مشکل به کار گرفتهاند. آنها با استفاده از سیگنالهای بیسیم میلیمتری (mmWave) و مدلهای هوش مصنوعی آموزشدیده، اشیاء پنهان و کل اتاقها را با دقتی نزدیک به ۲۰٪ بیشتر از روشهای قبلی بازسازی میکنند — بدون حتی یک دوربین.
- چرا دید ربات مبتنی بر دوربین یک ضعف ساختاری دارد
- Wave-Former چگونه اشیاء پنهان را از میان دیوارها بازسازی میکند
- RISE: نقشهبرداری از کل اتاقها با یک رادار
- مشکل دادههای آموزشی — و راهحل MIT
- این به چه معناست برای رباتیک انبار و صنعتی
- سوالات متداول
چرا دید ربات مبتنی بر دوربین یک ضعف ساختاری دارد
ادراک ربات وابسته به دوربین به محض اینکه یک شیء از خط دید خارج شود — پشت بستهبندی، زیر آوار، یا دور یک گوشه — از کار میافتد. این یک مورد حاشیهای نیست؛ یک واقعیت عملیاتی روزانه در انبارها، مراکز لجستیک و محیطهای خانگی است که رباتها باید اشیایی را که مستقیماً نمیبینند، مکانیابی، شناسایی و بگیرند.
راهحلهای موجود — دوربینهای متعدد، نور ساختاریافته، LiDAR — همگی محدودیت یکسانی دارند: آنها به یک مسیر نوری واضح نیاز دارند. به محض اینکه مقوا، دیوار خشک، پلاستیک یا حتی پارچه ضخیم وارد معادله شود، ربات عملاً کور است. این محدودیت باعث خطاهای پرهزینه در عملیات تکمیل سفارش میشود، از جمله شناسایی نادرست اقلام بستهبندیشده و گرفتنهای ناموفق که خطوط تولید را متوقف میکند.
گروه Signal Kinetics MIT به رهبری پروفسور فادل ادیب بیش از یک دهه است که جایگزینهایی با استفاده از سیگنالهای رادار میلیمتری (mmWave) — همان باند فرکانسی مورد استفاده در Wi-Fi مدرن — میسازد که از موانع معمولی عبور کرده و از اشیاء پنهان بازتاب میشوند. چالش، تا کنون، این بود که این بازتابها برای دستکاری دقیق بسیار ناقص بودند.
Wave-Former چگونه اشیاء پنهان را از میان دیوارها بازسازی میکند
Wave-Former، سیستم جدید MIT، رادار mmWave را با یک مدل هوش مصنوعی مولد ترکیب میکند تا شکل سهبعدی کامل اشیاء پنهان در پشت موانع را بازسازی کند — و به بهبود دقتی نزدیک به ۲۰٪ نسبت به بهترین روشهای قبلی در حدود ۷۰ شیء روزمره از جمله قوطی، جعبه، ظروف و میوه دست یافته است.
مسئله فیزیکی اصلی آینهای بودن (specularity) است: سیگنالهای mmWave از سطوح در یک جهت واحد بازتاب میشوند، مانند نور از یک آینه. سنسور رادار فقط بازتابهایی را که به سمت خودش هدایت شدهاند، ثبت میکند، به این معنی که سطح بالایی یک شیء پنهان تا حدی قابل مشاهده است در حالی که طرفین و قسمت زیرین آن عملاً نامرئی هستند. سیستمهای قبلی سعی میکردند این ابرنقاط ناقص را تنها با استفاده از قوانین مبتنی بر فیزیک تفسیر کنند — رویکردی اساساً محدود.
خط لوله Wave-Former در سه مرحله کار میکند. اول، یک بازسازی جزئی از شیء پنهان از بازتابهای خام mmWave میسازد. دوم، آن شکل جزئی را به یک مدل هوش مصنوعی مولد میدهد که برای پیشبینی تکمیلهای محتمل آموزش دیده است. سوم، به طور تکراری سطح را تا همگرایی به یک بازسازی سهبعدی کامل اصلاح میکند. نتیجه: رباتها میتوانند نه تنها یک شیء پنهان را تشخیص دهند، بلکه هندسه آن را به اندازه کافی بفهمند تا یک گرفتن قابل اعتماد را برنامهریزی کنند.
به گفته پوشش Robohub از این تحقیق، این سیستم در سراسر اشیاء پنهان شده در پشت یا زیر مقوا، چوب، دیوار خشک، پلاستیک و پارچه — همان موادی که در محیطهای واقعی انبار و لجستیک وجود دارند — اعتبارسنجی شد.
RISE: نقشهبرداری از کل اتاقها با یک رادار
سیستم دوم MIT، RISE (Radar-based Indoor Scene Understanding)، چیدمان کامل اتاق — شامل جایگیری مبلمان — را با استفاده از بازتابهای یک رادار mmWave ثابت بازسازی میکند. این سیستم تقریباً دو برابر دقت فضایی تکنیکهای موجود دست مییابد و نیازی به پلتفرم سنسور متحرک ندارد.
بیشتر رویکردهای فعلی برای بازسازی صحنه بیسیم نیاز به یک رادار نصبشده روی یک ربات متحرک برای اسکن محیط دارند — یک محدودیت عملیاتی قابل توجه. RISE رویکرد متفاوتی دارد: از بازتابهای چندمسیره (multipath) تولید شده توسط انسانهایی که به طور طبیعی در یک اتاق حرکت میکنند بهره میبرد.
وقتی یک نفر حرکت میکند، سیگنالهای mmWave از او بازتاب میشوند، سپس دوباره از دیوارها و مبلمان قبل از بازگشت به رادار بازتاب میشوند. این پژواکهای ثانویه — که معمولاً به عنوان نویز تحت عنوان "سیگنالهای شبح" دور ریخته میشوند — در واقع اطلاعات فضایی درباره چیدمان اتاق را رمزگذاری میکنند. با حرکت فرد، سیگنالهای شبح جابجا میشوند و موقعیتهای در حال تغییر آنها هندسه سطوح اطراف را آشکار میکند.
تیم همچنین یک سیستم گستردهتر ساخت که با بهرهگیری از بازتاب سیگنالهای بیسیم از انسانهای در حال حرکت در یک اتاق، کل صحنههای داخلی را به طور کامل بازسازی میکند. اعتبار: از سوی محققان.
RISE در بیش از ۱۰۰ مسیر انسانی ثبتشده توسط یک رادار ثابت واحد اعتبارسنجی شد. پیامد حفظ حریم خصوصی نیز قابل توجه است: بر خلاف سیستمهای دوربین، رادار mmWave تصاویر بصری از افراد را ثبت نمیکند، و آن را در محیطهایی که دوربینها با موانع نظارتی یا رضایت مواجه هستند، قابل استقرار میکند.
مشکل دادههای آموزشی — و راهحل MIT
موانع اساسی برای هر مدل هوش مصنوعی در این حوزه کمبود داده است: هیچ مجموعه داده mmWave به اندازه کافی بزرگ نیست که یک مدل مولد را از ابتدا آموزش دهد. راهحل MIT شبیهسازی فیزیک mmWave بر روی مجموعه دادههای بینایی کامپیوتری موجود در مقیاس بزرگ بود — اساساً آموزش زبان رادار به هوش مصنوعی بدون نیاز به دادههای آموزشی خاص رادار.
آموزش مدلهای مولد بزرگ مانند GPT یا Claude به مجموعه دادههایی با میلیونها یا میلیاردها مثال نیاز دارد. مجموعه دادههای تحقیقاتی mmWave مرتبههای قدر کوچکتری هستند. جمعآوری دادههای راداری کافی در دنیای واقعی، همانطور که میسی لم، دستیار تحقیقاتی MIT توضیح میدهد، "سالها" طول میکشید.
راهحل جایگزین تیم، تطبیق مصنوعی بود: آنها مجموعه دادههای بزرگ بینایی کامپیوتری موجود را گرفتند و به طور محاسباتی خواص فیزیکی بازتابهای mmWave — آینهای بودن، ویژگیهای نویز، هندسه سیگنال — را بر روی دادههای تصویری اعمال کردند. این یک مجموعه آموزشی مصنوعی اما از نظر فیزیکی دقیق ایجاد کرد که مدل مولد میتوانست از آن یاد بگیرد.
این رویکرد نشاندهنده یک الگوی گستردهتر در تحقیقات هوش مصنوعی فیزیکی است: استفاده از شبیهسازی آگاه از فیزیک برای تقویت آموزش هوش مصنوعی در جاهایی که دادههای دنیای واقعی کمیاب یا گران هستند. همین اصل زیربنای بسیاری از پیشرفتهای یادگیری دستکاری ربات است، جایی که انتقال شبیهسازی به واقعیت به یک پارادایم غالب تبدیل شده است.
| سیستم | وظیفه | منبع سیگنال | افزایش دقت | پیکربندی سنسور |
|---|---|---|---|---|
| Wave-Former | بازسازی سهبعدی اشیاء پنهان | بازتابهای mmWave از اشیاء | ~۲۰٪ نسبت به بهترین | رادار متحرک یا ثابت |
| RISE | بازسازی صحنه کامل اتاق | بازتابهای mmWave از انسانهای در حال حرکت | ~۲ برابر دقت نسبت به بهترین | یک رادار ثابت واحد |
این به چه معناست برای رباتیک انبار و صنعتی
برای خریداران و مهندسان رباتیک، این دو سیستم به مشکلات عملیاتی متفاوت اما به یک اندازه ضروری میپردازند: تأیید اقلام بستهبندیشده در ظروف مهر و موم شده، و توانمندسازی رباتها برای درک محیطهای پویا بدون پوشش کامل سنسور.
تکمیل سفارش و تأیید بسته
رباتهای انبار در حال حاضر نمیتوانند بدون باز کردن جعبه تأیید کنند که داخل یک جعبه مهر و موم شده چیست. توانایی Wave-Former در بازسازی هندسه سهبعدی اشیاء از میان مقوا و پلاستیک مستقیماً به تأیید قبل از حمل و نقل میپردازد — یک نقطه درد قابل توجه برای تکمیل سفارش تجارت الکترونیک، جایی که نرخ بازگشت از سفارشهای اشتباه بستهبندیشده هزینه قابل توجهی ایجاد میکند. یک ربات مجهز به ادراک mmWave میتواند وجود و هندسه تقریبی آیتم را قبل از بسته شدن جعبه تأیید کند، بدون کند کردن خط.
استقرار هوشمند برای کوباتها و AMRها
قابلیت نقشهبرداری اتاق با یک رادار واحد RISE پیامدهای فوری برای رباتهای متحرک خودمختار (AMR) و کوباتهای مستقر در فضاهای مشترک با انسان دارد. رویکردهای فعلی ردیابی انسان یا نیاز به پوشش دوربین متراکم (با نگرانیهای حریم خصوصی مرتبط) یا سنسورهای نصبشده روی خود ربات متحرک دارند. یک رادار ثابت که یک مدل فضایی زنده از اتاق — شامل موقعیتهای انسانی — از تحلیل سیگنال شبح میسازد، میتواند عملیات کوبات ایمنتر و پاسخگوتر را در محیطهای پویا ممکن کند.
برای تیمهایی که رباتهای این کاربردها را ارزیابی میکنند، ارزش دارد که رباتهای صنعتی دست دوم و کوباتهای موجود در Botmarket را بررسی کنند در حالی که پیشرفت سیستمهای ادراکی مانند Wave-Former به سمت یکپارچهسازی تجاری را دنبال میکنند.
جدول زمانی استقرار
هر دو سیستم در مرحله تحقیقاتی هستند و نتایج در کنفرانس IEEE در بینایی کامپیوتر و تشخیص الگو ارائه خواهد شد. این تحقیق توسط NSF، آزمایشگاه رسانه MIT و آمازون پشتیبانی میشود — که آخرین نشانهای قابل توجه از علاقه تجاری است. هدف بعدی اعلامشده تیم، ساخت مدلهای بنیادین برای سیگنالهای بیسیم، مشابه GPT یا Gemini برای زبان است که نشاندهنده یک تغییر گام در تعمیمپذیری این رویکرد در محیطها و انواع اشیاء خواهد بود.
سوالات متداول
Wave-Former چیست و چگونه کار میکند؟
Wave-Former سیستمی است که توسط MIT ساخته شده و از سیگنالهای رادار میلیمتری (mmWave) برای بازسازی شکل سهبعدی اشیاء پنهان در پشت موانعی مانند مقوا، دیوار خشک و پلاستیک استفاده میکند. این سیستم یک بازسازی جزئی از بازتابهای رادار میسازد، سپس از یک مدل هوش مصنوعی مولد برای تکمیل هندسه گمشده استفاده میکند. در آزمایش بر روی حدود ۷۰ شیء روزمره، به دقتی نزدیک به ۲۰٪ بهتر از بهترین روشهای قبلی دست یافت.
چگونه RISE اتاقها را بدون دوربین بازسازی میکند؟
RISE از یک رادار mmWave ثابت واحد استفاده میکند و از "سیگنالهای شبح" بهره میبرد — بازتابهای ثانویه که از انسانهای در حال حرکت در یک اتاق و سپس از مبلمان و دیوارهای اطراف بازتاب میشوند. با ردیابی نحوه تغییر این بازتابهای چندمسیره با حرکت فرد، یک مدل هوش مصنوعی مولد چیدمان فضایی کل اتاق را استنباط میکند. RISE دقت فضایی تقریباً دو برابری تکنیکهای موجود بازسازی صحنه بیسیم را در بیش از ۱۰۰ مسیر آزمایشی نشان داد.
چه موانعی میتوانند سیگنالهای mmWave را نفوذ کنند؟
سیگنالهای میلیمتری — همان محدوده فرکانسی مورد استفاده در Wi-Fi — از مواد غیرفلزی رایج شامل مقوا، چوب، دیوار خشک، پلاستیک و پارچه عبور میکنند. آنها به طور مؤثر از فلز عبور نمیکنند. این آنها را برای محیطهای انبار که کالاها در مقوا و پلاستیک بستهبندی میشوند مناسب میکند، اما در محفظههای صنعتی عمدتاً فلزی کاربرد کمتری دارند.
آیا این فناوری حریم خصوصی را بهتر از دوربینها حفظ میکند؟
بله. رادار mmWave تصاویر بصری از افراد در محیط را ثبت نمیکند — فقط بازتابهای سیگنال را تشخیص میدهد. قابلیت نقشهبرداری اتاق RISE از حرکت انسان به عنوان منبع سیگنال استفاده میکند بدون اینکه هیچ داده بصری قابل شناسایی ضبط کند، که به آن مزیت معناداری نسبت به نقشهبرداری فضایی مبتنی بر دوربین در استقرارهای حساس به حریم خصوصی مانند بیمارستانها، خانهها یا محلهای کار تنظیمشده میدهد.
چه زمانی این فناوری در رباتهای تجاری در دسترس خواهد بود؟
هر دو Wave-Former و RISE در حال حاضر در مرحله تحقیقاتی هستند و مقالاتی در CVPR ارائه خواهند شد. آمازون از جمله شرکای تأمین مالی است که نشاندهنده علاقه تجاری فعال است. تیم MIT اشاره کرده است که ساخت مدلهای بنیادین سیگنال بیسیم اولویت توسعه بعدی است. یکپارچهسازی تجاری در سیستمهای انبار یا کوبات احتمالاً سالها فاصله دارد، اما مسیر به سمت سختافزار قابل استقرار روشن است.
این تحقیق نشاندهنده یکی از پیشرفتهای عملیتر در ادراک ربات در سال گذشته است — نه یک بهبود معیار حاشیهای، بلکه یک تغییر معماری واقعی در نحوه مدلسازی رباتها از جهان اطرافشان. هوش مصنوعی مولد دیگر فقط یک ابزار زبان یا تصویر نیست؛ در حال تبدیل شدن به موتور استنتاجی است که به سیستمهای فیزیکی اجازه میدهد درباره آنچه نمیتوانند مستقیماً مشاهده کنند، استدلال کنند.
آیا یک سیستم آگاهی از اتاق با یک رادار واحد نحوه استقرار کوباتها یا AMRها را در تأسیسات شما تغییر میدهد؟










به بحث بپیوندید
Would single-radar room awareness change how you deploy cobots or AMRs in your facility?