هوش مصنوعی دیواربین MIT بزرگترین مشکل ادراکی ربات‌های انبار را حل می‌کند

هوش مصنوعی دیواربین MIT بزرگترین مشکل ادراکی ربات‌های انبار را حل می‌کند

سیستم‌های Wave-Former و RISE از MIT با استفاده از هوش مصنوعی مولد و رادار mmWave، اشیاء پنهان و کل اتاق‌ها را بازسازی می‌کنند و دقت ادراک ربات را تا ۲ برابر افزایش می‌دهند.

۱۱ دقیقه مطالعه۳ اردیبهشت ۱۴۰۵
Priya Nair
Priya Nair

محققان MIT با استفاده از مدل‌های هوش مصنوعی مولد آموزش‌دیده، سیستمی ساختند که می‌تواند شکل اشیاء سه‌بعدی پنهان را تکمیل کند. اعتبار: از سوی محققان.

ربات‌هایی که در انبارها و خانه‌های هوشمند کار می‌کنند یک نقطه کور اساسی دارند: هر چیزی که از دید دوربین‌شان مسدود شود، برای آنها وجود ندارد. محققان MIT اکنون هوش مصنوعی مولد را برای رفع این مشکل به کار گرفته‌اند. آنها با استفاده از سیگنال‌های بی‌سیم میلی‌متری (mmWave) و مدل‌های هوش مصنوعی آموزش‌دیده، اشیاء پنهان و کل اتاق‌ها را با دقتی نزدیک به ۲۰٪ بیشتر از روش‌های قبلی بازسازی می‌کنند — بدون حتی یک دوربین.



چرا دید ربات مبتنی بر دوربین یک ضعف ساختاری دارد

ادراک ربات وابسته به دوربین به محض اینکه یک شیء از خط دید خارج شود — پشت بسته‌بندی، زیر آوار، یا دور یک گوشه — از کار می‌افتد. این یک مورد حاشیه‌ای نیست؛ یک واقعیت عملیاتی روزانه در انبارها، مراکز لجستیک و محیط‌های خانگی است که ربات‌ها باید اشیایی را که مستقیماً نمی‌بینند، مکان‌یابی، شناسایی و بگیرند.

راه‌حل‌های موجود — دوربین‌های متعدد، نور ساختاریافته، LiDAR — همگی محدودیت یکسانی دارند: آنها به یک مسیر نوری واضح نیاز دارند. به محض اینکه مقوا، دیوار خشک، پلاستیک یا حتی پارچه ضخیم وارد معادله شود، ربات عملاً کور است. این محدودیت باعث خطاهای پرهزینه در عملیات تکمیل سفارش می‌شود، از جمله شناسایی نادرست اقلام بسته‌بندی‌شده و گرفتن‌های ناموفق که خطوط تولید را متوقف می‌کند.

گروه Signal Kinetics MIT به رهبری پروفسور فادل ادیب بیش از یک دهه است که جایگزین‌هایی با استفاده از سیگنال‌های رادار میلی‌متری (mmWave) — همان باند فرکانسی مورد استفاده در Wi-Fi مدرن — می‌سازد که از موانع معمولی عبور کرده و از اشیاء پنهان بازتاب می‌شوند. چالش، تا کنون، این بود که این بازتاب‌ها برای دستکاری دقیق بسیار ناقص بودند.


Wave-Former چگونه اشیاء پنهان را از میان دیوارها بازسازی می‌کند

Wave-Former، سیستم جدید MIT، رادار mmWave را با یک مدل هوش مصنوعی مولد ترکیب می‌کند تا شکل سه‌بعدی کامل اشیاء پنهان در پشت موانع را بازسازی کند — و به بهبود دقتی نزدیک به ۲۰٪ نسبت به بهترین روش‌های قبلی در حدود ۷۰ شیء روزمره از جمله قوطی، جعبه، ظروف و میوه دست یافته است.

مسئله فیزیکی اصلی آینه‌ای بودن (specularity) است: سیگنال‌های mmWave از سطوح در یک جهت واحد بازتاب می‌شوند، مانند نور از یک آینه. سنسور رادار فقط بازتاب‌هایی را که به سمت خودش هدایت شده‌اند، ثبت می‌کند، به این معنی که سطح بالایی یک شیء پنهان تا حدی قابل مشاهده است در حالی که طرفین و قسمت زیرین آن عملاً نامرئی هستند. سیستم‌های قبلی سعی می‌کردند این ابرنقاط ناقص را تنها با استفاده از قوانین مبتنی بر فیزیک تفسیر کنند — رویکردی اساساً محدود.

خط لوله Wave-Former در سه مرحله کار می‌کند. اول، یک بازسازی جزئی از شیء پنهان از بازتاب‌های خام mmWave می‌سازد. دوم، آن شکل جزئی را به یک مدل هوش مصنوعی مولد می‌دهد که برای پیش‌بینی تکمیل‌های محتمل آموزش دیده است. سوم، به طور تکراری سطح را تا همگرایی به یک بازسازی سه‌بعدی کامل اصلاح می‌کند. نتیجه: ربات‌ها می‌توانند نه تنها یک شیء پنهان را تشخیص دهند، بلکه هندسه آن را به اندازه کافی بفهمند تا یک گرفتن قابل اعتماد را برنامه‌ریزی کنند.

به گفته پوشش Robohub از این تحقیق، این سیستم در سراسر اشیاء پنهان شده در پشت یا زیر مقوا، چوب، دیوار خشک، پلاستیک و پارچه — همان موادی که در محیط‌های واقعی انبار و لجستیک وجود دارند — اعتبارسنجی شد.


RISE: نقشه‌برداری از کل اتاق‌ها با یک رادار

سیستم دوم MIT، RISE (Radar-based Indoor Scene Understanding)، چیدمان کامل اتاق — شامل جای‌گیری مبلمان — را با استفاده از بازتاب‌های یک رادار mmWave ثابت بازسازی می‌کند. این سیستم تقریباً دو برابر دقت فضایی تکنیک‌های موجود دست می‌یابد و نیازی به پلتفرم سنسور متحرک ندارد.

بیشتر رویکردهای فعلی برای بازسازی صحنه بی‌سیم نیاز به یک رادار نصب‌شده روی یک ربات متحرک برای اسکن محیط دارند — یک محدودیت عملیاتی قابل توجه. RISE رویکرد متفاوتی دارد: از بازتاب‌های چندمسیره (multipath) تولید شده توسط انسان‌هایی که به طور طبیعی در یک اتاق حرکت می‌کنند بهره می‌برد.

وقتی یک نفر حرکت می‌کند، سیگنال‌های mmWave از او بازتاب می‌شوند، سپس دوباره از دیوارها و مبلمان قبل از بازگشت به رادار بازتاب می‌شوند. این پژواک‌های ثانویه — که معمولاً به عنوان نویز تحت عنوان "سیگنال‌های شبح" دور ریخته می‌شوند — در واقع اطلاعات فضایی درباره چیدمان اتاق را رمزگذاری می‌کنند. با حرکت فرد، سیگنال‌های شبح جابجا می‌شوند و موقعیت‌های در حال تغییر آنها هندسه سطوح اطراف را آشکار می‌کند.

سیستم RISE با بهره‌گیری از بازتاب سیگنال‌های بی‌سیم از انسان‌هایی که در یک اتاق حرکت می‌کنند، کل صحنه‌های داخلی را بازسازی می‌کند تیم همچنین یک سیستم گسترده‌تر ساخت که با بهره‌گیری از بازتاب سیگنال‌های بی‌سیم از انسان‌های در حال حرکت در یک اتاق، کل صحنه‌های داخلی را به طور کامل بازسازی می‌کند. اعتبار: از سوی محققان.

RISE در بیش از ۱۰۰ مسیر انسانی ثبت‌شده توسط یک رادار ثابت واحد اعتبارسنجی شد. پیامد حفظ حریم خصوصی نیز قابل توجه است: بر خلاف سیستم‌های دوربین، رادار mmWave تصاویر بصری از افراد را ثبت نمی‌کند، و آن را در محیط‌هایی که دوربین‌ها با موانع نظارتی یا رضایت مواجه هستند، قابل استقرار می‌کند.


مشکل داده‌های آموزشی — و راه‌حل MIT

موانع اساسی برای هر مدل هوش مصنوعی در این حوزه کمبود داده است: هیچ مجموعه داده mmWave به اندازه کافی بزرگ نیست که یک مدل مولد را از ابتدا آموزش دهد. راه‌حل MIT شبیه‌سازی فیزیک mmWave بر روی مجموعه داده‌های بینایی کامپیوتری موجود در مقیاس بزرگ بود — اساساً آموزش زبان رادار به هوش مصنوعی بدون نیاز به داده‌های آموزشی خاص رادار.

آموزش مدل‌های مولد بزرگ مانند GPT یا Claude به مجموعه داده‌هایی با میلیون‌ها یا میلیاردها مثال نیاز دارد. مجموعه داده‌های تحقیقاتی mmWave مرتبه‌های قدر کوچک‌تری هستند. جمع‌آوری داده‌های راداری کافی در دنیای واقعی، همانطور که میسی لم، دستیار تحقیقاتی MIT توضیح می‌دهد، "سال‌ها" طول می‌کشید.

راه‌حل جایگزین تیم، تطبیق مصنوعی بود: آنها مجموعه داده‌های بزرگ بینایی کامپیوتری موجود را گرفتند و به طور محاسباتی خواص فیزیکی بازتاب‌های mmWave — آینه‌ای بودن، ویژگی‌های نویز، هندسه سیگنال — را بر روی داده‌های تصویری اعمال کردند. این یک مجموعه آموزشی مصنوعی اما از نظر فیزیکی دقیق ایجاد کرد که مدل مولد می‌توانست از آن یاد بگیرد.

این رویکرد نشان‌دهنده یک الگوی گسترده‌تر در تحقیقات هوش مصنوعی فیزیکی است: استفاده از شبیه‌سازی آگاه از فیزیک برای تقویت آموزش هوش مصنوعی در جاهایی که داده‌های دنیای واقعی کمیاب یا گران هستند. همین اصل زیربنای بسیاری از پیشرفت‌های یادگیری دستکاری ربات است، جایی که انتقال شبیه‌سازی به واقعیت به یک پارادایم غالب تبدیل شده است.

سیستموظیفهمنبع سیگنالافزایش دقتپیکربندی سنسور
Wave-Formerبازسازی سه‌بعدی اشیاء پنهانبازتاب‌های mmWave از اشیاء~۲۰٪ نسبت به بهترینرادار متحرک یا ثابت
RISEبازسازی صحنه کامل اتاقبازتاب‌های mmWave از انسان‌های در حال حرکت~۲ برابر دقت نسبت به بهترینیک رادار ثابت واحد

این به چه معناست برای رباتیک انبار و صنعتی

برای خریداران و مهندسان رباتیک، این دو سیستم به مشکلات عملیاتی متفاوت اما به یک اندازه ضروری می‌پردازند: تأیید اقلام بسته‌بندی‌شده در ظروف مهر و موم شده، و توانمندسازی ربات‌ها برای درک محیط‌های پویا بدون پوشش کامل سنسور.

تکمیل سفارش و تأیید بسته

ربات‌های انبار در حال حاضر نمی‌توانند بدون باز کردن جعبه تأیید کنند که داخل یک جعبه مهر و موم شده چیست. توانایی Wave-Former در بازسازی هندسه سه‌بعدی اشیاء از میان مقوا و پلاستیک مستقیماً به تأیید قبل از حمل و نقل می‌پردازد — یک نقطه درد قابل توجه برای تکمیل سفارش تجارت الکترونیک، جایی که نرخ بازگشت از سفارش‌های اشتباه بسته‌بندی‌شده هزینه قابل توجهی ایجاد می‌کند. یک ربات مجهز به ادراک mmWave می‌تواند وجود و هندسه تقریبی آیتم را قبل از بسته شدن جعبه تأیید کند، بدون کند کردن خط.

استقرار هوشمند برای کوبات‌ها و AMRها

قابلیت نقشه‌برداری اتاق با یک رادار واحد RISE پیامدهای فوری برای ربات‌های متحرک خودمختار (AMR) و کوبات‌های مستقر در فضاهای مشترک با انسان دارد. رویکردهای فعلی ردیابی انسان یا نیاز به پوشش دوربین متراکم (با نگرانی‌های حریم خصوصی مرتبط) یا سنسورهای نصب‌شده روی خود ربات متحرک دارند. یک رادار ثابت که یک مدل فضایی زنده از اتاق — شامل موقعیت‌های انسانی — از تحلیل سیگنال شبح می‌سازد، می‌تواند عملیات کوبات ایمن‌تر و پاسخگوتر را در محیط‌های پویا ممکن کند.

برای تیم‌هایی که ربات‌های این کاربردها را ارزیابی می‌کنند، ارزش دارد که ربات‌های صنعتی دست دوم و کوبات‌های موجود در Botmarket را بررسی کنند در حالی که پیشرفت سیستم‌های ادراکی مانند Wave-Former به سمت یکپارچه‌سازی تجاری را دنبال می‌کنند.

جدول زمانی استقرار

هر دو سیستم در مرحله تحقیقاتی هستند و نتایج در کنفرانس IEEE در بینایی کامپیوتر و تشخیص الگو ارائه خواهد شد. این تحقیق توسط NSF، آزمایشگاه رسانه MIT و آمازون پشتیبانی می‌شود — که آخرین نشانه‌ای قابل توجه از علاقه تجاری است. هدف بعدی اعلام‌شده تیم، ساخت مدل‌های بنیادین برای سیگنال‌های بی‌سیم، مشابه GPT یا Gemini برای زبان است که نشان‌دهنده یک تغییر گام در تعمیم‌پذیری این رویکرد در محیط‌ها و انواع اشیاء خواهد بود.


سوالات متداول

Wave-Former چیست و چگونه کار می‌کند؟

Wave-Former سیستمی است که توسط MIT ساخته شده و از سیگنال‌های رادار میلی‌متری (mmWave) برای بازسازی شکل سه‌بعدی اشیاء پنهان در پشت موانعی مانند مقوا، دیوار خشک و پلاستیک استفاده می‌کند. این سیستم یک بازسازی جزئی از بازتاب‌های رادار می‌سازد، سپس از یک مدل هوش مصنوعی مولد برای تکمیل هندسه گمشده استفاده می‌کند. در آزمایش بر روی حدود ۷۰ شیء روزمره، به دقتی نزدیک به ۲۰٪ بهتر از بهترین روش‌های قبلی دست یافت.

چگونه RISE اتاق‌ها را بدون دوربین بازسازی می‌کند؟

RISE از یک رادار mmWave ثابت واحد استفاده می‌کند و از "سیگنال‌های شبح" بهره می‌برد — بازتاب‌های ثانویه که از انسان‌های در حال حرکت در یک اتاق و سپس از مبلمان و دیوارهای اطراف بازتاب می‌شوند. با ردیابی نحوه تغییر این بازتاب‌های چندمسیره با حرکت فرد، یک مدل هوش مصنوعی مولد چیدمان فضایی کل اتاق را استنباط می‌کند. RISE دقت فضایی تقریباً دو برابری تکنیک‌های موجود بازسازی صحنه بی‌سیم را در بیش از ۱۰۰ مسیر آزمایشی نشان داد.

چه موانعی می‌توانند سیگنال‌های mmWave را نفوذ کنند؟

سیگنال‌های میلی‌متری — همان محدوده فرکانسی مورد استفاده در Wi-Fi — از مواد غیرفلزی رایج شامل مقوا، چوب، دیوار خشک، پلاستیک و پارچه عبور می‌کنند. آنها به طور مؤثر از فلز عبور نمی‌کنند. این آنها را برای محیط‌های انبار که کالاها در مقوا و پلاستیک بسته‌بندی می‌شوند مناسب می‌کند، اما در محفظه‌های صنعتی عمدتاً فلزی کاربرد کمتری دارند.

آیا این فناوری حریم خصوصی را بهتر از دوربین‌ها حفظ می‌کند؟

بله. رادار mmWave تصاویر بصری از افراد در محیط را ثبت نمی‌کند — فقط بازتاب‌های سیگنال را تشخیص می‌دهد. قابلیت نقشه‌برداری اتاق RISE از حرکت انسان به عنوان منبع سیگنال استفاده می‌کند بدون اینکه هیچ داده بصری قابل شناسایی ضبط کند، که به آن مزیت معناداری نسبت به نقشه‌برداری فضایی مبتنی بر دوربین در استقرارهای حساس به حریم خصوصی مانند بیمارستان‌ها، خانه‌ها یا محل‌های کار تنظیم‌شده می‌دهد.

چه زمانی این فناوری در ربات‌های تجاری در دسترس خواهد بود؟

هر دو Wave-Former و RISE در حال حاضر در مرحله تحقیقاتی هستند و مقالاتی در CVPR ارائه خواهند شد. آمازون از جمله شرکای تأمین مالی است که نشان‌دهنده علاقه تجاری فعال است. تیم MIT اشاره کرده است که ساخت مدل‌های بنیادین سیگنال بی‌سیم اولویت توسعه بعدی است. یکپارچه‌سازی تجاری در سیستم‌های انبار یا کوبات احتمالاً سال‌ها فاصله دارد، اما مسیر به سمت سخت‌افزار قابل استقرار روشن است.


این تحقیق نشان‌دهنده یکی از پیشرفت‌های عملی‌تر در ادراک ربات در سال گذشته است — نه یک بهبود معیار حاشیه‌ای، بلکه یک تغییر معماری واقعی در نحوه مدل‌سازی ربات‌ها از جهان اطرافشان. هوش مصنوعی مولد دیگر فقط یک ابزار زبان یا تصویر نیست؛ در حال تبدیل شدن به موتور استنتاجی است که به سیستم‌های فیزیکی اجازه می‌دهد درباره آنچه نمی‌توانند مستقیماً مشاهده کنند، استدلال کنند.

آیا یک سیستم آگاهی از اتاق با یک رادار واحد نحوه استقرار کوبات‌ها یا AMRها را در تأسیسات شما تغییر می‌دهد؟

مقالات مرتبط

به بحث بپیوندید

Would single-radar room awareness change how you deploy cobots or AMRs in your facility?

مقالات بیشتر

🍪 🍪 تنظیمات کوکی

ما از کوکی‌ها برای سنجش عملکرد استفاده می‌کنیم. سیاست حفظ حریم خصوصی