سرمایهگذاران در یک سال اخیر ۶.۱ میلیارد دلار در رباتهای انساننما سرمایهگذاری کردند—چهار برابر مجموع سال قبل. این جهش سرمایه نه از موتورهای بهتر یا محرکهای ارزانتر ناشی شد، بلکه از یک پیشرفت بنیادین در نحوه یادگیری رباتها که از سال ۲۰۱۵ به آرامی در حال شکلگیری بود و اکنون ربات علمی-تخیلی را به یک هدف مهندسی قابلدستیابی تبدیل کرده است.
- چرا یادگیری ربات پس از ۲۰۱۵ همه چیز را تغییر داد
- از قوانین تا یادگیری تقویتی: عصر شبیهسازی
- چگونه مدلهای بنیادین به رباتها فهم عقلانی دادند
- محدودیتهایی که هنوز صنعت را عقب نگه داشتهاند
- این برای خریداران رباتیک و بازار سختافزار چه معنایی دارد
- سوالات متداول
چرا یادگیری ربات پس از ۲۰۱۵ همه چیز را تغییر داد
برای بیشتر تاریخ رباتیک، هوش به معنای قوانین بود—هزاران دستورالعمل دستنویس که توسط مهندسان برای پوشش هر موقعیت قابلپیشبینی نوشته میشد. یک بازوی رباتیک که لباس تا میکرد، به منطق صریح برای جهت آستین، سفتی پارچه، تشخیص یقه و دهها حالت خاص نیاز داشت. مجموعه قوانین قبل از اینکه قابلاعتماد شود، به طرز انفجاری پیچیده میشد.
این رویکرد رباتهای صنعتی قابلاعتمادی برای محیطهای ساختاریافته تولید کرد—خطوط جوشکاری، سلولهای برداشتن و قرار دادن، سیستمهای نقاله—اما نمیتوانست تعمیم دهد. همان بازو را به زمینهای متفاوت ببرید، نور را تغییر دهید، شکل شیء جدیدی معرفی کنید، و عملکرد بلافاصله فرو میریخت.
شکاف بین آنچه رباتها میتوانستند انجام دهند و آنچه محققان آرزویش را داشتند، به طور سرسختی گسترده باقی ماند. سپس، حدود سال ۲۰۱۵، روششناسی تغییر کرد.
به گفته بررسی عمیق MIT Technology Review از تاریخ معاصر یادگیری ربات، تغییر محوری حرکت از رمزگذاری قوانین به آزمون و خطای دادهمحور بود—و سپس، پس از ۲۰۲۲، به مدلهای بنیادین هوش مصنوعی که از دادههای مقیاس اینترنت یاد میگرفتند، نه فقط شبیهسازیهای دستساز.
از قوانین تا یادگیری تقویتی: عصر شبیهسازی
حدود سال ۲۰۱۵، آزمایشگاههای برجسته رباتیک شروع به جایگزینی قوانین دستنویس با یادگیری تقویتی (RL) کردند—روش آموزشی که در آن یک عامل هوش مصنوعی برای اقدامات موفق سیگنال پاداش و برای شکستها سیگنال جریمه دریافت میکند، سپس میلیونها بار تکرار میکند تا استراتژیهای خود را کشف کند.
پروژه Dactyl شرکت OpenAI، یک دست رباتیک پنجانگشتی که کاملاً در شبیهسازی آموزش دیده بود، هم قدرت و هم محدودیت اصلی این رویکرد را نشان داد. Dactyl یاد گرفت مکعبهای کوچک را با تمرین در محیطهای دیجیتال—اساساً یک موتور فیزیک مجازی—دستکاری کند، قبل از اینکه روی سختافزار واقعی مستقر شود. مشکل: حتی اختلافات جزئی بین دنیای شبیهسازیشده و واقعیت فیزیکی باعث کاهش شدید عملکرد میشد.
راهحل مهندسی تصادفیسازی دامنه بود—معرفی عمدی تنوع تصادفی در میلیونها محیط آموزشی شبیهسازیشده. ضرایب اصطکاک، شرایط نوری، رنگ اشیاء و بافت سطوح همه به طور تصادفی تغییر میکردند تا سیاست آموزشدیده به اندازه کافی مقاوم باشد تا بینظمی دنیای واقعی را تحمل کند. این تکنیک به اندازه کافی خوب کار کرد که Dactyl در نهایت مکعب روبیک را حل کرد—البته فقط ۶۰٪ مواقع در ترکیبهای استاندارد، و به ۲۰٪ در پیکربندیهای سختتر کاهش یافت.
این اعداد برای درک موقعیت این حوزه در آن زمان مهم هستند. RL آموزشدیده در شبیهسازی مهارت دستکاری واقعاً چشمگیری ایجاد کرد، اما قابلیت اطمینان برای استقرار تجاری ناکافی بود. OpenAI بخش رباتیک خود را در سال ۲۰۲۱ تعطیل کرد، که نشاندهنده سقفی بود که این تکنیک به آن رسیده بود.
شکاف شبیهسازی به واقعیت: چالشهای فنی کلیدی
| چالش | توضیح | کاهش اثر |
|---|---|---|
| عدم تطابق بصری | رنگها و بافتها با شبیهسازی متفاوتند | تصادفیسازی دامنه |
| خواص فیزیکی | اصطکاک، تغییر شکل به طور کامل مدلنشده | پارامترهای فیزیکی تصادفی |
| نویز سنسور | سنسورهای واقعی تأخیر و خطا ایجاد میکنند | تزریق نویز در آموزش |
| سایش مکانیکی | محرکها در طول زمان تخریب میشوند | با شبیهسازی به واقعیت به تنهایی حل نشده |
چگونه مدلهای بنیادین به رباتها فهم عقلانی دادند
ظهور مدلهای زبانی بزرگ، رباتیک را عمیقتر از هر پیشرفت سختافزاری دهه گذشته تغییر داد. بینش کلیدی معماری بود: LLMها با پیشبینی اینکه چه توکنی (کلمه، زیرواژه یا کاراکتر) بعد از یک دنباله میآید یاد میگیرند، و با مصرف مجموعههای عظیم متنی، بازنماییهای داخلی غنی از زبان و دانش جهان میسازند. رباتیکها یک سؤال بدیهی اما تحولآفرین پرسیدند—آیا میتوان از همان معماری استفاده کرد اگر توکنها به جای کلمات، خوانش سنسورها، فریمهای دوربین و موقعیت مفاصل باشند؟
پاسخ Google DeepMind RT-1 و جانشین آن RT-2 (Robotic Transformer) بود. RT-1 روی ۱۷ ماه داده تلهاپراسیون شامل ۷۰۰ وظیفه مجزا آموزش دید، نمای دوربین ربات و حالت مفاصل بازو را به عنوان ورودی دریافت و فرمانهای حرکتی موتورها را به عنوان خروجی تولید میکرد. در وظایفی که در حین آموزش دیده بود، به ۹۷٪ موفقیت دست یافت. در دستورالعملهای کاملاً جدید، هنوز ۷۶٪ را مدیریت کرد—پیشرفت چشمگیری نسبت به هر چیزی که رویکردهای صرفاً شبیهسازی به دست آورده بودند.
RT-2 با گنجاندن دادههای تصویری و متنی مقیاس اینترنت قدم فراتر گذاشت و به ربات نوعی فهم عقلانی مبتنی بر دنیای بصری گستردهتر داد، نه فقط آزمایشگاه رباتیک. این جهش مفهومی کلیدی است: به جای برنامهنویسی رباتها با قوانین، یا آموزش آنها صرفاً بر روی دادههای خاص رباتیک، محققان کشف کردند که دانش عمومی جهان—از نوعی که در مدلهای بینایی-زبانی در طول پیشآموزش مقیاس وب پخته میشود—به طور شگفتآوری به وظایف دستکاری فیزیکی منتقل میشود.
پیامد عملی قابلتوجه است. رباتی که میلیونها تصویر از آشپزخانهها، کشوها و فنجانها را در طول پیشآموزش دیده است، با زمینهای مفهومی میرسد که سیستمهای مبتنی بر قانون هرگز نمیتوانستند کسب کنند. مطمئن نیست که انسان کدام فنجان را میخواهد، اما یک پیشفرض منطقی دارد. آن پیشفرض به طور چشمگیری میزان دادههای آموزشی خاص ربات مورد نیاز برای رسیدن به سطوح عملکرد مفید را کاهش میدهد.
محدودیتهایی که هنوز صنعت را عقب نگه داشتهاند
هیجان فعلی واقعی است، اما ارزش دارد که نقشه آنچه واقعاً حلنشده باقی مانده را ترسیم کنیم. مدلهای بنیادین برای رباتیک با مشکل دادهای مواجهند که به همان شکل برای مدلهای زبانی وجود ندارد. دادههای متنی فراوان، ارزان و به راحتی از وب جمعآوری میشوند. دادههای نمایش ربات با کیفیت بالا—متنوع، مبتنی بر فیزیک و با برچسب دقیق—جمعآوری آنها پرهزینه، وابسته به سختافزار و انتقال بین مورفولوژیهای مختلف ربات دشوار است.
رباتهای اجتماعی اولیه محدودیت متفاوتی را نشان میدهند: توانایی بدون قابلیت اطمینان. Jibo، ربات اجتماعی خانگی ساخته MIT که ۳.۷ میلیون دلار از طریق جمعسپاری جمعآوری کرد و با قیمت ۷۴۹ دلار فروخته شد، چشمانداز قانعکنندهای داشت اما در نهایت توسط فناوری زبان پیش از LLM دوران خود تضعیف شد. مکالمات آن بر اساس تکههای پاسخ اسکریپتشده بود که به سرعت تکراری و سطحی به نظر میرسیدند. هوش مصنوعی صوتی امروز میتوانست آنچه Jibo میتوانست باشد را متحول کند—اما نسل جدید اسباببازیهای مجهز به هوش مصنوعی خطر معکوس را معرفی میکند. سیستمهای اسکریپتشده نمیتوانستند از مسیر خارج شوند؛ سیستمهای هوش مصنوعی مولد قطعاً میتوانند، همانطور که موارد مستند از همراهان هوش مصنوعی که به کودکان راهنمایی خطرناک دادهاند نشان داده است.
این حوزه یک مجموعه از محدودیتها (سفتی، شکنندگی) را با مجموعه دیگری (غیرقابلپیشبینیبودن، عدم قطعیت ایمنی) مبادله کرده است. هیچکدام از مشکلات کاملاً حل نشده است. آنچه تغییر کرده این است که مسیر بهبود اکنون به طور قابلاندازهگیری تندتر است.
این برای خریداران رباتیک و بازار سختافزار چه معنایی دارد
انقلاب یادگیری هوش مصنوعی فقط یک داستان آکادمیک نیست—در حال حاضر ارزشگذاری سختافزار را به روشهایی تغییر میدهد که همین الان برای خریداران و اپراتورها مهم است.
رباتهایی که قابلیتهایشان به برنامه اصلی آنها محدود بود، در بازار فعلی به سرعت مستهلک میشوند. بازوهای صنعتی نسل دوم با برنامههای حرکتی ثابت ارزش فروش مجدد declining دارند زیرا خریداران به طور فزایندهای انتظار تطبیقپذیری دارند. در همین حال، پلتفرمهای سختافزاری که برای اجرای نرمافزار مبتنی بر یادگیری طراحی شدهاند—با محاسبات قابلدسترس، APIهای باز و بارهای سنسوری کافی—ارزش خود را محکمتر حفظ میکنند.
برای خریدارانی که امروز خرید را ارزیابی میکنند، چندین پیامد برجسته است:
- قابلیت گسترش پلتفرم به اندازه توانایی فعلی مهم است. یک ربات همکار که ML مدرن را به صورت محلی اجرا میکند، عمر مفید طولانیتری نسبت به رباتی که به محیطهای برنامهنویسی اختصاصی فروشنده قفل شده است خواهد داشت.
- قیمتگذاری سختافزار دست دوم منعکسکننده آمادگی هوش مصنوعی است. رباتهای پلتفرمهایی که بهروزرسانیهای نرمافزاری عمده مبتنی بر یادگیری دریافت کردهاند ارزش خود را حفظ میکنند؛ آنهایی که توسط تولیدکنندگانشان رها شدهاند با تخفیف قابلتوجهی در حال فروش هستند.
- زیرساخت داده تمایزدهنده جدید است. خریدارانی که واحدهای متعدد مستقر میکنند باید از روز اول برای جمعآوری دادههای تلهاپراسیون برنامهریزی کنند—آن دادههای نمایشی به مجموعه آموزشی برای عملکرد بهبودیافته تبدیل میشوند.
برای اپراتورهایی که استقرار سطح ورودی را در نظر دارند، بازار فعلی رباتهای صنعتی دست دوم دسترسی به سختافزار توانمند با هزینه کاهشیافته ارائه میدهد، اگرچه خریداران باید نقشه راه بهروزرسانی نرمافزار را با دقت ارزیابی کنند. به طور مشابه، رده رباتهای همکار در حال رشد به دلیل زمینههای عملیاتی ذاتاً انعطافپذیر و نزدیک به انسان، موقعیت خوبی برای بهرهمندی از استقرار مدل بنیادین دارد.
سوالات متداول
علت افزایش اخیر سرمایهگذاری در رباتهای انساننما چه بود؟
محرک اصلی بلوغ مدلهای بنیادین هوش مصنوعی بود—به طور خاص، کشف اینکه مدلهای بینایی-زبانی آموزشدیده روی دادههای مقیاس اینترنت میتوانند برای تولید فرمانهای حرکتی ربات با تعمیمپذیری بسیار بیشتر از رویکردهای قبلی مبتنی بر قانون یا صرفاً شبیهسازی تطبیق داده شوند. سرمایهگذاری پس از آنکه تحقیقات نشان داد مدلهایی مانند RT-2 میتوانند وظایف جدید را بدون آموزش خاص وظیفه انجام دهند، افزایش یافت و مسیری قابلباور به سمت رباتهای همهمنظوره باز کرد. ارقام اخیر نشان میدهد سرمایهگذاری سال به سال چهار برابر شده و به ۶.۱ میلیارد دلار رسیده است.
تصادفیسازی دامنه در رباتیک چیست و چرا اهمیت دارد؟
تصادفیسازی دامنه یک تکنیک آموزش شبیهسازی است که در آن هزاران محیط مجازی کمی متفاوت در طول آموزش تولید میشود—نور، اصطکاک، رنگ اشیاء و پارامترهای فیزیکی به طور تصادفی تغییر میکنند. این شکاف شبیهسازی به واقعیت را برطرف میکند (کاهش عملکرد زمانی که سیاستهای آموزشدیده در شبیهسازی روی سختافزار فیزیکی اجرا میشوند) با وادار کردن سیاست یادگرفتهشده به مقاوم بودن در برابر بسیاری از پیکربندیهای ممکن جهان. Dactyl از این رویکرد برای دستیابی به حل مکعب روبیک با یک دست رباتیک استفاده کرد، اگرچه نرخ موفقیت در سطح دشواری استاندارد ۶۰٪ باقی ماند.
مدلهای بنیادین برای رباتیک چه تفاوتی با LLMهای استاندارد دارند؟
مدلهای زبانی بزرگ استاندارد توکنهای متنی را هم به عنوان ورودی و هم خروجی پردازش میکنند. مدلهای بنیادین رباتیک این معماری را گسترش میدهند تا فریمهای دوربین، خوانش سنسورهای عمق و موقعیت مفاصل ربات را به عنوان توکنهای ورودی اضافی و فرمانهای سرعت موتور را به عنوان توکنهای خروجی در نظر بگیرند. وظیفه پیشبینی اصلی—"بعدی چیست با توجه به زمینه قبلی؟"—از نظر ساختاری مشابه باقی میماند. مزیت حیاتی این است که پیشآموزش روی دادههای بصری و زبانی مقیاس اینترنت به این مدلها دانش جهان و فهم عقلانی میدهد که دادههای صرفاً نمایش ربات نمیتوانند به طور کارآمد فراهم کنند.
آیا رباتهای تطبیقپذیر با هوش مصنوعی، رباتهای قدیمی با برنامه ثابت را به سرعت منسوخ خواهند کرد؟
نه بلافاصله. رباتهای صنعتی برنامه ثابت برای کارهای پرحجم با تنوع کم مانند جوشکاری و پرسکاری که تطبیقپذیری هیچ ارزشی ندارد، همچنان بسیار مقرونبهصرفه هستند. فشار منسوخشدن در لجستیک با SKU مخلوط، مونتاژ سبک و محیطهای خدماتی که تنوع وظیفه ذاتی است بالاترین است. خریداران باید قبل از فرض اینکه پلتفرمهای جدیدتر مجهز به هوش مصنوعی قیمت بالاتر را توجیه میکنند، ارزیابی کنند که آیا نمایه وظیفه خاص آنها واقعاً از تطبیقپذیری بهره میبرد یا خیر.
مشکلات اصلی حلنشده در یادگیری ربات امروز چیست؟
سه چالش همچنان مهم هستند: (۱) هزینه بالا و در دسترس بودن محدود دادههای نمایش ربات متنوع در مقایسه با دادههای متنی برای مدلهای زبانی؛ (۲) غیرقابلپیشبینیبودن ایمنی سیستمهای هوش مصنوعی مولد مستقر در محیطهای فیزیکی، به ویژه آنهایی که با جمعیتهای آسیبپذیر تعامل دارند؛ و (۳) دستکاری ماهرانه قابلاعتماد—وظایف حرکتی ظریف مانند نخ کردن کابلها یا جابجایی مواد تغییرپذیر هنوز اکثر سیستمهای فعلی را در شرایط واقعی به جای محیطهای آزمایشگاهی کنترلشده شکست میدهند.
انقلاب یادگیری ربات واقعی است، اما تمام نشده است. مدلهای بنیادین سقفی را که سیستمهای مبتنی بر قانون تحمیل کرده بودند شکستهاند و ارقام سرمایهگذاری منعکسکننده پیشرفت فنی واقعی است نه صرفاً حدس و گمان. شکاف بین رباتهای علمی-تخیلی و سختافزار قابلاستقرار در سه سال گذشته بیش از سه دهه قبل کاهش یافته است.
محدودیت بعدی الگوریتمی نیست. داده، اعتبارسنجی ایمنی و قابلیت اطمینان سختافزار در مقیاس است—مشکلات مهندسی سختی که بودجه به تنهایی نمیتواند فراتر از یک سرعت خاص آنها را تسریع کند.
به نظر شما کدام رویکرد یادگیری ربات—یادگیری تقویتی، مدلهای بنیادین، یا داده تلهاپراسیون—تعیین میکند که چه کسی در رقابت رباتهای انساننما برنده میشود؟










به بحث بپیوندید
Which robot learning approach — RL, foundation models, or teleoperation data — will determine who wins the humanoid race?