ثورة تعلم الذكاء الاصطناعي التي تغذي طفرة الروبوتات البشرية

ثورة تعلم الذكاء الاصطناعي التي تغذي طفرة الروبوتات البشرية

طفرة استثمارية بقيمة 6.1 مليار دولار في الروبوتات البشرية تعود مباشرة إلى اختراقات تعلم الذكاء الاصطناعي — من التعلم المعزز بالمحاكاة إلى النماذج الأساسية.

10 min readApr 24, 2026

ضخ المستثمرون 6.1 مليار دولار في الروبوتات البشرية في عام واحد فقط مؤخرًا — أربعة أضعاف إجمالي العام السابق. لم تأتِ هذه الطفرة الرأسمالية من محركات أفضل أو مشغلات أرخص. بل جاءت من اختراق أساسي في كيفية تعلم الروبوتات، وهو اختراق تراكم بهدوء منذ عام 2015، وأصبح الآن الروبوت الخيال العلمي هدفًا هندسيًا ممكنًا.



لماذا غيّر تعلم الروبوتات كل شيء بعد 2015

في معظم تاريخ الروبوتات، كان الذكاء يعني القواعد — آلاف التعليمات المكتوبة يدويًا من قبل المهندسين لتغطية كل موقف ممكن. كان ذراع الروبوت الذي يطوي الملابس يحتاج إلى منطق صريح لاتجاه الكم، صلابة القماش، اكتشاف الياقة، وعشرات الحالات الحدودية. كانت مجموعة القواعد تنفجر في التعقيد قبل أن تصبح موثوقة على الإطلاق.

أنتج هذا النهج روبوتات صناعية موثوقة للبيئات المنظمة — خطوط اللحام، خلايا الالتقاط والوضع، أنظمة النقل — لكنه لم يستطع التعميم. انقل نفس الذراع إلى سياق مختلف، غيّر الإضاءة، أدخل شكل جسم جديد، وانهار الأداء فورًا.

ظلت الفجوة بين ما يمكن للروبوتات فعله وما حلم الباحثون أن تفعله واسعة بعناد. ثم، حوالي عام 2015، تحولت المنهجية.

وفقًا لتقرير MIT Technology Review المتعمق حول التاريخ المعاصر لتعلم الروبوتات، كان التغيير المحوري هو الانتقال من ترميز القواعد إلى التجربة والخطأ القائمين على البيانات — ثم، بعد عام 2022، إلى النماذج الأساسية للذكاء الاصطناعي التي تعلمت من بيانات على نطاق الإنترنت بدلاً من المحاكاة المصنوعة يدويًا وحدها.


من القواعد إلى التعزيز: عصر المحاكاة

حوالي عام 2015، بدأت مختبرات الروبوتات الرائدة في استبدال القواعد المكتوبة يدويًا بـ التعلم المعزز (RL) — طريقة تدريب حيث يتلقى وكيل الذكاء الاصطناعي إشارات مكافأة للإجراءات الناجحة وإشارات عقاب للإخفاقات، ثم يكرر الملايين من المرات لاكتشاف استراتيجياته الخاصة.

أظهر مشروع Dactyl من OpenAI، وهو يد روبوتية بخمسة أصابع تم تدريبها بالكامل في المحاكاة، كلاً من القوة والقيود الأساسية لهذا النهج. تعلم Dactyl التعامل مع مكعبات صغيرة عن طريق التدريب داخل بيئات رقمية — محرك فيزياء افتراضي بشكل أساسي — قبل نشره على أجهزة حقيقية. المشكلة: حتى الاختلافات الطفيفة بين العالم المحاكي والواقع المادي تسببت في تدهور حاد في الأداء.

كان الحل الهندسي هو العشوائية النطاقية — إدخال تنوع عشوائي عمدًا عبر ملايين بيئات التدريب المحاكاة. تم تغيير معاملات الاحتكاك، ظروف الإضاءة، ألوان الأشياء، وقوام السطح بشكل عشوائي بحيث تكون السياسة المدربة قوية بما يكفي للتعامل مع فوضى العالم الحقيقي. عملت التقنية بشكل جيد بما يكفي لدرجة أن Dactyl حل في النهاية مكعبات روبيك — على الرغم من أن ذلك كان 60٪ فقط من الوقت على الخلطات القياسية، لينخفض إلى 20٪ على التكوينات الأكثر صعوبة.

تلك الأرقام مهمة لفهم أين كانت المجال في ذلك الوقت. أنتج التعلم المعزز القائم على المحاكاة براعة مثيرة للإعجاب حقًا، لكن الموثوقية كانت غير كافية للنشر التجاري. أغلقت OpenAI قسم الروبوتات الخاص بها في عام 2021، مما يعكس السقف الذي وصلت إليه التقنية.

فجوة المحاكاة إلى الواقع: التحديات التقنية الرئيسية

التحديالوصفالتخفيف المستخدم
عدم تطابق بصريألوان وقوام تختلف عن المحاكاةالعشوائية النطاقية
الخصائص الفيزيائيةالاحتكاك والتشوه لا يتم نمذجته بشكل مثاليمعلمات فيزيائية عشوائية
ضوضاء المستشعرالمستشعرات الحقيقية تُدخل زمن انتقال وأخطاءحقن الضوضاء في التدريب
التآكل الميكانيكيتدهور المشغلات بمرور الوقتلم يتم حله بواسطة sim-to-real وحده

كيف منحت النماذج الأساسية الروبوتات المنطق السليم

غيّر ظهور نماذج اللغة الكبيرة الروبوتات بشكل أعمق من أي تقدم في الأجهزة خلال العقد الماضي. كانت الرؤية الرئيسية معمارية: تتعلم نماذج اللغة الكبيرة (LLMs) عن طريق توقع الرمز (كلمة، أو جزء كلمة، أو حرف) التالي في تسلسل، وابتلاع مجموعات ضخمة من النصوص لبناء تمثيلات داخلية غنية للغة والمعرفة العالمية. سأل علماء الروبوتات سؤالاً واضحًا لكنه تحويلي — هل يمكن لنفس البنية أن تعمل إذا كانت الرموز عبارة عن قراءات مستشعرات، وإطارات كاميرا، ومواضع مفاصل بدلاً من الكلمات؟

كانت إجابة Google DeepMind هي RT-1 وخليفتها RT-2 (المحول الروبوتي). تم تدريب RT-1 على 17 شهرًا من بيانات التشغيل عن بعد تغطي 700 مهمة متميزة، حيث استقبل صور كاميرا الروبوت وحالات مفاصل الذراع كمدخلات وأنتج أوامر حركة المحرك كمخرجات. على المهام التي رآها أثناء التدريب، حقق 97٪ نجاحًا. على التعليمات الجديدة تمامًا، حقق 76٪ — تحسنًا كبيرًا عن أي شيء حققته الأساليب القائمة على المحاكاة فقط.

ذهب RT-2 إلى أبعد من ذلك من خلال دمج بيانات الصور والنصوص على نطاق الإنترنت، مما منح الروبوت شكلاً من المنطق السليم المستند إلى العالم البصري الأوسع بدلاً من مختبر الروبوتات فقط. هذه هي القفزة المفاهيمية الرئيسية: بدلاً من برمجة الروبوتات بقواعد، أو تدريبها فقط على بيانات خاصة بالروبوتات، اكتشف الباحثون أن المعرفة العالمية العامة — تلك المضمنة في نماذج الرؤية واللغة أثناء التدريب المسبق على نطاق الويب — انتقلت بشكل مدهش إلى مهام التلاعب الفيزيائي.

الآثار العملية كبيرة. الروبوت الذي شاهد ملايين الصور للمطابخ والأدراج والأكواب أثناء التدريب المسبق يصل بفهم سياقي لا يمكن للأنظمة القائمة على القواعد اكتسابه أبدًا. ليس من المؤكد أي كوب يريده الإنسان، لكن لديه معرفة مسبقة معقولة. هذه المعرفة المسبقة تقلل بشكل كبير من كمية بيانات التدريب الخاصة بالروبوت المطلوبة للوصول إلى مستويات أداء مفيدة.


القيود التي لا تزال تعيق الصناعة

الحماس الحالي حقيقي، لكن من الجدير تحديد ما لا يزال غير محلول حقًا. تواجه النماذج الأساسية للروبوتات مشكلة بيانات غير موجودة لنماذج اللغة بنفس الشكل. بيانات النصوص وفيرة ورخيصة ويمكن جمعها بسهولة من الويب. بيانات العرض التوضيحي عالية الجودة للروبوتات — متنوعة، قائمة على الفيزياء، ومُوسومة بدقة — باهظة الثمن في جمعها، وتعتمد على الأجهزة، ويصعب نقلها بين هياكل الروبوتات المختلفة.

توضح الروبوتات الاجتماعية المبكرة قيدًا مختلفًا: القدرة دون الموثوقية. Jibo، الروبوت الاجتماعي المنزلي الذي طورته MIT وجمع 3.7 مليون دولار من التمويل الجماعي وباع بالتجزئة مقابل 749 دولارًا، كانت لديه رؤية مقنعة لكنها قوضت في النهاية بتقنية اللغة قبل LLM في عصره. اعتمدت محادثاته على مقتطفات استجابة مكتوبة شعرت بسرعة بالتكرار والسطحية. كان الذكاء الاصطناعي الصوتي اليوم سيحول ما كان يمكن أن يكون عليه Jibo — لكن الجيل الجديد من الألعاب التي تعمل بالذكاء الاصطناعي يقدم المخاطر المعاكسة. الأنظمة المكتوبة لم تكن قادرة على الخروج عن النص؛ أنظمة الذكاء الاصطناعي التوليدية يمكنها ذلك بالتأكيد، كما أظهرت حالات موثقة لرفقاء الذكاء الاصطناعي يقدمون إرشادات خطيرة للأطفال.

لقد استبدل المجال مجموعة من القيود (الصلابة، الهشاشة) بمجموعة أخرى (عدم القدرة على التنبؤ، عدم اليقين في السلامة). لم يتم حل أي من المشكلتين بالكامل. ما تغير هو أن مسار التحسن أصبح الآن أكثر حدة بشكل ملحوظ.


ماذا يعني هذا لمشتري الروبوتات وسوق الأجهزة

ثورة تعلم الذكاء الاصطناعي ليست مجرد قصة أكاديمية — إنها تعيد بالفعل تشكيل تقييمات الأجهزة بطرق تهم المشترين والمشغلين الآن.

الروبوتات التي كانت قدراتها محصورة في برمجتها الأصلية تنخفض قيمتها بسرعة في السوق الحالي. الأذرع الصناعية من الجيل الثاني ذات برامج الحركة الثابتة تشهد انخفاضًا في قيمة إعادة البيع حيث يتوقع المشترون بشكل متزايد القدرة على التكيف. في الوقت نفسه، تحتفظ منصات الأجهزة المصممة لتشغيل البرامج القائمة على التعلم — مع قدرة حاسوبية قابلة للوصول، وواجهات برمجة تطبيقات مفتوحة، وأحمال مستشعرات كافية — بقيمتها بشكل أكثر قوة.

بالنسبة للمشترين الذين يقيّمون عمليات الشراء اليوم، تبرز العديد من الآثار:

  • قابلية توسعة المنصة لا تقل أهمية عن القدرة الحالية. سيكون للروبوت التعاوني الذي يدير استدلال التعلم الآلي الحديث محليًا عمرًا أطول من ذلك المغلق في بيئات برمجة خاصة بالبائع.
  • تسعير الأجهزة المستعملة يعكس الجاهزية للذكاء الاصطناعي. الروبوتات من المنصات التي تلقت تحديثات برمجية رئيسية قائمة على التعلم تحتفظ بقيمتها؛ تلك التي تخلفت عنها الشركات المصنعة تُباع بخصومات كبيرة.
  • البنية التحتية للبيانات هي عامل التمايز الجديد. يجب على المشترين الذين ينشرون وحدات متعددة التخطيط لجمع بيانات التشغيل عن بعد من اليوم الأول — تصبح بيانات العرض التوضيحي هذه مجموعة التدريب لتحسين الأداء.

بالنسبة للمشغلين الذين يفكرون في النشر على المستوى المبتدئ، يوفر سوق الروبوتات الصناعية المستعملة الحالي الوصول إلى أجهزة قادرة بتكلفة مخفضة، على الرغم من أن المشترين يجب عليهم تقييم خرائط طريق تحديث البرامج بعناية. وبالمثل، فإن فئة الروبوتات التعاونية المتنامية في وضع جيد بشكل خاص للاستفادة من نشر النموذج الأساسي، نظرًا لبيئات التشغيل المرنة والقريبة من البشر بطبيعتها.


الأسئلة الشائعة

ما سبب الطفرة الأخيرة في الاستثمار في الروبوتات البشرية؟

كان الدافع الرئيسي هو نضوج النماذج الأساسية للذكاء الاصطناعي — وتحديدًا اكتشاف أن نماذج الرؤية واللغة المدربة على بيانات على نطاق الإنترنت يمكن تكييفها لتوليد أوامر حركة الروبوت بقدرة تعميم أكبر بكثير من الأساليب السابقة القائمة على القواعد أو المحاكاة فقط. قفز الاستثمار بعد أن أظهرت الأبحاث أن نماذج مثل RT-2 يمكنها أداء مهام جديدة دون تدريب خاص بالمهمة، مما يفتح مسارًا موثوقًا للروبوتات متعددة الأغراض. تُظهر الأرقام الأخيرة أن الاستثمار تضاعف أربع مرات مقارنة بالعام السابق، ليصل إلى 6.1 مليار دولار.

ما هي العشوائية النطاقية في الروبوتات ولماذا هي مهمة؟

العشوائية النطاقية هي تقنية تدريب محاكاة حيث يتم إنشاء آلاف البيئات الافتراضية المختلفة قليلاً أثناء التدريب — مع تغيير الإضاءة والاحتكاك وألوان الأشياء والمعلمات الفيزيائية عشوائيًا. تعالج فجوة المحاكاة إلى الواقع (تدهور الأداء عند تشغيل السياسات المدربة في المحاكاة على أجهزة مادية) عن طريق إجبار السياسة المتعلمة على أن تكون قوية عبر العديد من تكوينات العالم الممكنة. استخدم Dactyl من OpenAI هذا النهج لحل مكعبات روبيك بيد روبوتية، على الرغم من أن معدلات النجاح استقرت عند 60٪ لمستويات الصعوبة القياسية.

كيف تختلف النماذج الأساسية للروبوتات عن LLMs القياسية؟

تعالج نماذج اللغة الكبيرة القياسية رموز النصوص كمدخلات ومخرجات. توسع النماذج الأساسية للروبوتات هذه البنية لتعامل إطارات الكاميرا، وقراءات مستشعرات العمق، ومواضع مفاصل الروبوت كرموز إضافية للمدخلات، وأوامر سرعة المحرك كمخرجات. تظل مهمة التنبؤ الأساسية — "ما التالي بالنظر إلى السياق السابق؟" — متشابهة هيكليًا. الميزة الحاسمة هي أن التدريب المسبق على البيانات البصرية واللغوية على نطاق الإنترنت يمنح هذه النماذج معرفة عالمية ومنطقًا سليمًا لا يمكن لبيانات العرض التوضيحي للروبوتات البحتة توفيره بكفاءة.

هل ستجعل الروبوتات المتكيفة مع الذكاء الاصطناعي الروبوتات القديمة ذات البرامج الثابتة قديمة بسرعة؟

ليس فورًا. لا تزال الروبوتات الصناعية ذات البرامج الثابتة فعالة من حيث التكلفة بشكل كبير للمهام عالية الحجم ومنخفضة التباين مثل اللحام والختم، حيث لا توفر القدرة على التكيف أي قيمة. يكون ضغط التقادم الأعلى في لوجستيات SKU المختلطة، والتجميع الخفيف، وبيئات الخدمة حيث يكون تباين المهام متأصلًا. يجب على المشترين تقييم ما إذا كان ملف المهام الخاص بهم يستفيد بالفعل من القدرة على التكيف قبل افتراض أن منصات الذكاء الاصطناعي الأحدث تبرر علاوة السعر على الأجهزة القديمة المثبتة.

ما هي المشكلات الرئيسية غير المحلولة في تعلم الروبوتات اليوم؟

لا تزال ثلاثة تحديات كبيرة: (1) التكلفة العالية والتوفر المحدود لبيانات العرض التوضيحي المتنوعة للروبوتات مقارنة ببيانات النص لنماذج اللغة؛ (2) عدم القدرة على التنبؤ بالسلامة لأنظمة الذكاء الاصطناعي التوليدية المنشورة في بيئات مادية، خاصة تلك التي تتفاعل مع السكان الضعفاء؛ و(3) التلاعب الماهر الموثوق — المهام الحركية الدقيقة مثل ربط الكابلات أو التعامل مع المواد القابلة للتشكيل لا تزال تهزم معظم الأنظمة الحالية في ظروف العالم الحقيقي بدلاً من الظروف المخبرية الخاضعة للرقابة.


ثورة تعلم الروبوتات حقيقية، لكنها لم تكتمل. حطمت النماذج الأساسية السقف الذي فرضته الأنظمة القائمة على القواعد، وتعكس أرقام الاستثمار تقدمًا تكنولوجيًا حقيقيًا بدلاً من المضاربة البحتة. تضيقت الفجوة بين روبوتات الخيال العلمي والأجهزة القابلة للتطبيق في السنوات الثلاث الماضية أكثر مما كانت عليه في العقود الثلاثة السابقة.

القيود التالية ليست خوارزمية. إنها البيانات، والتحقق من السلامة، وموثوقية الأجهزة على نطاق واسع — مشاكل الهندسة الصعبة التي لا يمكن للتمويل وحده تسريعها بعد سرعة معينة.

أي نهج من تعلم الروبوتات — التعلم المعزز، النماذج الأساسية، أو بيانات التشغيل عن بعد — تعتقد أنه سيحدد من سيفوز في سباق الروبوتات البشرية؟

مقالات ذات صلة

انضم إلى النقاش

Which robot learning approach — RL, foundation models, or teleoperation data — will determine who wins the humanoid race?

مزيد من المقالات

🍪 🍪 تفضيلات ملفات تعريف الارتباط

نستخدم ملفات تعريف الارتباط لقياس الأداء. سياسة الخصوصية