Revoluce v učení AI, která pohání boom humanoidních robotů

Revoluce v učení AI, která pohání boom humanoidních robotů

Investice 6,1 miliardy dolarů do humanoidních robotů přímo souvisí s průlomy v AI učení – od RL trénovaného v simulaci po foundation modely z internetových dat.

9 min readApr 24, 2026

Investoři v jediném nedávném roce nalili do humanoidních robotů 6,1 miliardy dolarů – což je čtyřnásobek oproti předchozímu roku. Tento kapitálový příval nezpůsobily lepší motory ani levnější akční členy. Stojí za ním zásadní průlom v tom, jak se roboti učí – průlom, který se tiše budoval od roku 2015 a nyní učinil z vědeckofantastického robota reálný inženýrský cíl.



Proč se učení robotů po roce 2015 změnilo

Po většinu historie robotiky znamenala inteligence pravidla – tisíce ručně napsaných instrukcí od inženýrů pokrývajících každou předvídatelnou situaci. Rameno robota skládajícího prádlo potřebovalo explicitní logiku pro orientaci rukávu, tuhost látky, detekci límce a desítky okrajových případů. Sada pravidel explodovala složitostí dříve, než se vůbec stala spolehlivou.

Tento přístup produkoval spolehlivé průmyslové roboty pro strukturovaná prostředí – svařovací linky, pick-and-place buňky, dopravníkové systémy – ale nedokázal generalizovat. Přesuňte stejné rameno do jiného kontextu, změňte osvětlení, přidejte nový tvar objektu a výkon se okamžitě zhroutil.

Propast mezi tím, co roboti dokázali a o čem vědci snili, zůstávala tvrdošíjně široká. Pak, kolem roku 2015, se metodologie posunula.

Podle hloubkové analýzy MIT Technology Review o současné historii učení robotů byla klíčovou změnou cesta od kódování pravidel k datově řízenému pokusu a omylu – a po roce 2022 k AI foundation modelům, které se učily z dat v měřítku internetu, nikoli pouze z ručně vytvořených simulací.


Od pravidel k posilování: éra simulací

Kolem roku 2015 začaly přední robotické laboratoře nahrazovat ručně psaná pravidla posilovým učením (RL) – tréninkovou metodou, kde AI agent dostává signály odměny za úspěšné akce a signály trestu za neúspěchy, a pak milionkrát iteruje, aby objevil vlastní strategie.

Projekt OpenAI Dactyl – pětiprstá robotická ruka trénovaná výhradně v simulaci – ukázal sílu i zásadní omezení tohoto přístupu. Dactyl se naučil manipulovat s malými kostkami tréninkem v digitálním prostředí (v podstatě virtuální fyzikální engine) a teprve poté byl nasazen na reálný hardware. Problém: i nepatrné nesrovnalosti mezi simulovaným světem a fyzickou realitou způsobily prudký pokles výkonu.

Inženýrským řešením byla domain randomisation – záměrné zavádění náhodných variací napříč miliony simulovaných tréninkových prostředí. Třecí koeficienty, světelné podmínky, barvy objektů a textury povrchů se náhodně měnily, aby natrénovaná politika byla dostatečně robustní pro neuspořádanost reálného světa. Technika fungovala natolik dobře, že Dactyl dokázal vyřešit Rubikovu kostku – ovšem jen v 60 % případů při standardním zamíchání a při obtížnějších konfiguracích klesl na 20 %.

Tato čísla jsou důležitá pro pochopení tehdejšího stavu oboru. RL trénované v simulaci přineslo skutečně působivou obratnost, ale spolehlivost nestačila pro komerční nasazení. OpenAI v roce 2021 uzavřelo svou robotickou divizi, což odráží strop, na který technika narazila.

Propast mezi simulací a realitou: klíčové technické výzvy

VýzvaPopisPoužité zmírnění
Vizuální nesouladBarvy a textury se liší od simulaceDomain randomisation
Fyzikální vlastnostiTření, deformace nejsou dokonale modeloványNáhodné fyzikální parametry
Šum senzorůReálné senzory vnášejí zpoždění a chybyVnášení šumu do tréninku
Mechanické opotřebeníAkční členy se časem degradujíNevyřešeno samotnou sim-to-real

Jak foundation modely daly robotům selský rozum

Příchod velkých jazykových modelů změnil robotiku hlouběji než jakýkoli hardwarový pokrok posledního desetiletí. Klíčový poznatek byl architektonický: LLM se učí předpovídáním, který token (slovo, podslovo nebo znak) následuje v sekvenci, a zpracovávají obrovská textová korpora k budování bohatých vnitřních reprezentací jazyka a světa. Roboticisté položili zřejmou, ale převratnou otázku – mohla by stejná architektura fungovat, kdyby tokeny byly místo slov snímky senzorů, kamerové snímky a pozice kloubů?

Odpověď Google DeepMind přišla v podobě RT-1 a jeho nástupce RT-2 (Robotic Transformer). RT-1 byl trénován na 17 měsících teleoperačních dat pokrývajících 700 různých úkolů, přičemž na vstupu dostával kamerové snímky a stavy kloubů a na výstupu generoval příkazy motorům. U úkolů, které viděl během tréninku, dosahoval 97% úspěšnosti. U zcela nových instrukcí stále zvládal 76 % – dramatické zlepšení oproti čemukoli, čeho dosáhly čistě simulační přístupy.

RT-2 šel dále tím, že začlenil obrazová a textová data z internetu, čímž robotovi poskytl formu selského rozumu zakořeněného v širším vizuálním světě, nikoli jen v robotické laboratoři. To je klíčový koncepční skok: místo programování robotů pravidly nebo jejich trénování výhradně na roboticky specifických datech vědci zjistili, že obecné znalosti světa – takové, jaké jsou vtištěny do vision-language modelů během webového pretrainingu – se překvapivě dobře přenášejí na úlohy fyzické manipulace.

Praktický dopad je značný. Robot, který při pretrainingu viděl miliony obrázků kuchyní, zásuvek a šálků, přichází s kontextuálním porozuměním, kterého systémy založené na pravidlech nikdy nemohly dosáhnout. Není sice jisté, který šálek člověk chce, ale má rozumnou prioritu. Tato priorita dramaticky snižuje množství roboticky specifických tréninkových dat potřebných k dosažení užitečné úrovně výkonu.


Limity, které stále brzdí průmysl

Současné nadšení je reálné, ale stojí za to zmapovat, co zůstává skutečně nevyřešeno. Foundation modely pro robotiku čelí datovému problému, který u jazykových modelů v této podobě neexistuje. Textová data jsou hojná, levná a snadno získatelná z webu. Kvalitní demonstrační data robotů – rozmanitá, fyzicky ukotvená a přesně označená – jsou drahá na sběr, závislá na hardwaru a obtížně přenositelná mezi různými morfologiemi robotů.

Raní sociální roboti ilustrují jiné omezení: schopnost bez spolehlivosti. Jibo, domácí sociální robot vyvinutý na MIT, který získal 3,7 milionu dolarů v crowdfundingu a stál 749 dolarů, měl přesvědčivou vizi, ale nakonec ho podkopala před-LLM jazyková technologie své doby. Jeho konverzace se opíraly o napevno napsané úryvky odpovědí, které brzy působily opakovaně a plytce. Dnešní hlasová AI by proměnila to, čím Jibo mohl být – ale nová generace hraček poháněných AI přináší opačné riziko. Systémy s pevným scénářem nemohly vybočit; generativní AI systémy rozhodně mohou, jak ukazují zdokumentované případy, kdy AI společníci dávali dětem nebezpečné rady.

Obor vyměnil jednu sadu omezení (rigidita, křehkost) za jinou (nepředvídatelnost, bezpečnostní nejistota). Ani jeden problém není plně vyřešen. Změnilo se to, že trajektorie zlepšování je nyní měřitelně strmější.


Co to znamená pro kupující robotů a trh s hardwarem

Revoluce v učení AI není jen akademický příběh – již nyní přetváří ocenění hardwaru způsobem, který je důležitý pro kupující a operátory.

Roboti, jejichž schopnosti byly uzamčeny k původnímu programování, se na současném trhu rychle znehodnocují. Průmyslová ramena druhé generace s pevnými pohybovými programy mají klesající zůstatkovou hodnotu, protože kupující stále více očekávají přizpůsobivost. Naopak hardwarové platformy navržené pro provoz softwaru založeného na učení – s přístupným výpočetním výkonem, otevřenými API a dostatečnou senzorovou výbavou – si udržují hodnotu robustněji.

Pro kupující, kteří dnes zvažují nákup, vyplývá několik důležitých závěrů:

  • Rozšiřitelnost platformy je stejně důležitá jako současné schopnosti. Kobot, který lokálně provozuje moderní ML inferenci, bude mít delší životnost než ten uzamčený do vendor-specifických programovacích prostředí.
  • Ceny použitého hardwaru odrážejí připravenost na AI. Roboty z platforem, které obdržely zásadní softwarové aktualizace založené na učení, si udržují hodnotu; ty, které výrobci opustili, výrazně zlevňují.
  • Datová infrastruktura je novým diferenciátorem. Kupující, kteří nasazují více jednotek, by měli plánovat sběr teleoperačních dat od prvního dne – tato demonstrační data se stanou tréninkovým korpusem pro zlepšení výkonu.

Pro operátory zvažující základní nasazení nabízí současný trh s použitými průmyslovými roboty přístup k schopnému hardwaru za sníženou cenu, i když kupující by měli pečlivě posoudit plány softwarových aktualizací. Podobně rostoucí kategorie kobotů je obzvláště dobře postavena k využití nasazení foundation modelů, vzhledem k jejich přirozeně flexibilním kontextům provozu v blízkosti lidí.


Často kladené otázky

Hlavním hybatelem bylo dozrání AI foundation modelů – konkrétně objev, že vision-language modely trénované na datech z internetu lze přizpůsobit k generování příkazů motorům robotů s mnohem větší generalizací než dřívější přístupy založené na pravidlech nebo pouze na simulacích. Investice prudce vzrostly poté, co výzkum ukázal, že modely jako RT-2 dokážou plnit nové úkoly bez specifického tréninku, čímž otevřely věrohodnou cestu k univerzálním robotům. Nedávná čísla ukazují, že investice se meziročně zčtyřnásobily a dosáhly 6,1 miliardy dolarů.

Co je domain randomisation v robotice a proč je důležitá?

Domain randomisation je simulační tréninková technika, při které se během tréninku generují tisíce mírně odlišných virtuálních prostředí – náhodně se mění osvětlení, tření, barvy objektů a fyzikální parametry. Řeší propast mezi simulací a realitou (pokles výkonu při přechodu natrénovaných politik na fyzický hardware) tím, že nutí naučenou politiku být robustní vůči mnoha možným konfiguracím světa. OpenAI Dactyl použil tento přístup k dosažení řešení Rubikovy kostky robotickou rukou, i když úspěšnost se zastavila na 60 % pro standardní úroveň obtížnosti.

Jak se foundation modely pro robotiku liší od standardních LLM?

Standardní velké jazykové modely zpracovávají textové tokeny jako vstup i výstup. Robotické foundation modely rozšiřují tuto architekturu o zpracování kamerových snímků, hloubkových senzorů a pozic kloubů jako dalších vstupních tokenů a příkazů k rychlosti motorů jako výstupních tokenů. Základní predikční úloha – „co následuje v daném kontextu?“ – zůstává strukturně podobná. Kritickou výhodou je, že pretraining na vizuálních a jazykových datech z internetu poskytuje těmto modelům světové znalosti a selský rozum, které samotná demonstrační data robotů nemohou efektivně poskytnout.

Způsobí roboti adaptabilní díky AI rychlé zastarání starších robotů s pevným programem?

Ne hned. Průmyslové roboty s pevným programem zůstávají vysoce nákladově efektivní pro úkoly s vysokým objemem a nízkou variabilitou, jako je svařování a lisování, kde přizpůsobivost nepřináší žádnou hodnotu. Tlak na zastarávání je nejvyšší v logistice se smíšenými SKU, lehké montáži a servisních prostředích, kde je variabilita úkolů inherentní. Kupující by měli zvážit, zda jejich specifický profil úkolů skutečně těží z přizpůsobivosti, než předpokládají, že novější platformy s AI ospravedlní cenovou prémii oproti osvědčenému staršímu hardwaru.

Jaké jsou hlavní nevyřešené problémy v učení robotů dnes?

Tři výzvy zůstávají významné: (1) vysoké náklady a omezená dostupnost různorodých demonstračních dat robotů oproti textovým datům pro jazykové modely; (2) bezpečnostní nepředvídatelnost generativních AI systémů nasazených ve fyzických prostředích, zejména těch, které interagují se zranitelnými populacemi; a (3) spolehlivá obratná manipulace – jemné motorické úkoly, jako je navlékání kabelů nebo manipulace s deformovatelnými materiály, stále většinu současných systémů porážejí v reálných podmínkách, nikoli v kontrolovaných laboratorních podmínkách.


Revoluce v učení robotů je skutečná, ale není dokončena. Foundation modely prolomily strop, který systémy založené na pravidlech nastavily, a investiční čísla odrážejí skutečný technologický pokrok, nikoli čistou spekulaci. Propast mezi vědeckofantastickými roboty a nasaditelným hardwarem se v posledních třech letech zúžila více než v předchozích třech desetiletích.

Dalším omezením není algoritmus. Jsou to data, bezpečnostní validace a spolehlivost hardwaru ve velkém měřítku – těžké inženýrské problémy, které samotné financování nedokáže urychlit za určitou rychlost.

Který přístup k učení robotů – posilové učení, foundation modely nebo teleoperační data – podle vás rozhodne o tom, kdo vyhraje závod humanoidních robotů?

Související články

Zapojte se do diskuse

Which robot learning approach — RL, foundation models, or teleoperation data — will determine who wins the humanoid race?

Další články

🍪 🍪 Předvolby cookies

Používáme cookies k měření výkonu. Zásady ochrany osobních údajů