自動運転車両やロボットは、ほとんどの組織が実際に活用できる量をはるかに超えるセンサーデータを生成しています。Nomadicは、この問題を解決するために840万ドルのシード資金を調達しました。同社は、深層学習を用いて生のAV(自動運転車両)やロボットの映像を構造化・検索可能なデータセットに変換するインフラ層を構築し、業界全体の自律システム開発のペースを静かに制限するボトルネックに取り組んでいます。
目次
- Nomadicは実際に何をするのか?
- なぜAVとロボットのデータ管理は難しいのか?
- Nomadicの深層学習アプローチはどのように機能するのか?
- これはロボティクスとオートメーションにとって何を意味するのか?
- よくある質問
Nomadicは実際に何をするのか?
Nomadicは、自動運転車両やロボットが取得した生の映像やセンサーデータを、構造化され検索可能なデータセットに変換するデータインフラプラットフォームを構築しています。生の映像をストレージに保存するだけでは、保管コストが高く、検索もほぼ不可能です。Nomadicのシステムは、深層学習モデルを使用してデータにタグを付け、分類し、インデックスを作成することで、エンジニアが必要な情報を実際に見つけられるようにします。
TechCrunchによると、この840万ドルのシードラウンドにより、NomadicはPhysical AIスタック全体のインフラとして位置づけられています。AVプログラムだけでなく、継続的なセンサーストリームを生成し、それをトレーニングシグナルに変換する必要があるあらゆるロボットシステムが対象です。
これは、ラベルのない箱が山積みの倉庫と、完全にインデックス化された在庫管理システムの違いに似ています。映像自体はどちらにせよ存在しますが、運用上有用なのは後者だけです。ただし、このアナロジーは大規模になると崩れます。AVデータの問題は、ラベリングだけではなく、膨大な量と人間によるアノテーションのコスト、そして日常的な映像の何時間もの中に埋もれた安全クリティカルなエッジケースの希少性にあります。
なぜAVとロボットのデータ管理は難しいのか?
1台の自動運転車両は、センサースイート(カメラ、LiDAR、レーダー、IMU)に応じて、1日あたり1~40テラバイトの生センサーデータを生成する可能性があります。10台の小規模なフリートが継続的に稼働すると、ほとんどのエンタープライズデータパイプラインが処理できる量を超えるデータが毎週生成されます。
問題は2つの方向で悪化します。第一に、ペタバイト規模のデータをモデルトレーニング、安全監査、規制レビューのために保持しなければならない場合、ストレージコストが急速に積み上がります。第二に、そしてより重要なことに、そのデータのほとんどは運用上不活性です。つまり、かなりの手動ラベリング作業なしには、クエリ、フィルタリング、表面化ができません。
ロボティクスチームにとって、これは特に厄介なフィードバックループを生み出します。
- フィールドにロボットを展開
- 膨大な量のセンサーデータを収集
- モデル改善に必要な特定の障害シナリオ、エッジケース、ドメイン固有のイベントを抽出するのに苦労
- トレーニングの反復が遅くなる
- 展開パフォーマンスが停滞する
従来の解決策である人間によるアノテーションワークフローは、経済的にスケールしません。自動運転データセットのラベリングコストは、従来1フレームあたり0.05~0.50ドルの範囲で、30fpsでの1時間のビデオには108,000フレームが含まれます。この経済性は、チームがフリートのデータ排気を最大限に活用するのを積極的に妨げています。
Nomadicの深層学習アプローチはどのように機能するのか?
Nomadicのコアシステムは、深層学習モデルを生の映像に適用し、センサーストリームから自動的にセマンティック構造を抽出します。エンジニアが映像を検索可能にする前に手動でラベル付けする必要はなく、プラットフォームがシーンで起こっていることを推論し、イベントやオブジェクトにタグを付け、出力をクエリ可能な形に整理します。
実用的な意味は重要です。ロボティクスやAVチームは、自然言語または構造化クエリ(「雨の中で2メートル未満の距離で歩行者に接近した車両のインスタンスをすべて表示」)を発行し、数百万時間の映像から手動レビューなしで関連クリップを表面化できます。
このアプローチは、現代のベクターデータベースが非構造化テキストに対して行うことを、ビデオ、ポイントクラウド、IMUストリームを含むマルチモーダルセンサーデータに適用したものです。深層学習モデルは自動アノテーション層として機能し、ラベル付きサンプルあたりのコストを大幅に削減すると同時に、既存データから抽出可能なシグナルの密度を高めます。
Nomadic vs. 従来のデータパイプラインアプローチ
| アプローチ | アノテーションコスト | クエリ速度 | スケーラビリティ | エッジケースの想起 |
|---|---|---|---|---|
| 手動人間ラベリング | 高(0.05~0.50ドル/フレーム) | 遅い | 低い | レビュアー依存 |
| ルールベース自動タグ付け | 低い | 速い | 中程度 | 新しいイベントを見逃す |
| Nomadic深層学習 | 低~中 | 速い | 高い | 訓練されたカテゴリで強い |
| パイプラインなし(生保管) | なし | なし | 高い(コスト) | ゼロ |
注意すべき点:深層学習ベースのアノテーションは、モデルのトレーニング分布に存在するブラインドスポットを引き継ぎます。特にトレーニングで最も価値のある安全クリティカルなエッジケースについては、十分な例を見ていないモデルはそれらを確実に表面化できない可能性があります。Nomadicの長期的な価値提案は、多様なロボットや車両の展開にわたってモデルがどの程度うまく一般化するかにかかっているでしょう。
これはロボティクスとオートメーションにとって何を意味するのか?
Nomadicが攻撃しているデータボトルネックは、自動運転車両に固有のものではありません。倉庫AMR(自律移動ロボット)、産業用検査ロボット、農業オートメーションシステム、ヒューマノイドロボットプログラムなど、現実世界で継続的な知覚データを生成するあらゆる具現化AIシステムが同じ問題に直面しています。
ロボットフリートを運用または調達するチームにとって、これは2つの具体的な方法で重要です。
トレーニング速度:ロボットシステムが改善する速度は、チームが展開データから意味のあるトレーニングシグナルを抽出できる速度に直接制約されます。そのループを加速するインフラ(たとえ2~3倍でも)は、改善のタイムラインを比例して圧縮します。
規模におけるフリートインテリジェンス:ロボットフリートが成長するにつれて、そのセンサーデータの運用価値はモデルトレーニングを超えて広がります。構造化データは、異常検出、予知保全シグナル、ユニット間のパフォーマンスベンチマークを可能にし、ロボットフリート自体を継続的に自己文書化するシステムに変えます。
使用済みまたは再生ロボットの展開を検討しているオペレーターにとって、センサー構成は異なる場合があり、既存のデータセットは厳選されていないことが多いため、Nomadicのようなプラットフォームは特に重要になります。中古産業用ロボットからのフィールドデータを構造化トレーニングパイプラインにフィードすることは、従来は手動で高コストなプロセスでした。自動構造化インフラはその計算を変えます。
840万ドルのシード資金は、Physical AIスタックにおけるインフラ投資の流れを示しています。ハードウェア(ロボット自体)は注目を集めますが、展開とモデル改善の間のデータ層は、競争上の優位性が構築され、資本が集中し始めている場所です。
中古コボットの販売を評価したり、小規模オートメーションプログラムを構築しているオペレーターは、データパイプラインコストを展開総コストに組み込むべきです。Nomadicはまさにその問いに答える位置にあります。
よくある質問
Nomadicとは何で、どのような問題を解決するのですか?
Nomadicは、深層学習を使用して自動運転車両やロボットからの生センサー映像を構造化・検索可能なデータセットに変換するデータインフラ企業です。自律システムのデータのスケーリング問題を解決します。これは、フィールドで膨大な量の映像が生成される一方で、高価な手動アノテーションなしでは運用上使用できないという問題です。
自動運転車両は1日あたりどのくらいのデータを生成しますか?
1台の自動運転車両は、カメラ、LiDAR、レーダーの構成に応じて、通常1日あたり1~40テラバイトの生センサーデータを生成します。10台のフリートは毎週数百テラバイトを蓄積する可能性があり、手動処理は大規模になると経済的に不可能です。
Nomadicの深層学習アプローチは手動ラベリングとどう違うのですか?
手動ラベリングは1フレームあたり0.05~0.50ドルのコストがかかり、フリート規模では法外に高くなります。Nomadicは深層学習モデルを適用して映像を自動的にタグ付けしインデックス化するため、エンジニアはフレームごとの人間によるレビューなしで大規模データセットを横断してクエリでき、アノテーションコストとインサイト取得時間を大幅に削減します。
データボトルネックの問題は自動運転車両以外のロボットにも影響しますか?
はい。倉庫AMR、点検ロボット、農業オートメーション、ヒューマノイドプラットフォームなど、あらゆる具現化AIシステムは、同じ構造化と検索の課題に直面する継続的なセンサーデータを生成します。問題は、特定のロボットアプリケーションに関係なく、フリートサイズと運用時間とともにスケールします。
この資金調達は、より広範なPhysical AIエコシステムにとって何を意味しますか?
840万ドルのシードラウンドは、自律システム開発において、ハードウェアやコアAIモデルだけでなく、データインフラ層が重要なボトルネックであるという投資家の認識が高まっていることを示しています。データパイプラインへのインフラ投資は、Physical AI展開プログラムが成熟していることの先行指標です。
自律システムからのデータ排気は常に膨大でした。欠けていたのは、それを使用可能なシグナルに変えるインフラです。Nomadicのアプローチ——深層学習を自動構造化層として適用する——は、ロボットや車両を大規模に展開するすべての組織に影響する制約に対処します。シード資金で一夜にして問題が解決するわけではありませんが、Physical AIにおける次の競争優位性がデータ層で構築されるという明確な方向性の賭けを示しています。
データパイプラインインフラがあなたのロボットフリートの改善を制限するボトルネックですか?それともハードウェアが依然として制約ですか?










ディスカッションに参加する
Is data pipeline infrastructure the bottleneck limiting your robot fleet — or is hardware still the constraint?