2か月後、人型ロボットWalker Sが服をたたむことができるようになった-ハードウェアのレビュー-php.cn

ホームページ

ハードウェアチュートリアル

ハードウェアのレビュー

2か月後、人型ロボットWalker Sが服をたたむことができるようになった

王林

Apr 03, 2024 am 08:01 AM

ロボット百度最良の選択美しい写真配置theウー・シン

Machine Energy Report

編集者: Wu Xin

国内版の人型ロボットは大型モデルと連携し、衣服を折りたたむなどの複雑で柔軟な素材の操作タスクを完了しました。初めて。

OpenAIマルチモーダル大規模モデルを組み込んだ図01の公開により、関連する国内同業他社の進捗が注目を集めています。

つい昨日、「中国初の人型ロボット株」であるUBTECHは、Baidu Wenxinの大型モデルと深く統合された後の人型ロボットWalker Sの最初のデモを公開し、いくつかの興味深い新機能を示しました。

Baidu Wenxin の大規模モデル機能の恩恵を受けた Walker S は次のようになります。

2 个月不见，人形机器人 Walker S 会叠衣服了

図 01 のように、Walker S は動き回らず、机の後ろに立って一連のタスクを完了します。人間の命令に従い、服をたたむことができます。

タスクを完了した後も、そのタスクとチャットすることができます。たとえば、この黒いトップスには何を着たらいいでしょうか？ロボットはあなたが出張に行くことを覚えているので、フォーマルな場面に適した濃い色のパンツと合わせるのがおすすめです。

テーブル上のさまざまなスイッチもプレートに配置されます。

置いたスイッチがテーブルの上に放り戻されたり、届きそうになったソケットが再び外されたりするなど、外乱が発生した場合でも、ウォーカーSはリアルタイムに動作状況を調整し、作業を完了することができます。新しい状況に応じて作業を行います。

ウォーカー S は 2 月に、新エネルギー車の工場での実践的なトレーニングで、マルチモーダルな知覚と動作制御の能力をすでに実証しました。

今回、Wenxin 大型モデルとの徹底的な統合により、Walker S の認知能力と制御能力は新たなレベルに到達し、高度な意図理解ときめ細かいタスク計画能力を獲得しただけでなく、初めて服をたたむなど、複雑で柔軟な素材の操作作業。

Wenxin 大型モデルは、Wenxin の産業レベルの知識強化大型モデルであり、クロスモーダルおよびクロス言語の深い意味理解と生成機能に加え、知識推論、タスク計画などの機能を備えています。これらの機能を人型ロボットに移植することで、ロボットは人間と同じように衣服の素材、形状、シワなどを分析・理解し、これまでの経験に基づいて最適な衣服のたたみ方や順序を導き出すことができます。実際に服をたたむ過程で、ロボットは服の状態変化をリアルタイムで分析し、それに応じて行動戦略を調整します。

オブジェクト干渉選別タスクでも、ウォーカー S は「AI 大型モデルロボット」の協調利点を最大限に発揮しました。まず、デバイス上のマルチモーダル知覚モデルを通じてオブジェクトの空間位置情報と意味情報が取得され、次にその情報が大規模モデルに渡されてインテリジェント処理が行われ、後者は優れたタスク分解機能によりウォーカー S を迅速に構築します。論理的推論機能により、最適なタスクの計画と実行パスを見つけます。 Walker S は、このソリューションをロボットアームと器用な手の実際の制御にマッピングし、最終的に一連の複雑なタスク全体を正常に完了します。

この動きは、国内の同業者間で同様の機能を実証する最初の例でもあり、その革新的なアプリケーションと実装の難易度は、世界的にも業界の最初の段階にあります。「FigureとOpenAIの協力や、Baiduとの協力を含む多くのデモンストレーションにおいて、エンドツーエンドは今や達成可能だ」とUBTECH経営陣は昨夜の業績評価および展望会議でチャイナ・ビジネス・ニュースに語った。

" 私たちは、Baidu の大規模モデルを使用して、タスクの分解、自然言語の理解、論理的な配置の順序付けを行います。オープンソースモデルのトレーニングに基づいて会社が構築した、クライアントとサイドに基づくマルチモーダルな大規模モデルに加えて、昨年、人型ロボット市場の競争がますます激化する将来、強力な提携だけが 1 1 > 2 を達成できると我々は信じています。」今回の提携について説明する際、UBTECH 経営陣は「外国のテスラは大きなモデル能力を持っている」と述べました。 OpenAI、NVIDIA、Figure などを組み合わせると、協力して人型ロボットの実装に強力な技術サポートを提供できることがわかります。」

しかし、OpenAI のビデオを比較すると、ウォーカーSはやはり図01とは違いギャップがあります。

最も明らかなことは、アクションのスピードです。さらに、指示の内容に関しては、通常、Walker S が受け取る指示は比較的明確かつ具体的ですが、Figure 01 は常識的な推論を通じて、より抽象的な指示を合理的で実行可能な具体的な操作に変換できます。

さらに、図 01 は作業中にチャット (特に操作の説明) することができ、短期記憶能力があり、以前の会話の内容に基づいて現在の行動を合理的に計画することができます。

生成 AI における競争がますます激化し、研究の焦点が長文テキストやマルチモダリティから身体化された知能にまで広がるにつれ、将来の人型ロボットはもはや静的データの認識に限定されなくなると信じる理由ができました。 , しかし、それは、仮想または現実の 3 次元の世界で自由に移動し、環境と対話する能力です。これは、単純な機械学習から人間のような複雑なタスクの実行への AI の大きな飛躍でもあります。

実際、人型ロボットトラックは過去6か月で非常に熱い勢いを示しており、国内外でプロトタイプが頻繁に公開され、スタートアップ企業が積極的に資金調達を行っています。 UBTECHは2月、NIOの新エネルギー車工場でシートベルトの点検や車両のロゴ貼り付けなどの作業をスムーズに完了できるウォーカーSの試用ビデオを公開した。 UBTECHの株価も3月初旬の2日間で200％上昇した。

しかし、地球規模の人型ロボットはまだ試験段階にあり、規模を拡大するにはまだ時間がかかります。結局のところ、デモと実際のアプリケーションには大きな違いがあり、後者は信頼性、安定性、コストなどの一連の要素を総合的に考慮する必要があります。 UBTECHは、大型AIモデルと人型ロボットの組み合わせにより、後者の知能レベルとマルチシナリオタスクへの適応性が大幅に向上し、産業化プロセスが加速すると述べた。創設者の周建氏はまた、今年末までに工場で人型ロボットの最初のバッチを完成させ、テストに合格し、2025年の人型ロボットの大量発生に備えたいと公に述べた。さらに、UBTECHは今年末までに、大型モデルを搭載し、ユーザーと対話し、短期および長期の記憶を形成できる家庭用感情伴奏型ヒューマノイドロボットの第一世代を発売する予定である。。

参考リンク

https://www.stcn.com/article/detail/1164967.html

最後に

この一般の方に連絡してください。転載許可番号

記事を投稿または取材を希望する場合: content@jiqizhixin.com

以上が2か月後、人型ロボットWalker Sが服をたたむことができるようになったの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事はZAKERで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

SublimeText3 中国語版

中国語版、とても使いやすい

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、