Tencent の Hunyuan 大型モデルが再びアップグレードされ、Vincentian グラフ機能と包括的な実際の測定と分析が衝撃的にリリースされました。-AI-php.cn

ホームページ

テクノロジー周辺機器

Tencent の Hunyuan 大型モデルが再びアップグレードされ、Vincentian グラフ機能と包括的な実際の測定と分析が衝撃的にリリースされました。

王林

Oct 26, 2023 pm 09:13 PM

業界渾源大型モデルヴィンセント図の大型モデル

2023 年には、大型モデルの発売に向けてアクセルボタンが押され、Vincentian グラフィックスは最もホットなアプリケーションの方向性の 1 つになるでしょう。

Stable Diffusionの誕生以来、文聖図の大型モデルが国内外で続々と登場し、一時は「神の戦い」のような雰囲気が漂っていました。テクノロジーを反復するたびに、モデル生成の効果と速度が急速に向上します。

本日、Tencent Hunyuan Model も最新の進歩を発表しました。Vincentian グラフ機能が正式に開始されました。

#試食してすぐに、Hunyuan Model が広く深い中国の食文化を理解していることがわかりました。ここでは、多くの大きなモデルを困難にする「木に登るアリ」を選択しましたが、Hunyuan は簡単に生成できます。

質問は、現在の文勝図の大型モデルは非常に大きいですが、渾源の大型モデルには他に特別な利点があるのでしょうか?

#公式の紹介によると、アルゴリズムとモデルの点で、現在の Vincentian の大規模モデルには、不十分な意味理解、不合理な画像構造などのいくつかの課題がまだあります。画像の詳細が不十分であり、品質が低いためです。

#Tencent は、長い間、広告シナリオにおける AI 生成画像の研究を開始しており、関連する蓄積は非常に深いものです。この Hunyuan の大規模モデルアップグレードの Wenshengtu 機能は、まさに「セマンティクス、コンテンツ、テクスチャ」の 3 つの問題を解決することを目指しています。

レポートによると、他の大型モデルと比較して、Tencent Hunyuan の Wen Sheng Tu はポートレートやシーンのリアリズムにおいて明らかな利点を持っています。アニメやゲームなどのシーン生成に優れたパフォーマンスを発揮します。

実地テスト: Hunyuan Wensheng Tu、違いは何ですか?

# 「Wen Sheng Tu」で良い仕事をするには、「Wen」を完全に理解することが重要です。

意味理解の観点から、Hunyuan Wenshengグラフモデルは中国語と英語のバイリンガルのきめ細かいモデルを採用し、同時にバイリンガルを実現します。中国語と英語のバイリンガルモデリングに基づいて、詳細を認識し、最適化アルゴリズムを通じて効果を生成するモデルの能力を理解し、改善します。

これ以前は、Stable Diffusion などの人気モデルは中国語をある程度サポートしていましたが、そのコアデータセット LAION-5B は依然として主に西洋化されたコンテンツでした。中国語、食べ物、文化、習慣について十分に理解していない。

渾源文生図モデルはネイティブ中国の文生図モデルであり、ユーザーが入力した漢詩や熟語に関係なく、ユーザーに直接絵画の作成を依頼できます。

コンテンツの合理性の観点から、Hunyuanwenshengtuはアルゴリズムモデルの画像二次元空間位置認識能力を強化し、人間の骨格と人間の手を統合します。構造などの事前情報を生成プロセスに導入することで、生成される画像構造をより合理的にし、AI によって生成される人間の構造や手の不合理な問題を改善します。

画像テクスチャに関しては、Hunyuanwenshengtu は、生成されたテクスチャを改善するためのマルチモデル融合手法に基づいています。最適化後、Hunyuan Wenshengtu のポートレートモデル (髪、シワなど) の効果は 30% 向上し、シーンモデル (植生、波紋など) の効果は 25% 向上しました。

#これら 3 つの側面における技術的利点により、Hunyuan 大型モデル Wenshengtu の製品エクスペリエンスが明らかに向上しました。

#上記の機能を検証するために、この Web サイトではいくつかの質問を設定し、Hunyuan 大型モデルで徹底的なテストを初めて実施しました。

Hunyuan は中国語ネイティブのモデルなので、他の類似製品に比べて当然「古代中国語」を理解しており、まず古代の詩に基づいて描画させます。

私たちは非常に芸術的な古代の詩を選択しました。「酔っているときは、空が水の中にあることを知りません、そして船は澄んだ夢と海の中に満ちています」星は圧倒的です」をテストして、Hunyuan の大型モデルが極端な絵画のような写真を生成できるかどうかを確認します。

Tencent の Hunyuan 大型モデルが再びアップグレードされ、Vincentian グラフ機能と包括的な実際の測定と分析が衝撃的にリリースされました。

詩「果州の船」の中に、「川の南岸に春風が再び緑に変わり、明るい月はいつ私を照らしてくれるだろうか」という一節があります。 ?」は、数え切れないほどの放浪者のホームシックを書いています。フンユアンの生成により、「春の光」、「水辺」、「明るい月」などのイメージが抽出され、有機的に結合され、見た後は詩的なシーンにいるような気分になります。

次に、興味深い「中華料理の絵画」セッションが始まります。「魚風味の細切り豚肉」に関する古典的なテスト問題を解いてみましょう:

人を夢中にさせる中華料理の絵から、絵を見るだけで食べられる現在のレベルまで、ヴィンセント絵画技術の絶え間ない進化。

業界で認識されている「リアルなポートレート」の問題に対して、Hunyuan がどのように取り組んでいるかを見てみましょう:

そもそもミッドジャーニーが人気になったのは、AI が生成したものではないとは分からない以下のカップルの写真のせいだということはわかっています。

## では、Hunyuan の大規模モデルが「不正行為」を生成する能力を調べてみましょう。使用されるプロンプトは次のとおりです:

#リアリズムについてどう思いますか?私たちの意見では、プロンプトに記載されている詳細で十分です。

これが Tencent が強調していることです。Hunyuan の大規模モデルは、最適化アルゴリズムを通じて細部の認識と生成効果を向上させます。この能力は多くの特定のシーンでのみ反映されます。

たとえば、アニメーションのシーンでは、鹿が森を走って落ち葉が舞い上がり、月がとても明るくて大きく、鳥が飛んでいます。空の雰囲気を醸し出すCG風、サイドビュー」。

子供の頃に見たアニメのシーンに似ていませんか?

さらに、アニメーション作成において、ヴィンセント図の応用可能性は非常に大きくなります。

Hunyuan の大きなモデルに与えたプロンプトは、「3D、アニメスタイル、女の子 1 人、ブロンドの髪、笑顔、ショートヘア、都市の背景を生成」です:

発電効果についてどう思いますか?そのまま壁紙として使用できますか？

#Wenshengtu を支える自社開発テクノロジーとは何ですか? Tencent の Hunyuan 大型モデルが再びアップグレードされ、Vincentian グラフ機能と包括的な実際の測定と分析が衝撃的にリリースされました。

作業者が自分の仕事をうまくやり遂げたい場合は、まず工具を研ぐ必要があります。これは大きなモデルにも当てはまります。

革新的なモデルアルゴリズムに加えて、Tencent Hunyuan の大型モデルは、中国の地元の雰囲気に合わせたこのような文生写真効果を実現できることがわかりました。テキストマッチングデータ、自社開発の機械学習フレームワーク、強力なコンピューティングインフラストラクチャも、高品質の画像と切り離すことができません。

Tencent Hunyuan Large Model は、モデルアルゴリズムから機械学習フレームワーク、AI インフラストラクチャに至るフルリンクの自社開発テクノロジーパスを形成しました。マルチレベルの技術の蓄積とは、大規模なモデルの進化には、実践から始めて実践で改善するという、一度に 1 つのステップが必要であることを意味します。

まず、モデルのトレーニングをサポートするデータエンジニアリングを見てみましょう。

# AI、特に大規模モデルにとって、データは不可欠な 3 つの要素の 1 つです。ラージモデルテキスト生成機能も同様で、画像データとテキストデータ、特に画像とテキストのマッチングデータが生成効果に決定的な影響を与えます。

ただし、インターネット上のすべての既存データがすぐに使用できるわけではありません。大きな問題は、画像のテキスト説明が正確でない可能性があることです。問題の数ほとんどの画像とテキストのマッチングデータの品質は比較的悪いです。これを使用すると、たとえトレーニング時間が非常に長くても、モデル生成の効果は依然として期待に応えられず、生成品質の安定性とその後の反復効率にも影響します。

# したがって、画像とテキストデータの品質を向上させることが、ヴィンセント画像の効果を確実にするための「最初のハードル」になります。現時点では、多くの場合、エンジニアリング手法を通じてデータ品質を向上させ、モデルのトレーニング、最適化、アップグレードをサポートし、アルゴリズムモデル用の堀を構築する必要があります。

画像とテキストのデータ一致の問題に直面した、Tencent Hunyuanwenshengtu チームの対応戦略は次のとおりです。まず、中国語のプロンプトをきめ細かい方法で調整して、画像とテキストの相関性を改善し、データ品質を最大化し、トレーニングデータを階層化してグレーディングする戦略を採用して、徐々にモデルを最適化し、データ効果を最大化し、最後に大規模モデルを迅速に反復するための鍵となるデータフライホイールを構築します。大規模なモデルを使用するオンラインユーザーからのフィードバックに基づいて、チームはトレーニングデータを自動的に構築して、モデルの反復を高速化し、データ効率を最大化します。

#データの品質、効果、効率が向上し、優れた Vincent チャート効果の基礎が築かれました。次に説明する機械学習フレームワークも同様に重要です。

強力な機械学習フレームワークまたはプラットフォームは、開発者のモデルの構築、トレーニング、デプロイの速度と効率を大幅に向上させます。 Tencent は、大規模モデルのトレーニングと推論シナリオ用に独自の Angel 機械学習プラットフォームを開発しました。これには、主にトレーニング用の AngelPTM と推論用の AngelHCF が含まれています。

AngelPTM は、ZeRO-Cache 最適化戦略を採用し、超大規模モデルのトレーニングのための強力なツールになります。ストレージ管理を通じて単一マシンモデルの容量を拡張し、リソースを向上させます。マルチストリームを非同期で使用し、ビデオメモリを使用して管理することでメモリ効率が向上します。さらに、4D 並列処理を使用して、利用可能なビデオメモリの上限を増やし、キロカードの通信負荷を軽減し、コンピューティングの可能性を解放します。自動トレーニング更新メカニズムは、キロカード障害に対する自動フォールトトレランスをサポートし、中断時間を短縮します。モデルのトレーニング状況もリアルタイムで監視され、協調アルゴリズムによってモデルのトレーニングの方向性が最適化されます。

現在、AngelPTM は業界初の ZeRO-Cache 機構 4D に基づき、数千億個の混合要素ベースモデルの並列高速学習を実現しています。主流のオープンソースフレームワーク (DeepSpeed -Chat) に比べて 1 倍に増加しました。

^{ZeRO-Cache の概要。}

AngelHCF は主に、多様なサービス戦略、並列戦略、フレームワークアクセラレーション (一般的な GPU アクセラレーション方法をカバー)、およびモデル圧縮 (一般的に使用される圧縮をサポート) をカスタマイズします。業界のメソッド) と、大規模なモデルの推論パフォーマンスを向上させるための 5 つのレベルの効率的なモデルデバッグ機能。推論速度は業界主流のフレームワーク(FasterTransformer)と比べて1.3倍高速です。

Tencent は、同社の Angel 機械学習プラットフォームは優れたパフォーマンスを備えており、より優れたインフラストラクチャシステムの提供と大規模モデルの高速実行に貢献できると述べています。これにより、Hunyuan 大型モデルは高品質の画像を生成すると同時に、生成速度も大幅に向上します。

高品質のデータと効率的な機械学習フレームワークを備えた大規模モデルの継続的な運用には、依然としてコンピューティング能力の試練が伴います。結局のところ、大規模モデルの時代では、コンピューティング能力が最も重要です。

Tencent Hunyuan Wenshengtu の機能は、Tencent Cloud が提供する強力なコンピューティングインフラストラクチャと切り離すことができません。 2023 年 4 月、Tencent Cloud は、最新世代の Xinghai 自社開発サーバーを使用し、自社開発のネットワークおよびストレージアーキテクチャに基づいた新世代の HCC 高性能コンピューティングクラスターをリリースし、3.2T の超高相互接続帯域幅 (TB) を達成しました。 - レベルのスループット容量と 1,000 万レベルの IOPS。新世代クラスターのコンピューティング能力パフォーマンスは、前世代と比較して 3 倍、従来のコンピューティングクラスターソリューションと比較して 12 倍以上向上しています。

# 基盤となるハードウェアを強化する一方で、上位層のソフトウェア機能も連携して強化する必要があります。新世代の HCC クラスターには、Tencent Cloud が自社開発した TACO トレーニング加速エンジンが統合されており、ネットワークプロトコル、通信戦略、AI フレームワーク、モデルのコンパイルレベルからシステムレベルの最適化が数多く行われています。この包括的な一連の環境に優しいトレーニング高速化ソリューションは、お客様が AI 最適化のしきい値を下げ、AI トレーニングのパフォーマンスを向上させるだけでなく、トレーニングの調整とコンピューティングの電力コストを大幅に削減することもできます。

大規模モデルを制限する 3 つの主要な要素、アルゴリズム、データ、計算能力は、Tencent Hunyuan の大規模モデルではもはや問題ではないようです。当然、ヴィンセントの絵の品質と効果も保証されています。

その効果は「虚実」、

文生図の能力はテンセントの広告シーンに埋め込まれています

今日私たちが目にした渾源の大型モデルの文生図の能力は、一夜にして達成されたものではなく、真の進化の過程でした。

先月開催された2023 Tencent Global Digital Ecosystem Conferenceで、TencentのHunyuan大型モデルが正式に発表されました。 Tencent Groupの副社長Jiang Jie氏は当時、Hunyuanは常に外出中であると語った。 Tencent は今後も Hunyuan の機能を進化させ、毎月誰もが驚きを感じられるようにしたいと考えています。

現在、テンセントには、テンセントカンファレンス、テンセントドキュメント、エンタープライズ WeChat、テンセント広告、WeChat 検索など、180 の社内ビジネスが Hunyuan の大規模モデルに接続されています。同時に、小売、教育、金融、医療、メディア、運輸、官公庁などの複数の業界の顧客も Tencent Cloud を通じて Tencent Hunyuan API を呼び出し、アプリケーション分野にはインテリジェントな質疑応答、コンテンツ作成、データ分析、コードアシスタント、その他のシナリオ。

新しくオープンしたヴィンセントグラフ機能は、テンセントの渾源モデルがもたらす最大の驚きであり、自動画像生成の分野でその優れた機能を実証しています。もちろん、Tencent Hunyuan Wenshengtu も徐々に進化しており、将来的にはさらに多くの Wenshengtu 関連機能と Wenshengtu 機能が開発される予定です。その波が楽しみです。

現在、Hunyuanwen の画像生成機能は、製品広告や広告画像の生成など、Tencent の広告シナリオに組み込まれています。広告事業における複数回の評価において、Tencent Hunyuan Wenshengtu のケース優秀率と広告主採用率はそれぞれ 86% と 26% に達し、どちらも同様のモデルよりも高くなっています。

# まず、ホテルの部屋を生成するために Hunyuan の大規模モデルが必要な次の例を見てみましょう。効果から判断すると、Hunyuan Wenshengの写真効果はアップグレード後の方が明らかに優れており、デザインと品質が大幅に向上し、細部がより豊かになっています。 Midjourneyと比較しても、結果は同等です。

文字クラス生成シーンにも同様の効果があります。アップグレード後、Hunyuan によって生成されたポートレートは、顔の肌の色、シワ、その他の詳細など、よりリアルになりました。

テンセントは、広告シーンに加えて、ゲームシーンでのゲーム要素やゲームキャラクターの生成、コンテンツでの斬新なアクセサリーの生成など、文生図の他の需要シナリオも常に模索しています。写真、イラスト、クラウドビジネスシナリオにより、さまざまな業界の顧客にハイブリッド機能が提供されます。

モデルがどれほど強力であっても、さらなる進歩を遂げるためには、より多くの人に使用され、フィードバックを受け続けなければなりません。

Tencent 製品は将来、Hunyuan Wenshengtu の機能の爆発的な拡大をもたらし、ユーザーも AIGC によってもたらされる魅力をより多く体験することになることが予測できます。

以上がTencent の Hunyuan 大型モデルが再びアップグレードされ、Vincentian グラフ機能と包括的な実際の測定と分析が衝撃的にリリースされました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

外挿の包括的なガイドApr 15, 2025 am 11:38 AM

導入数週間で作物の進行を毎日観察する農民がいるとします。彼は成長率を見て、さらに数週間で彼の植物がどれほど背が高くなるかについて熟考し始めます。 thから

ソフトAIの台頭とそれが今日のビジネスにとって何を意味するかApr 15, 2025 am 11:36 AM

ソフトAIは、おおよその推論、パターン認識、柔軟な意思決定を使用して特定の狭いタスクを実行するように設計されたAIシステムとして定義されていますが、曖昧さを受け入れることにより、人間のような思考を模倣しようとします。しかし、これはBusineにとって何を意味しますか

AIフロンティア向けの進化するセキュリティフレームワークApr 15, 2025 am 11:34 AM

答えは明確です。クラウドコンピューティングには、クラウドネイティブセキュリティツールへの移行が必要であるため、AIはAIの独自のニーズに特化した新しい種類のセキュリティソリューションを要求します。クラウドコンピューティングとセキュリティレッスンの台頭で

3つの方法生成AIは起業家を増幅します：平均に注意してください！Apr 15, 2025 am 11:33 AM

起業家とAIと生成AIを使用して、ビジネスを改善します。同時に、すべてのテクノロジーと同様に、生成的AIが増幅器であることを覚えておくことが重要です。厳密な2024年の研究o

Andrew Ngによる埋め込みモデルに関する新しいショートコースApr 15, 2025 am 11:32 AM

埋め込みモデルのパワーのロックを解除する：Andrew Ngの新しいコースに深く飛び込むマシンがあなたの質問を完全に正確に理解し、応答する未来を想像してください。これはサイエンスフィクションではありません。 AIの進歩のおかげで、それはRになりつつあります

大規模な言語モデル（LLMS）の幻覚は避けられませんか？Apr 15, 2025 am 11:31 AM

大規模な言語モデル（LLM）と幻覚の避けられない問題 ChatGpt、Claude、GeminiなどのAIモデルを使用した可能性があります。これらはすべて、大規模なテキストデータセットでトレーニングされた大規模な言語モデル（LLMS）、強力なAIシステムの例です。

60％の問題 - AI検索がトラフィックを排出する方法Apr 15, 2025 am 11:28 AM

最近の研究では、AIの概要により、産業と検索の種類に基づいて、オーガニックトラフィックがなんと15〜64％減少する可能性があることが示されています。この根本的な変化により、マーケティング担当者はデジタルの可視性に関する戦略全体を再考することになっています。新しい

AI R＆Dの中心に人間が繁栄するようにするMITメディアラボApr 15, 2025 am 11:26 AM

Elon UniversityがDigital Future Centerを想像している最近のレポートは、300人近くのグローバルテクノロジーの専門家を調査しました。結果のレポート「2035年に人間である」は、ほとんどがTを超えるAIシステムの採用を深めることを懸念していると結論付けました。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。