ホームページ  >  記事  >  テクノロジー周辺機器  >  GPU は ChatGPT ボリューム モデルを実行し、ControlNet は AI 描画用のもう 1 つのアーティファクトです。

GPU は ChatGPT ボリューム モデルを実行し、ControlNet は AI 描画用のもう 1 つのアーティファクトです。

王林
王林転載
2023-04-15 22:49:011686ブラウズ

カタログ

  1. 変圧器モデル: 概要とカタログ
  2. ハイスループット単一 GPU による大規模言語モデルの生成推論
  3. ドリフト対応ダイナミック ニューラル ネットワークによる時間領域の一般化
  4. 大規模で物理的に正確なモデリング深層学習による実際の陽子交換膜燃料電池の研究
  5. 事前トレーニング済み基礎モデルに関する包括的な調査: BERT から ChatGPT までの歴史
  6. 条件付きの追加テキストから画像への拡散モデルの制御
  7. EVA3D: 2D 画像コレクションからの合成 3D 人間の生成
  8. ArXiv Weekly Radiostation: NLP、CV、ML その他の厳選された論文 (音声付き)

論文 1: 変圧器モデル: 概要とカタログ

  • #著者: Xavier Amatriain
  • ##論文アドレス: https://arxiv.org/pdf /2302.07730。 pdf

要約: 2017 年に提案されて以来、Transformer モデルは自然言語処理やコンピューターなどの他の分野でも実証されてきました。これは前例のない強度を達成し、ChatGPT などの技術的ブレークスルーを引き起こし、オリジナルのモデルに基づいてさまざまなバリエーションも提案されています。

学術界と産業界が Transformer の注目メカニズムに基づいた新しいモデルを提案し続ける中、この方向性を要約することが難しい場合があります。最近、LinkedIn の AI 製品戦略責任者である Xavier Amatriain による包括的な記事が、この問題の解決に役立つ可能性があります。

GPU は ChatGPT ボリューム モデルを実行し、ControlNet は AI 描画用のもう 1 つのアーティファクトです。

推奨事項:

この記事の目標は、より包括的でありながらもシンプルなカタログを提供することです。この分類では、Transformer モデルの最も重要な側面と革新性も紹介します。

論文 2: 単一 GPU による大規模言語モデルの高スループット生成推論

# #著者: Ying Sheng 他
  • 論文アドレス: https://github.com/FMInference/FlexGen/blob/main/docs/paper.pdf
  • 要約:
従来、大規模言語モデル (LLM) 推論には高い計算量とメモリ要件があるため、複数のハイエンド プロセッサを使用する必要がありました。 AIアクセラレーター研修を実施します。この研究では、LLM 推論の要件を消費者グレードの GPU まで削減し、実用的なパフォーマンスを達成する方法を検討します。 ,

最近、スタンフォード大学、カリフォルニア大学バークレー校、チューリッヒ工科大学、ヤンデックス、モスクワ州立高等経済学校、メタ、カーネギーメロン大学、その他の機関による新しい研究で、FlexGen が提案されました。限られた GPU メモリで LLM を実行するための高スループット生成エンジン。以下の図は、FlexGen の設計思想を示しています。FlexGen は、図 (b) に示すように、ブロック スケジューリングを使用して重みを再利用し、I/O を計算と重複させます。一方、他のベースライン システムは、次のように非効率的な行ごとのスケジューリングを使用します。下の図(a)に示されています。

推奨事項:

ChatGPT ボリューム モデルを実行すると、今後は GPU が 1 つだけ必要になります。100 倍高速化する方法がここにあります。

論文 3: ドリフト対応動的ニューラル ネットワークによる時間領域の一般化

著者: Guangji Bai 他
  • 論文アドレス: https://arxiv.org/pdf/2205.10664.pdf
  • #要約:
ドメイン一般化 (DG) タスクでは、ドメインの分布が環境に応じて継続的に変化する場合、その変化とそのモデルへの影響を正確に把握する方法が重要です。非常に重要ですが、非常に難しい質問でもあります。

この目的を達成するために、エモリー大学のZhao Liang教授のチームは、ベイズ理論に基づく時間領域一般化フレームワークDRAINを提案しました。これは、再帰的ネットワークを使用して時間次元領域の分布のドリフトを学習し、同時にダイナミックニューラルネットワークを活用し、グラフ生成技術と組み合わせることでモデルの表現力を最大限に高め、将来の未知領域におけるモデルの一般化と予測を実現します。

この研究は、ICLR 2023 Oral (受理された論文の上位 5%) に選ばれました。以下はDRAINの全体的な枠組みの模式図です。

GPU は ChatGPT ボリューム モデルを実行し、ControlNet は AI 描画用のもう 1 つのアーティファクトです。

推奨事項: ドリフト対応ダイナミック ニューラル ネットワークの祝福、時間領域一般化のための新しいフレームワークドメインの一般化と適応方法をはるかに超えています。

#論文 4: 深層学習による実際の陽子交換膜燃料電池の大規模で物理的に正確なモデリング

  • ##著者: Ying Da Wang et al
  • 論文アドレス: https://www.nature.com/articles/s41467-023-35973 - 8

##要約: エネルギー供給を確保し、気候変動と闘うために、人々の焦点は化石燃料からクリーンで再生可能エネルギーに移ってきています。水素は、その高いエネルギー密度とクリーンで低炭素のエネルギー特性により、エネルギー変革において重要な役割を果たすことができます。水素燃料電池、特に固体高分子型燃料電池 (PEMFC) は、その高いエネルギー変換効率とゼロエミッション動作により、このグリーン革命の鍵となります。

PEMFC は、電気化学プロセスを通じて水素を電気に変換します。反応の副生成物は純水だけです。ただし、PEMFC は、水がセルから適切に流出できず、システムに「洪水」が発生すると効率が低下する可能性があります。これまで、燃料電池は非常に小さく複雑なため、エンジニアが燃料電池内部で水が排出または蓄積する正確な仕組みを理解することは困難でした。

最近、シドニーのニューサウスウェールズ大学の研究チームは、PEMFC の内部状態の理解を深めるための深層学習アルゴリズム (DualEDSR) を開発しました。低解像度 X 放射線マイクロコンピュータ断層撮影から生成された高解像度モデリング画像。このプロセスは単一の水素燃料電池でテストされており、内部を正確にモデル化できるため、効率が向上する可能性があります。以下の図は、この研究で生成された PEMFC ドメインを示しています。

GPU は ChatGPT ボリューム モデルを実行し、ControlNet は AI 描画用のもう 1 つのアーティファクトです。

推奨事項: ディープラーニングは、燃料電池内部の大規模な物理的正確なモデリングを実行します。バッテリー性能の向上に役立ちます。

論文 5: 事前トレーニングされた基盤モデルに関する包括的な調査: BERT から ChatGPT までの歴史

  • 著者: Ce Zhou 他
  • 論文アドレス: https://arxiv.org/pdf/2302.09419.pdf

要約: この 100 ページ近くのレビューでは、事前トレーニング済みの基本モデルの進化の歴史が詳しく調査されており、ChatGPT がどのように段階的に成功したかを確認することができます。

推奨事項: BERT から ChatGPT まで、事前トレーニングされた大規模モデルの進化の歴史を 100 ページのレビューで詳しく調べています。

論文 6: テキストから画像への拡散モデルへの条件付き制御の追加

  • 著者: Lvmin Zhang 他
  • #論文アドレス: https://arxiv.org/pdf/2302.05543.pdf
要約:

この論文では、エンドツーエンドのニューラル ネットワーク アーキテクチャ ControlNet を提案します。これは、拡散モデルを制御するための追加条件 (次のような) を追加することで、グラフ生成グラフを改善できます。安定した拡散)効果を持ち、線画からのフルカラー画像の生成、同じ深度構造の画像の生成、手のキーポイントによる手の生成の最適化が可能です。

推奨事項: AI は次元を削減して人間のペインターを打ち負かし、Vincentian グラフに ControlNet を導入し、深さとエッジの情報を完全に再利用します。

論文 7: EVA3D: 2D 画像コレクションからの合成 3D 人間の生成

  • 著者:Fangzhou Hon et al
  • 論文アドレス: https://arxiv.org/abs/2210.04888

##要約: ICLR 2023 で、南洋理工大学とセンスタイム共同研究センターの S-Lab チームは、2D 画像のコレクションから高解像度の 3D 人体の生成を学習する最初の方法を提案しました。エヴァ3D。 NeRF が提供する微分可能なレンダリングのおかげで、最近の 3D 生成モデルは静止したオブジェクトに対して素晴らしい結果を達成しました。ただし、人体のようなより複雑で変形可能なカテゴリでは、3D 生成には依然として大きな課題が伴います。

この論文では、超解像度モデルを使用せずに高解像度 (512x256) の 3D 人体生成を実現する、人体の効率的な組み合わせ NeRF 表現を提案します。 EVA3D は、4 つの大規模な人体データ セットに関する既存のソリューションを大幅に上回り、コードはオープンソースになっています。

GPU は ChatGPT ボリューム モデルを実行し、ControlNet は AI 描画用のもう 1 つのアーティファクトです。

推奨事項: ICLR 2023 スポットライト | 2D 画像で 3D 人体を脳内に埋め込み、どんな服を着ても、動きを変える。

ArXiv Weekly Radiostation

Heart of Machine は、Chu Hang、Luo Ruotian、Mei Honyuan によって開始された ArXiv Weekly Radiostation と協力しています。7 つの論文に基づいて、このセレクションは詳細です。 NLP、CV、ML の各分野から厳選した 10 件の今週の重要論文と、論文の要約紹介を音声形式で提供します。 7 NLP 論文

今週選ばれた 10 の NLP 論文は次のとおりです:

1。大規模言語モデルの思考連鎖によるアクティブなプロンプト (Tong Zhang より)

2. 韻律機能により文のセグメンテーションと解析が向上します (Mark Steedman より)

3. ProsAudit、自己教師あり音声モデルの韻律ベンチマーク (Emmanuel Dupoux より)

4. 新型コロナウイルス感染症におけるうつ病の早期発見のためのソーシャル メディアの探索-19 人の患者 (Jie Yang から)

5. フェデレーション最近傍機械翻訳 (Enhong Chen から)

6. スピンドル:グラフ アテンションを使用して生のテキストを Lambda 項に紡ぎ出す (Michael Moortgat より)

7. ニューラル スパンベースの継続的固有表現認識モデル (Qingcai Chen より)

10 の CV ペーパー

今週選ばれた 10 の CV ペーパーは次のとおりです:

1. MERF: 無制限のシーンにおけるリアルタイム ビュー合成のためのメモリ効率の高い放射フィールド (Richard Szeliski、Andreas Geiger より)

2. エンコーダの設計Text-to-Image モデルの高速パーソナライゼーション (Daniel Cohen-Or より)

3. CLIP に 10 まで数えるように教える(Michal Irani より)

4. スキンケア製品の有効性の評価: 現実的な短期間の顔の毛穴シミュレーション (Weisi Lin より)

5. ファイバーリフティングにおけるリアルタイムの損傷検出畳み込みニューラル ネットワークを使用したロープ (Moncef Gabbouj より)

6. 超高精細低照度画像強化のためのフーリエ埋め込み (Chen Change Loy より)

######7。ゼロショットのテキスト駆動型画像編集のための領域認識の普及。 (徐長生より)

8.オープンボキャブラリーのセマンティックセグメンテーションのためのサイドアダプターネットワーク。 (シャンバイより)

9. VoxFormer: カメラベースの 3D セマンティック シーン完成のためのスパース ボクセル トランスフォーマー。 (サンジャ・フィドラーより)

10.オブジェクトのダイナミクスとインタラクションの分離によるオブジェクト中心のビデオ予測。 (Sven Behnke より)

#10 ML 論文

本周 10 篇 ML 精选论文是:

1. Normflows: フローを正規化するための PyTorch パッケージ。 (ベルンハルト・シェルコフより)

2.解釈可能なマルチエージェント強化学習のための概念学習。 (カティア・シカラより)

3.ランダムな教師は良い教師です。 (トーマス・ホフマンより)

4.人間のフィードバックを使用したテキストと画像のモデルの位置合わせ。 (Craig Boutilier、Pieter Abbeel より)

5.変化は難しい: 部分集団の変化を詳しく見る。 (ディナ・カタビより)

6. AlpaServe: 深層学習サービスのためのモデル並列処理による統計多重化。 (Zhifeng Chen より)

7.構造化されたアクション空間のための多様なポリシーの最適化。 (Hongyuan Zha より)

8.混合可能性の幾何学。 (ロバート C. ウィリアムソンより)

9.ディープラーニングは抽象化を学習しますか?体系的な調査フレームワーク。 (鄭南寧より)

10.逐次的な反事実リスクの最小化。 (ジュリアン・マイラルより)

以上がGPU は ChatGPT ボリューム モデルを実行し、ControlNet は AI 描画用のもう 1 つのアーティファクトです。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。