チャットからプログラミング、さまざまなプラグインのサポートに至るまで、強力な ChatGPT は長い間、単なる会話アシスタントではなく、AI の世界の「管理」を目指してきました。
3 月 23 日、OpenAI は、ChatGPT が有名な科学工学成果物 Wolfram Alpha などのさまざまなサードパーティ プラグインのサポートを開始したと発表しました。このアーティファクトのおかげで、もともと同じ檻の中のニワトリとウサギだった ChatGPT は、科学と工学のトップの学生になりました。 Twitter 上の多くの人は、ChatGPT プラグインのリリースは 2008 年の iPhone App Store のリリースに少し似ているとコメントしました。これは、AI チャットボットが進化の新たな段階、つまり「メタアプリ」段階に入りつつあることも意味します。 ######################4 4月上旬、浙江大学とマイクロソフト・アジア・リサーチの研究者らは「HuggingGPT」と呼ばれる重要な手法を提案した。上記ルートの大規模なデモンストレーションとみなすことができます。 HuggingGPT を使用すると、ChatGPT がコントローラー (管理層として理解できます) として機能できるようになり、他の多数の AI モデルを管理して、いくつかの複雑な AI タスクを解決できます。具体的には、HuggingGPT は、ユーザーのリクエストを受信したときに ChatGPT をタスク計画に使用し、HuggingFace で利用可能な機能の説明に基づいてモデルを選択し、選択された AI モデルで各サブタスクを実行し、実行結果に基づいて応答を集計します。
このアプローチは、処理できるモダリティが限られているなど、現在の大規模モデルの多くの欠点を補うことができますが、いくつかの側面ではプロのモデルほど優れていません。
HuggingFace モデルも予定されていますが、結局のところ、HuggingGPT は HuggingFace の公式製品ではありません。たった今、HuggingFace がついに行動を起こしました。
HuggingGPT と同様に、新しい API、HuggingFace Transformers Agents をリリースしました。トランスフォーマー エージェントを使用すると、100,000 を超えるハグ フェイス モデルを制御して、さまざまなマルチモーダル タスクを完了できます。
たとえば、以下の例では、トランスフォーマー エージェントに絵に何が描かれているかを声に出して説明してもらいたいとします。あなたの指示 (画像の内容を読み上げます) を理解しようとして、それをプロンプトに変換し、指定されたタスクを完了するために適切なモデルとツールを選択します。
NVIDIA AI 科学者 Jim Fan 氏は次のようにコメントしました: ついにこの日が来ました。これは「Everything APP」に向けた重要な一歩です。
ただし、これは AutoGPT の自動反復と同じではないと言う人もいます。プロンプトを作成し、ツールのこれらの手順を手動で指定するには、Master of All Things APP には時期尚早です。
トランスフォーマー エージェントのアドレス: https://huggingface.co/docs/transformers/transformers_agents
トランスフォーマーエージェントの使い方?
https://huggingface co/docs/transformers/en/transformers_agents
つまり、トランスフォーマー上に自然言語 API を提供します。まず、厳選されたツールのセットを定義し、エージェントを定義します。は自然言語を解釈し、これらのツールを使用するように設計されています。
さらに、Transformers Agent は設計により拡張可能です。 チームは、エージェントに権限を与えることができる一連のツールを特定しました。統合ツールのリストは次のとおりです: これらのツールは次のとおりです。トランスフォーマーに統合されるか、手動で使用できます: ユーザーは、次のようにツールのコードを Hugging Face Space またはモデル リポジトリにプッシュして、エージェントを通じてツールを直接利用することもできます。 #画像の説明を生成します:
<code>from transformers import load_tooltool = load_tool("text-to-speech")audio = tool("This is a text to speech tool")</code>
<code>agent.run("Caption the following image", image=image)</code>
<code>agent.run("Read the following text out loud", text=text)</code>入力: ビーバーが泳いでいる水
#出力:
#tts_example音声:
00:0000:01##ファイルの読み取り:
agent.run を実行する前に、大規模言語モデル エージェントをインスタンス化する必要があります。 OpenAI モデルと、BigCode や OpenAssistant などのオープンソース モデルをサポートします。
<code>pip install transformers[agents]</code>
<code>pip install openaifrom transformers import OpenAiAgentagent = OpenAiAgent(model="text-davinci-003", api_key="<your_api_key>")</your_api_key></code>
#BigCode または OpenAssistant を使用するには、まずログインして推論 API にアクセスします:
<code>from huggingface_hub import loginlogin("<your_token>")</your_token></code>その後、エージェントをインスタンス化します:
<code>from transformers import HfAgentStarcoderagent = HfAgent("https://api-inference.huggingface.co/models/bigcode/starcoder")StarcoderBaseagent = HfAgent("https://api-inference.huggingface.co/models/bigcode/starcoderbase")OpenAssistantagent = HfAgent(url_endpoint="https://api-inference.huggingface.co/models/OpenAssistant/oasst-sft-4-pythia-12b-epoch-3.5")</code>ユーザーがこのモデル (または別のモデル) に対して独自の推論エンドポイントを持っている場合は、上記の URL を独自の URL エンドポイントに置き換えることができます。
接下来,我们了解一下 Transformers Agents 提供的两个 API:
单次执行
单次执行是在使用智能体的 run () 方法时:
<code>agent.run("Draw me a picture of rivers and lakes.")</code>
它会自动选择适合要执行的任务的工具并适当地执行,可在同一指令中执行一项或多项任务(不过指令越复杂,智能体失败的可能性就越大)。
<code>agent.run("Draw me a picture of the sea then transform the picture to add an island")</code>
每个 run () 操作都是独立的,因此可以针对不同的任务连续运行多次。如果想在执行过程中保持状态或将非文本对象传递给智能体,用户可以通过指定希望智能体使用的变量来实现。例如,用户可以生成第一张河流和湖泊图像,并通过执行以下操作要求模型更新该图片以添加一个岛屿:
<code>picture = agent.run("Generate a picture of rivers and lakes.")updated_picture = agent.run("Transform the image in picture to add an island to it.", picture=picture)</code>
当模型无法理解用户的请求并混合使用工具时,这会很有帮助。一个例子是:
<code>agent.run("Draw me the picture of a capybara swimming in the sea")</code>
在这里,模型可以用两种方式解释:
- 让 text-to-image 水豚在海里游泳
- 或者,生成 text-to-image 水豚,然后使用 image-transformation 工具让它在海里游泳
如果用户想强制执行第一种情况,可以通过将 prompt 作为参数传递给它来实现:
<code>agent.run("Draw me a picture of the prompt", prompt="a capybara swimming in the sea")</code>
基于聊天的执行
智能体还有一种基于聊天的方法:
<code>agent.chat("Generate a picture of rivers and lakes")</code>
<code>agent.chat ("Transform the picture so that there is a rock in there")</code>
这是一种可以跨指令保持状态时。它更适合实验,但在单个指令上表现更好,而 run () 方法更擅长处理复杂指令。如果用户想传递非文本类型或特定 prompt,该方法也可以接受参数。
以上が100,000 を超える AI モデルをワンクリックで制御、HuggingFace は ChatGPT のようなモデル用の「APP Store」を作成しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:https://spj.scien

译者 | 李睿审校 | 孙淑娟近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

Dreamweaver Mac版
ビジュアル Web 開発ツール

SublimeText3 中国語版
中国語版、とても使いやすい

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

ホットトピック









