文本嵌入是自然语言处理(NLP)的基石,提供了文本的数值表示,其中单词或短语成为真实数字的密集向量。这使机器可以理解语义含义和单词之间的关系,从而显着提高其处理人类语言的能力。
这些嵌入对于文本分类,信息检索和语义相似性检测等任务至关重要。 Openai推荐了ADA V2模型来创建它们,从而利用GPT系列的强度来捕获文本中的上下文含义和关联。
在继续之前,假定对OpenAI的API和openai
Python软件包的熟悉程度(请参阅“使用Python中的OpenAI API使用GPT-3.5和GPT-4”以获取指导。了解聚类,尤其是K-均值,也很有帮助(请参阅“与Scikit-Learn在Python中介绍K-Means聚类的简介”)。
文本嵌入的应用:
文本嵌入在许多领域中找到应用程序,包括:
- 文本分类:建立精确的模型,以进行情感分析或主题标识。
- 信息检索:检索与特定查询相关的信息,模仿搜索引擎功能。
- 语义相似性检测:识别和量化文本片段之间的语义相似性。
- 建议系统:通过了解文本交互中的用户偏好来增强建议质量。
- 文本生成:生成更连贯和上下文相关的文本。
- 机器翻译:通过捕获跨语义语义含义来改善机器翻译质量。
设置和安装:
需要以下python软件包: os
, openai
, scipy.spatial.distance
, sklearn.cluster.KMeans
和umap.UMAP
。使用:
PIP安装-U Openai Scipy Plotly-Express Scikit-Learn Umap-learn
导入所需的库:
导入操作系统 进口Openai 从scipy.Spatial进口距离 导入plotly.extress为px 来自Sklearn.Cluster Import Kmeans 来自UMAP进口UMAP
配置您的OpenAI API密钥:
openai.api_key =”<your_api_key_here> “</your_api_key_here>
(请记住要替换<your_api_key_here></your_api_key_here>
使用您的实际钥匙。)
生成嵌入:
该辅助功能使用text-embedding-ada-002
模型生成嵌入:
def get_embedding(text_to_embed): 响应= openai.embedding.create( 型号=“ text-embedding-ada-002”, 输入= [text_to_embed] ) 嵌入=响应[“数据”] [0] [“嵌入”] 返回嵌入
数据集和分析:
此示例使用Amazon乐器评论数据集(可在Kaggle或作者的GitHub上找到)。为了提高效率,使用了100个评论的样本。
导入大熊猫作为pd data_url =“ https://raw.githubusercontent.com/keitazoumana/experimentation-data/main/main/musical_instruments_reviews.csv” 评论_df = pd.read_csv(data_url)[['eviewText']] 评论_df =评论_df.sample(100) 评论_df [“嵌入”] = eview_df [“评论Text”]。astype(str).apply(get_embedding) 评论_df.Reset_index(drop = true,inplace = true)
语义相似性:
使用scipy.spatial.distance.pdist()
计算的欧几里得距离测量了回顾嵌入之间的相似性。较小的距离表示更大的相似性。
聚类分析(K-均值):
K-均值聚类小组类似评论。在这里,使用了三个集群:
kmeans = kmeans(n_clusters = 3) kmeanss.fit(review_df [“嵌入”]。tolist())
减少维度(UMAP):
UMAP将嵌入维度降低至两个以进行可视化:
还原= umap() embeddings_2d = reducer.fit_transform(eview_df [“ embedding”]。tolist())
可视化:
一个散点图可视化簇:
无花果= px.scatter(x = embeddings_2d [:,0],y = embeddings_2d [:,1],color = kmeans.labels_) 图show()
进一步探索:
要进行高级学习,请探索微调GPT-3和OpenAI API备忘单上的数据扫描资源。
代码示例以更简洁和有组织的方式提出,以提高可读性和理解。根据要求包含图像。
以上是使用OpenAI API利用文本嵌入:实用指南的详细内容。更多信息请关注PHP中文网其他相关文章!

拥抱Face的OlympicCoder-7B:强大的开源代码推理模型 开发以代码为中心的语言模型的竞赛正在加剧,拥抱面孔与强大的竞争者一起参加了比赛:OlympicCoder-7B,一种产品

你们当中有多少人希望AI可以做更多的事情,而不仅仅是回答问题?我知道我有,最近,我对它的变化感到惊讶。 AI聊天机器人不仅要聊天,还关心创建,研究

随着智能AI开始融入企业软件平台和应用程序的各个层面(我们必须强调的是,既有强大的核心工具,也有一些不太可靠的模拟工具),我们需要一套新的基础设施能力来管理这些智能体。 总部位于德国柏林的流程编排公司Camunda认为,它可以帮助智能AI发挥其应有的作用,并与新的数字工作场所中的准确业务目标和规则保持一致。该公司目前提供智能编排功能,旨在帮助组织建模、部署和管理AI智能体。 从实际的软件工程角度来看,这意味着什么? 确定性与非确定性流程的融合 该公司表示,关键在于允许用户(通常是数据科学家、软件

参加Google Cloud Next '25,我渴望看到Google如何区分其AI产品。 有关代理空间(此处讨论)和客户体验套件(此处讨论)的最新公告很有希望,强调了商业价值

为您的检索增强发电(RAG)系统选择最佳的多语言嵌入模型 在当今的相互联系的世界中,建立有效的多语言AI系统至关重要。 强大的多语言嵌入模型对于RE至关重要

特斯拉的Austin Robotaxi发射:仔细观察Musk的主张 埃隆·马斯克(Elon Musk)最近宣布,特斯拉即将在德克萨斯州奥斯汀推出的Robotaxi发射,最初出于安全原因部署了一支小型10-20辆汽车,并有快速扩张的计划。 h

人工智能的应用方式可能出乎意料。最初,我们很多人可能认为它主要用于代劳创意和技术任务,例如编写代码和创作内容。 然而,哈佛商业评论最近报道的一项调查表明情况并非如此。大多数用户寻求人工智能的并非是代劳工作,而是支持、组织,甚至是友谊! 报告称,人工智能应用案例的首位是治疗和陪伴。这表明其全天候可用性以及提供匿名、诚实建议和反馈的能力非常有价值。 另一方面,营销任务(例如撰写博客、创建社交媒体帖子或广告文案)在流行用途列表中的排名要低得多。 这是为什么呢?让我们看看研究结果及其对我们人类如何继续将


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

SublimeText3汉化版
中文版,非常好用

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),