向量嵌入对于许多先进的AI应用程序(包括语义搜索和异常检测)至关重要。本文提供了对嵌入的基本理解,重点是句子嵌入和矢量表示。我们将探索实用技术,例如均值合并和余弦相似性,使用BERT深入研究双重编码器的体系结构,并使用顶点AI在异常检测中检查其应用程序,以进行欺诈检测和内容调节等任务。
关键学习目标
- 掌握向量嵌入在表示连续矢量空间内表示单词,句子和其他数据类型中的作用。
- 了解令牌化以及象征性嵌入如何有助于句子级嵌入。
- 学习使用顶点AI部署嵌入模型的关键概念和最佳实践,以应对现实世界中的AI挑战。
- 通过整合增强分析和决策的嵌入模型来发现如何使用顶点AI优化和扩展应用程序。
- 获得实践经验培训双重编码器模型,定义其架构和培训过程。
- 使用隔离林之类的方法实施异常检测,以基于嵌入相似性来识别异常值。
*本文是***数据科学博客马拉松的一部分。
目录
- 了解顶点嵌入
- 解释了句子嵌入
- 句子嵌入中的余弦相似性
- 培训双重编码器模型
- 提问的双重编码器
- 双重编码器培训过程
- 利用顶点AI的嵌入
- 堆栈溢出的数据集创建
- 生成文本嵌入
- 批处理嵌入生成
- 异常识别
- 隔离森林以进行离群值检测
- 结论
- 常见问题
了解顶点嵌入
向量嵌入代表定义空间内的单词或句子。这些矢量的接近表示相似性。近距向量表示更大的语义相似性。虽然最初主要用于NLP,但它们的应用程序扩展到图像,视频,音频和图形。剪辑是一种突出的多模式学习模型,同时生成图像和文本嵌入。
向量嵌入的关键应用包括:
- 在输入令牌转换后,LLMS将它们用作令牌嵌入。
- 语义搜索采用它们来找到查询最相关的答案。
- 在检索增强发电(RAG)中,句子嵌入有助于检索相关信息块。
- 建议系统使用它们来表示产品并识别相关项目。
让我们检查一下抹布管道中的句子嵌入的重要性。
上图中的检索引擎标识了与用户查询有关的数据库信息。基于变压器的跨编码器可以将查询与所有信息进行比较,从而对相关性进行分类。但是,这很慢。矢量数据库通过存储嵌入并使用相似性搜索提供更快的替代方法,尽管精度可能略低。
了解句子嵌入
句子嵌入是通过将数学操作应用于令牌嵌入而创建的,这通常是由Bert或GPT等预训练的模型生成的。以下代码证明了Bert生成的令牌嵌入的平均汇总以创建句子嵌入:
model_name =“ ./models/bert-base-uncased” tokenizer = berttokenizer.from_pretaining(model_name) 型号= bertmodel.from_pretrataining(model_name) def get_sentence_embedding(句子): encoded_input = tokenizer(句子,padding = true,truncation = true,return_tensors ='pt') activation_mask = encoded_input ['activation_mask'] 使用Torch.no_grad(): 输出=模型(** encoded_input) token_embeddings = output.last_hidden_state input_mask_expanded = activation_mask.unsqueeze(-1).expand(token_embeddings.size())。float() ston_embedding = torch.sum(token_embeddings * input_mask_expanded,1) / torch.clamp(input_mask_expanded.sum(1),min = 1e-9) return stone_embedding.flatten()。tolist()
该代码加载了BERT模型,并定义了使用平均池化计算句子嵌入的函数。
骨骼嵌入的余弦相似性
余弦相似性衡量两个向量之间的相似性,使其适合比较句子嵌入。以下代码实现了余弦的相似性和可视化:
def cosine_similarity_matrix(功能): norms = np.linalg.norm(特征,轴= 1,keepdims = true) 归一化=功能 /规范 samelity_matrix = np.inner(归一化_features,normolized_features) Rounded_similarity_matrix = np.Round(Sameity_matrix,4) 返回rounded_simarility_matrix def plot_simarlity(标签,功能,旋转): sim = cosine_similarity_matrix(功能) sns.set_theme(font_scale = 1.2) g = sns.heatmap(sim,xticklabels =标签,yticklabels =标签,vmin = 0,vmax = 1,cmap =“ ylorrd”) g.set_xticklabels(标签,旋转=旋转) g.set_title(“语义文本相似性”) 返回g 消息= [ # 技术 “我更喜欢使用MacBook进行工作。” “ AI是否接管人类工作?” “我的笔记本电脑电池排出太快了。” # 运动的 “你昨晚看过世界杯决赛吗?” “勒布朗·詹姆斯是一位令人难以置信的篮球运动员。” “我喜欢在周末参加马拉松比赛。” # 旅行 “巴黎是一个美丽的城市。” “夏天最好的旅行场所是什么?” “我喜欢在瑞士阿尔卑斯山远足。” # 娱乐 “最新的漫威电影很棒!” “你听泰勒·斯威夫特的歌吗?” “我对我最喜欢的系列的整个赛季进行了狂欢。” 这是给出的 嵌入= [] 对于消息中的t: EMB = get_sentence_embedding(t) embeddings.append(EMB) plot_simurility(消息,嵌入,90)
该代码定义句子,生成嵌入,并绘制显示其余弦相似性的热图。结果可能会表现出出乎意料的高相似性,激发了对诸如双重编码器之类的更准确方法的探索。
(其余部分以类似的方式继续进行,在维护核心信息并保留图像位置和格式的同时,对原始文本进行解释和重组。)
以上是使用顶点AI探索嵌入模型的详细内容。更多信息请关注PHP中文网其他相关文章!
![无法使用chatgpt!解释可以立即测试的原因和解决方案[最新2025]](https://img.php.cn/upload/article/001/242/473/174717025174979.jpg?x-oss-process=image/resize,p_40)
ChatGPT无法访问?本文提供多种实用解决方案!许多用户在日常使用ChatGPT时,可能会遇到无法访问或响应缓慢等问题。本文将根据不同情况,逐步指导您解决这些问题。 ChatGPT无法访问的原因及初步排查 首先,我们需要确定问题是出在OpenAI服务器端,还是用户自身网络或设备问题。 请按照以下步骤进行排查: 步骤1:检查OpenAI官方状态 访问OpenAI Status页面 (status.openai.com),查看ChatGPT服务是否正常运行。如果显示红色或黄色警报,则表示Open

2025年5月10日,麻省理工学院物理学家Max Tegmark告诉《卫报》,AI实验室应在释放人工超级智能之前模仿Oppenheimer的三位一体测试演算。 “我的评估是'康普顿常数',这是一场比赛的可能性

AI音乐创作技术日新月异,本文将以ChatGPT等AI模型为例,详细讲解如何利用AI辅助音乐创作,并辅以实际案例进行说明。我们将分别介绍如何通过SunoAI、Hugging Face上的AI jukebox以及Python的Music21库进行音乐创作。 通过这些技术,每个人都能轻松创作原创音乐。但需注意,AI生成内容的版权问题不容忽视,使用时务必谨慎。 让我们一起探索AI在音乐领域的无限可能! OpenAI最新AI代理“OpenAI Deep Research”介绍: [ChatGPT]Ope

ChatGPT-4的出现,极大地拓展了AI应用的可能性。相较于GPT-3.5,ChatGPT-4有了显着提升,它具备强大的语境理解能力,还能识别和生成图像,堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域,它都展现出巨大的潜力。然而,与此同时,我们也必须注意其使用上的注意事项。 本文将详细解读ChatGPT-4的特性,并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧,敬请参考。 OpenAI发布的最新AI代理,“OpenAI Deep Research”详情请点击下方链

CHATGPT应用程序:与AI助手释放您的创造力!初学者指南 ChatGpt应用程序是一位创新的AI助手,可处理各种任务,包括写作,翻译和答案。它是一种具有无限可能性的工具,可用于创意活动和信息收集。 在本文中,我们将以一种易于理解的方式解释初学者,从如何安装chatgpt智能手机应用程序到语音输入功能和插件等应用程序所独有的功能,以及在使用该应用时要牢记的要点。我们还将仔细研究插件限制和设备对设备配置同步

ChatGPT中文版:解锁中文AI对话新体验 ChatGPT风靡全球,您知道它也提供中文版本吗?这款强大的AI工具不仅支持日常对话,还能处理专业内容,并兼容简体中文和繁体中文。无论是中国地区的使用者,还是正在学习中文的朋友,都能从中受益。 本文将详细介绍ChatGPT中文版的使用方法,包括账户设置、中文提示词输入、过滤器的使用、以及不同套餐的选择,并分析潜在风险及应对策略。此外,我们还将对比ChatGPT中文版和其他中文AI工具,帮助您更好地了解其优势和应用场景。 OpenAI最新发布的AI智能

这些可以将其视为生成AI领域的下一个飞跃,这为我们提供了Chatgpt和其他大型语言模型聊天机器人。他们可以代表我们采取行动,而不是简单地回答问题或产生信息

使用chatgpt有效的多个帐户管理技术|关于如何使用商业和私人生活的详尽解释! Chatgpt在各种情况下都使用,但是有些人可能担心管理多个帐户。本文将详细解释如何为ChatGpt创建多个帐户,使用时该怎么做以及如何安全有效地操作它。我们还介绍了重要的一点,例如业务和私人使用差异,并遵守OpenAI的使用条款,并提供指南,以帮助您安全地利用多个帐户。 Openai


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境

SublimeText3汉化版
中文版,非常好用