>通过将抹布与代理AI合并,企业可以增强决策并将分散的数据转换为有价值的智能。该博客探讨了使用Agentic AI构建RAG管道的过程,提供技术见解和代码示例,以增强组织中明智的决策能力。
>本文是> > data Science Blogathon的一部分。内容表
>为公司情报构建强大的抹布系统的第一步是收集必要的数据。由于数据可能来自各种网络来源,因此有效地刮擦和组织它是关键。发现和收集相关页面的一种有效技术是广度优先搜索(BFS)。 BFS帮助我们递归地发现从主页开始的链接,从而逐渐将搜索扩展到更深的级别。这样可以确保我们收集所有相关页面,而不会用不必要的数据压倒系统。
在本节中,我们将研究如何使用BFS从网站提取链接,然后将这些页面的内容删除。使用BFS,我们会系统地遍历网站,收集数据并创建一个有意义的数据集,用于在RAG管道中处理。 下面的代码使用BFS从启动URL中进行链接提取。它首先获取主页,提取所有链接(< a>带有HREF属性的标签),然后遵循这些链接到后续页面,递归根据给定深度限制。
>我们保持队列以跟踪访问的URL及其相应的深度,以确保有效的遍历。访问的集合用于防止多次重新访问相同的URL。对于每个URL,我们使用BeautifulSoup来解析HTML并提取所有链接(带有HREF属性的标签)。该过程使用BFS遍历,递归获取每个URL的内容,提取链接并进一步探索直到达到深度极限。这种方法可确保我们在没有冗余的情况下有效地探索网络。 >使用BFS提取相关链接后,下一步就是从这些页面中刮擦内容。我们将寻找关键信息,例如产品功能,集成和任何其他相关数据,这些数据将帮助我们为RAG系统构建结构化数据集。 >
>步骤1:加载刮擦数据 >此过程的第一步是将原始的刮擦内容加载到我们的系统中。正如我们之前看到的,刮擦数据以JSON格式存储,每个条目都包含一个URL和相关内容。我们需要确保此数据以适当的格式供AI处理。
>在这里,我们使用Python的内置JSON库将整个数据集加载到存储器中。数据集中的每个条目都包含源的URL和text_content字段,该字段容纳了原始的刮擦文本。此内容是我们将在接下来的一步中处理的内容。 接下来,我们通过数据集迭代以提取每个条目的相关text_content。这样可以确保我们仅处理包含必要内容的有效条目。跳过无效或不完整的条目以维持该过程的完整性。
此代码段将每个块的内容串联到> pm_points 变量,从而产生完整的结构化洞察集。它以利益相关者可以轻松消费或用于进一步分析的格式提取这些见解。以下是原始代码的输出屏幕截图,并掩盖了敏感信息以保持完整性。
开始,让我们安装抹布管道的所有必要依赖项: >此外,我们使用句子转换器来生成具有预训练的变压器模型的文本嵌入,从而实现有效的文档处理和检索。 步骤2:加载提取的数据 。
>现在我们有了原始数据,我们使用recursivecharactertextsplitter将文档分解为较小的块。这样可以确保没有单个块超过语言模型的令牌限制。 现在,我们使用sencencetransformer将每个文本块转换为嵌入式。这些嵌入代表了高维矢量空间中文本的含义,这对于以后搜索和检索相关文档很有用。
>现在我们配置了猎犬。该组件根据用户查询搜索最相关的文本块。它将最类似的文档块检索到查询中。 接下来,我们创建一个提示模板,该模板将格式化语言模型的输入。该模板既包含上下文(检索到的块)和用户的查询,从而指导模型以仅基于提供的上下文生成答案。
> stroutputparser用于清洁和格式化模型的输出为字符串格式。
>部署和缩放 这可以通过利用分布式向量存储和优化检索过程来实现,从而确保管道在大量使用下保持响应迅速和快速。借助正确的基础架构和优化技术,代理平台可以增长以支持大规模运营,实现实时见解并保持公司情报的竞争优势。 结论 这种可扩展的解决方案随您的需求而生长,处理复杂的查询和较大的数据集,同时保持准确性。借助正确的基础设施,这个AI驱动的平台成为了更智能运营的基石,使组织能够利用其数据,保持竞争力并通过组织中的智能决策来推动创新。
,使企业能够提取实时,可行的见解。为什么数据刮擦对于公司情报很重要?数据刮擦有助于通过从多个来源收集和构造有价值的信息来建立强大的公司智能 >本文所示的媒体不归Analytics Vidhya拥有,并由作者的酌情决定使用。
import requests
from bs4 import BeautifulSoup
from collections import deque
# Function to extract links using BFS
def bfs_link_extraction(start_url, max_depth=3):
visited = set() # To track visited links
queue = deque([(start_url, 0)]) # Queue to store URLs and current depth
all_links = []
while queue:
url, depth = queue.popleft()
if depth > max_depth:
# Fetch the content of the URL
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
# Extract all links in the page
links = soup.find_all('a', href=True)
for link in links:
full_url = link['href']
if full_url.startswith('http') and full_url not in visited:
queue.append((full_url, depth + 1))
except requests.exceptions.RequestException as e:
print(f"Error fetching {url}: {e}")
return all_links
# Start the BFS from the homepage
start_url = 'https://www.example.com' # Replace with the actual homepage URL
all_extracted_links = bfs_link_extraction(start_url)
print(f"Extracted {len(all_extracted_links)} links.")
Extracted 1500 links.
>该代码的输出将是一个保存的JSON文件(Scraped_data.json),其中包含来自链接的刮擦数据。数据结构的一个示例可能是这样的:Extracted 1500 links.
Extracted 1500 links.
import json
# Function to scrape and extract data from the URLs
def scrape_data_from_links(links):
scraped_data = []
for link in links:
response = requests.get(link)
soup = BeautifulSoup(response.content, 'html.parser')
# Example: Extract 'title' and 'content' (modify according to your needs)
title = soup.find('title').get_text()
content = soup.find('div', class_='content').get_text() # Adjust selector
# Store the extracted data
'url': link,
'title': title,
'content': content
except requests.exceptions.RequestException as e:
print(f"Error scraping {link}: {e}")
return scraped_data
# Scrape data from the extracted links
scraped_contents = scrape_data_from_links(all_extracted_links)
# Save scraped data to a JSON file
with open('/content/scraped_data.json', 'w') as outfile:
json.dump(scraped_contents, outfile, indent=4)
print("Data scraping complete.")
代码代码片段:Extracted 1500 links.
"url": "https://www.example.com/page1",
"title": "Page 1 Title",
"content": "This is the content of the first page. It contains
information about integrations and features."
"url": "https://www.example.com/page2",
"title": "Page 2 Title",
"content": "Here we describe the functionalities of the product.
It includes various use cases and capabilities."
这些软件包对于在Langchain中集成文档处理,矢量化和OpenAI模型至关重要。 JQ是轻量级的JSON处理器,而Langchain则是构建语言模型管道的核心框架。 Langchain-Openai促进了诸如GPT之类的OpenAI模型的整合,Langchain-Chroma提供了基于色度的矢量商店,用于管理文档嵌入。
在此步骤中,已加载了先前提取的数据(可能包含产品功能,集成和功能)以进行进一步处理。Extracted 1500 links.
> sencencetransformer用于生成文本块的嵌入,创建捕获语义信息的密集矢量表示。函数embed_documents处理多个文档并返回其嵌入,而Embed_query生成了用户查询的嵌入式。 Chroma是一个矢量存储,管理这些嵌入并根据相似性实现有效的检索,从而允许快速准确的文档或查询匹配。>步骤5:设置猎犬
Extracted 1500 links.
在此步骤中,我们初始化OpenAI GPT模型。该模型将根据猎犬提供的结构化上下文生成答案。
我们初始化Chatopenai模型,该模型将处理提示并生成答案。>我们使用较小的模型“ GPT-4O-Mini”进行有效的处理,尽管较大的模型可以用于更复杂的任务。
> RunnablePassThrough确保查询直接传递到提示。
下面是原始代码的抹布输出的屏幕截图。敏感信息已被掩盖以维持完整性。import json
# Load the scraped JSON file containing the web data
with open('/content/scraped_contents_zluri_all_links.json', 'r') as file:
data = json.load(file)
奖励: 1。 在此设置中使用检索增强生成(RAG)的目的是什么? RAG通过将信息检索与生成AI相结合,增强了AI模型提供上下文感知响应的能力。它可以对大型数据集进行更明智的查询,从而更容易检索精确的,相关的答案,而不仅仅是执行基本的关键字搜索。
q 2。 需要哪些工具和库来构建博客中描述的系统?使用的主要工具和库包括Python,用于网络刮擦的美丽套件,用于管理文档检索的Langchain,用于自然语言处理的OpenAI模型以及用于存储矢量化文档的Chroma。这些组件共同创建一个全面的公司情报平台。 指针提取过程如何在此系统中起作用?指针提取涉及从刮擦内容中识别特定信息,例如产品功能,集成和故障排除提示。数据是使用及时驱动系统处理的,该系统将信息组织到结构化的,可行的见解中。这是通过AI模型和自定义提示的组合来实现的。