澳大利亚技术专家杰里米·霍华德(Jeremy Howard)提出了一个新的标准llms.txt
,旨在改善大型语言模型(LLMS)访问和索引网站内容。该标准类似于robots.txt
和XML站点地图,旨在简化LLMS的过程,减少其资源的压力,同时为网站所有者提供更多控制权。一个关键功能是“完整内容变平”,为品牌和内容创建者提供了好处。
尽管该提案引起了极大的兴趣,但它也面临批评。但是,鉴于AI生成的含量的快速发展, llms.txt
值得仔细考虑。
AI网站内容可访问性的新标准
关于内容创建者权利和数据控制的讨论,尤其是关于LLM培训数据的讨论,在SXSW Interactive 2024中获得了动力。尽管存在其他建议,但llms.txt
(前面介绍)为增加内容控制提供了更简单的解决方案。这些建议不是互斥的,但是llms.txt
在其发展中似乎更为先进。
霍华德的提案利用简单的标记来创建网站爬网和索引标准。随着LLM的消费和生成大量的Web内容,网站所有者越来越多地寻求更好地控制其数据的使用方式。 llms.txt
的目的是通过允许LLMS减少爬网和更多地关注其核心“智能”功能来解决这一问题。
本文探讨了:
-
llms.txt
是什么及其功能。 - 它在实践中的工作方式。
- 关于其价值的不同观点。
- LLM和网站所有者的当前采用率。
- 为什么它值得关注。
了解llms.txt
及其功能
霍华德的提议指出:“大型语言模型越来越依赖网站信息,但是面对关键的限制:上下文窗口太小,无法完整地处理大多数网站。将复杂的HTML页面与导航,ADS和JavaScript转换为LLM友好型纯文本,既困难又不精确...我们建议添加A /llms.txt
Markdey Firce to a /llm offiry wird offry wird offry offry offry友好llmmmieldlmmm firm llmmmield offrmm fird llmm firce''''''''''''''''''''''''''''
llms.txt
允许网站所有者指定AI模型如何访问和使用其内容。与robots.txt
不同,它不会阻止访问,而是指导内容如何显示给AI平台。这可能涉及根据网站结构组织的一个或多个文件中的一个或多个文件中的特定部分,摘要或完整的网站文本。
一个示例显示了一个超过100,000个单词的llms.txt
文件,其中包含整个网站扁平的文本。但是,根据网站内容,文件大小可能会大不相同。也可以创建单个页面的降价(.md)版本。
生成llms.txt
或llms-full.txt
文件
该过程的简单性值得注意。它将网站减少到其核心文本本质,简化各种应用程序的解析,包括内容开发,网站分析和实体研究。标准化方法允许网站所有者控制LLM的使用方式。
该协议正在吸引科技领导者和SEO专业人员之间。它增强相关性的潜力有益于LLM,网站所有者和寻求更准确信息的用户。 llms.txt
在网站的根目录中使用简单的文本文件时的功能类似于robots.txt
,但要理解robots.txt
指令不包含在llms.txt
中。
llms.txt
实施的示例:
几个著名的组织已经采用或正在探索llms.txt
,包括拟人,拥抱的脸,困惑和Zapier。 llms.txt
HUB是使用此标准识别AI开发人员的资源。
生成llms.txt
文件的工具:
几种工具有助于生成llms.txt
文件,从较小网站的免费选项到较大较大的网站的自定义解决方案。网站所有者还可以开发自己的工具。但是,在部署之前,对任何外部工具的彻底安全审查至关重要。示例包括Markdowner,Aptify,网站LLM(WordPress插件)和FireCrawl。
SEO和GEO的意义
控制AI模型与网站内容交互的方式至关重要。扁平的网站版本简化了AI提取,培训和分析。好处包括:
- 保护专有内容:(适用于合规性LLM)
- 品牌声誉管理:理论上提供了对AI生成的响应中信息如何出现的控制。
- 增强的语言和内容分析:促进了各种分析,例如关键字频率和实体分析。
- 改进的AI相互作用:使LLM能够检索准确且相关的信息。
- 提高内容可见性:有可能提高AI驱动搜索结果的可见性。
- 更好的AI性能:确保LLMS访问有价值的内容,从而获得更准确的响应。
- 竞争优势:将网站定位为更高的AI-Ready。
挑战和局限性
尽管有潜力,但llms.txt
仍面临挑战:
- AI公司的收养:并非所有的AI公司都可以遵守。
- 网站采用:网站所有者的广泛采用对于成功至关重要。
-
与其他协议重叠:潜在的与
robots.txt
和XML站点地图的冲突。 - 滥用的潜力:关键字填充或其他操纵技术的可能性。
- 接触竞争者:促进更容易的竞争分析。
一些SEO/GEO专业人员表示保留,认为LLMS和搜索引擎之间的区别是模糊的,使llms.txt
相关性较小。其他人则认为现有协议(例如robots.txt
和XML站点地图)就足够了。
llms.txt
和AI内容治理的未来
llms.txt
代表了平衡AI创新与内容所有权的早期尝试。它的广泛采用取决于行业支持,网站所有者的参与,监管发展和AI公司合规性。保持知情和调整内容策略对于网站所有者至关重要。
llms.txt
有助于更透明和受控的AI内容生态系统。主动实施保障数字资产并改善了LLM与网站的交互。 AI相互作用的定义策略对于在线搜索和内容分布的不断发展的景观至关重要。
llms.txt
可能会引入一定程度的科学严谨性,目前缺乏既定的标准和实践。它在一个越来越依赖LLM的世界中提供了潜在的优势来检索信息。尽管广泛采用仍然不确定,但潜在的收益足以保证考虑和实施。
以上是认识LLMS.TXT,这是AI网站内容爬网的拟议标准的详细内容。更多信息请关注PHP中文网其他相关文章!

最近的一项腐烂调查表明,大多数营销领导者正在根据不断发展的搜索景观来调整其策略。 人工智能搜索,搜索碎片和潜在的Google反托拉斯动作的兴起正在推动此SH

制作2025年的引人注目的标题:在人群中脱颖而出 在2025年,有效的SEO不仅需要关键字。 为了提高点击率并保持搜索排名,您的标题标签需要简洁,迷人和精确的refl

希望您的内容被AI搜索引擎和代理商发现和使用吗? 传统的SEO策略不足; AI系统处理信息的方式不同。本指南概述了保持内容可见性和排名的重要优化

SEO指导:一种强大的,经常被忽视的资产 在不断发展的SEO景观中,指导为经验丰富的专业人员和新移民提供了重要的优势。 这种强大的工具可以加速增长,磨练技能并增强利润

ChatGPT搜索引流效果显着,尤其利好教育、科技和软件开发类网站。 Semrush基于2024年下半年8000万条全球点击流数据分析显示,截至11月,ChatGPT已为超过3万个独立域名带来更多流量。 搜索行为变化: ChatGPT约54%的查询未开启搜索功能,其余46%使用了搜索。 平均ChatGPT提示词长度为23个单词,最长达2712个单词。 平均ChatGPT搜索词长度则短得多,仅为4.2个单词,最长为301个单词。 搜索意图转变: 传统搜索关键词具有明确的意图(导航、信息、商业

Google Business Profiles现在集成了Google Product Studio,这是一种生成的AI工具,可让您通过AI驱动的背景场景更改增强产品图像。 此功能,已经在Google Merchant Center和Google广告中提供了

Openai的Chatgpt搜索:现在没有帐户并准备成长 OpenAI已将其ChatGpt搜索随时提供给所有人,从而消除了对登录或帐户创建的需求。 X(以前为Twitter)上宣布的重大更新允许

创建者管理平台Grin的一项新调查表明,Z Gen Gens Oventer偏爱Instagram和Tiktok而不是Google进行产品发现。 主要发现:在18至27岁的孩子中,产品发现习惯表现出对社交M的强烈偏爱


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

安全考试浏览器
Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

禅工作室 13.0.1
功能强大的PHP集成开发环境

SublimeText3 Linux新版
SublimeText3 Linux最新版