我最近遇到了讲师库,我不得不说,给我留下了深刻的印象。结构化非结构化数据的概念非常强大,而且我敢说,有点神奇。你可以获取无处不在的数据并以某种方式对其施加秩序——嗯,这就是我的魔法。
但是……它到底是如何工作的?
为了找到答案,我花了一些时间深入研究这个库的内部结构,我发现幕后有两个关键人物对它的大部分魔力负责。
import instructor from pydantic import BaseModel from openai import OpenAI
现在,如果您熟悉 Python 的数据验证和设置管理,您可能听说过 Pydantic。如果你还没有……好吧,系好安全带!这是一个令人惊叹的库,允许您定义数据结构,然后实时验证传入数据是否与这些结构匹配。将其视为高级俱乐部的保镖,确保只有正确的数据才能进入。
FastAPI 是另一个很棒的工具,它很好地利用了 Pydantic 来确保通过 API 传递的数据采用正确的格式。那么,下一步是什么?现在我们已经定义了我们的结构,我们如何让 LLM(如 OpenAI 的 GPT)遵循它?嗯……
我的第一个假设是 Pydantic 可能允许某种序列化——将数据结构转换为法学硕士可以轻松理解和使用的东西。事实证明,我没有错。
Pydantic 允许您使用以下方法将数据序列化到字典中:
model.model_dump(...) # Dumps the model into a dictionary
此方法递归地将 Pydantic 模型转换为字典,然后可以将其输入 LLM 进行处理。到目前为止,一切都很好。但后来我偶然发现了一些更有趣的事情:
一切都变得更好了。 Pydantic 不仅可以将数据转换为字典,还可以为您的模型生成 JSON 模式。这是关键,因为现在您已经有了希望 LLM 遵循的结构蓝图。
这就是事情真正开始发生的地方:
# Generate a JSON schema for a Pydantic model response_model.model_json_schema()
宾果游戏!现在您已经有了一个清晰的架构,它准确地定义了数据的外观。这是我们可以发送给 LLM 的蓝图,因此它确切地知道如何构建其输出。
import instructor from pydantic import BaseModel from openai import OpenAI
在这里,图书馆将模式传递给 LLM,要求它返回符合该结构的数据。消息很明确:“嘿 LLM,在生成输出时请尊重此模式。”这就像给你的法学硕士一张详细的地图并说:“严格遵循这些指示。”
因此,经过所有这些调查,我现在确信:Pydantic 的序列化和 JSON 模式生成使得 Instructor 库能够获得遵循结构化数据格式的 LLM。
感谢您与我一起完成这个有趣(且有点复杂)的调查。谁知道通过 Python 库的一点帮助和一点创造性的提示就可以驯服非结构化数据?
以上是探索教师库:结构化非结构化数据(以及沿途的一些乐趣)的详细内容。更多信息请关注PHP中文网其他相关文章!