探索教师库：结构化非结构化数据（以及沿途的一些乐趣）-Python教程-PHP中文网

首页

后端开发

Python教程

探索教师库：结构化非结构化数据（以及沿途的一些乐趣）

Mary-Kate Olsen

Nov 24, 2024 pm 03:36 PM

Exploring the Instructor Library: Structuring Unstructured Data (and Some Fun along the Way)

我最近遇到了讲师库，我不得不说，给我留下了深刻的印象。结构化非结构化数据的概念非常强大，而且我敢说，有点神奇。你可以获取无处不在的数据并以某种方式对其施加秩序——嗯，这就是我的魔法。

但是……它到底是如何工作的？

为了找到答案，我花了一些时间深入研究这个库的内部结构，我发现幕后有两个关键人物对它的大部分魔力负责。

认识一下玩家：Pydantic 和一个不错的提示

import instructor
from pydantic import BaseModel
from openai import OpenAI

现在，如果您熟悉 Python 的数据验证和设置管理，您可能听说过 Pydantic。如果你还没有……好吧，系好安全带！这是一个令人惊叹的库，允许您定义数据结构，然后实时验证传入数据是否与这些结构匹配。将其视为高级俱乐部的保镖，确保只有正确的数据才能进入。

FastAPI 是另一个很棒的工具，它很好地利用了 Pydantic 来确保通过 API 传递的数据采用正确的格式。那么，下一步是什么？现在我们已经定义了我们的结构，我们如何让 LLM（如 OpenAI 的 GPT）遵循它？嗯……

假设1：Pydantic的序列化

我的第一个假设是 Pydantic 可能允许某种序列化——将数据结构转换为法学硕士可以轻松理解和使用的东西。事实证明，我没有错。

Pydantic 允许您使用以下方法将数据序列化到字典中：

model.model_dump(...)  # Dumps the model into a dictionary

此方法递归地将 Pydantic 模型转换为字典，然后可以将其输入 LLM 进行处理。到目前为止，一切都很好。但后来我偶然发现了一些更有趣的事情：

假设 2：生成 JSON 模式

一切都变得更好了。 Pydantic 不仅可以将数据转换为字典，还可以为您的模型生成 JSON 模式。这是关键，因为现在您已经有了希望 LLM 遵循的结构蓝图。

这就是事情真正开始发生的地方：

# Generate a JSON schema for a Pydantic model
response_model.model_json_schema()

宾果游戏！现在您已经有了一个清晰的架构，它准确地定义了数据的外观。这是我们可以发送给 LLM 的蓝图，因此它确切地知道如何构建其输出。

将一切整合在一起

import instructor
from pydantic import BaseModel
from openai import OpenAI

在这里，图书馆将模式传递给 LLM，要求它返回符合该结构的数据。消息很明确：“嘿 LLM，在生成输出时请尊重此模式。”这就像给你的法学硕士一张详细的地图并说：“严格遵循这些指示。”

谢谢你对我的包容

因此，经过所有这些调查，我现在确信：Pydantic 的序列化和 JSON 模式生成使得 Instructor 库能够获得遵循结构化数据格式的 LLM。

感谢您与我一起完成这个有趣（且有点复杂）的调查。谁知道通过 Python 库的一点帮助和一点创造性的提示就可以驯服非结构化数据？

以上是探索教师库：结构化非结构化数据（以及沿途的一些乐趣）的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

您如何将元素附加到Python列表中？May 04, 2025 am 12:17 AM

toAppendElementStoApythonList，usetheappend（）方法forsingleements，Extend（）formultiplelements，andinsert（）forspecificpositions.1）useeAppend（）foraddingoneOnelementAttheend.2）useextendTheEnd.2）useextendexendExendEnd（

您如何创建Python列表？举一个例子。May 04, 2025 am 12:16 AM

TocreateaPythonlist,usesquarebrackets[]andseparateitemswithcommas.1)Listsaredynamicandcanholdmixeddatatypes.2)Useappend(),remove(),andslicingformanipulation.3)Listcomprehensionsareefficientforcreatinglists.4)Becautiouswithlistreferences;usecopy()orsl

讨论有效存储和数值数据的处理至关重要的实际用例。May 04, 2025 am 12:11 AM

金融、科研、医疗和AI等领域中，高效存储和处理数值数据至关重要。 1)在金融中，使用内存映射文件和NumPy库可显着提升数据处理速度。 2)科研领域，HDF5文件优化数据存储和检索。 3)医疗中，数据库优化技术如索引和分区提高数据查询性能。 4)AI中，数据分片和分布式训练加速模型训练。通过选择适当的工具和技术，并权衡存储与处理速度之间的trade-off，可以显着提升系统性能和可扩展性。

您如何创建Python数组？举一个例子。May 04, 2025 am 12:10 AM

pythonarraysarecreatedusiseThearrayModule，notbuilt-Inlikelists.1）importThearrayModule.2）指定tefifythetypecode，例如，'i'forineizewithvalues.arreaysofferbettermemoremorefferbettermemoryfforhomogeNogeNogeNogeNogeNogeNogeNATATABUTESFELLESSFRESSIFERSTEMIFICETISTHANANLISTS。

使用Shebang系列指定Python解释器有哪些替代方法？May 04, 2025 am 12:07 AM

除了shebang线，还有多种方法可以指定Python解释器：1.直接使用命令行中的python命令；2.使用批处理文件或shell脚本；3.使用构建工具如Make或CMake；4.使用任务运行器如Invoke。每个方法都有其优缺点，选择适合项目需求的方法很重要。

列表和阵列之间的选择如何影响涉及大型数据集的Python应用程序的整体性能？May 03, 2025 am 12:11 AM

ForhandlinglargedatasetsinPython,useNumPyarraysforbetterperformance.1)NumPyarraysarememory-efficientandfasterfornumericaloperations.2)Avoidunnecessarytypeconversions.3)Leveragevectorizationforreducedtimecomplexity.4)Managememoryusagewithefficientdata

说明如何将内存分配给Python中的列表与数组。May 03, 2025 am 12:10 AM

Inpython，ListSusedynamicMemoryAllocationWithOver-Asalose，而alenumpyArraySallaySallocateFixedMemory.1）listssallocatemoremoremoremorythanneededinentientary上，respizeTized.2）numpyarsallaysallaysallocateAllocateAllocateAlcocateExactMemoryForements，OfferingPrediCtableSageButlessemageButlesseflextlessibility。