Memudahkan Pengekstrakan Data dengan Mod JSON OpenAI dan Skema JSON-tutorial js-php.cn

Rumah

hujung hadapan web

tutorial js

Memudahkan Pengekstrakan Data dengan Mod JSON OpenAI dan Skema JSON

Patricia Arquette

Jan 04, 2025 pm 12:59 PM

Simplifying Data Extraction with OpenAI JSON Mode and JSON Schemas

Apabila saya mula-mula bereksperimen dengan ChatGPT-3.5 selepas dikeluarkan, saya sangat teruja dengan potensinya untuk pelbagai aplikasi. Walau bagaimanapun, keterujaan saya cepat pudar apabila saya menghadapi sekatan jalan utama: walaupun maklumat berharga yang dikembalikannya sangat boleh dibaca, ia bukan dalam bentuk yang boleh diserap dengan pasti oleh aplikasi. Ironinya, LLM cemerlang dalam mengekstrak maklumat daripada teks tidak berstruktur tetapi hanya boleh mengembalikannya dalam bentuk tidak berstruktur. Cuba untuk mengekstrak hasil daripada LLM secara pemrograman terasa seperti berada di restoran luar biasa yang menyajikan makanan paling lazat, tetapi tanpa sebarang perkakas — anda boleh melihat dan menghidunya, tetapi anda tidak boleh mendapatkannya.

Saya mencuba setiap helah dalam buku untuk memujuknya supaya memberikan saya sedikit kemiripan data berstruktur. "Sila, hanya asingkan setiap item dengan bar atau baris baharu dan langkau ulasan," saya merayu. Kadang-kadang berjaya, kadang-kadang tidak. Kadangkala ia akan "membantu" menomborkan atau menyusun semula item, seperti pembantu yang bermaksud baik tetapi sedikit keliru. Pada masa lain ia masih akan menyelinap dalam beberapa ulasan, mengingatkan rakan sekerja yang cerewet. Saya malah menuntutnya dengan tidak pasti untuk mengembalikan JSON dan tiada yang lain, tetapi kadangkala ia meninggalkan koma — hampir seolah-olah ia mengambil jelingan pasif-agresif. Akhirnya, saya berputus asa dan dengan berat hati kembali kepada batasan algoritma tradisional yang kurang menarik tetapi lebih boleh diramal.

Nasib baik, beberapa bulan kemudian, OpenAI memperkenalkan mod JSON, satu ciri yang memaksa LLM untuk mengembalikan JSON yang sah. Saya memutuskan untuk mencuba ciri ini dan mendapati ia lebih berkesan untuk memproses hasil dalam aplikasi saya. Berikut ialah contoh output dengan mod JSON didayakan:

PROMPT:‍
Parse the following sentence into words and then return the results
as a list of the original word and the translation in English and
return the results in JSON.
-- sentence --
早安‍


RESULTS:
{
  "results": [
    {
      "original": "早安",
      "translation": "Good morning"
    }
  ]
}

Keluaran ini sememangnya satu peningkatan. Walau bagaimanapun, walaupun output adalah JSON yang sah, strukturnya boleh berbeza-beza bergantung pada kandungan gesaan. Pendekatan yang lebih boleh diramal adalah untuk menentukan format pulangan yang diingini. Satu cara untuk mencapai ini adalah dengan menyediakan sampel struktur JSON untuk diikuti oleh LLM. Kaedah ini melibatkan mencipta contoh dan menulis kod untuk menghuraikannya. Jika struktur berubah, pengubahsuaian mesti dilakukan di kedua-dua tempat.

Pendekatan alternatif ialah mentakrifkan Objek Pemindahan Data (DTO) untuk menyimpan hasil dan menggunakannya untuk mengarahkan LLM dan menghuraikan keputusan, mengelakkan isu penyegerakan. Mula-mula, tentukan DTO, contohnya:‍

record Entries(List<entry> entries) {
    record Entry(String originalWord, String wordInEnglish, String pronunciation) {}
}
</entry>

Kini DTO boleh digunakan dalam arahan segera serta dengan kod penghuraian:

// Construct the prompt with the output schema.
var prompt = MessageFormat.format("""
   Parse the following sentence into English and return the results
   in JSON according to the following JSON schema.

   人工智慧將引領未來，以智慧之光照亮人類無限可能的前程。
   --- output json schema ---
   {0}
   """, jsonSchemaOf(Entries.class));
   var result = sendPrompt(prompt, Entries.class);

Berikut ialah kod yang menggunakan penjana Jackson JSON Schema:

PROMPT:‍
Parse the following sentence into words and then return the results
as a list of the original word and the translation in English and
return the results in JSON.
-- sentence --
早安‍


RESULTS:
{
  "results": [
    {
      "original": "早安",
      "translation": "Good morning"
    }
  ]
}

Nota: Secara lalai, skema yang dijana akan termasuk medan ID yang digunakan untuk rujukan, yang boleh membazir token. Lihat Contoh Mod OpenAI JSON repositori untuk kod yang mengalih keluar ID yang tidak digunakan ini.

Dan akhirnya, inilah kod yang menghantar gesaan kepada OpenAI menggunakan Azure OpenAI Java SDK:

record Entries(List<entry> entries) {
    record Entry(String originalWord, String wordInEnglish, String pronunciation) {}
}
</entry>

Penyelesaian berfungsi dengan baik pada kebanyakan masa. LLM memahami skema JSON dengan berkesan tetapi satu kata amaran: Saya pernah melihat kes yang kadangkala menjadi salah. Contohnya, jika medan ialah String dan namanya jamak (cth. “exampleValues”), LLM kadangkala berkeras untuk mengembalikan tatasusunan Rentetan.

LLM boleh menjana output yang luar biasa, kadangkala melebihi keupayaan orang biasa. Walau bagaimanapun, adalah menarik bahawa, sekurang-kurangnya buat masa ini, mereka bergelut dengan tugas yang lebih biasa untuk memformat output terjana mereka dengan pasti.

Atas ialah kandungan terperinci Memudahkan Pengekstrakan Data dengan Mod JSON OpenAI dan Skema JSON. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Berkaitan

Ganti aksara rentetan dalam javascriptMar 11, 2025 am 12:07 AM

Penjelasan terperinci mengenai kaedah penggantian rentetan javascript dan Soalan Lazim Artikel ini akan meneroka dua cara untuk menggantikan watak rentetan dalam JavaScript: Kod JavaScript dalaman dan HTML dalaman untuk laman web. Ganti rentetan di dalam kod JavaScript Cara yang paling langsung ialah menggunakan kaedah pengganti (): str = str.replace ("cari", "ganti"); Kaedah ini hanya menggantikan perlawanan pertama. Untuk menggantikan semua perlawanan, gunakan ungkapan biasa dan tambahkan bendera global g: str = str.replace (/fi

periksa jQuery jika tarikh sahMar 01, 2025 am 08:51 AM

Fungsi JavaScript mudah digunakan untuk memeriksa sama ada tarikh sah. fungsi isvaliddate (s) { var bits = s.split ('/'); var d = tarikh baru (bit [2] '/' bits [1] '/' bits [0]); kembali !! (d && (d.getmonth () 1) == bit [1] && d.getdate () == nombor (bit [0])); } // ujian var

jQuery mendapatkan padding/margin elemenMar 01, 2025 am 08:53 AM

Artikel ini membincangkan cara menggunakan jQuery untuk mendapatkan dan menetapkan margin dalaman dan nilai margin elemen DOM, terutama lokasi tertentu margin luar dan margin dalaman elemen. Walaupun ada kemungkinan untuk menetapkan margin dalaman dan luar elemen menggunakan CSS, nilai yang tepat boleh menjadi rumit. // Sediakan $ ("div.header"). css ("margin", "10px"); $ ("div.header"). css ("padding", "10px"); Anda mungkin menganggap kod ini

10 Tab Accordion JQueryMar 01, 2025 am 01:34 AM

Artikel ini meneroka sepuluh tab jQuery yang luar biasa dan akordion. Perbezaan utama antara tab dan akordion terletak pada bagaimana panel kandungan mereka dipaparkan dan tersembunyi. Mari kita menyelidiki sepuluh contoh ini. Artikel Berkaitan: 10 JQuery Tab Plugin

10 patut diperiksa plugin jQueryMar 01, 2025 am 01:29 AM

Temui sepuluh plugin jQuery yang luar biasa untuk meningkatkan dinamisme dan daya tarikan visual laman web anda! Koleksi ini menawarkan pelbagai fungsi, dari animasi imej ke galeri interaktif. Mari kita meneroka alat yang berkuasa ini: Posting Berkaitan: 1

HTTP Debugging dengan Node dan HTTP-ConsoleMar 01, 2025 am 01:37 AM

HTTP-CONSOLE adalah modul nod yang memberi anda antara muka baris arahan untuk melaksanakan arahan HTTP. Ia bagus untuk menyahpepijat dan melihat apa yang sedang berlaku dengan permintaan HTTP anda, tanpa mengira sama ada mereka dibuat terhadap pelayan web, Serv Web

Tutorial Persediaan API Carian Google CustomMar 04, 2025 am 01:06 AM

Tutorial ini menunjukkan kepada anda bagaimana untuk mengintegrasikan API carian Google tersuai ke dalam blog atau laman web anda, menawarkan pengalaman carian yang lebih halus daripada fungsi carian tema WordPress standard. Ia menghairankan mudah! Anda akan dapat menyekat carian ke y

jQuery tambah bar scroll ke divMar 01, 2025 am 01:30 AM

Coretan kod jQuery berikut boleh digunakan untuk menambah bar skrol apabila kandungan div melebihi kawasan elemen kontena. (Tiada demonstrasi, sila salin terus ke Firebug) // d = dokumen // w = tetingkap // $ = jQuery var contentArea = $ (ini), Wintop = contentArea.scrollTop (), docheight = $ (d) .height (), winheight = $ (w) .height (), Divheight = $ ('#c

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

2 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Repo: Cara menghidupkan semula rakan sepasukan

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang laluByDDD

R.E.P.O. Simpan Fail Lokasi: Di manakah & bagaimana untuk melindunginya?

3 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

Dreamweaver CS6

Alat pembangunan web visual

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7317

1625

1349

1261

1209