Heim >Backend-Entwicklung >Python-Tutorial >Verstehen des OpenAI JSONL-Formats: Organisieren der Datensätze

Verstehen des OpenAI JSONL-Formats: Organisieren der Datensätze

Susan Sarandon
Susan SarandonOriginal
2025-01-04 20:44:40391Durchsuche

Understanding the OpenAI JSONL Format: Organising the Records

In den Anfängen der Postsortierung für den Postdienst stand die Six Triple Eight vor Herausforderungen mit zurückgesandten Briefen, die als ungültig markiert waren. Dies war häufig auf Fehler zurückzuführen, die auf mangelnde Erfahrung mit der Verarbeitung eines so enormen Postvolumens zurückzuführen waren. Im Laufe der Zeit entwickelten sie innovative Indexierungssysteme, um Namen mit Regimentern und Rängen abzugleichen und so die Effizienz und Genauigkeit erheblich zu verbessern.

Ebenso ist es bei der Arbeit mit den Large Language Models (LLMs) von OpenAI entscheidend, das erforderliche Eingabeformat zu verstehen und einzuhalten. So wie falsch indizierte E-Mails zu Rücksendungen führten, können schlecht formatierte Daten zu einer ineffektiven Feinabstimmung und suboptimalen Ergebnissen führen. OpenAI verwendet das JSONL-Format (JSON Lines) als organisatorischen Rahmen für die Feinabstimmung und stellt sicher, dass die Daten strukturiert und für die Verarbeitung bereit sind.

Warum JSONL-Format?

Das JSONL-Format ermöglicht die Speicherung von Daten in einer zeilenweisen Struktur, wobei jede Zeile einen einzelnen Datensatz im JSON-Format darstellt. Diese Struktur ist kompakt, leicht lesbar und mit der Feinabstimmungs-API von OpenAI kompatibel. Durch die richtige Formatierung wird Folgendes sichergestellt:

  • Genauigkeit: Das Modell verarbeitet Daten wie vorgesehen und vermeidet Fehler.

  • Effizienz: Die Feinabstimmung erfolgt nahtlos mit einer konsistenten Struktur.

  • Skalierbarkeit: Große Datensätze können ohne komplexe Konfigurationen effektiv verwaltet werden.

Beispiel für ein JSONL-Format zur Feinabstimmung

So werden Daten normalerweise in JSONL zur Feinabstimmung von OpenAI-Modellen formatiert:

 openai_format = {
        "message":[
            {"role":"system","content":system},
            {"role":"user","content":""},
            {"role":"assistant","content":""}
        ]
    }

Jeder Datensatz besteht aus drei Schlüsselkomponenten:

  • System: Die Eingabeaufforderung ist erforderlich

  • Benutzer: Die Beispieldaten.

  • Assistent: Die Bezeichnung für die Daten

Konvertieren lassen

import  json
df = pd.read_csv('/content/dataset/train.csv', on_bad_lines='skip')

final_df = df.head(150)
total_tokens = cal_num_tokens_from_df(final_df,'gpt-3.5-turbo')
print(f"total {total_tokens}")


system ="You are a intelligent assistant designed to classify news articles into three categories :business ,entertainment,sport,tech,politics"
with open('dataset/train.jsonl','w') as f:
  for _,row in final_df.iterrows():
    openai_format = {
        "message":[
            {"role":"system","content":system},
            {"role":"user","content":row['text']},
            {"role":"assistant","content":row['label']}
        ]
    }
    json.dump(openai_format,f)
    f.write('\n')

Beispielantwort

{"message": [{"role": "system", "content": "You are a intelligent assistant designed to classify news articles into three categories :business ,entertainment,sport,tech,politics"}, {"role": "user", "content": "qantas considers offshore option australian airline qantas could transfer as"}, {"role": "assistant", "content": "business"}]}

Lehren aus der Six Triple Eight

Die frühen Herausforderungen der Six Triple Eight bei der Postbearbeitung machen deutlich, wie wichtig Vorbereitung und Lernen sind. Ihre Indexierungsinnovationen stellten sicher, dass Datensätze korrekt abgeglichen und übermittelt wurden, und die Einhaltung des JSONL-Formats stellt sicher, dass die Feinabstimmung effektive und genaue Ergebnisse liefert.

Bei der Feinabstimmung von LLMs ist das Verstehen und Strukturieren von Daten im richtigen Format ebenso wichtig wie der Weg der Six Triple Eight zur Beherrschung der Kunst des Postsortierens. Indem wir sowohl aus der Geschichte als auch aus der Technologie lernen, können wir bemerkenswerte Ergebnisse bei der Lösung komplexer logistischer Herausforderungen erzielen.

Das obige ist der detaillierte Inhalt vonVerstehen des OpenAI JSONL-Formats: Organisieren der Datensätze. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn