Rumah >Peranti teknologi >AI >Memanfaatkan Embeddings Teks dengan API Terbuka: Panduan Praktikal

Memanfaatkan Embeddings Teks dengan API Terbuka: Panduan Praktikal

Lisa Kudrow
Lisa Kudrowasal
2025-03-11 09:19:11220semak imbas

Embeddings teks adalah asas pemprosesan bahasa semulajadi (NLP), memberikan perwakilan berangka teks di mana perkataan atau frasa menjadi vektor padat nombor sebenar. Ini membolehkan mesin memahami makna dan hubungan semantik antara kata -kata, meningkatkan keupayaan mereka untuk memproses bahasa manusia.

Embeddings ini penting untuk tugas -tugas seperti klasifikasi teks, pengambilan maklumat, dan pengesanan kesamaan semantik. OpenAI mengesyorkan model ADA V2 untuk menciptakannya, memanfaatkan kekuatan siri GPT dalam menangkap makna dan persatuan kontekstual dalam teks.

Sebelum meneruskan, kebiasaan dengan API OpenAI dan OpenAI Python Pakej diandaikan (lihat " Memahami kluster, terutamanya k-means, juga membantu (berunding "Pengenalan kepada K-means clustering dengan scikit-learn dalam python").

atau pengenalan topik.

  • Pengambilan maklumat: Mendapatkan maklumat yang berkaitan dengan pertanyaan tertentu, meniru fungsi enjin carian.
  • Interaksi. os , openai , scipy.spatial.distance , sklearn.cluster.kmeans , dan umap.umap . Pasangnya dengan menggunakan:
     Pip Install -u Openai Scipy Plotly-Express ScIKit-Learn Umap-Learn 

    Import perpustakaan yang diperlukan:

    Openai API Key:
     openai.api_key = "<your_api_key_here>" </your_api_key_here>
    (ingat untuk menggantikan dengan kunci sebenar anda. model teks-embeddddddddddddddding-ADA-ADA-ADA- 002 untuk menghasilkan embeddings: def get_embeddddding (teks_to_embed): response = openai.embeddddding.create (model = "teks-embeddddddddddddddddd-ada-ada-002" Embedding

    Dataset dan analisis:

    Contoh ini menggunakan dataset Kajian Alat Muzik Amazon (tersedia di Kaggle atau github pengarang). Untuk kecekapan, sampel 100 ulasan digunakan.

     Pandas import sebagai pd data_url = "https://raw.githubusercontent.com/keitazoana/experimentation-data/main/musical_instruments_Reviews.csv" review_df = pd.cd. = review_df.sample (100) review_df ["embedding"] = review_df ["reviewText"]. astype (str) .apply (get_embedding) review_df.reset_index (drop = true, inplace = true) <code> scipy.spatial.distance.pdist () </code>, mengukur persamaan antara embeddings kajian. Jarak yang lebih kecil menunjukkan persamaan yang lebih besar.  <p> <strong> Analisis cluster (k-means): </strong> </p> <p> Kumpulan kluster K-Means yang sama. Di sini, tiga kelompok digunakan: </p> <pre class="brush:php;toolbar:false"> kmeans = kmeans (n_clusters = 3) kmeans.fit (review_df ["embedding"]. = Umap () embeddings_2d = reducer.fit_transform (review_df ["embedding"]. Tolist ()) 

    Visualisasi:

    y=embeddings_2d[:, 1], color=kmeans.labels_) fig.show()

    Leveraging Text Embeddings with the OpenAI API: A Practical Guide

    Penjelajahan lanjut: Imej dimasukkan seperti yang diminta.

    Atas ialah kandungan terperinci Memanfaatkan Embeddings Teks dengan API Terbuka: Panduan Praktikal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

    Kenyataan:
    Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn