텍스트 임베딩은 NLP (Natural Language Processing)의 초석으로, 단어 나 문구가 실수의 밀도가 높은 벡터가되는 텍스트의 수치 표현을 제공합니다. 이를 통해 기계는 의미 론적 의미와 단어 간의 관계를 이해하여 인간 언어를 처리하는 능력을 크게 향상시킬 수 있습니다.
이러한 임베딩은 텍스트 분류, 정보 검색 및 시맨틱 유사성 탐지와 같은 작업에 필수적입니다. OpenAI는 텍스트 내에서 상황에 맞는 의미와 연관성을 포착하는 데있어 GPT 시리즈의 강점을 활용하여 ADA V2 모델을 제작할 것을 권장합니다.
진행하기 전에 OpenAI의 API 및 openai
Python 패키지에 대한 친숙 함이 가정됩니다 ( "Python의 OpenAI API를 통해"GPT-3.5 및 GPT-4 사용 "참조). 클러스터링, 특히 K- 평균에 대한 이해도 도움이됩니다 ( "파이썬에서 Scikit-Learn을 사용한 K-Means 클러스터 소개").
텍스트 임베딩의 응용 프로그램 :
텍스트 임베딩은 다음을 포함하여 수많은 영역에서 응용 프로그램을 찾습니다.
설정 및 설치 :
다음과 같은 파이썬 패키지가 필요합니다 : os
, openai
, scipy.spatial.distance
, sklearn.cluster.KMeans
및 umap.UMAP
. 다음을 사용하여 설치하십시오.
PIP 설치 -U Openai Scipy Plotly-Express Scikit-Learn Umap-Learn
필요한 라이브러리 가져 오기 :
OS 가져 오기 OpenAi 가져 오기 scipy에서 공간 가져 오기 거리 px로 plotly.express를 가져옵니다 Sklearn.Cluster import kmeans에서 UMAP 가져 오기 UMAP에서
OpenAI API 키 구성 :
Openai.api_key = "<your_api_key_here> "</your_api_key_here>
(교체해야합니다<your_api_key_here></your_api_key_here>
실제 키로.)
임베딩 생성 :
이 헬퍼 함수는 text-embedding-ada-002
모델을 사용하여 임베딩을 생성합니다.
def get_embedding (text_to_embed) : 응답 = openai.embedding.create ( Model = "Text-embedding-adada-002", 입력 = [text_to_embed] )) Embedding = response [ "data"] [0] [ "Embedding"] 반환 임베딩
데이터 세트 및 분석 :
이 예제는 Amazon Musical Instrument Review 데이터 세트 (Kaggle 또는 저자의 Github에서 사용할 수 있음)를 사용합니다. 효율성을 위해 100 개의 리뷰 샘플이 사용됩니다.
팬더를 PD로 가져옵니다 data_url = "https://raw.githubusercontent.com/keitazoumana/experimentation-data/main/musical_instruments_reviews.csv" reviace_df = pd.read_csv (data_url) [[ 'reviewText']] reviace_df = review_df.sample (100) reviace_df [ "embedding"] = reviace_df [ "reviewText"]. Astype (str) .apply (get_embedding) reviace_df.reset_index (drop = true, inplace = true)
시맨틱 유사성 :
scipy.spatial.distance.pdist()
사용하여 계산 된 유클리드 거리는 검토 임베딩 사이의 유사성을 측정합니다. 더 작은 거리는 더 큰 유사성을 나타냅니다.
클러스터 분석 (k-means) :
K- 평균 클러스터링 그룹 유사한 리뷰. 여기에는 세 개의 클러스터가 사용됩니다.
kmeans = kmeans (n_clusters = 3) kmeans.fit (reviace_df [ "Imbedding"]. tolist ())
치수 감소 (UMAP) :
UMAP는 시각화를 위해 임베딩 치수를 2로 줄입니다.
reture = umap () embeddings_2d = retayer.fit_transform (reviace_df [ "Embedding"]. tolist ())
심상:
산점도 플롯은 클러스터를 시각화합니다.
그림 = px.scatter (x = embeddings_2d [:, 0], y = embeddings_2d [:, 1], color = kmeans.labels_) 그림 쇼 ()
추가 탐사 :
고급 학습의 경우 미세 조정 GPT-3 및 OpenAI API 치트 시트에 대한 DataCamp 리소스를 탐색하십시오.
코드 예제는보다 간결하고 체계적인 방식으로 표시되어 가독성과 이해를 향상시킵니다. 이미지는 요청 된대로 포함됩니다.
위 내용은 OpenAI API와 함께 텍스트 임베드 활용 : 실용 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!