연속적인 단어 가방 이해 (cbow)-일체 포함-php.cn

집

기술 주변기기

일체 포함

연속적인 단어 가방 이해 (cbow)

尊渡假赌尊渡假赌尊渡假赌

Mar 17, 2025 am 09:46 AM

Semantics는 NLP에서는 연구중인 단어 간의 관계이기 때문에 중요합니다. 가장 간단하지만 매우 효과적인 절차 중 하나는 단어를 Word 벡터라고하는 매우 의미있는 벡터에 맵핑하는 연속적인 Word (Cbow)입니다. CBOW는 Word2Vec 프레임 워크에 사용되며 언어의 구문 적 의미뿐만 아니라 의미를 포착하는 단어에 근거한 단어를 예측합니다. 이 기사에서 독자는 CBOW 모델의 작동과 그 사용 방법에 대해 배울 것입니다.

학습 목표

Cbow 모델의 이론을 이해하십시오.
Cbow와 Skip-Gram의 차이점을 배우십시오.
예제 데이터 세트로 Python에서 Cbow 모델을 구현하십시오.
Cbow의 장점과 한계를 분석하십시오.
cbow에 의해 생성 된 단어 임베딩의 사용 사례를 탐색하십시오.

연속적인 단어 모델은 무엇입니까?

연속적인 단어 백 (cbow)은 또한 신경망을 사용하여 단어 임베딩을 결정할 때 사용되는 모델이며 Tomas Mikolov의 Word2Vec 모델의 일부입니다. Cbow는 주어진 문장에서 그것을 관찰하는 컨텍스트 단어에 따라 대상 단어를 예측하려고합니다. 이렇게하면 의미 론적 관계를 포착 할 수 있으므로 고 차원의 공간에서 밀접한 단어가 밀접하게 표시됩니다.

예를 들어, “고양이가 매트에 앉아 앉아있는” 문장에서, 컨텍스트 창 크기가 2 인 경우, “sat” 의 컨텍스트 단어는 [“The”,“Cat”,“On”,“The”] 이며 모델의 작업은 “sat”이라는 단어를 예측하는 것입니다.

CBOW는 컨텍스트 단어를 집계하고 (예 : 임베딩 평균) 집계 하고이 집계 표현을 사용하여 대상 단어를 예측하여 작동합니다. 모델의 아키텍처에는 컨텍스트 단어에 대한 입력 계층, 임베딩 생성을위한 숨겨진 레이어 및 확률 분포를 사용하여 대상 단어를 예측하기위한 출력 레이어가 포함됩니다.

텍스트 분류, 권장 시스템 및 감정 분석과 같은 의미 론적 이해가 필요한 작업에 이상적이고 효율적인 모델로서 빠르고 효율적인 모델입니다.

연속적인 단어가 어떻게 작동하는지

Cbow는 단어의 전체 어휘가 벡터에 매핑되는 단어 임베딩에 대한 컨텍스트에 따라 가장 간단하지만 효율적인 기술 중 하나입니다. 이 섹션에서는 CBOW 시스템의 작동을 가장 기본적인 수준에서 방법을 이해하는 수단으로 설명하고 CBOW 방법을 뒷받침하는 주요 아이디어를 논의하고 CBOW 히트 계산 시스템의 아키텍처 레이아웃에 대한 포괄적 인 안내서를 제공합니다.

맥락과 대상 단어를 이해합니다

Cbow는 컨텍스트 단어와 대상 단어의 두 가지 주요 개념에 의존합니다.

컨텍스트 단어 : 정의 된 창 크기 내에서 대상 단어를 둘러싼 단어입니다. 예를 들어, 문장에서 :
"빠른 갈색 여우는 게으른 개를 뛰어 넘습니다."
대상 단어가 "여우" 이고 컨텍스트 창 크기가 2 인 경우 컨텍스트 단어는 [ "빠른", "갈색", "점프", "오버"] 입니다.
대상 단어 : 이것은 컨텍스트 단어를 고려할 때 Cbow가 예측하는 것을 목표로하는 단어입니다. 위의 예에서 대상 단어는 "Fox" 입니다.

Cbow는 대구에서 문맥과 대상 단어 간의 관계를 분석함으로써 단어 간의 의미 론적 관계를 포착하는 임베딩을 생성합니다.

cbow의 단계별 프로세스

다음은 Cbow의 작동 방식에 대한 분석입니다. 단계별 :

1 단계 : 데이터 준비

텍스트 코퍼스 (예 : 문장 또는 단락)를 선택하십시오.
텍스트를 단어로 토큰 화하고 어휘를 구축하십시오.
컨텍스트 창 크기 NNN (예 : 양쪽에 2 단어)을 정의하십시오.

2 단계 : 컨텍스트-표적 쌍을 생성합니다

코퍼스의 각 단어에 대해 창 크기에 따라 주변 컨텍스트 단어를 추출하십시오.
예 : “I Love Machine Learning” 및 n = 2n = 2n = 2 문장의 경우, 쌍은 다음과 같습니다. 대상 단어 문맥 단어 사랑 [“i”,“machine”] 기계 [“사랑”,“학습”]]

STEP3 : 한 가지 인코딩

어휘 크기에 따라 컨텍스트 단어와 대상 단어를 한 번의 벡터로 변환하십시오. 크기 5의 어휘의 경우, "사랑"이라는 단어의 원격 표현은 [0, 1, 0, 0, 0] 처럼 보일 수 있습니다.

STEP4 : 임베딩 층

임베딩 층을 통해 원 호트 인코딩 된 컨텍스트 단어를 전달하십시오. 이 층은 각 단어를 조밀 한 벡터 표현, 일반적으로 어휘 크기보다 더 낮은 차원입니다.

5 단계 : 컨텍스트 집계

단일 컨텍스트 벡터를 형성하기 위해 모든 컨텍스트 단어의 임베딩 (예 : 평균화 또는 합산)의 임베딩을 집계하십시오.

6 단계 : 예측

집계 된 컨텍스트 벡터를 SoftMax 출력 레이어를 갖춘 완전히 연결된 신경망에 공급하십시오.
이 모델은 어휘에 대한 확률 분포를 기반으로 대상으로 가장 가능성있는 단어를 예측합니다.

Step7 : 손실 계산 및 최적화

교차 엔트로피 손실 함수를 사용하여 예측 된 대상 단어와 실제 대상 단어 사이의 오류를 계산하십시오.
임베딩 및 예측 층에서 가중치를 조정하기 위해 오차를 역전 시키십시오.

Step8 : 모든 쌍에 대해 반복하십시오

모델이 수렴 될 때까지 코퍼스의 모든 컨텍스트 표적 쌍에 대한 프로세스를 반복하십시오.

Cbow 아키텍처가 자세히 설명되었습니다

CBOW (Continuous Bag of Word) 모델의 아키텍처는 주변 컨텍스트 단어를 기반으로 대상 단어를 예측하도록 설계되었습니다. 간단하지만 효과적인 구조를 가진 얕은 신경망입니다. Cbow 아키텍처는 다음 구성 요소로 구성됩니다.

입력 계층

입력 표현 :
모델에 대한 입력은 일대일 인코딩 된 벡터 로 표시되는 컨텍스트 단어입니다.
- 어휘 크기가 V 인 경우, 각 단어는 단어에 해당하는 색인에서 단일 1과 다른 곳에서 1 개의 크기 v의 1 가지 벡터로 표시됩니다.
- 예를 들어, 어휘가 [ "고양이", "개", "여우", "나무", "새"]이고 "fox"라는 단어가 세 번째 단어 인 경우, 그 벡터는 [0,0,1,0,0] [0, 0, 1, 0, 0] [0,0,1,0,0]입니다.
컨텍스트 창 :
컨텍스트 창 크기 n은 사용 된 컨텍스트 단어의 수를 결정합니다. n = 2 인 경우 대상 단어의 양쪽에 두 단어가 사용됩니다.
- 문장의 경우 : “빠른 갈색 여우는 게으른 개를 뛰어 넘고 대상이라는 단어 “여우” , n = 2 인 컨텍스트 단어는 [“Quick”,“Brown”,“Jumps”,“Over”] 입니다.

임베딩 층

목적 :
이 층은 높은 치수로 존재하는 1 인치 벡터를 최대 조밀하고 낮은 치수 벡터로 변환합니다. 단어 임베딩 단어에서 단어가 대부분 0 값을 갖는 벡터로 표시되고, 임베딩 레이어에서 각 단어는 단어 의미의 특정 특성을 반영하는 필요한 치수의 연속 벡터에 의해 인코딩된다는 사실과 대조적으로.
단어 임베딩 매트릭스 :
임베딩 층은 크기 v × d의 단어 임베딩 행렬 w를 유지하며, 여기서 V는 어휘 크기이고 d는 임베딩 치수입니다.
- w의 각 행은 단어의 임베딩을 나타냅니다.
- 1- 호트 벡터 XXX의 경우, 내장은 w^tx x로 계산됩니다.
컨텍스트 단어 임베딩 :
각 컨텍스트 단어는 임베딩 행렬을 사용하여 해당 조밀 한 벡터로 변환됩니다. 창 크기 n = 2이고 4 개의 컨텍스트 단어가있는 경우이 단어의 임베딩이 추출됩니다.

숨겨진 층 : 컨텍스트 집계

목적 :
컨텍스트 단어의 임베딩은 단일 컨텍스트 벡터를 형성하기 위해 결합됩니다.
집계 방법 :
- 평균화 : 컨텍스트 벡터를 계산하기 위해 모든 컨텍스트 단어의 임베딩은 평균화됩니다.

연속적인 단어 가방 이해 (cbow)

요약 : 평균화하는 대신 임베딩이 합산됩니다.

연속적인 단어 가방 이해 (cbow)

결과 컨텍스트 벡터 : 결과는 단일 조밀 한 벡터 HHH이며, 이는 주변 단어의 집계 된 컨텍스트를 나타냅니다.

출력 레이어

목적 : 출력 층은 컨텍스트 벡터 HHH를 사용하여 대상 단어를 예측합니다.
완전히 연결된 레이어 : 컨텍스트 벡터 HHH는 완전히 연결된 층을 통과하여 어휘의 각 단어에 대해 원시 점수를 출력합니다. 이 점수를 로그라고합니다.
SoftMax 기능 : 로그는 SoftMax 기능을 통해 전달되어 어휘에 대한 확률 분포를 계산합니다.

연속적인 단어 가방 이해 (cbow)

예측 된 대상 단어 : 첫 번째 원인은 SoftMax 출력에서 알고리즘이 대상 단어를 확률이 가장 높은 단어로 정의하기 때문입니다.

손실 기능

교차 엔트로피 손실은 예측 된 확률 분포를 실제 대상 단어 (근거 진실)과 비교하는 데 사용됩니다.
확률 적 구배 하강 (SGD) 또는 변이체와 같은 최적화 기술을 사용하여 손실이 최소화됩니다.

행동중인 Cbow의 예

입력 :
문장 : “나는 기계 학습을 좋아한다” , 대상 단어 : “기계” , 맥락 단어 : [“I”,“Love”,“Learning”] .

일대일 인코딩 :
어휘 : [“나”,“사랑”,“기계”,“학습”,“ai”]]]

1 핫 벡터 :
- "I": [1,0,0,0,0] [1, 0, 0, 0, 0] [1,0,0,0,0]
- "사랑": [0,1,0,0,0] [0, 1, 0, 0, 0] [0,1,0,0,0]
- "학습": [0,0,0,1,0] [0, 0, 0, 1, 0] [0,0,0,1,0]

임베딩 레이어 :

임베딩 치수 : d = 3.
임베딩 매트릭스 W :

연속적인 단어 가방 이해 (cbow)

임베딩 :

“I”: [0.1,0.2,0.3]
"사랑": [0.4,0.5,0.6]
"학습": [0.2,0.3,0.4]

집계 :

임베딩 평균 :

연속적인 단어 가방 이해 (cbow)

출력 레이어 :

로짓을 계산하고 SoftMax를 적용하고 대상 단어를 예측하십시오.

Cbow 아키텍처 다이어그램

 입력 계층 : [ "I", "Love", "Learning"]]]
    -> 한 가지 인코딩
    -> 임베딩 레이어
        -> 조밀 한 임베딩
        -> 집계 된 컨텍스트 벡터
        -> 완전히 연결된 레이어 SoftMax
출력 : 예측 된 단어 "machine"

코딩 CBOW 코딩 (Python 예제 포함)

이제 Python에서 Cbow 모델을 처음부터 구현할 것입니다.

cbow에 대한 데이터 준비

첫 번째 스파이크는 텍스트를 토큰으로 변환하는 것입니다. 단어는 대상 단어가 포함 된 단어로 컨텍스트를 가진 컨텍스트 표적 쌍으로 생성되는 단어입니다.

 코퍼스 = "빠른 갈색 여우가 게으른 개를 뛰어 넘는다"
Corpus = corpus.lower (). split () # 토큰 화 및 소문자 변환

# 정의 컨텍스트 창 크기
c = 2
context_target_pairs = []

# 컨텍스트-표적 쌍을 생성합니다
IN RANGE (C, LEN (Corpus) -C)의 경우 :
    문맥 = 코퍼스 [i -c : i] 코퍼스 [i 1 : i c 1]
    대상 = 코퍼스 [i]
    context_target_pairs.append ((컨텍스트, 대상))

print ( "Context-target 쌍 :", context_target_pairs)

산출:

 문맥-표적 쌍 : [[ 'The', 'Quick', 'Fox', 'jumps'], 'brown'), 'brown'), ([ 'Quick', 'Brown', 'Jumps', 'Over', 'Fox'), 'fox'), 'fox'), 'fox'), 'fox', 'over', ''], ''fox ',' '', '', ',', ',' ',' ',' ',' ',' ',' ',' ',' ',' ' 'Over', 'Lazy', 'Dog'], 'The')]]]

단어 사전 만들기

우리는 어휘 (고유 한 단어 세트)를 구축 한 다음 각 단어를 고유 한 색인에 매핑하고 교육 중 효율적인 조회를 위해 그 반대도 마찬가지입니다.

 # 어휘 생성 및 각 단어를 색인에 매핑하십시오.
어휘 = 세트 (코퍼스)
Word_to_index = {Word : idx에 대한 idx, enumerate (vocab)}}
index_to_word = {idx : Word의 Word, idx in Word_to_index.items ()}

print ( "인덱스 사전으로 단어 :", word_to_index)

산출:

 인덱스 사전 : { 'brown': 0, 'dog': 1, 'Quick': '2,'Jumps ': 3,'Fox ': 4,'Over ': 5,'The ': 6,'Lazy ': 7}

하나의 인코딩 예제

단어 형성 시스템에서 각 단어를 벡터로 변환하여 하나의 hot 인코딩은 단어의 표시기가 '1'인 반면 나머지 장소는 '0'을 취합니다.

 def one_hot_encode (Word, Word_to_index) :
    ONE_HOT = np.zeros (len (word_to_index))
    ONE_HOT [Word_to_index [Word]] = 1
    one_hot을 반환하십시오

# "빠른"단어의 예제 예제
context_one_hot = [ 'the', 'quick']에서 Word의 경우 [one_hot_encode (Word, Word_to_index)]]]
print ( "Quick '을위한 원본 인코딩 :", context_one_hot [1])

산출:

 'Quick'에 대한 원호 인코딩 : [0. 0. 1. 0. 0. 0. 0.]

Cbow 모델을 처음부터 구축합니다

이 단계에서는 두 개의 계층이있는 기본 신경망을 만듭니다. 하나는 단어 임베딩을위한 것과 다른 하나는 컨텍스트 단어를 기반으로 출력을 계산하여 컨텍스트를 평균화하고 네트워크를 통해 전달합니다.

 클래스 Cbow :
    def __init __ (self, vocab_size, embedding_dim) :
        # 임베딩 및 출력 레이어에 대한 가중치를 무작위로 초기화합니다.
        self.w1 = np.random.randn (vocab_size, embedding_dim)
        self.w2 = np.random.randn (embedding_dim, vocab_size)
        
    def forward (self, context_words) :
        # 숨겨진 레이어 계산 (컨텍스트의 평균 단어)
        h = np. mean (context_words, axis = 0)
        # 출력 계층 계산 (SoftMax 확률)
        출력 = np.dot (h, self.w2)
        반환 출력
    
    Def Backward (self, context_words, target_word, learning_rate = 0.01) :
        # 포워드 패스
        h = np. mean (context_words, axis = 0)
        출력 = np.dot (h, self.w2)
        
        # 오류 및 그라디언트를 계산합니다
        ERROR = target_word- 출력
        self.w2 = Learning_rate * np.outer (h, 오류)
        self.w1 = Learning_rate * np.outer (context_words, 오류)

# cbow 객체 생성의 예
vocab_size = len (word_to_index)
embedding_dim = 5 # 5 차원 임베딩을 가정 해 봅시다

cbow_model = cbow (vocab_size, embedding_dim)

# 랜덤 컨텍스트 단어 및 대상 사용 (예로)
context_words = [ '', 'Quick', 'Fox', 'Jumps']의 Word에 대한 [one_hot_encode (Word, Word_to_index)]]]]]
context_words = np.array (context_words)
context_words = np.mean (context_words, axis = 0) # 평균 컨텍스트 단어
target_word = one_hot_encode ( 'brown', word_to_index)

# CBOW 모델을 통해 전진합니다
output = cbow_model.forward (context_words)
print ( "Cbow Forward Pass의 출력 :", 출력)

산출:

 Cbow Forward Pass의 출력 : [[-0.20435729 -0.23851241 -0.08105261 -0.14251447 0.20442154 0.14336586
  -0.06523201 0.0255063]
 [-0.0192184 -0.12958821 0.1019369 0.11101922 -0.17773069 -0.02340574
  -0.2222151 -0.23863179]
 [0.21221977 -0.15263454 -0.015248 0.27618767 0.02959409 0.21777961
   0.16619577 -0.20560026]
 [0.05354038 0.06903295 0.0592706 -0.13509918 -0.00439649 0.18007843
   0.1611929 0.2449023]
 [0.01092826 0.19643582 -0.07430934 -0.16443165 -0.01094085 -0.27452367
  -0.13747784 0.31185284]]

Cbow를 구현하기 위해 Tensorflow를 사용합니다

Tensorflow는 컨텍스트 단어를 사용하여 대상 단어를 예측하기 위해 삽입 된 층을 사용하고 출력을 위해 밀도가 높은 레이어를 학습하는 신경망을 정의하여 프로세스를 단순화합니다.

 텐서 플로우를 tf로 가져옵니다

# Tensorflow를 사용하여 간단한 Cbow 모델을 정의하십시오
클래스 cbowmodel (tf.keras.model) :
    def __init __ (self, vocab_size, embedding_dim) :
        Super (cbowmodel, self) .__ init __ ()
        self.embeddings = tf.keras.layers.embedding (input_dim = vocab_size, output_dim = embedding_dim)
        self.output_layer = tf.keras.layers.dense (vocab_size, activation = 'softmax')
    
    DEF CALL (self, context_words) :
        embedded_context = self.embeddings (context_words)
        context_avg = tf.reduce_mean (embedded_context, axis = 1)
        output = self.output_layer (context_avg)
        반환 출력

# 예제 사용
model = cbowmodel (vocab_size = 8, embedding_dim = 5)
context_input = np.random.randint (0, 8, size = (1, 4)) # 랜덤 컨텍스트 입력
context_input = tf.convert_to_tensor (context_input, dtype = tf.int32)

# 포워드 패스
output = model (context_input)
print ( "Tensorflow Cbow 모델의 출력 :", output.numpy ())

산출:

 Tensorflow Cbow 모델의 출력 : [[0.12362909 0.12616573 0.12758036 0.12601459 0.12477358 0.1237749
  0.12319998 0.12486169]]

Cbow에 성 Gensim 사용

Gensim은 Word2Vec () 함수에서 Cbow의 기성품 구현을 제공합니다. 여기서 Gensim은 텍스트 코퍼스에서 Word Embedings를 훈련시키기 때문에 훈련에 노동 할 필요가 없습니다.

 수입 세대
gensim에서 모들 import Word2Vec

# 데이터 준비 (단어 목록 목록)
Corpus = [[ "The", "Quick", "Brown", "Fox"], [ "점프", "Over", "The", "Lazy", "Dog"]]]]]]

# cbow를 사용하여 Word2Vec 모델을 훈련시킵니다
model = word2vec (corpus, vector_size = 5, window = 2, min_count = 1, sg = 0)

# 단어의 벡터 표현을 얻으십시오
벡터 = model.wv [ 'fox']
print ( "Fox '의 벡터 표현 :", 벡터)

산출:

 '폭스'의 벡터 표현 : [-0.06810732 -0.01892803 0.11537147 -0.15043275 -0.07872207]

연속적인 단어 가방의 장점

우리는 이제 연속적인 단어 가방의 장점을 탐구 할 것입니다.

단어 표현에 대한 효율적인 학습 : cbow는 컨텍스트 단어를 사용하여 단어에 대한 조밀 한 벡터 표현을 효율적으로 배웁니다. 이로 인해 전통적인 1 홀 인코딩에 비해 차원 벡터가 낮아서 계산적으로 비싸다.
시맨틱 관계를 포착합니다 : Cbow는 큰 코퍼스에서의 맥락을 기반으로 단어 간의 의미 론적 관계를 포착합니다. 이를 통해 모델은 정보 검색 및 감정 분석과 같은 작업에 유용한 단어 유사성, 동의어 및 기타 상황에 맞는 뉘앙스를 배울 수 있습니다.
확장 성 : CBOW 모델은 확장 가능하며 대규모 데이터 세트를 효율적으로 처리 할 수 있으므로 검색 엔진 및 소셜 미디어 플랫폼과 같은 방대한 양의 텍스트 데이터가있는 응용 프로그램에 적합합니다.
상황에 맞는 유연성 : Cbow는 다양한 양의 맥락 (즉, 주변 단어의 수)을 처리 할 수 있으며, 단어 표현을 학습하는 데 얼마나 많은 맥락이 필요한지에 대한 유연성을 제공합니다.
NLP 작업의 개선 된 성능 : Cbow의 Word Embeddings는 고품질 기능 표현을 제공하여 텍스트 분류, 이름이라는 이름의 엔터티 인식 및 기계 번역과 같은 다운 스트림 NLP 작업의 성능을 향상시킵니다.

연속적인 단어 가방의 한계

이제 cbow의 한계에 대해 논의합시다.

컨텍스트 창 크기에 대한 감도 : Cbow의 성능은 컨텍스트 창 크기에 크게 의존합니다. 작은 창은 지역 관계 만 포착 할 수 있지만 큰 창은 단어의 독특함을 흐리게 할 수 있습니다. 최적의 컨텍스트 크기를 찾는 것은 도전적이고 업무 의존적 일 수 있습니다.
단어 순서 민감도 부족 : Cbow는 문맥 내에서 단어의 순서를 무시합니다. 즉, 언어의 순차적 특성을 포착하지 않습니다. 이 제한은 구문 구문 분석 및 언어 모델링 과 같은 단어 순서에 대한 깊은 이해가 필요한 작업에 문제가 될 수 있습니다.
희귀 한 단어의 어려움 : Cbow는 희귀하거나 비정규 (OOV) 단어에 대한 의미있는 임베딩을 생성하는 데 어려움을 겪고 있습니다. 이 모델은 컨텍스트에 의존하지만 드문 단어에 대한 희소 데이터는 벡터 표현이 열악해질 수 있습니다.
얕은 문맥 이해로 제한 : Cbow는 주변 단어를 기반으로 단어 의미를 포착하는 반면, 변압기와 같은 더 정교한 모델이 필요할 수있는 장거리 의존성, 아이러니 또는 풍자와 같은보다 복잡한 언어 현상을 이해하는 능력이 제한적입니다.
폴리 세미를 잘 다룰 수 없음 : 여러 의미가있는 단어 (다리)는 cbow에게 문제가 될 수 있습니다. 모델은 각 단어에 대해 단일 임베딩을 생성하기 때문에 Bert 또는 Elmo 와 같은 고급 모델과 달리 단어가 다른 맥락에서 가질 수있는 다른 의미를 포착하지 못할 수 있습니다.

결론

연속적인 단어 (CBOW) 모델은 주변 컨텍스트를 활용하여 단어 임베딩을 생성하기위한 효율적이고 직관적 인 접근법으로 입증되었습니다. Cbow는 간단하면서도 효과적인 아키텍처를 통해 원시 텍스트와 의미있는 벡터 표현 사이의 간격을 연결하여 광범위한 NLP 응용 프로그램을 가능하게합니다. Cbow의 작업 메커니즘, 강점 및 한계를 이해함으로써 NLP 기술의 진화에 대한 더 깊은 통찰력을 얻습니다. Cbow는 생성을 포함시키는 기본적 역할을 통해 고급 언어 모델을 탐색하기위한 디딤돌입니다.