워드 벡터 임베딩에는 대규모 텍스트 말뭉치의 효율적인 처리가 필요합니다. word2vec. 간단한 방법으로, 단어는 원-핫 인코딩 학습 시스템으로 전송되며, 길이는 어휘 길이의 벡터이고, 단어의 해당 위치 요소는 1이고, 다른 요소는 0이다. 벡터 차원은 매우 높으며 서로 다른 단어의 의미적 연관성을 설명할 수 없습니다. 동시 발생은 단어를 나타내고, 의미론적 연관을 해결하고, 대규모 텍스트 코퍼스를 탐색하고, 각 단어의 특정 거리 내에 있는 주변 단어를 계산하고, 정규화된 주변 단어 수로 각 단어를 나타냅니다. 유사한 문맥에 있는 단어는 유사한 의미를 갖습니다. 더 조밀한 표현을 얻기 위해 PCA 또는 유사한 방법을 사용하여 발생 벡터의 차원을 줄입니다. 성능이 좋고 모든 어휘 동시 발생 행렬을 추적합니다. 너비와 높이는 어휘 길이입니다. 2013년에 Mikolov, Tomas 등은 문맥 계산 단어 표현 방법인 "벡터 공간에서 단어 표현의 효율적인 추정"(arXiv preprint arXiv:1301.3781(2013))을 제안했습니다. 스킵그램 모델은 무작위 표현에서 시작하여 현재 단어를 기반으로 문맥 단어의 간단한 분류자를 예측합니다. 오류는 분류기 가중치와 단어 표현을 통해 전파되고 예측 오류를 줄이기 위해 둘 다 조정됩니다. 대규모 코퍼스 훈련 모델 표현 벡터는 압축된 동시 발생 벡터를 근사화합니다.
데이터 세트, 영어 Wikipedia 덤프 파일에는 모든 페이지의 전체 개정 내역이 포함되어 있으며 현재 페이지 버전은 100GB입니다.
덤프 파일을 다운로드하고 페이지 단어를 추출하세요. 단어 발생 횟수를 세고 공통 어휘 목록을 작성하세요. 추출된 페이지를 어휘를 사용하여 인코딩합니다. 파일은 한 줄씩 읽혀지고 결과는 즉시 디스크에 기록됩니다. 프로그램 충돌을 방지하려면 여러 단계 사이에 체크포인트를 저장하세요.
__iter__는 단어 색인 목록 페이지를 탐색합니다. encode는 문자열 단어의 어휘 색인을 얻습니다. decode는 어휘 색인에 따라 문자열 단어를 반환합니다. _read_pages는 Wikipedia 덤프 파일(압축된 XML)에서 단어를 추출하여 페이지당 공백으로 구분된 한 줄의 단어로 페이지 파일에 저장합니다. bz2 모듈 열기 기능은 파일을 읽습니다. 중간 결과 압축 처리. 정규식은 일련의 연속 문자 또는 개별 특수 문자를 캡처합니다. _build_vocabulary는 페이지 파일의 단어 수를 계산하여 빈도가 높은 단어가 파일에 기록됩니다. 원-핫 인코딩에는 어휘가 필요합니다. 용어집 색인 인코딩. 철자 오류와 매우 흔하지 않은 단어가 제거되고 어휘에는 가장 일반적인 단어 1개인 Vocacia_size만 포함됩니다. 어휘에 없는 모든 단어는
동적으로 학습 샘플을 구성하고, 많은 양의 데이터를 구성하며, 분류기가 메모리를 많이 차지하지 않습니다. 스킵그램 모델은 현재 단어의 문맥 단어를 예측합니다. 텍스트, 현재 단어 데이터, 주변 단어 대상을 탐색하고 훈련 샘플을 만듭니다. 컨텍스트 크기 R, 각 단어는 2R개의 샘플을 생성하며, 현재 단어의 왼쪽과 오른쪽에 R 단어가 있습니다. 의미론적 맥락, 가까운 거리가 중요합니다. 원거리 맥락 단어의 훈련 샘플을 가능한 한 적게 만들고, [1, D=10] 범위에서 단어 맥락 크기를 무작위로 선택합니다. 학습 쌍은 스킵그램 모델을 기반으로 형성됩니다. Numpy 배열은 숫자 스트림 배치 데이터를 생성합니다.
처음에는 단어가 임의의 벡터로 표시됩니다. 분류기는 중간 수준 표현을 기반으로 문맥 단어의 현재 표현을 예측합니다. 오류를 전파하고, 가중치를 미세 조정하고, 입력 단어 표현을 표현합니다. MomentumOptimizer 모델 최적화, 지능 부족 및 높은 효율성.
분류자는 모델의 핵심입니다. 잡음 대비 추정 손실은 우수한 성능을 가지고 있습니다. Softmax 분류기 모델링. tf.nn.nce_loss 새로운 무작위 벡터 음성 샘플(비교 샘플), 근사 소프트맥스 분류기.
훈련 모델이 종료되고 최종 단어 벡터가 파일에 기록됩니다. Wikipedia 자료의 하위 집합을 일반 CPU에서 5시간 동안 훈련하여 NumPy 배열 임베딩 표현을 얻었습니다. 완전한 말뭉치: . AttrDict 클래스는 키를 속성으로 액세스할 수 있는 Python dict와 동일합니다.
import bz2
컬렉션 가져오기
import os
reimport re
from lxml import etree
from helpers import download
class Wikipedia:
TOKEN_REGEX = re.compile(r'[A-Za-z]+|[!? .:, ()]')
def __init__(self, url, 캐시_디렉터리, 어휘_크기=10000):
self._cache_dir = os.path.expanduser(cache_dir)
self._pages_path = os.path.join(self._cache_dir, '페이지 .bz2')
self._vocabulary_path = os.path.join(self._cache_dir, 'vocabulary.bz2')
그렇지 않은 경우 os.path.isfile(self._pages_path):
print('페이지 읽기')
본인. _read_pages(url)
그렇지 않은 경우 os.path.isfile(self._vocabulary_path):
print('어휘 구축')
self._build_vocabulary(vocabulary_size)
bz2.open(self._vocabulary_path, 'rt') 어휘로: + __iter__(자신 ):
bz2.open(self._pages_path, 'rt')을 페이지로:
페이지의 페이지:
단어 = page.strip().split()
단어 = [x에 대한 self.encode(x) 단어]
단어 생성
@property
defvocab_size(self):
return len(self._vocabulary)
def encode(self, word):
return self._indices.get(word, 0)
def decode(self, index):
return self._vocabulary[index]
def _read_pages(self, url):
wikipedia_path = download(url, self._cache_dir)
bz2.open(wikipedia_path)을 wikipedia로 사용,
bz2.open(self._pages_path , 'wt')를 페이지로:
for _, etree.iterparse(wikipedia, tag='{*}page')의 요소:
element.find('./{*}redirect')가 None이 아닌 경우:
continue
page = element.findtext('./{*}revision/{*}text')
words = self._tokenize(페이지)
Pages.write(' '.join(words) + 'n')
요소 .clear()
def _build_vocabulary(self,vocabulary_size):
counter = collections.Counter()
페이지로 bz2.open(self._pages_path, 'rt') 사용:
페이지 내 페이지:
단어 = 페이지.스트립 ().split()
counter.update(words)
common = ['
common = [x[0] for x in common]
bz2와 함께. open(self._vocabulary_path, 'wt')를 어휘로:
공통 단어의 경우:
Vocabulary.write(word + 'n')
@classmethod
def _tokenize(cls, page):
word = cls.TOKEN_REGEX.findall(page)
words = [x.lower() for x in word]
return word
import tensorflow as tf
import num py as np
도우미 제공 importlazy_property
class EmbeddingModel:
def __init__(self, data, target, params):
self.data = data
self.target = target
self.params = params
self.embeddings
self.cost
self.optimize
@lazy_property
def 임베딩(self):
초기 = tf.random_uniform(
[self.params.vocabulary_size, self.params.embedding_size],
-1.0, 1.0)
return tf.Variable(initial)
@lazy_property
def 최적화(self):
최적화 도구 = tf.train.MomentumOptimizer(
self.params.learning_rate, self.params.momentum)
returnoptimizer.minimize(self.cost)
@lazy_property
기본 비용(자체):
임베디드 = tf.nn.embedding_lookup(self.embeddings, self.data)
가중치 = tf.truncated_normal(
[self.params.vocabulary_size, self.params.embedding_size],
std dev=1.0 / self.params.embedding_size ** 0.5))
bias = tf.Variable(tf.zeros([self.params.vocabulary_size]))
target = tf.expand_dims(self.target, 1)
return tf.reduce_mean(tf.nn.nce_loss( ㅋㅋㅋ
컬렉션 가져오기
tensorflow를 tf로 가져오기
np로 numpy 가져오기
from 일괄 가져오기 일괄 가져오기
from EmbeddingModel import EmbeddingModel
from skimpgrams import skigrams
from Wikipedia import Wikipedia
from helpers import AttrDict
WIKI_DOWNLOAD_DIR = './wikipedia'
params = AttrDict (
Vocacia_size=10000,
max_context=10,
embedding_size=200,
Contrasive_examples=100,
learning_rate=0.5,
모멘텀=0.5,
배치_크기=1000,
)
data = tf.placeholder(tf.int32, [ None])
target = tf.placeholder(tf.int32, [None])
model = EmbeddingModel(data, target, params)
corpus = Wikipedia(
'https://dumps.wikimedia.org/enwiki/20160501/ '
'enwiki-20160501-pages-meta-current1.xml-p000000010p000030303.bz2',
WIKI_DOWNLOAD_DIR,
params.vocabulary_size)
예 = 스킵그램(말뭉치, params.max_context)
배치 = 배치(예, params.batch_size)
sess = tf.Session()
sess.run(tf.initialize_all_variables())
average = collections.deque(maxlen=100)
인덱스의 경우, 열거형 배치(배치):
Feed_dict = {data: 배치[0 ], 대상: 배치[1]}
비용, _ = sess.run([model.cost, model.optimize], Feed_dict)
average.append(cost)
print('{}: {:5.1f}' .format(index + 1, sum(average) / len(average)))
if index > 100000:
break
embeddings = sess.run(model.embeddings)
np.save(WIKI_DOWNLOAD_DIR + '/embeddings.npy', embeddings)
위 내용은 단어 벡터 임베딩의 자세한 예의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!