LSTM을 사용하여 연속 텍스트를 생성하는 방법 및 기술-일체 포함-php.cn

집

기술 주변기기

일체 포함

LSTM을 사용하여 연속 텍스트를 생성하는 방법 및 기술

PHPz

Jan 23, 2024 am 09:00 AM

기계 학습인공 신경망

LSTM을 사용하여 연속 텍스트를 생성하는 방법 및 기술

LSTM은 장기 의존성 문제를 해결하는 데 사용되는 순환 신경망의 변형입니다. 핵심 아이디어는 일련의 게이트 유닛을 통해 입력, 출력 및 내부 상태의 흐름을 제어함으로써 RNN의 그래디언트 소멸 또는 폭발 문제를 효과적으로 방지하는 것입니다. 이 게이팅 메커니즘을 통해 LSTM은 정보를 오랫동안 기억하고 필요에 따라 상태를 선택적으로 잊거나 업데이트하여 긴 시퀀스 데이터를 더 잘 처리할 수 있습니다.

LSTM의 작동 원리는 망각 게이트, 입력 게이트 및 출력 게이트를 포함하는 세 가지 게이트 제어 장치를 통해 정보의 흐름과 보존을 제어하는 것입니다.

Forgetting Gate: 이전 상태를 잊어야 하는지 여부를 제어하여 모델이 이전 상태 정보를 선택적으로 유지할 수 있도록 합니다.

입력 게이트: 현재 상태에서 새로운 입력 정보의 비율을 제어하여 모델이 선택적으로 새로운 정보를 추가할 수 있도록 합니다.

출력 게이트: 현재 상태 정보의 출력을 제어하여 모델이 선택적으로 상태 정보를 출력할 수 있도록 합니다.

예를 들어 LSTM을 사용하여 날씨에 대한 텍스트를 생성한다고 가정해 보겠습니다. 먼저, 텍스트를 숫자로 변환해야 합니다. 이는 각 단어를 고유한 정수에 매핑하여 수행할 수 있습니다. 그런 다음 이러한 정수를 LSTM에 공급하고 다음 단어의 확률 분포를 예측할 수 있도록 모델을 훈련할 수 있습니다. 마지막으로 이 확률 분포를 사용하여 연속 텍스트를 생성할 수 있습니다.

다음은 LSTM을 구현하여 텍스트를 생성하는 샘플 코드입니다.

import numpy as np
import sys
import io
from keras.models import Sequential
from keras.layers import Dense, LSTM, Dropout
from keras.callbacks import ModelCheckpoint
from keras.utils import np_utils

# 读取文本文件并将其转换为整数
with io.open(&#x27;text.txt&#x27;, encoding=&#x27;utf-8&#x27;) as f:
    text = f.read()
chars =list(set(text))
char_to_int = dict((c, i) for i, c in enumerate(chars))

# 将文本分割成固定长度的序列
seq_length = 100
dataX = []
dataY = []
for i in range(0, len(text) - seq_length, 1):
    seq_in = text[i:i + seq_length]
    seq_out = text[i + seq_length]
    dataX.append([char_to_int[char] for char in seq_in])
    dataY.append(char_to_int[seq_out])
n_patterns = len(dataX)

# 将数据转换为适合LSTM的格式
X = np.reshape(dataX, (n_patterns, seq_length, 1))
X = X / float(len(chars))
y = np_utils.to_categorical(dataY)

# 定义LSTM模型
model = Sequential()
model.add(LSTM(256, input_shape=(X.shape[1], X.shape[2]), return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(256))
model.add(Dropout(0.2))
model.add(Dense(y.shape[1], activation=&#x27;softmax&#x27;))
model.compile(loss=&#x27;categorical_crossentropy&#x27;, optimizer=&#x27;adam&#x27;)

# 训练模型
filepath="weights-improvement-{epoch:02d}-{loss:.4f}.hdf5"
checkpoint = ModelCheckpoint(filepath, monitor=&#x27;loss&#x27;, verbose=1, save_best_only=True, mode=&#x27;min&#x27;)
callbacks_list = [checkpoint]
model.fit(X, y, epochs=20, batch_size=128, callbacks=callbacks_list)

# 使用模型生成文本
int_to_char = dict((i, c) for i, c in enumerate(chars))
start = np.random.randint(0, len(dataX)-1)
pattern = dataX[start]
print("Seed:")
print("\"", &#x27;&#x27;.join([int_to_char[value] for value in pattern]), "\"")
for i in range(1000):
    x = np.reshape(pattern, (1, len(pattern), 1))
    x = x / float(len(chars))
    prediction = model.predict(x, verbose=0)
    index = np.argmax(prediction)
    result = int_to_char[index]
    seq_in = [int_to_char[value] for value in pattern]
    sys.stdout.write(result)
    pattern.append(index)
    pattern = pattern[1:len(pattern)]

위 코드에서는 먼저 io 라이브러리를 통해 텍스트 파일을 읽고 각 문자를 고유한 정수에 매핑합니다. 그런 다음 텍스트를 길이 100의 시퀀스로 분할하고 이러한 시퀀스를 LSTM에 적합한 형식으로 변환합니다. 다음으로 다음 문자의 확률 분포를 계산하기 위한 활성화 함수로 소프트맥스를 사용하여 두 개의 LSTM 레이어와 완전 연결 레이어를 포함하는 모델을 정의합니다. 마지막으로 모델을 훈련하기 위해 fit 방법을 사용하고, 연속 텍스트를 생성하기 위해 예측 방법을 사용합니다.

모델을 사용하여 텍스트를 생성할 때 먼저 데이터 세트에서 시퀀스를 시작점으로 무작위로 선택합니다. 그런 다음 모델을 사용하여 다음 캐릭터의 확률 분포를 예측하고 확률이 가장 높은 캐릭터를 다음 캐릭터로 선택합니다. 다음으로 시퀀스 끝에 문자를 추가하고 시퀀스 시작 부분에서 문자를 제거하여 1000자의 텍스트를 생성할 때까지 위 단계를 반복합니다.

일반적으로 LSTM은 장기 의존성 문제를 해결하기 위해 특별히 설계된 순환 신경망의 변형입니다. 게이트 단위를 사용하여 입력, 출력 및 내부 상태의 흐름을 제어함으로써 LSTM은 그라데이션이 사라지거나 폭발하는 문제를 방지하여 연속 텍스트 생성과 같은 응용 프로그램을 활성화할 수 있습니다.

위 내용은 LSTM을 사용하여 연속 텍스트를 생성하는 방법 및 기술의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 网易伏羲에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Hugging Face ' S 7B 모델 올림픽 코더는 Claude 3.7을 이겼습니까?Apr 23, 2025 am 11:49 AM

Hugging Face의 올림픽 코더 -7b : 강력한 오픈 소스 코드 추론 모델 우수한 코드 중심 언어 모델을 개발하기위한 경쟁은 강화되고 있으며, Hugging Face는 엄청난 경쟁자 인 OlympicCoder-7B와 경쟁에 참여했습니다.

4 개의 새로운 쌍둥이 자리 기능을 놓칠 수 없습니다Apr 23, 2025 am 11:48 AM

AI가 단순한 질문에 대답하는 것 이상을 할 수 있기를 바라는 여러분 중 몇 명이 있습니까? 나는 내가 가지고 있다는 것을 알고 있으며, 늦게 그것이 어떻게 변화하고 있는지에 놀랐습니다. AI 챗봇은 더 이상 채팅에 관한 것이 아니라 창작에 관한 것입니다.

Camunda는 에이전트 AI 오케스트레이션에 대한 새로운 점수를 씁니다Apr 23, 2025 am 11:46 AM

Smart AI가 모든 수준의 엔터프라이즈 소프트웨어 플랫폼 및 애플리케이션에 통합되기 시작함에 따라 (강력한 핵심 도구와 덜 안정적인 시뮬레이션 도구가 있음을 강조해야 함) 이러한 에이전트를 관리하려면 새로운 인프라 기능 세트가 필요합니다. 독일 베를린에 본사를 둔 프로세스 오케스트레이션 회사 인 Camunda는 Smart AI가 적절한 역할을 수행하고 새로운 디지털 작업장에서 정확한 비즈니스 목표 및 규칙에 맞게 조정하는 데 도움이 될 수 있다고 생각합니다. 이 회사는 현재 조직이 AI 에이전트를 모델링, 배포 및 관리하도록 돕기 위해 설계된 지능형 오케스트레이션 기능을 제공합니다. 실용적인 소프트웨어 엔지니어링 관점에서, 이것이 무엇을 의미합니까? 확실성과 비 결정적 프로세스의 통합 이 회사는 핵심은 사용자 (일반적으로 데이터 과학자, 소프트웨어)를 허용하는 것이라고 말했다.

선별 된 엔터프라이즈 AI 경험에 가치가 있습니까?Apr 23, 2025 am 11:45 AM

다음 '25 년 Google Cloud에 참석하면서 Google이 AI 제품을 구별하는 방법을보고 싶어했습니다. 에이전트 공간 (여기서 논의 된)과 고객 경험 제품군 (여기서 논의)에 관한 최근의 발표는 유망한 비즈니스 valu를 강조했습니다.

헝겊에 가장 적합한 다국어 임베딩 모델을 찾는 방법은 무엇입니까?Apr 23, 2025 am 11:44 AM

검색 증강 생성 (RAG) 시스템을위한 최적의 다국적 임베딩 모델 선택 오늘날의 상호 연결된 세계에서 효과적인 다국어 AI 시스템을 구축하는 것이 가장 중요합니다. 강력한 다국어 임베딩 모델은 RE에 중요합니다

머스크 : 오스틴의 로보 탁시는 10,000 마일마다 개입이 필요합니다Apr 23, 2025 am 11:42 AM

Tesla의 Austin Robotaxi 런칭 : Musk의 주장에 대한 자세한 내용 Elon Musk는 최근 텍사스 오스틴에서 Tesla의 다가오는 Robotaxi 런칭을 발표하여 안전상의 이유로 소규모 10-20 대의 차량을 배치하여 빠른 확장 계획을 세웠습니다. 시간

AI의 충격적인 피벗 : 작업 도구에서 디지털 치료사 및 라이프 코치까지Apr 23, 2025 am 11:41 AM

인공 지능이 적용되는 방식은 예상치 못한 일 수 있습니다. 처음에 우리 중 많은 사람들이 주로 코드 작성 및 컨텐츠 작성과 같은 창의적이고 기술적 인 작업에 주로 사용되었다고 생각할 수도 있습니다. 그러나 하버드 비즈니스 리뷰 (Harvard Business Review)가 최근 조사한 결과는 그렇지 않습니다. 대부분의 사용자는 일뿐만 아니라 지원, 조직, 심지어 우정을 위해 인공 지능을 추구합니다! 이 보고서는 AI 신청 사례의 첫 번째는 치료 및 동반자라고 밝혔다. 이것은 24/7 가용성과 익명의 정직한 조언과 피드백을 제공하는 능력이 큰 가치가 있음을 보여줍니다. 반면에, 마케팅 작업 (예 : 블로그 작성, 소셜 미디어 게시물 만들기 또는 광고 사본)은 인기있는 사용 목록에서 훨씬 낮습니다. 이게 왜? 연구 결과와 그것이 어떻게 계속되는지 보자.