Markov 체인을 사용하여 텍스트 생성기 구축-일체 포함-php.cn

집

기술 주변기기

일체 포함

Markov 체인을 사용하여 텍스트 생성기 구축

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 pm 10:11 PM

기계 학습자연어텍스트 생성기

이 기사에서는 인기 있는 기계 학습 프로젝트인 텍스트 생성기를 소개합니다. 텍스트 생성기를 구축하는 방법과 더 빠른 예측 모델을 달성하기 위해 Markov 체인을 구현하는 방법을 배우게 됩니다.

Markov 체인을 사용하여 텍스트 생성기 구축

텍스트 생성기 소개

텍스트 생성은 다양한 산업, 특히 모바일, 앱 및 데이터 과학에서 널리 사용됩니다. 언론에서도 글쓰기 과정을 돕기 위해 텍스트 생성을 사용합니다.

일상생활에서 우리는 텍스트 완성, 검색 제안, 스마트 작성, 챗봇 등을 모두 접하게 됩니다.

이 기사에서는 Markov 체인을 사용하여 텍스트 생성기를 구축합니다. 이는 체인의 이전 문자를 가져와서 시퀀스의 다음 문자를 생성하는 문자 기반 모델입니다.

샘플 단어를 사용하여 프로그램을 훈련함으로써 텍스트 생성기는 일반적인 문자 순서 패턴을 학습합니다. 그런 다음 텍스트 생성기는 이러한 패턴을 불완전한 단어인 입력에 적용하고 단어를 완성할 확률이 가장 높은 문자를 출력합니다.

Markov 체인을 사용하여 텍스트 생성기 구축

텍스트 생성은 이전에 관찰한 언어 패턴을 기반으로 다음 문자를 예측하고 생성하는 자연어 처리의 한 분야입니다.

머신러닝 이전에 NLP는 영어의 모든 단어가 포함된 테이블을 생성하고 전달된 문자열을 기존 단어와 일치시키는 방식으로 텍스트 생성을 수행했습니다. 이 접근 방식에는 두 가지 문제가 있습니다.

수천 개의 단어를 검색하는 것은 매우 느릴 것입니다.
생성기는 이전에 본 단어만 완성할 수 있습니다.

머신러닝과 딥러닝의 등장으로 NLP를 사용하면 실행 시간을 대폭 줄이고 일반성을 높일 수 있습니다. 생성기가 이전에 접하지 못한 단어를 완성할 수 있기 때문입니다. 원하는 경우 NLP를 확장하여 단어, 구문 또는 문장을 예측할 수 있습니다.

이 프로젝트에서는 Markov 체인만 사용하여 수행할 것입니다. Markov 프로세스는 서면 언어 및 복잡한 분포의 샘플 시뮬레이션과 관련된 많은 자연어 처리 프로젝트의 기초입니다.

Markov 프로세스는 매우 강력하여 샘플 문서만으로도 실제처럼 보이는 텍스트를 생성하는 데 사용할 수 있습니다.

마르코프 체인이란 무엇인가요?

마르코프 체인은 각 이벤트의 확률이 이전 이벤트의 상태에 따라 달라지는 일련의 이벤트를 모델링하는 확률론적 프로세스입니다. 모델에는 유한한 상태 집합이 있으며 한 상태에서 다른 상태로 이동할 조건부 확률은 고정되어 있습니다.

각 전환의 확률은 이벤트의 전체 기록이 아닌 모델의 이전 상태에만 의존합니다.

예를 들어 날씨를 예측하기 위해 Markov 체인 모델을 구축한다고 가정해 보겠습니다.

이 모델에는 맑은 날씨와 비가 내리는 두 가지 상태가 있습니다. 오늘 날씨가 맑다면 내일도 날씨가 맑을 확률이 더 높습니다(70%). 비가 내리는 경우에도 마찬가지입니다. 이미 비가 내린 경우에는 계속해서 비가 내릴 가능성이 높습니다.

하지만 날씨가 상태를 바꿀 가능성(30%)이 있으므로 이를 Markov 체인 모델에도 포함합니다.

Markov 체인을 사용하여 텍스트 생성기 구축

Markov 체인은 텍스트 생성기에 완벽한 모델입니다. 모델이 이전 문자만 사용하여 다음 문자를 예측하기 때문입니다. Markov 체인을 사용하면 정확하고 메모리가 적으며(이전 상태 1개만 저장) 실행 속도가 빠르다는 장점이 있습니다.

텍스트 생성 구현

여기에서는 6단계로 텍스트 생성기를 완성합니다.

조회 테이블 생성: 단어 빈도를 기록하는 테이블 만들기
빈도를 확률로 변환: 결과를 사용 가능한 형식으로 변환
로드 데이터 세트: 훈련 세트 로드 및 활용
마르코프 체인 구축: 확률을 사용하여 각 단어 및 문자에 대한 체인 생성
데이터 샘플링: 말뭉치의 다양한 부분을 샘플링하는 함수 생성
텍스트 생성: 모델 테스트

Markov 체인을 사용하여 텍스트 생성기 구축

1. 조회 테이블 생성

먼저 훈련 코퍼스에서 각 캐릭터 상태의 발생을 기록하는 테이블을 생성합니다. 훈련 코퍼스의 마지막 'K' 문자와 'K+1' 문자를 저장하고 조회 테이블에 저장합니다.

예를 들어, 훈련 코퍼스에 "그 남자는, 그들, 그때, the, the"가 포함되어 있다고 상상해 보세요. 그런 다음 단어 발생 횟수는 다음과 같습니다.

"the" — 3
"then" — 1
"they" — 1
"man" — 1

다음은 조회 결과입니다. 테이블:

Markov 체인을 사용하여 텍스트 생성기 구축

위의 예에서는 K = 3을 사용합니다. 이는 한 번에 3개의 문자가 고려되고 다음 문자(K+1)가 출력 문자로 사용된다는 의미입니다. 위 조회 테이블에서 단어(X)를 문자로 처리하고 첫 번째 the 뒤에 단어가 없으므로 출력 문자(Y)를 단일 공백(" ")으로 처리합니다. 또한 이 시퀀스가 데이터 세트에 나타나는 횟수(이 경우 3회)도 계산됩니다.

이런 방식으로 말뭉치의 각 단어에 대한 데이터가 생성됩니다. 즉, 가능한 모든 X 및 Y 쌍이 생성됩니다.

코드에서 조회 테이블을 생성하는 방법은 다음과 같습니다.

 def generateTable(data,k=4):
 
 T = {}
for i in range(len(data)-k):
X = data[i:i+k]
Y = data[i+k]
#print("X %s and Y %s "%(X,Y))
if T.get(X) is None:
T[X] = {}
T[X][Y] = 1
else:
if T[X].get(Y) is None:
T[X][Y] = 1
else:
T[X][Y] += 1
return T
 T = generateTable("hello hello helli")
 print(T)
 
 #{'llo ': {'h': 2}, 'ello': {' ': 2}, 'o he': {'l': 2}, 'lo h': {'e': 2}, 'hell': {'i': 1, 'o': 2}, ' hel': {'l': 2}}

코드에 대한 간단한 설명:

3행에서는 X와 해당 Y 및 빈도 값을 저장하는 사전이 생성됩니다. 9~17행에서는 X와 Y의 발생을 확인합니다. 조회 사전에 이미 X와 Y 쌍이 있는 경우 1씩 늘리면 됩니다.

2. 빈도를 확률로 변환

이 테이블과 발생 횟수가 있으면 주어진 x 발생 후에 Y가 발생할 확률을 얻을 수 있습니다. 공식은 다음과 같습니다.

Markov 체인을 사용하여 텍스트 생성기 구축

예를 들어 X = the, Y = n인 경우 공식은 다음과 같습니다.

= 2/8= 0.125= 12.5%

일 때 Y = n의 빈도는 다음과 같습니다. 이 공식을 적용하여 조회 테이블을 마르코프 체인 사용 가능한 확률로 변환합니다:

 def convertFreqIntoProb(T):
for kx in T.keys():
s = float(sum(T[kx].values()))
for k in T[kx].keys():
T[kx][k] = T[kx][k]/s
 
return T
 
 T = convertFreqIntoProb(T)
 print(T)
 #{'llo ': {'h': 1.0}, 'ello': {' ': 1.0}, 'o he': {'l': 1.0}, 'lo h': {'e': 1.0}, 'hell': {'i': 0.3333333333333333, 'o': 0.6666666666666666}, ' hel': {'l': 1.0}}

간단한 설명:

특정 키의 빈도 값을 합산한 다음 이 키의 각 빈도 값을 이 추가된 값으로 나누어 다음을 얻습니다. 개연성.

3. 데이터 세트 로드

다음에는 실제 훈련 코퍼스가 로드됩니다. 원하는 긴 텍스트(.txt) 문서를 사용할 수 있습니다.

단순화를 위해 모델을 가르치기에 충분한 어휘를 제공하기 위해 정치적 연설을 사용하겠습니다.

 text_path = "train_corpus.txt"
 def load_text(filename):
with open(filename,encoding='utf8') as f:
return f.read().lower()
 
 text = load_text(text_path)
 print('Loaded the dataset.')

이 데이터 세트는 예시 프로젝트에 충분한 이벤트를 제공하여 합리적으로 정확한 예측을 할 수 있습니다. 모든 기계 학습과 마찬가지로 더 큰 훈련 코퍼스가 더 정확한 예측을 생성합니다.

4. 마르코프 체인 구축

마르코프 체인을 구축하고 확률을 각 문자와 연관시켜 보겠습니다. 여기에서는 1단계와 2단계에서 생성된 generateTable() 및 ConvertFreqIntoProb() 함수를 사용하여 Markov 모델을 구축합니다.

 def MarkovChain(text,k=4):
T = generateTable(text,k)
T = convertFreqIntoProb(T)
return T
 
 model = MarkovChain(text)

1번째 줄은 Markov 모델을 생성하는 방법을 생성합니다. 이 방법은 텍스트 코퍼스와 K 값을 허용합니다. K 값은 Markov 모델이 K 문자를 고려하고 다음 문자를 예측하도록 지시하는 값입니다. 2행에서는 이전 섹션에서 생성한 generateTable() 메서드에 텍스트 코퍼스와 K를 제공하여 조회 테이블을 생성합니다. 3행에서는 이전 강의에서 생성한 ConvertFreqIntoProb() 메서드를 사용하여 빈도를 확률 값으로 변환합니다.

5. 텍스트 샘플링

완료되지 않은 단어(ctx), 4단계의 마르코프 체인 모델(model), 단어의 기본을 구성하는 데 사용된 문자 수(k)를 사용하는 샘플링 함수를 만듭니다.

이 함수를 사용하여 전달된 컨텍스트를 샘플링하고 다음 가능한 문자를 반환하고 그것이 올바른 문자일 확률을 결정합니다.

 import numpy as np
 
 def sample_next(ctx,model,k):
 
ctx = ctx[-k:]
if model.get(ctx) is None:
return " "
possible_Chars = list(model[ctx].keys())
possible_values = list(model[ctx].values())
 
print(possible_Chars)
print(possible_values)
 
return np.random.choice(possible_Chars,p=possible_values)
 
 sample_next("commo",model,4)
 
 #['n']
 #[1.0]

코드 설명:

sample_next 함수는 ctx, model 및 k 값의 세 가지 매개변수를 허용합니다.

ctx는 새로운 텍스트를 생성하는 데 사용되는 텍스트입니다. 그러나 여기서는 ctx의 마지막 K 문자만 모델에서 시퀀스의 다음 문자를 예측하는 데 사용됩니다. 예를 들어, 공통 K = 4를 전달하고 모델이 다음 문자를 생성하는 데 사용하는 텍스트는 ommo입니다. 왜냐하면 Markov 모델은 이전 기록만 사용하기 때문입니다.

9행과 10행에는 가능한 문자와 그 확률 값이 인쇄됩니다. 이러한 문자는 우리 모델에도 존재하기 때문입니다. 다음 예측 문자는 확률 1.0으로 n이 됩니다. commo라는 단어는 다음 문자를 생성한 후에 더 일반적일 가능성이 높기 때문입니다.

라인 12에서는 위에서 논의한 확률 값을 기반으로 문자를 반환합니다.

6. 텍스트 생성

마지막으로 위의 모든 기능을 결합하여 일부 텍스트를 생성합니다.

def generateText(starting_sent,k=4,maxLen=1000):
 
 sentence = starting_sent
ctx = starting_sent[-k:]
 
for ix in range(maxLen):
next_prediction = sample_next(ctx,model,k)
sentence += next_prediction
ctx = sentence[-k:]
return sentence
 
 print("Function Created Successfully!")
 
 text = generateText("dear",k=4,maxLen=2000)
 print(text)

결과는 다음과 같습니다.

dear country brought new consciousness. i heartily great service of their lives, our country, many of tricoloring a color flag on their lives independence today.my devoted to be oppression of independence.these day the obc common many country, millions of oppression of massacrifice of indian whom everest.
 my dear country is not in the sevents went was demanding and nights by plowing in the message of the country is crossed, oppressed, women, to overcrowding for years of the south, it is like the ashok chakra of constitutional states crossed, deprived, oppressions of freedom, i bow my heart to proud of our country.my dear country, millions under to be a hundred years of the south, it is going their heroes.

위 함수는 생성된 텍스트의 시작 단어, K 값, 필수 텍스트의 최대 문자 길이 등 세 가지 매개 변수를 허용합니다. 코드를 실행하면 "dear"로 시작하는 2000자 텍스트가 생성됩니다.

이 연설은 그다지 의미가 없을 수도 있지만 단어는 완전하며 종종 단어의 친숙한 패턴을 모방합니다.

다음에 배울 내용

이것은 간단한 텍스트 생성 프로젝트입니다. 이 프로젝트는 딥 러닝 여정을 계속할 때 사용할 수 있는 자연어 처리 및 Markov 체인이 실제로 어떻게 작동하는지에 대한 이해를 제공합니다.

이 기사는 Markov 체인이 수행한 실험 프로젝트를 소개하기 위한 것입니다. 실제 응용 프로그램에서는 아무런 역할을 하지 않기 때문입니다. 더 나은 텍스트 생성 효과를 얻으려면 GPT-3와 같은 도구를 배우십시오.

위 내용은 Markov 체인을 사용하여 텍스트 생성기 구축의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

chatgpt를 사용할 수 없습니다! 즉시 테스트 할 수있는 원인과 솔루션 설명 [최신 2025]May 14, 2025 am 05:04 AM

chatgpt에 액세스 할 수 없습니까? 이 기사는 다양한 실용적인 솔루션을 제공합니다! 많은 사용자가 매일 chatgpt를 사용할 때 액세스 할 수 없거나 느린 응답과 같은 문제가 발생할 수 있습니다. 이 기사는 다양한 상황에 따라 이러한 문제를 단계별로 해결하도록 안내합니다. Chatgpt의 접근성 및 예비 문제 해결의 원인 먼저 문제가 OpenAI 서버 측 또는 사용자의 네트워크 또는 장치 문제에 있는지 확인해야합니다. 문제 해결을 위해 아래 단계를 따르십시오. 1 단계 : OpenAI의 공식 상태를 확인하십시오 chatgpt 서비스가 정상적으로 실행 중인지 확인하려면 OpenAi 상태 페이지 (status.openai.com)를 방문하십시오. 빨간색 또는 노란색 알람이 표시되면 열린 것을 의미합니다.

ASI의 위험을 계산하는 것은 인간의 마음으로 시작합니다May 14, 2025 am 05:02 AM

2025 년 5 월 10 일, MIT 물리학 자 Max Tegmark는 AI Labs가 인공 초 지능을 방출하기 전에 Oppenheimer의 삼위 일체 테스트 미적분학을 모방해야한다고 Guardian에게 말했다. “내 평가는 'Compton Constant', 인종이

Chatgpt에서 가사를 작성하고 작곡하는 방법에 대한 이해하기 쉬운 설명May 14, 2025 am 05:01 AM

AI 음악 제작 기술은 매일 매일 변화하고 있습니다. 이 기사는 Chatgpt와 같은 AI 모델을 예로 사용하여 AI를 사용하여 음악 제작을 지원하고 실제 사례에 대해 설명하는 방법을 자세히 설명합니다. 우리는 Sunoai, Hugging Face의 AI Jukebox 및 Python 's Music21 Library를 통해 음악을 만드는 방법을 소개합니다. 이러한 기술을 통해 모든 사람은 독창적 인 음악을 쉽게 만들 수 있습니다. 그러나 AI 생성 컨텐츠의 저작권 문제는 무시할 수 없으며 사용할 때는 신중해야합니다. 음악 분야에서 AI의 무한한 가능성을 모색 해 봅시다! OpenAi의 최신 AI 에이전트 "OpenAi Deep Research"가 소개됩니다. [chatgpt] ope

chatgpt-4는 무엇입니까? 당신이 할 수있는 일, 가격 및 GPT-3.5의 차이에 대한 철저한 설명!May 14, 2025 am 05:00 AM

ChatGpt-4의 출현은 AI 응용 프로그램의 가능성을 크게 확장했습니다. GPT-3.5와 비교하여 ChatGpt-4는 상당히 개선되었습니다. 강력한 맥락 이해력이 있으며 이미지를 인식하고 생성 할 수도 있습니다. 그것은 보편적 인 AI 조수입니다. 비즈니스 효율성 향상 및 창출 지원과 같은 많은 분야에서 큰 잠재력을 보여주었습니다. 그러나 동시에, 우리는 또한 사용의 예방 조치에주의를 기울여야합니다. 이 기사에서는 ChatGpt-4의 특성을 자세히 설명하고 다양한 시나리오에 대한 효과적인 사용 방법을 소개합니다. 이 기사에는 최신 AI 기술을 최대한 활용하는 기술이 포함되어 있습니다. OpenAi의 최신 AI 에이전트, "OpenAi Deep Research"에 대한 자세한 내용은 아래 링크를 클릭하십시오.

chatgpt 앱을 사용하는 방법을 설명하십시오! 일본 지원 및 음성 대화 기능May 14, 2025 am 04:59 AM

chatgpt 앱 : AI 조수와 함께 창의력을 발휘하십시오! 초보자 가이드 Chatgpt 앱은 쓰기, 번역 및 질문 답변을 포함하여 광범위한 작업을 처리하는 혁신적인 AI 어시스턴트입니다. 창의적인 활동과 정보 수집에 유용한 끝없는 가능성이있는 도구입니다. 이 기사에서는 초보자를위한 이해하기 쉬운 방법, ChatGpt 스마트 폰 앱을 설치하는 방법, 음성 입력 기능 및 플러그인과 같은 앱의 고유 한 기능 및 앱을 사용할 때 염두에 두는 포인트에 이르기까지 설명합니다. 또한 플러그인 제한 및 장치 간 구성 동기화를 자세히 살펴 보겠습니다.

중국어 버전의 Chatgpt를 어떻게 사용합니까? 등록 절차 및 수수료에 대한 설명May 14, 2025 am 04:56 AM

Chatgpt Chinese 버전 : 중국 AI 대화의 새로운 경험 잠금 해제 Chatgpt는 전 세계적으로 인기가 있습니다. 중국어 버전도 제공한다는 것을 알고 있습니까? 이 강력한 AI 도구는 일상적인 대화를 지원할뿐만 아니라 전문적인 콘텐츠를 처리하며 단순화되고 전통적인 중국어와 호환됩니다. 중국의 사용자이든 중국어를 배우는 친구이든 상관없이 혜택을 누릴 수 있습니다. 이 기사는 계정 설정, 중국 신속한 단어 입력, 필터 사용 및 다양한 패키지 선택을 포함하여 ChatGpt 중국어 버전을 사용하는 방법을 자세히 소개하고 잠재적 위험 및 응답 전략을 분석합니다. 또한 ChatGpt 중국어 버전을 다른 중국 AI 도구와 비교하여 장점과 응용 프로그램 시나리오를 더 잘 이해할 수 있도록 도와줍니다. Openai의 최신 AI 인텔리전스

5 AI 요원 신화 당신은 지금 믿음을 중단해야합니다.May 14, 2025 am 04:54 AM

이것들은 생성 AI 분야의 다음 도약으로 생각 될 수 있으며, 이는 우리에게 Chatgpt 및 기타 대규모 모델 챗봇을 제공했습니다. 단순히 질문에 대답하거나 정보를 생성하는 대신, 우리를 대신하여 조치를 취할 수 있습니다.

Chatgpt를 사용하여 여러 계정을 만들고 관리하는 불법성에 대한 이해하기 쉬운 설명May 14, 2025 am 04:50 AM

ChatGpt를 사용한 효율적인 다중 계정 관리 기술 | 비즈니스와 사생활 사용 방법에 대한 철저한 설명! Chatgpt는 다양한 상황에서 사용되지만 일부 사람들은 여러 계정 관리에 대해 걱정할 수 있습니다. 이 기사는 ChatGpt에 대한 여러 계정을 만드는 방법, 사용할 때 수행 할 작업 및 안전하고 효율적으로 작동하는 방법을 자세히 설명합니다. 또한 비즈니스와 개인 사용의 차이, OpenAI의 이용 약관을 준수하는 것과 같은 중요한 점을 다루며 여러 계정을 안전하게 활용하는 데 도움이되는 안내서를 제공합니다. Openai

See all articles