本文中将介绍一个流行的机器学习项目——文本生成器,你将了解如何构建文本生成器,并了解如何实现马尔可夫链以实现更快的预测模型。
文本生成器简介
文本生成在各个行业都很受欢迎,特别是在移动、应用和数据科学领域。甚至新闻界也使用文本生成来辅助写作过程。
在日常生活中都会接触到一些文本生成技术,文本补全、搜索建议,Smart Compose,聊天机器人都是应用的例子,
本文将使用马尔可夫链构建一个文本生成器。这将是一个基于字符的模型,它接受链的前一个字符并生成序列中的下一个字母。
通过使用样例单词训练我们的程序,文本生成器将学习常见的字符顺序模式。然后,文本生成器将把这些模式应用到输入,即一个不完整的单词,并输出完成该单词的概率最高的字符。
文本生成是自然语言处理的一个分支,它根据之前观察到的语言模式预测并生成下一个字符。
在没有机器学习之前,NLP是通过创建一个包含英语中所有单词的表,并将传递的字符串与现有的单词匹配来进行文字生成的。这种方法有两个问题。
- 搜索成千上万个单词会非常慢。
- 生成器只能补全它以前见过的单词。
机器学习和深度学习的出现,使得NLP允许我们大幅减少运行时并增加通用性,因为生成器可以完成它以前从未遇到过的单词。如果需要NLP可以扩展到预测单词、短语或句子!
对于这个项目,我们将专门使用马尔可夫链来完成。马尔可夫过程是许多涉及书面语言和模拟复杂分布样本的自然语言处理项目的基础。
马尔可夫过程是非常强大的,以至于它们只需要一个示例文档就可以用来生成表面上看起来真实的文本。
什么是马尔可夫链?
马尔可夫链是一种随机过程,它为一系列事件建模,其中每个事件的概率取决于前一个事件的状态。该模型有一组有限的状态,从一个状态移动到另一个状态的条件概率是固定的。
每次转移的概率只取决于模型的前一个状态,而不是事件的整个历史。
例如,假设想要构建一个马尔可夫链模型来预测天气。
在这个模型中我们有两种状态,晴天或雨天。如果我们今天一直处于晴朗的状态,明天就有更高的概率(70%)是晴天。雨也是如此;如果已经下过雨,很可能还会继续下雨。
但是天气会改变状态是有可能的(30%),所以我们也将其包含在我们的马尔可夫链模型中。
马尔可夫链是我们这个文本生成器的完美模型,因为我们的模型将仅使用前一个字符预测下一个字符。使用马尔可夫链的优点是,它是准确的,内存少(只存储1个以前的状态)并且执行速度快。
文本生成的实现
这里将通过6个步骤完成文本生成器:
- 生成查找表:创建表来记录词频
- 将频率转换为概率:将我们的发现转换为可用的形式
- 加载数据集:加载并利用一个训练集
- 构建马尔可夫链:使用概率为每个单词和字符创建链
- 对数据进行采样:创建一个函数对语料库的各个部分进行采样
- 生成文本:测试我们的模型
1、生成查找表
首先,我们将创建一个表,记录训练语料库中每个字符状态的出现情况。从训练语料库中保存最后的' K '字符和' K 1 '字符,并将它们保存在一个查找表中。
例如,想象我们的训练语料库包含,“the man was, they, then, the, the”。那么单词的出现次数为:
- “the” — 3
- “then” — 1
- “they” — 1
- “man” — 1
下面是查找表中的结果:
在上面的例子中,我们取K = 3,表示将一次考虑3个字符,并将下一个字符(K 1)作为输出字符。在上面的查找表中将单词(X)作为字符,将输出字符(Y)作为单个空格(" "),因为第一个the后面没有单词了。此外还计算了这个序列在数据集中出现的次数,在本例中为3次。
这样就生成了语料库中的每个单词的数据,也就是生成所有可能的X和Y对。
下面是我们如何在代码中生成查找表:
def generateTable(data,k=4): T = {} for i in range(len(data)-k): X = data[i:i+k] Y = data[i+k] #print("X %s and Y %s "%(X,Y)) if T.get(X) is None: T[X] = {} T[X][Y] = 1 else: if T[X].get(Y) is None: T[X][Y] = 1 else: T[X][Y] += 1 return T T = generateTable("hello hello helli") print(T) #{'llo ': {'h': 2}, 'ello': {' ': 2}, 'o he': {'l': 2}, 'lo h': {'e': 2}, 'hell': {'i': 1, 'o': 2}, ' hel': {'l': 2}}
代码的简单解释:
在第3行,创建了一个字典,它将存储X及其对应的Y和频率值。第9行到第17行,检查X和Y的出现情况,如果查找字典中已经有X和Y对,那么只需将其增加1。
2、将频率转换为概率
一旦我们有了这个表和出现的次数,就可以得到在给定x出现之后出现Y的概率。公式是:
例如如果X = the, Y = n,我们的公式是这样的:
当X =the时Y = n的频率:2,表中总频率:8,因此:P = 2/8= 0.125= 12.5%
以下是我们如何应用这个公式将查找表转换为马尔科夫链可用的概率:
def convertFreqIntoProb(T): for kx in T.keys(): s = float(sum(T[kx].values())) for k in T[kx].keys(): T[kx][k] = T[kx][k]/s return T T = convertFreqIntoProb(T) print(T) #{'llo ': {'h': 1.0}, 'ello': {' ': 1.0}, 'o he': {'l': 1.0}, 'lo h': {'e': 1.0}, 'hell': {'i': 0.3333333333333333, 'o': 0.6666666666666666}, ' hel': {'l': 1.0}}
简单解释:
把一个特定键的频率值加起来,然后把这个键的每个频率值除以这个加起来的值,就得到了概率。
3、加载数据集
接下来将加载真正的训练语料库。可以使用任何想要的长文本(.txt)文档。
为了简单起见将使用一个政治演讲来提供足够的词汇来教授我们的模型。
text_path = "train_corpus.txt" def load_text(filename): with open(filename,encoding='utf8') as f: return f.read().lower() text = load_text(text_path) print('Loaded the dataset.')
这个数据集可以为我们这个样例的项目提供足够的事件,从而做出合理准确的预测。与所有机器学习一样,更大的训练语料库将产生更准确的预测。
4、建立马尔可夫链
让我们构建马尔可夫链,并将概率与每个字符联系起来。这里将使用在第1步和第2步中创建的generateTable()和convertFreqIntoProb()函数来构建马尔可夫模型。
def MarkovChain(text,k=4): T = generateTable(text,k) T = convertFreqIntoProb(T) return T model = MarkovChain(text)
第1行,创建了一个方法来生成马尔可夫模型。该方法接受文本语料库和K值,K值是告诉马尔可夫模型考虑K个字符并预测下一个字符的值。第2行,通过向方法generateTable()提供文本语料库和K来生成查找表,该方法是我们在上一节中创建的。第3行,使用convertFreqIntoProb()方法将频率转换为概率值,该方法也是我们在上一课中创建的。
5、文本采样
创建一个抽样函数,它使用未完成的单词(ctx)、第4步中的马尔可夫链模型(模型)和用于形成单词基的字符数量(k)。
我们将使用这个函数对传递的上下文进行采样,并返回下一个可能的字符,并判断它是正确的字符的概率。
import numpy as np def sample_next(ctx,model,k): ctx = ctx[-k:] if model.get(ctx) is None: return " " possible_Chars = list(model[ctx].keys()) possible_values = list(model[ctx].values()) print(possible_Chars) print(possible_values) return np.random.choice(possible_Chars,p=possible_values) sample_next("commo",model,4) #['n'] #[1.0]
代码解释:
函数sample_next接受三个参数:ctx、model和k的值。
ctx是用来生成一些新文本的文本。但是这里只有ctx中的最后K个字符会被模型用来预测序列中的下一个字符。例如,我们传递common,K = 4,模型用来生成下一个字符的文本是是ommo,因为马尔可夫模型只使用以前的历史。
在第 9 行和第 10 行,打印了可能的字符及其概率值,因为这些字符也存在于我们的模型中。我们得到下一个预测字符为n,其概率为1.0。因为 commo 这个词在生成下一个字符后更可能是更常见的
在第12行,我们根据上面讨论的概率值返回一个字符。
6、生成文本
最后结合上述所有函数来生成一些文本。
def generateText(starting_sent,k=4,maxLen=1000): sentence = starting_sent ctx = starting_sent[-k:] for ix in range(maxLen): next_prediction = sample_next(ctx,model,k) sentence += next_prediction ctx = sentence[-k:] return sentence print("Function Created Successfully!") text = generateText("dear",k=4,maxLen=2000) print(text)
结果如下:
dear country brought new consciousness. i heartily great service of their lives, our country, many of tricoloring a color flag on their lives independence today.my devoted to be oppression of independence.these day the obc common many country, millions of oppression of massacrifice of indian whom everest. my dear country is not in the sevents went was demanding and nights by plowing in the message of the country is crossed, oppressed, women, to overcrowding for years of the south, it is like the ashok chakra of constitutional states crossed, deprived, oppressions of freedom, i bow my heart to proud of our country.my dear country, millions under to be a hundred years of the south, it is going their heroes.
上面的函数接受三个参数:生成文本的起始词、K的值以及需要文本的最大字符长度。运行代码将得到一个以“dear”开头的2000个字符的文本。
虽然这段讲话可能没有太多意义,但这些词都是完整的,通常模仿了单词中熟悉的模式。
接下来要学什么
这是一个简单的文本生成项目。通过这个项目可以了解自然语言处理和马尔可夫链实际工作模式,可以在继续您的深度学习之旅时使用。
本文只是为了介绍马尔可夫链来进行的实验项目,因为它不会再实际应用中起到任何的作用,如果你想获得更好的文本生成效果,那么请学习GPT-3这样的工具。
以上是使用马尔可夫链构建文本生成器的详细内容。更多信息请关注PHP中文网其他相关文章!
![无法使用chatgpt!解释可以立即测试的原因和解决方案[最新2025]](https://img.php.cn/upload/article/001/242/473/174717025174979.jpg?x-oss-process=image/resize,p_40)
ChatGPT无法访问?本文提供多种实用解决方案!许多用户在日常使用ChatGPT时,可能会遇到无法访问或响应缓慢等问题。本文将根据不同情况,逐步指导您解决这些问题。 ChatGPT无法访问的原因及初步排查 首先,我们需要确定问题是出在OpenAI服务器端,还是用户自身网络或设备问题。 请按照以下步骤进行排查: 步骤1:检查OpenAI官方状态 访问OpenAI Status页面 (status.openai.com),查看ChatGPT服务是否正常运行。如果显示红色或黄色警报,则表示Open

2025年5月10日,麻省理工学院物理学家Max Tegmark告诉《卫报》,AI实验室应在释放人工超级智能之前模仿Oppenheimer的三位一体测试演算。 “我的评估是'康普顿常数',这是一场比赛的可能性

AI音乐创作技术日新月异,本文将以ChatGPT等AI模型为例,详细讲解如何利用AI辅助音乐创作,并辅以实际案例进行说明。我们将分别介绍如何通过SunoAI、Hugging Face上的AI jukebox以及Python的Music21库进行音乐创作。 通过这些技术,每个人都能轻松创作原创音乐。但需注意,AI生成内容的版权问题不容忽视,使用时务必谨慎。 让我们一起探索AI在音乐领域的无限可能! OpenAI最新AI代理“OpenAI Deep Research”介绍: [ChatGPT]Ope

ChatGPT-4的出现,极大地拓展了AI应用的可能性。相较于GPT-3.5,ChatGPT-4有了显着提升,它具备强大的语境理解能力,还能识别和生成图像,堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域,它都展现出巨大的潜力。然而,与此同时,我们也必须注意其使用上的注意事项。 本文将详细解读ChatGPT-4的特性,并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧,敬请参考。 OpenAI发布的最新AI代理,“OpenAI Deep Research”详情请点击下方链

CHATGPT应用程序:与AI助手释放您的创造力!初学者指南 ChatGpt应用程序是一位创新的AI助手,可处理各种任务,包括写作,翻译和答案。它是一种具有无限可能性的工具,可用于创意活动和信息收集。 在本文中,我们将以一种易于理解的方式解释初学者,从如何安装chatgpt智能手机应用程序到语音输入功能和插件等应用程序所独有的功能,以及在使用该应用时要牢记的要点。我们还将仔细研究插件限制和设备对设备配置同步

ChatGPT中文版:解锁中文AI对话新体验 ChatGPT风靡全球,您知道它也提供中文版本吗?这款强大的AI工具不仅支持日常对话,还能处理专业内容,并兼容简体中文和繁体中文。无论是中国地区的使用者,还是正在学习中文的朋友,都能从中受益。 本文将详细介绍ChatGPT中文版的使用方法,包括账户设置、中文提示词输入、过滤器的使用、以及不同套餐的选择,并分析潜在风险及应对策略。此外,我们还将对比ChatGPT中文版和其他中文AI工具,帮助您更好地了解其优势和应用场景。 OpenAI最新发布的AI智能

这些可以将其视为生成AI领域的下一个飞跃,这为我们提供了Chatgpt和其他大型语言模型聊天机器人。他们可以代表我们采取行动,而不是简单地回答问题或产生信息

使用chatgpt有效的多个帐户管理技术|关于如何使用商业和私人生活的详尽解释! Chatgpt在各种情况下都使用,但是有些人可能担心管理多个帐户。本文将详细解释如何为ChatGpt创建多个帐户,使用时该怎么做以及如何安全有效地操作它。我们还介绍了重要的一点,例如业务和私人使用差异,并遵守OpenAI的使用条款,并提供指南,以帮助您安全地利用多个帐户。 Openai


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

Atom编辑器mac版下载
最流行的的开源编辑器

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境