Python编写诗词接龙程序-Python教程-PHP中文网

首页

后端开发

Python教程

Python编写诗词接龙程序

王林

May 08, 2023 am 09:04 AM

python

诗歌语料库

首先，我们利用Python爬虫来爬取诗歌，制作语料库。爬取的页面如下：

Python编写诗词接龙程序

爬取的诗歌

由于本文主要为试了展示该项目的思路，因此，只爬取了该页面中的唐诗三百首、古诗三百、宋词三百、宋词精选，一共大约1100多首诗歌。为了加速爬虫，采用并发实现爬虫，并保存到poem.txt文件。完整的Python程序如下：

import re
import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED

# 爬取的诗歌网址
urls = [&#39;https://so.gushiwen.org/gushi/tangshi.aspx&#39;,
       &#39;https://so.gushiwen.org/gushi/sanbai.aspx&#39;,
       &#39;https://so.gushiwen.org/gushi/songsan.aspx&#39;,
       &#39;https://so.gushiwen.org/gushi/songci.aspx&#39;
       ]

poem_links = []
# 诗歌的网址
for url in urls:
   # 请求头部
   headers = {: &#39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36&#39;}
   req = requests.get(url, headers=headers)

   soup = BeautifulSoup(req.text, "lxml")
   content = soup.find_all(&#39;div&#39;, class_="sons")[0]
   links = content.find_all(&#39;a&#39;)

   for link in links:
       poem_links.append(&#39;https://so.gushiwen.org&#39;+link[&#39;href&#39;])

poem_list = []
# 爬取诗歌页面
def get_poem(url):
   #url = &#39;https://so.gushiwen.org/shiwenv_45c396367f59.aspx&#39;
   # 请求头部
   headers = {: &#39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36&#39;}
   req = requests.get(url, headers=headers)
   soup = BeautifulSoup(req.text, "lxml")
   poem = soup.find(&#39;div&#39;, class_=&#39;contson&#39;).text.strip()
   poem = poem.replace(&#39; &#39;, &#39;&#39;)
   poem = re.sub(re.compile(r"([sS]*?)"), &#39;&#39;, poem)
   poem = re.sub(re.compile(r"（[sS]*?）"), &#39;&#39;, poem)
   poem = re.sub(re.compile(r"。([sS]*?）"), &#39;&#39;, poem)
   poem = poem.replace(&#39;!&#39;, &#39;！&#39;).replace(&#39;?&#39;, &#39;？&#39;)
   poem_list.append(poem)

# 利用并发爬取
executor = ThreadPoolExecutor(max_workers=10)  # 可以自己调整max_workers,即线程的个数
# submit()的参数： 第一个为函数， 之后为该函数的传入参数，允许有多个
future_tasks = [executor.submit(get_poem, url) for url in poem_links]
# 等待所有的线程完成，才进入后续的执行
wait(future_tasks, return_when=ALL_COMPLETED)

# 将爬取的诗句写入txt文件
poems = list(set(poem_list))
poems = sorted(poems, key=lambda x:len(x))
for poem in poems:
   poem = poem.replace(&#39;《&#39;,&#39;&#39;).replace(&#39;》&#39;,&#39;&#39;) 
              .replace(&#39;：&#39;, &#39;&#39;).replace(&#39;“&#39;, &#39;&#39;)
   print(poem)
   with open(&#39;F://poem.txt&#39;, &#39;a&#39;) as f:
       f.write(poem)
       f.write(&#39;
&#39;)

该程序爬取了1100多首诗歌，并将诗歌保存至poem.txt文件，形成我们的诗歌语料库。当然，这些诗歌并不能直接使用，需要清理数据，比如有些诗歌标点不规范，有些并不是诗歌，只是诗歌的序等等，这个过程需要人工操作，虽然稍显麻烦，但为了后面的诗歌分句效果，也是值得的。

诗歌分句

有了诗歌语料库，我们需要对诗歌进行分句，分句的标准为：按照结尾为。？！进行分句，这可以用正则表达式实现。之后，将分句好的诗歌写成字典：键（key）为该句首字的拼音，值（value）为该拼音对应的诗句，并将字典保存为pickle文件。完整的Python代码如下：

import re
import pickle
from xpinyin import Pinyin
from collections import defaultdict

def main():
   with open(&#39;F://poem.txt&#39;, &#39;r&#39;) as f:
       poems = f.readlines()

   sents = []
   for poem in poems:
       parts = re.findall(r&#39;[sS]*?[。？！]&#39;, poem.strip())
       for part in parts:
           if len(part) >= 5:
               sents.append(part)

   poem_dict = defaultdict(list)
   for sent in sents:
       print(part)
       head = Pinyin().get_pinyin(sent, tone_marks=&#39;marks&#39;, splitter=&#39; &#39;).split()[0]
       poem_dict[head].append(sent)

   with open(&#39;./poemDict.pk&#39;, &#39;wb&#39;) as f:
       pickle.dump(poem_dict, f)

main()

我们可以看一下该pickle文件（poemDict.pk）的内容：

Python编写诗词接龙程序

pickle文件的内容（部分）

当然，一个拼音可以对应多个诗歌。

诗歌接龙

读取pickle文件，编写程序，以exe文件形式运行该程序。为了能够在编译形成exe文件的时候不出错，我们需要改写xpinyin模块的init.py文件，将该文件的全部代码复制至mypinyin.py，并将代码中的下面这句代码

data_path = os.path.join(os.path.dirname(os.path.abspath(__file__)),
                            &#39;Mandarin.dat&#39;)

改写为

data_path = os.path.join(os.getcwd(), &#39;Mandarin.dat&#39;)

这样我们就完成了mypinyin.py文件。接下来，我们需要编写诗歌接龙的代码（Poem_Jielong.py），完整代码如下：

import pickle
from mypinyin import Pinyin
import random
import ctypes

STD_INPUT_HANDLE = -10
STD_OUTPUT_HANDLE = -11
STD_ERROR_HANDLE = -12

FOREGROUND_DARKWHITE = 0x07  # 暗白色
FOREGROUND_BLUE = 0x09  # 蓝色
FOREGROUND_GREEN = 0x0a  # 绿色
FOREGROUND_SKYBLUE = 0x0b  # 天蓝色
FOREGROUND_RED = 0x0c  # 红色
FOREGROUND_PINK = 0x0d  # 粉红色
FOREGROUND_YELLOW = 0x0e  # 黄色
FOREGROUND_WHITE = 0x0f  # 白色

std_out_handle = ctypes.windll.kernel32.GetStdHandle(STD_OUTPUT_HANDLE)

# 设置CMD文字颜色
def set_cmd_text_color(color, handle=std_out_handle):
   Bool = ctypes.windll.kernel32.SetConsoleTextAttribute(handle, color)
   return Bool

# 重置文字颜色为暗白色
def resetColor():
   set_cmd_text_color(FOREGROUND_DARKWHITE)

# 在CMD中以指定颜色输出文字
def cprint(mess, color):
   color_dict = {
                 : FOREGROUND_BLUE,
                 : FOREGROUND_GREEN,
                 : FOREGROUND_SKYBLUE,
                 : FOREGROUND_RED,
                 : FOREGROUND_PINK,
                 : FOREGROUND_YELLOW,
                 : FOREGROUND_WHITE
                }
   set_cmd_text_color(color_dict[color])
   print(mess)
   resetColor()

color_list = [&#39;蓝色&#39;,&#39;绿色&#39;,&#39;天蓝色&#39;,&#39;红色&#39;,&#39;粉红色&#39;,&#39;黄色&#39;,&#39;白色&#39;]

# 获取字典
with open(&#39;./poemDict.pk&#39;, &#39;rb&#39;) as f:
   poem_dict = pickle.load(f)

#for key, value in poem_dict.items():
   #print(key, value)

MODE = str(input(&#39;Choose MODE(1 for 人工接龙, 2 for 机器接龙): &#39;))

while True:
   try:
       if MODE == &#39;1&#39;:
           enter = str(input(&#39;
请输入一句诗或一个字开始：&#39;))
           while enter != &#39;exit&#39;:
               test = Pinyin().get_pinyin(enter, tone_marks=&#39;marks&#39;, splitter=&#39; &#39;)
               tail = test.split()[-1]
               if tail not in poem_dict.keys():
                   cprint(&#39;无法接这句诗。
&#39;, &#39;红色&#39;)
                   MODE = 0
                   break
               else:
                   cprint(&#39;
机器回复：%s&#39;%random.sample(poem_dict[tail], 1)[0], random.sample(color_list, 1)[0])
                   enter = str(input(&#39;你的回复：&#39;))[:-1]

           MODE = 0

       if MODE == &#39;2&#39;:
           enter = input(&#39;
请输入一句诗或一个字开始：&#39;)

           for i in range(10):
               test = Pinyin().get_pinyin(enter, tone_marks=&#39;marks&#39;, splitter=&#39; &#39;)
               tail = test.split()[-1]
               if tail not in poem_dict.keys():
                   cprint(&#39;------>无法接下去了啦...&#39;, &#39;红色&#39;)
                   MODE = 0
                   break
               else:
                   answer = random.sample(poem_dict[tail], 1)[0]
                   cprint(&#39;（%d）--> %s&#39; % (i+1, answer), random.sample(color_list, 1)[0])
                   enter = answer[:-1]

           print(&#39;
（*****最多展示前10回接龙。*****）&#39;)
           MODE = 0

   except Exception as err:
       print(err)
   finally:
       if MODE not in [&#39;1&#39;,&#39;2&#39;]:
           MODE = str(input(&#39;
Choose MODE(1 for 人工接龙, 2 for 机器接龙): &#39;))

现在整个项目的结构如下（Mandarin.dat文件从xpinyin模块对应的文件夹下复制过来）：

Python编写诗词接龙程序

项目文件

切换至该文件夹，输入以下命令即可生成exe文件：

pyinstaller -F Poem_jielong.py

生成的exe文件为Poem_jielong.exe，位于该文件夹的dist文件夹下。为了能够让exe成功运行，需要将poemDict.pk和Mandarin.dat文件复制到dist文件夹下。

测试运行

运行Poem_jielong.exe文件，页面如下：

Python编写诗词接龙程序

exe文件开始页面

本项目的诗歌接龙有两种模式，一种为人工接龙，就是你先输入一句诗或一个字，然后就是计算机回复一句，你回复一句，负责诗歌接龙的规则；另一种模式为机器接龙，就是你先输入一句诗或一个字，机器会自动输出后面的接龙诗句（最多10个）。先测试人工接龙模式：

Python编写诗词接龙程序

人工接龙

再测试机器接龙模式：

Python编写诗词接龙程序

以上是Python编写诗词接龙程序的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：亿速云。如有侵权，请联系admin@php.cn删除

Python：自动化，脚本和任务管理Apr 16, 2025 am 12:14 AM

Python在自动化、脚本编写和任务管理中表现出色。1)自动化：通过标准库如os、shutil实现文件备份。2)脚本编写：使用psutil库监控系统资源。3)任务管理：利用schedule库调度任务。Python的易用性和丰富库支持使其在这些领域中成为首选工具。

Python和时间：充分利用您的学习时间Apr 14, 2025 am 12:02 AM

要在有限的时间内最大化学习Python的效率，可以使用Python的datetime、time和schedule模块。1.datetime模块用于记录和规划学习时间。2.time模块帮助设置学习和休息时间。3.schedule模块自动化安排每周学习任务。

Python：游戏，Guis等Apr 13, 2025 am 12:14 AM

Python在游戏和GUI开发中表现出色。1)游戏开发使用Pygame，提供绘图、音频等功能，适合创建2D游戏。2)GUI开发可选择Tkinter或PyQt，Tkinter简单易用，PyQt功能丰富，适合专业开发。

Python vs.C：申请和用例Apr 12, 2025 am 12:01 AM

Python适合数据科学、Web开发和自动化任务，而C 适用于系统编程、游戏开发和嵌入式系统。 Python以简洁和强大的生态系统着称，C 则以高性能和底层控制能力闻名。

2小时的Python计划：一种现实的方法Apr 11, 2025 am 12:04 AM

2小时内可以学会Python的基本编程概念和技能。1.学习变量和数据类型，2.掌握控制流（条件语句和循环），3.理解函数的定义和使用，4.通过简单示例和代码片段快速上手Python编程。

Python：探索其主要应用程序Apr 10, 2025 am 09:41 AM

Python在web开发、数据科学、机器学习、自动化和脚本编写等领域有广泛应用。1)在web开发中，Django和Flask框架简化了开发过程。2)数据科学和机器学习领域，NumPy、Pandas、Scikit-learn和TensorFlow库提供了强大支持。3)自动化和脚本编写方面，Python适用于自动化测试和系统管理等任务。