使用多个单词边界分隔符将字符串拆分为单词
在 Python 中,当使用 str.split() 将字符串拆分为单词时,您可以只能指定一个分隔符。如果您想将标点符号和空格视为单词边界,这可能会出现问题。
解决方案:使用 re.split()
要解决此问题,请考虑使用 re.split() 函数代替。 re.split() 允许您指定一个模式作为参数,该模式可以包含多个单词边界分隔符。
可以使用以下语法构造模式:
\W+ # Match any sequence of non-word characters | # Or \s+ # Match any sequence of whitespace characters
分割将给定的示例字符串转换为单词,包括标点符号,可以使用以下代码:
>>> import re >>> re.split(r"\W+|\s+", "Hey, you - what are you doing here!?") ['hey', 'you', 'what', 'are', 'you', 'doing', 'here']
上面的正则表达式匹配任何非单词序列字符或空白字符,从而有效地将字符串拆分为单词。
此方法提供了一种灵活且可定制的方式来根据各种分隔符拆分字符串,确保捕获所有相关单词。
以上是如何在 Python 中使用多个分隔符将字符串拆分为单词?的详细内容。更多信息请关注PHP中文网其他相关文章!