Python中的字符串分词
在Python中,您可以使用str.split()方法来将字符串按照分隔符或正则表达式进行分词。默认情况下,str.split()会将字符串按照空白字符(包括空格、制表符和换行符)进行分词。
使用默认分隔符
以下代码演示了如何使用默认分隔符将字符串拆分为一个单词列表:
text = "many fancy word \nhello \thi" words = text.split() print(words) # 输出:['many', 'fancy', 'word', 'hello', 'hi']
在此示例中,字符串text被拆分为以下单词列表:['many', 'fancy', 'word', 'hello', 'hi']。
使用正则表达式分隔符
您还可以指定一个正则表达式作为分隔符。这可让您根据更复杂的模式进行字符串分词。
以下代码演示了如何使用正则表达式将字符串拆分为一个单词列表,其中将空白字符或多个连续空格视为分隔符:
import re text = "many fancy word \nhello \thi" white_space_regex = r"\s+" words = re.split(white_space_regex, text) print(words) # 输出:['many', 'fancy', 'word', 'hello', 'hi']
在这种情况下,正则表达式r"s "匹配一个或多个空白字符,因此它会将字符串拆分为一个单词列表,其中每个单词之间都至少有一个空白字符。
注意事项
以上是如何使用 Python 将字符串拆分为单词?的详细内容。更多信息请关注PHP中文网其他相关文章!