>  기사  >  백엔드 개발  >  Python 텍스트 통계 기능: Journey to the West는 단어 통계 작업을 사용합니다.

Python 텍스트 통계 기능: Journey to the West는 단어 통계 작업을 사용합니다.

不言
不言원래의
2018-05-07 13:53:273482검색

이 글은 Python의 텍스트 통계 기능인 Journey to the West의 단어 통계 연산을 주로 소개하고, Python 텍스트 읽기, 순회, 통계 및 기타 관련 연산 기술을 예제 형식으로 분석하여 도움이 필요한 친구들이 참고할 수 있습니다

이 기사의 예는 Python을 설명합니다. Journey to the West의 텍스트 통계 기능은 단어 통계 연산을 사용합니다. 참고를 위해 모든 사람과 공유하세요. 세부 사항은 다음과 같습니다.

1. 데이터

xyj.txt, "Journey to the West" 텍스트, 2.2MB

Master Wu Chengen에 대한 찬사, 4020줄 (단락)

2, 목표

"서유기" 통계:

1. 한자가 총 몇 번 나오는지; 가장 많이 등장하는 한자.

3. 관련 내용: 1. 파일 읽기

3. 파일 정렬




5. 소스 코드

# coding:utf8
import sys
reload(sys)
sys.setdefaultencoding("utf8")
fr = open('xyj.txt', 'r')
characters = []
stat = {}
for line in fr:
  # 去掉每一行两边的空白
  line = line.strip()
  # 如果为空行则跳过该轮循环
  if len(line) == 0:
    continue
  # 将文本转为unicode,便于处理汉字
  line = unicode(line)
  # 遍历该行的每一个字
  for x in xrange(0, len(line)):
    # 去掉标点符号和空白符
    if line[x] in [' ','', '\t', '\n', '。', ',', '(', ')', '(', ')', ':', '□', '?', '!', '《', '》', '、', ';', '“', '”', '……']:
      continue
    # 尚未记录在characters中
    if not line[x] in characters:
      characters.append(line[x])
    # 尚未记录在stat中
    if not stat.has_key(line[x]):
      stat[line[x]] = 0
    # 汉字出现次数加1
    stat[line[x]] += 1
print len(characters)
print len(stat)
# lambda生成一个临时函数
# d表示字典的每一对键值对,d[0]为key,d[1]为value
# reverse为True表示降序排序
stat = sorted(stat.items(), key=lambda d:d[1], reverse=True)
fw = open('result.csv', 'w')
for item in stat:
  # 进行字符串拼接之前,需要将int转为str
  fw.write(item[0] + ',' + str(item[1]) + '\n')
fr.close()
fw.close()

관련 권장 사항:

Python 텍스트 특징 추출 및 벡터화 알고리즘 학습 예제에 대한 자세한 설명

Python 텍스트 유사성을 위한 편집 거리 계산에 대한 자세한 설명

위 내용은 Python 텍스트 통계 기능: Journey to the West는 단어 통계 작업을 사용합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.