>  기사  >  백엔드 개발  >  중국어 문자열을 포함하는 차단 함수에 대한 Python 구현 예

중국어 문자열을 포함하는 차단 함수에 대한 Python 구현 예

黄舟
黄舟원래의
2017-09-23 11:05:002097검색

이 글에서는 주로 Python의 중국어 문자열 차단 기능 구현을 소개하고, 구체적인 예를 바탕으로 utf-8 및 gb18030 인코딩에 대한 Python의 중국어 문자열 차단 작업 관련 구현 기술을 분석합니다.

예제는 다음과 같습니다. 이 기사에서는 Python이 중국어 문자열에 대한 차단 기능을 구현하는 방법을 설명합니다. 참조를 위해 모든 사람과 공유하세요.

멀티바이트가 포함된 문자열의 경우 잘라낼 때 멀티바이트 문자를 분할할 수 없는 위치의 문자 수를 결정해야 합니다. 잘린 후 문자가 깨지는 것을 방지하세요

다음은 utf8 및 gb18030 중 하나를 구현한 것입니다. 먼저 트랜스코딩하고 인코딩 및 디코딩을 사용할 수 있습니다.

방법 1: utf8의 경우:


def subString(string,length):
  if length >= len(string):
        return string
  result = ''
  i = 0
  p = 0
  while True:
        ch = ord(string[i])
        #1111110x
        if ch >= 252:
            p = p + 6
        #111110xx
        elif ch >= 248:
            p = p + 5
        #11110xxx
        elif ch >= 240:
            p = p + 4
        #1110xxxx
        elif ch >= 224:
            p = p + 3
        #110xxxxx
        elif ch >= 192:
            p = p + 2
        else:
            p = p + 1
        if p >= length:
            break;
        else:
            i = p
  return string[0:i]

방법 2: gb18030 코딩용


def cut_string_off(string,s_len):
    if len(string)==0 or s_len <=0:
        return string
    elif len(string)==1 or s_len >= len(string):
        return string
    elif s_len < len(string):
        len_num=0
        while len_num < s_len:
            tmp_c=ord(string[len_num])
            if tmp_c >0 and tmp_c <=0x7F:
                len_num+=1
                continue
            tmp_nextc=ord(string[len_num+1])
            if tmp_c >= 0x81 and tmp_c <=0xFE and tmp_nextc>=0x40 and tmp_nextc<=0xFE:
                len_num+=2
                continue
            else:
                len_num +=1;
                continue
            break
        tmp = string[0:len_num]
#    print utf2gbk(tmp)
    return tmp

위 내용은 중국어 문자열을 포함하는 차단 함수에 대한 Python 구현 예의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.