搜尋

首頁  >  問答  >  主體

python - 把搜狗词库转换成可读文件的思路是什么

我找到这个文章, 我只是好奇作者是如何找到这种方法的,我cat path/to/sogou-dict的结果是乱码,我希望知道这种思路,自己转转其他离线词典(某些linux小众离线词典文件)

update:
主要是下面的代码不懂思路

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

<code># 搜狗的scel词库就是保存的文本的unicode编码,每两个字节一个字符(中文汉字或者英文字母)

# 找出其每部分的偏移位置即可

 

def byte2str(data):

    '''将原始字节码转为字符串'''

    i = 0;

    length = len(data)

    ret = u''

    while i < length:

        x = data[i] + data[i + 1]

        t = unichr(struct.unpack('H', x)[0])

        if t == u'\r':

            ret += u'\n'

        elif t != u' ':

            ret += t

        i += 2

    return ret

 

</code>

这规律是如何找出来的,难道是内部消息?

伊谢尔伦伊谢尔伦2903 天前885

全部回覆(0)我來回復

無回覆
  • 取消回覆