Rumah > Artikel > pembangunan bahagian belakang > Analisis kod sumber str jenis terbina dalam Python
Unit asas storan komputer ialah bait, yang terdiri daripada 8 bit. Memandangkan bahasa Inggeris hanya terdiri daripada 26 huruf ditambah beberapa simbol, aksara Inggeris boleh disimpan terus dalam bait. Tetapi bahasa lain (seperti Cina, Jepun, Korea, dll.) perlu menggunakan berbilang bait untuk pengekodan kerana bilangan aksara yang banyak.
Dengan penyebaran teknologi komputer, teknologi pengekodan aksara bukan Latin terus berkembang, tetapi masih terdapat dua batasan utama:
Tidak menyokong berbilang bahasa: skema pengekodan satu bahasa tidak boleh digunakan untuk bahasa lain
Tiada standard bersatu: contohnya, bahasa Cina mempunyai GBK, GB2312, GB18030 dan piawaian pengekodan lain
Oleh kerana kaedah pengekodan tidak seragam, pembangun perlu menukar berulang-alik antara pengekodan yang berbeza, dan banyak ralat pasti akan berlaku. Untuk menyelesaikan masalah ketidakkonsistenan seperti ini, standard Unicode telah dicadangkan. Unicode mengatur dan mengekod kebanyakan sistem penulisan di dunia, membolehkan komputer memproses teks dengan cara yang bersatu. Unicode kini mengandungi lebih daripada 140,000 aksara dan secara semula jadi menyokong berbilang bahasa. (Uni Unicode ialah punca “penyatuan”)
Selepas Python 3, Unicode digunakan secara dalaman dalam objek str Mewakili, dan oleh itu menjadi objek Unicode dalam kod sumber. Kelebihan menggunakan perwakilan Unicode ialah logik teras program menggunakan Unicode secara seragam, dan hanya perlu dinyahkod dan dikodkan pada lapisan input dan output, yang boleh mengelakkan pelbagai masalah pengekodan setakat yang paling besar.
Rajah adalah seperti berikut:
Masalah: Memandangkan Unicode mengandungi lebih daripada 140,000 aksara, setiap A aksara memerlukan sekurang-kurangnya 4 bait untuk disimpan (ini mungkin kerana 2 bait tidak mencukupi, jadi 4 bait digunakan dan 3 bait biasanya tidak digunakan). Kod ASCII untuk aksara Inggeris memerlukan hanya 1 bait Penggunaan Unicode akan menggandakan kos aksara Inggeris yang kerap digunakan.
Pertama, mari kita lihat perbezaan saiz pelbagai bentuk objek str dalam Python:
>>> sys.getsizeof('ab') - sys.getsizeof('a') 1 >>> sys.getsizeof('一二') - sys.getsizeof('一') 2 >>> sys.getsizeof('????????') - sys.getsizeof('????') 4
Dapat dilihat bahawa Python secara dalaman mengoptimumkan objek Unicode: mengikut kandungan teks, unit storan asas dipilih.
Storan asas objek Unicode dibahagikan kepada tiga kategori mengikut julat titik kod Unikod aksara teks:
PyUnicode_1BYTE_KIND: Semua titik kod aksara berada di antara U+ 0000 dan U+00FF
PyUnicode_2BYTE_KIND: Semua titik kod aksara adalah antara U+0000 dan U+FFFF, dan sekurang-kurangnya satu aksara mempunyai titik kod lebih besar daripada U+00FF
PyUnicode_1BYTE_KIND: Semua titik kod aksara adalah antara U+0000 dan U+10FFFF, dan sekurang-kurangnya satu aksara mempunyai titik kod lebih besar daripada U+FFFF
Penghitungan yang sepadan adalah seperti berikut:
enum PyUnicode_Kind { /* String contains only wstr byte characters. This is only possible when the string was created with a legacy API and _PyUnicode_Ready() has not been called yet. */ PyUnicode_WCHAR_KIND = 0, /* Return values of the PyUnicode_KIND() macro: */ PyUnicode_1BYTE_KIND = 1, PyUnicode_2BYTE_KIND = 2, PyUnicode_4BYTE_KIND = 4 };
Pilih unit storan yang berbeza mengikut klasifikasi yang berbeza:
/* Py_UCS4 and Py_UCS2 are typedefs for the respective unicode representations. */ typedef uint32_t Py_UCS4; typedef uint16_t Py_UCS2; typedef uint8_t Py_UCS1;
Hubungan yang sepadan adalah seperti berikut:
文本类型 | 字符存储单元 | 字符存储单元大小(字节) |
---|---|---|
PyUnicode_1BYTE_KIND | Py_UCS1 | 1 |
PyUnicode_2BYTE_KIND | Py_UCS2 | 2 |
PyUnicode_4BYTE_KIND | Py_UCS4 | 4 |
Sejak Unicode struktur storan dalaman berbeza-beza bergantung pada jenis teks, jenis jenis mesti disimpan sebagai medan awam objek Unicode. Python secara dalaman mentakrifkan beberapa bit bendera sebagai medan awam Unicode: (Disebabkan tahap pengarang yang terhad, semua medan di sini tidak akan diperkenalkan dalam kandungan seterusnya. Anda boleh mempelajarinya sendiri kemudian. Pegang penumbuk anda~)
dibawa masuk: Sama ada hendak mengekalkan mekanisme yang diinternet
jenis: jenis, digunakan untuk membezakan saiz unit storan asas bagi aksara
padat: kaedah peruntukan memori, sama ada objek dan penimbal teks dipisahkan
asscii: sama ada teks semuanya ASCII tulen
melalui fungsi PyUnicode_New, mengikut bilangan saiz aksara teks dan maxchar aksara maksimum memulakan objek Unicode. Fungsi ini terutamanya memilih unit storan aksara yang paling padat dan struktur asas untuk objek Unicode berdasarkan maxchar: (Kod sumber agak panjang, jadi ia tidak akan disenaraikan di sini. Anda boleh memahaminya sendiri. Ia ditunjukkan dalam bentuk jadual di bawah )
maxchar | 128 | 256 | 65536 | |
---|---|---|---|---|
kind | PyUnicode_1BYTE_KIND | PyUnicode_1BYTE_KIND | PyUnicode_2BYTE_KIND | PyUnicode_4BYTE_KIND |
ascii | 1 | 0 | 0 | 0 |
字符存储单元大小(字节) | 1 | 1 | 2 | 4 |
底层结构体 | PyASCIIObject | PyCompactUnicodeObject | PyCompactUnicodeObject | PyCompactUnicodeObject |
C源码:
typedef struct { PyObject_HEAD Py_ssize_t length; /* Number of code points in the string */ Py_hash_t hash; /* Hash value; -1 if not set */ struct { unsigned int interned:2; unsigned int kind:3; unsigned int compact:1; unsigned int ascii:1; unsigned int ready:1; unsigned int :24; } state; wchar_t *wstr; /* wchar_t representation (null-terminated) */ } PyASCIIObject;
源码分析:
length:文本长度
hash:文本哈希值
state:Unicode对象标志位
wstr:缓存C字符串的一个wchar_t指针,以“\0”结束(这里和我看的另一篇文章讲得不太一样,另一个描述是:ASCII文本紧接着位于PyASCIIObject结构体后面,我个人觉得现在的这种说法比较准确,毕竟源码结构体后面没有别的字段了)
图示如下:
(注意这里state字段后面有一个4字节大小的空洞,这是结构体字段内存对齐造成的现象,主要是为了优化内存访问效率)
ASCII文本由wstr指向,以’abc’和空字符串对象’'为例:
如果文本不全是ASCII,Unicode对象底层便由PyCompactUnicodeObject结构体保存。C源码如下:
/* Non-ASCII strings allocated through PyUnicode_New use the PyCompactUnicodeObject structure. state.compact is set, and the data immediately follow the structure. */ typedef struct { PyASCIIObject _base; Py_ssize_t utf8_length; /* Number of bytes in utf8, excluding the * terminating \0. */ char *utf8; /* UTF-8 representation (null-terminated) */ Py_ssize_t wstr_length; /* Number of code points in wstr, possible * surrogates count as two code points. */ } PyCompactUnicodeObject;
PyCompactUnicodeObject在PyASCIIObject的基础上增加了3个字段:
utf8_length:文本UTF8编码长度
utf8:文本UTF8编码形式,缓存以避免重复编码运算
wstr_length:wstr的“长度”(这里所谓的长度没有找到很准确的说法,笔者也不太清楚怎么能打印出来,大家可以自行研究下)
注意到,PyASCIIObject中并没有保存UTF8编码形式,这是因为ASCII本身就是合法的UTF8,这也是ASCII文本底层由PyASCIIObject保存的原因。
结构图示:
PyUnicodeObject则是Python中str对象的具体实现。C源码如下:
/* Strings allocated through PyUnicode_FromUnicode(NULL, len) use the PyUnicodeObject structure. The actual string data is initially in the wstr block, and copied into the data block using _PyUnicode_Ready. */ typedef struct { PyCompactUnicodeObject _base; union { void *any; Py_UCS1 *latin1; Py_UCS2 *ucs2; Py_UCS4 *ucs4; } data; /* Canonical, smallest-form Unicode buffer */ } PyUnicodeObject;
在日常开发时,要结合实际情况注意字符串拼接前后的内存大小差别:
>>> import sys >>> text = 'a' * 1000 >>> sys.getsizeof(text) 1049 >>> text += '????' >>> sys.getsizeof(text) 4080
如果str对象的interned标志位为1,Python虚拟机将为其开启interned机制,
源码如下:(相关信息在网上可以看到很多说法和解释,这里笔者能力有限,暂时没有找到最确切的答案,之后补充。抱拳~但是我们通过分析源码应该是能看出一些门道的)
/* This dictionary holds all interned unicode strings. Note that references to strings in this dictionary are *not* counted in the string's ob_refcnt. When the interned string reaches a refcnt of 0 the string deallocation function will delete the reference from this dictionary. Another way to look at this is that to say that the actual reference count of a string is: s->ob_refcnt + (s->state ? 2 : 0) */ static PyObject *interned = NULL; void PyUnicode_InternInPlace(PyObject **p) { PyObject *s = *p; PyObject *t; #ifdef Py_DEBUG assert(s != NULL); assert(_PyUnicode_CHECK(s)); #else if (s == NULL || !PyUnicode_Check(s)) return; #endif /* If it's a subclass, we don't really know what putting it in the interned dict might do. */ if (!PyUnicode_CheckExact(s)) return; if (PyUnicode_CHECK_INTERNED(s)) return; if (interned == NULL) { interned = PyDict_New(); if (interned == NULL) { PyErr_Clear(); /* Don't leave an exception */ return; } } Py_ALLOW_RECURSION t = PyDict_SetDefault(interned, s, s); Py_END_ALLOW_RECURSION if (t == NULL) { PyErr_Clear(); return; } if (t != s) { Py_INCREF(t); Py_SETREF(*p, t); return; } /* The two references in interned are not counted by refcnt. The deallocator will take care of this */ Py_REFCNT(s) -= 2; _PyUnicode_STATE(s).interned = SSTATE_INTERNED_MORTAL; }
可以看到,源码前面还是做一些基本的检查。我们可以看一下37行和50行:将s添加到interned字典中时,其实s同时是key和value(这里我不太清楚为什么会这样做),所以s对应的引用计数是+2了的(具体可以看PyDict_SetDefault()的源码),所以在50行时会将计数-2,保证引用计数的正确。
考虑下面的场景:
>>> class User: def __init__(self, name, age): self.name = name self.age = age >>> user = User('Tom', 21) >>> user.__dict__ {'name': 'Tom', 'age': 21}
由于对象的属性由dict保存,这意味着每个User对象都要保存一个str对象‘name’,这会浪费大量的内存。而str是不可变对象,因此Python内部将有潜在重复可能的字符串都做成单例模式,这就是interned机制。Python具体做法就是在内部维护一个全局dict对象,所有开启interned机制的str对象均保存在这里,后续需要使用的时候,先创建,如果判断已经维护了相同的字符串,就会将新创建的这个对象回收掉。
示例:
由不同运算生成’abc’,最后都是同一个对象:
>>> a = 'abc' >>> b = 'ab' + 'c' >>> id(a), id(b), a is b (2752416949872, 2752416949872, True)
Atas ialah kandungan terperinci Analisis kod sumber str jenis terbina dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!