Explication détaillée de la comparaison entre la chaîne golang et []byte

Pourquoi la conversion de type chaîne et []byte nécessite un certain coût ?

Pourquoi la copie de fonction intégrée a-t-elle un cas particuliercopy(dst []byte, src string) int?
String et []byte sont tous deux des tableaux en bas, mais pourquoi []byte est plus flexible que la chaîne et a de meilleures performances d'épissage Élevé (comparaison des performances d'épissage de chaînes dynamiques) ?

J'ai regardé le code source aujourd'hui et je l'ai exploré.
Qu'est-ce qu'une chaîne ?

Qu'est-ce qu'une chaîne ? Explication de la bibliothèque standard builtin :

type string

string is the set of all strings of 8-bit bytes, conventionally but not necessarily representing UTF-8-encoded text. A string may be empty, but not nil. Values of string type are immutable.

En termes simples, une chaîne est une collection d'octets de 8 bits, représentant généralement mais pas nécessairement du texte codé en UTF-8. Les chaînes peuvent être vides, mais pas nulles. Et la valeur de la chaîne ne peut pas être modifiée.
Différentes chaînes de langage ont des implémentations différentes. Dans le code source de go src/runtime/string.go, la définition de string est la suivante :

type stringStruct struct {
    str unsafe.Pointer
    len int}

Vous pouvez voir que str est en fait un pointeur, pointant vers la première adresse. d'un tableau. Un autre champ est la longueur de la longueur. Alors, quel est ce tableau ? Lors de l'instanciation de cette stringStruct :

func gostringnocopy(str *byte) string {
	ss := stringStruct{str: unsafe.Pointer(str), len: findnull(str)}
	s := *(*string)(unsafe.Pointer(&ss))	return s

Haha, il s'agit en fait d'un tableau d'octets, et il convient de noter que la chaîne est en fait une structure.

Qu'est-ce que []byte ?

Tout d'abord, dans go, byte est un alias pour uint8. La structure des tranches est définie dans le code source de go : src/runtime/slice.go

type slice struct {	array unsafe.Pointer
	len   int
	cap   int}




在前面说到了字符串的值是不能改变的,这句话其实不完整,应该说字符串的值不能被更改,但可以被替换。 还是以string的结构体来解释吧,所有的string在底层都是这样的一个结构体stringStruct{str: str_point, len: str_len},string结构体的str指针指向的是一个字符常量的地址, 这个地址里面的内容是不可以被改变的,因为它是只读的,但是这个指针可以指向不同的地址,我们来对比一下string、[]byte类型重新赋值的区别:

s := "A1" // 分配存储"A1"的内存空间,s结构体里的str指针指向这快内存
s = "A2"  // 重新给"A2"的分配内存空间,s结构体里的str指针指向这快内存


s := []byte{1} // 分配存储1数组的内存空间,s结构体的array指针指向这个数组。s = []byte{2}  // 将array的内容改为2




func stringtoslicebyte(buf *tmpBuf, s string) []byte {	var b []byte
	if buf != nil && len(s) <= len(buf) {
		*buf = tmpBuf{}
		b = buf[:len(s)]
	} else {
		b = rawbyteslice(len(s))
	copy(b, s)	return b
}func rawstring(size int) (s string, b []byte) {
	p := mallocgc(uintptr(size), nil, false)

	stringStructOf(&s).str = p	stringStructOf(&s).len = size

	*(*slice)(unsafe.Pointer(&b)) = slice{p, size, size}	return}



func slicebytetostring(buf *tmpBuf, b []byte) string {
	l := len(b)	if l == 0 {		// Turns out to be a relatively common case.
		// Consider that you want to parse out data between parens in "foo()bar",
		// you find the indices and convert the subslice to string.
		return ""
	}	if raceenabled && l > 0 {
	}	if msanenabled && l > 0 {
		msanread(unsafe.Pointer(&b[0]), uintptr(l))
	s, c := rawstringtmp(buf, l)
	copy(c, b)	return s
}func rawstringtmp(buf *tmpBuf, l int) (s string, b []byte) {	if buf != nil && l <= len(buf) {
		b = buf[:l]
		s = slicebytetostringtmp(b)
	} else {
		s, b = rawstring(l)
	}	return}

正因为string和[]byte相互转换都会有新的内存分配,才导致其代价不小,但读者千万不要误会,对于现在的机器来说这些代价其实不值一提。 但如果想要频繁string和[]byte相互转换(仅假设),又不会有新的内存分配,能有办法吗?答案是有的。

package string_slicebyte_testimport (	"log"
	"unsafe")func stringtoslicebyte(s string) []byte {
	sh := (*reflect.StringHeader)(unsafe.Pointer(&s))
	bh := reflect.SliceHeader{
		Data: sh.Data,
		Len:  sh.Len,
		Cap:  sh.Len,
	}	return *(*[]byte)(unsafe.Pointer(&bh))
}func slicebytetostring(b []byte) string {
	bh := (*reflect.SliceHeader)(unsafe.Pointer(&b))
	sh := reflect.StringHeader{
		Data: bh.Data,
		Len:  bh.Len,
	}	return *(*string)(unsafe.Pointer(&sh))
}func TestStringSliceByte(t *testing.T) {
	s1 := "abc"
	b1 := []byte("def")
	copy(b1, s1)
	log.Println(s1, b1)

	s := "hello"
	b2 := stringtoslicebyte(s)
	log.Println(b2)    // b2[0] = byte(99) unexpected fault address

	b3 := []byte("test")
	s3 := slicebytetostring(b3)




  • string可以直接比较,而[]byte不可以,所以[]byte不可以当map的key值。
  • 因为无法修改string中的某个字符,需要粒度小到操作一个字符时,用[]byte。
  • string值不可为nil,所以如果你想要通过返回nil表达额外的含义,就用[]byte。
  • []byte切片这么灵活,想要用切片的特性就用[]byte。
  • 需要大量字符串处理的时候用[]byte,性能好很多。



