Maison  >  Article  >  développement back-end  >  Quelle est la raison pour laquelle le robot d'exploration de Golang est tronqué ? Comment le résoudre ?

Quelle est la raison pour laquelle le robot d'exploration de Golang est tronqué ? Comment le résoudre ?

PHPz
PHPzoriginal
2023-04-23 19:28:59881parcourir

Lors du processus d'utilisation de Golang pour explorer des pages Web, de nombreux développeurs seront confrontés à l'un des problèmes les plus gênants : les caractères tronqués. Étant donné que le contenu sur Internet est codé et que certains sites Web le sont d'une manière spéciale, cela peut entraîner des caractères tronqués lorsque nous explorons les données.

Cet article présentera en détail les problèmes de code tronqué qui surviennent souvent dans les robots d'exploration Golang et leurs solutions sous les aspects suivants :

  1. Causes des codes tronqués
  2. Comment gérer les données de réponse lors de l'obtention des données de réponse
  3. Méthode de conversion du format d'encodage
  4. Détection d'encodage et conversion automatique
  5. Causes des caractères tronqués

Le soi-disant encodage fait référence à la façon dont les ordinateurs traitent les caractères pendant le stockage, la transmission, l'affichage, etc. Pendant le processus d'exploration, les données de réponse que nous recevons seront codées par le serveur puis nous seront transmises, ce qui signifie que nous pouvons obtenir des données très désordonnées. C'est la raison du code tronqué.

Sur le Web, il existe différentes manières d'encoder des caractères. Par exemple, GBK, UTF-8, ISO-8859-1, GB2312, Big5, etc. Ces méthodes de codage ont différents jeux de caractères, plages de jeux de caractères, méthodes de représentation et autres caractéristiques. Si notre robot d'exploration Web ne gère pas correctement le problème d'encodage, il déclenchera une série de problèmes de code tronqué.

  1. Comment obtenir des données de réponse

Dans le robot d'exploration Golang, nous utilisons généralement la méthode http.Get() pour obtenir des données de réponse. Les données obtenues sont transmises via la propriété Response.Body. Par conséquent, la première étape pour résoudre le problème tronqué consiste à gérer correctement les données d’origine dans la propriété Response.Body.

Tout d'abord, nous devons utiliser la méthode ReadAll() dans le package ioutil pour obtenir les données de réponse et les décoder en conséquence. Par exemple :

resp, err := http.Get(url)
if err != nil {
   // 处理错误
}
defer resp.Body.Close()
bodyBytes, err := ioutil.ReadAll(resp.Body)
if err != nil {
   // 处理错误
}
bodyString := string(bodyBytes)

Dans le code ci-dessus, nous utilisons la méthode ReadAll() dans le package ioutil pour lire les données de Response.Body dans un tableau d'octets, puis utilisons la méthode string() intégrée de Go pour les décoder. Obtenez une chaîne correcte.

  1. Méthode de conversion du format d'encodage

Dans l'étape précédente, nous avons décodé les données originales obtenues à partir de Response.Body. Si nous constatons que la chaîne résultante est tronquée, nous devons alors la traiter davantage.

Habituellement, les API liées à Unicode/UTF-8 peuvent être utilisées pour convertir des chaînes en formats d'encodage cibles. Le package de chaînes intégré de Go fournit des méthodes pour convertir Unicode/UTF-8 vers d'autres formats d'encodage.

Par exemple, nous pouvons utiliser la méthode ToUpper() dans le package strings pour convertir une chaîne du format d'encodage d'origine (tel que GBK) au format d'encodage cible (tel que UTF-8). De même, le package strings fournit également des méthodes pour convertir les chaînes du format de codage cible en Unicode/UTF-8.

Par exemple, pour convertir une chaîne du format GBK au format UTF-8, vous pouvez utiliser le code suivant :

gbkString := "你好,世界"
decoder := simplifiedchinese.GBK.NewDecoder()
utf8String, err := decoder.String(gbkString)
if err != nil {
   // 处理错误
}

Il est à noter que dans le code ci-dessus, nous utilisons le caractère chinois simplifié intégré de Go (chinois simplifié) La méthode GBK.NewDecoder() convertit les chaînes au format GBK en chaînes au format Unicode/UTF-8. Si vous devez le remplacer par un autre format d'encodage, modifiez simplement les paramètres de la méthode NewDecoder().

  1. Détection d'encodage et conversion automatique

Souvent, nous ne savons pas quel est le format d'encodage du site Web cible. À ce stade, nous pouvons d'abord détecter si l'en-tête de réponse du site Web cible contient des informations sur le format de codage. Si tel est le cas, utilisez le format de codage dans l'en-tête de réponse pour le décodage au lieu d'utiliser le format de codage UTF-8 par défaut. De cette façon, nous pouvons éviter les caractères tronqués causés par des problèmes d’encodage.

De plus, nous pouvons également utiliser des bibliothèques tierces pour détecter et convertir automatiquement les formats d'encodage. Par exemple, GoDoc recommande le package go-charset pour les problèmes d'encodage dans les robots Golang. Cette bibliothèque peut implémenter une conversion de format d'encodage basée sur la détection automatique. Nous pouvons transmettre directement la propriété Response.Body au package go-charset et le laisser détecter automatiquement le format d'encodage et le convertir en conséquence.

Par exemple, pour utiliser le package go-charset pour convertir le format d'encodage, vous pouvez utiliser le code suivant :

import "github.com/djimenez/iconv-go"

// 默认使用 GBK 编码格式
resp, err := http.Get(url)
if err != nil {
   // 处理错误
}
defer resp.Body.Close()

// 自动检测编码格式并转换
bodyReader, err := iconv.NewReader(resp.Body, iconv.DetectEncoding(resp.Body), "utf-8")
if err != nil {
   // 处理错误
}
bodyBytes, err := ioutil.ReadAll(bodyReader)
if err != nil {
   // 处理错误
}
bodyString := string(bodyBytes)

Dans le code ci-dessus, nous utilisons la méthode NewReader() dans le package go-charset pour décoder la réponse données et convertissez-les au format d’encodage UTF-8. Il convient de noter que nous utilisons la méthode DetectEncoding() pour détecter automatiquement le format d'encodage, ce qui peut bien fonctionner dans les sites Web multi-encodages.

Résumé

À tout moment, un problème d'encodage est l'un des maux de tête de Golang Crawler. Cependant, grâce aux méthodes présentées ci-dessus, nous pouvons éviter des problèmes tels que des caractères tronqués lors de l'exploration des données. La gestion correcte des problèmes de codage peut rendre notre robot d'exploration Web Golang plus stable et fiable dans les applications pratiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn