Maison  >  Questions et réponses  >  le corps du texte

网页爬虫 - Python:爬虫的中文编码问题?

爬取中文网页后正则匹配出中文,得打UTF-8的编码字符

将其输出为.csv文件

在.CSV中显示为乱码

用记事本打开.csv又可以正常显示为中文

有没有大神指点是怎么一回事?怎样才能在Excel里直接看到中文?

ringa_leeringa_lee2741 Il y a quelques jours534

répondre à tous(4)je répondrai

  • PHP中文网

    PHP中文网2017-04-18 10:28:54

    Le moyen simple est d'utiliser la méthode pandas de to_excel pour le convertir en un fichier .xlsx, car l'encodage par défaut de .xlsx prend en charge Excel par défaut. La différence est bien sûr que cela ne peut pas l'être. ouvert avec le Bloc-notes.

    import pandas as pd
    
    a = pd.read_csv('./test.csv')
    
    a.to_excel('./test_output.xlsx', index=False)
    
    a.to_excel('./test_output.csv', index=False)

    Je n'ai pas de fenêtres ici pour tester. Vous pouvez essayer d'écrire l'encodage comme gb2312 ou gbk.

    Pour les E/S de fichiers de table, pandas est en fait plus pratique.

    répondre
    0
  • 伊谢尔伦

    伊谢尔伦2017-04-18 10:28:54

    abs1=abs1.decode().encode('gbk')

    répondre
    0
  • 高洛峰

    高洛峰2017-04-18 10:28:54

    Excel utilise le codage GBK par défaut.

    répondre
    0
  • PHP中文网

    PHP中文网2017-04-18 10:28:54

    Créez un nouveau fichier Excel, puis cliquez sur Données à partir du texte pour importer le fichier csv

    répondre
    0
  • Annulerrépondre