Python rencontre des problèmes d'encodage lors de l'écriture de fichiers à l'aide de plusieurs processus, mais pas lors de l'utilisation de plusieurs threads.

Question

En utilisant plusieurs processus pour analyser les données et les écrire dans un fichier, aucune erreur n'a été signalée lors de l'exécution, mais lors de l'ouverture du fichier, le code était tronqué. Il n'y a pas de problème de ce type lors de la réécriture avec multi-threading, tout est normal. Voici le code permettant d'écrire des données dans un fichier : {code...} Pool de processus pour plusieurs processus {code...}

巴扎黑 · Answer

Comme mentionné sur l'image, le fichier est chargé avec le mauvais encodage, ce qui signifie que lorsque vous écrivez dans plusieurs processus, l'encodage n'est pas utf-8

世界只因有你 · Answer

Ajoutez la première ligne du fichier :

#coding: utf-8

我想大声告诉你 · Answer

Ouvrir le même fichier est assez dangereux et la probabilité d'erreur est assez élevée. Si
le multi-threading ne fait pas d'erreur, il s'agit très probablement de GIL,
plusieurs processus n'ont pas de verrous, il est donc facile de le faire. faire des erreurs.

url_text = codecs.open('url.txt','a','utf-8')

Il est recommandé de passer au modèle producteur-consommateur !

Comme ça

# -*- coding: utf-8 -* -
import time
import os
import codecs
import multiprocessing
import requests
from bs4 import BeautifulSoup

baseurl = ''
baseurl1 = ''
baseurl2 = ''
pageurl = ''
searchword = ''
header = {}

def fake(url, **kwargs):
    class Response(object):
        pass
    o = Response()
    o.content = 'foo'.format(url)
    return o

requests.get = fake


def Get_urls(start_page, end_page, queue):
    print('run task {} ({})'.format(start_page, os.getpid()))
    try:
        for i in range(start_page, end_page + 1):
            pageurl = baseurl1 + str(i) + baseurl2 + searchword
            response = requests.get(pageurl, headers=header)
            soup = BeautifulSoup(response.content, 'html.parser')
            a_list = soup.find_all('a')
            for a in a_list:
                if a.text != ''and 'wssd_content.jsp?bookid'in a['href']:
                    text = a.text.strip()
                    url = baseurl + str(a['href'])
                    queue.put(text + '	' + url + '
')
    except Exception as e:
        import traceback
        traceback.print_exc()


def write_file(queue):
    print("start write file")
    url_text = codecs.open('url.txt', 'a', 'utf-8')
    while True:
        line = queue.get()
        if line is None:
            break
        print("write {}".format(line))
        url_text.write(line)
    url_text.close()


def Multiple_processes_test():
    t1 = time.time()
    manager = multiprocessing.Manager()
    queue = manager.Queue()
    print 'parent process {} '.format(os.getpid())
    page_ranges_list = [(1, 3), (4, 6), (7, 9)]
    consumer = multiprocessing.Process(target=write_file, args=(queue,))
    consumer.start()
    pool = multiprocessing.Pool(processes=3)
    results = []
    for page_range in page_ranges_list:
        result = pool.apply_async(func=Get_urls,
                         args=(page_range[0],
                               page_range[1],
                               queue
                            ))
        results.append(result)
    pool.close()
    pool.join()
    queue.put(None)
    consumer.join()
    t2 = time.time()
    print '时间：', t2 - t1


if __name__ == '__main__':
    Multiple_processes_test()

Résultats

foo /4/wssd_content.jsp?bookid
foo /5/wssd_content.jsp?bookid
foo /6/wssd_content.jsp?bookid
foo /1/wssd_content.jsp?bookid
foo /2/wssd_content.jsp?bookid
foo /3/wssd_content.jsp?bookid
foo /7/wssd_content.jsp?bookid
foo /8/wssd_content.jsp?bookid
foo /9/wssd_content.jsp?bookid

Python rencontre des problèmes d'encodage lors de l'écriture de fichiers à l'aide de plusieurs processus, mais pas lors de l'utilisation de plusieurs threads.

répondre à tous(3)je répondrai

Résultats