집 >백엔드 개발 >파이썬 튜토리얼 >PyPy와 CPython의 성능 비교 테스트

PyPy와 CPython의 성능 비교 테스트

高洛峰원래의: 2016-10-18 13:33:281488검색

최근에 저는 Wikipedia에서 몇 가지 데이터 마이닝 작업을 완료했습니다. 이는 다음 부분으로 구성됩니다.

enwiki-pages-articles.xml의 Wikipedia 덤프를 구문 분석합니다.

카테고리 및 페이지를 MongoDB에 저장합니다.

카테고리 이름을 복사합니다.

실제 작업에서 CPython 2.7.3과 PyPy 2b의 성능을 테스트했습니다. 제가 사용하는 라이브러리는 다음과 같습니다:

redis 2.7.2

pymongo 2.4.2

추가적으로 CPython은 다음 라이브러리에서 지원됩니다:

hiredis

pymongo c-extensions

테스트에는 주로 데이터베이스 구문 분석이 포함되어 있으므로 PyPy에서 많은 이점을 얻을 것으로 기대하지 않았습니다(CPython의 데이터베이스 드라이버가 C로 작성되었다는 점은 말할 것도 없습니다).

아래에서는 몇 가지 흥미로운 결과를 설명하겠습니다.

위키 페이지 이름 추출

모든 Wikipedia 카테고리의 페이지에 위키 페이지 이름을 생성해야 합니다. 재할당된 것을 저장합니다. 가장 간단한 해결책은 enwiki-page.sql(RDB 테이블 정의)을 MySQL로 가져온 다음 데이터를 전송하고 재배포하는 것입니다. 하지만 저는 MySQL 요구 사항(백본 보유! XD 포함)을 늘리고 싶지 않았기 때문에 순수 Python으로 간단한 SQL 삽입 문 파서를 작성한 다음 enwiki-page.sql에서 직접 데이터를 가져와서 재배포했습니다.

이 작업은 CPU에 더 많이 의존하므로 PyPy에 대해 다시 낙관합니다.

/ 시간

PyPy 169.00s 사용자 모드 8.52s 시스템 모드 90% CPU

CPython 1287.13s 사용자 모드 8.10s 시스템 모드 96% CPU

또한 page.id->category에 대해서도 유사한 조인을 수행했습니다(내 노트북의 메모리가 너무 작아서 테스트용 정보를 저장할 수 없습니다).

enwiki에서 카테고리를 필터링합니다. xml에서 카테고리를 필터링하고 카테고리와 동일한 XML 형식으로 저장합니다. 따라서 저는 PyPy와 CPython 모두에서 작동하는 래퍼 파서인 SAX 파서를 선택했습니다. 외부 네이티브 컴파일 패키지(PyPy 및 CPython의 동료).

코드는 매우 간단합니다.

Element 및 TextElement 요소에는 태그 및 본문 정보가 포함되어 있으며 이를 렌더링하는 방법을 제공합니다.

다음은 제가 원하는 PyPy와 CPython의 비교 결과입니다.

class WikiCategoryHandler(handler.ContentHandler):
    """Class which detecs category pages and stores them separately
    """
    ignored = set((&#39;contributor&#39;, &#39;comment&#39;, &#39;meta&#39;))
  
    def __init__(self, f_out):
        handler.ContentHandler.__init__(self)
        self.f_out = f_out
        self.curr_page = None
        self.curr_tag = &#39;&#39;
        self.curr_elem = Element(&#39;root&#39;, {})
        self.root = self.curr_elem
        self.stack = Stack()
        self.stack.push(self.curr_elem)
        self.skip = 0
  
    def startElement(self, name, attrs):
        if self.skip>0 or name in self.ignored:
            self.skip += 1
            return
        self.curr_tag = name
        elem = Element(name, attrs)
        if name == &#39;page&#39;:
            elem.ns = -1
            self.curr_page = elem
        else:   # we don&#39;t want to keep old pages in memory
            self.curr_elem.append(elem)
        self.stack.push(elem)
        self.curr_elem = elem
  
    def endElement(self, name):
        if self.skip>0:
            self.skip -= 1
            return
        if name == &#39;page&#39;:
            self.task()
            self.curr_page = None
        self.stack.pop()
        self.curr_elem = self.stack.top()
        self.curr_tag = self.curr_elem.tag
  
    def characters(self, content):
        if content.isspace(): return
        if self.skip == 0:
            self.curr_elem.append(TextElement(content))
            if self.curr_tag == &#39;ns&#39;:
                self.curr_page.ns = int(content)
  
    def startDocument(self):
        self.f_out.write("<root>\n")
  
    def endDocument(self):
        self.f_out.write("<\root>\n")
        print("FINISH PROCESSING WIKIPEDIA")
  
    def task(self):
        if self.curr_page.ns == 14:
            self.f_out.write(self.curr_page.render())
  
  
class Element(object):
    def __init__(self, tag, attrs):
        self.tag = tag
        self.attrs = attrs
        self.childrens = []
        self.append = self.childrens.append
  
    def __repr__(self):
        return "Element {}".format(self.tag)
  
    def render(self, margin=0):
        if not self.childrens:
            return u"{0}<{1}{2} />".format(
                " "*margin,
                self.tag,
                "".join([&#39; {}="{}"&#39;.format(k,v) for k,v in {}.iteritems()]))
        if isinstance(self.childrens[0], TextElement) and len(self.childrens)==1:
            return u"{0}<{1}{2}>{3}</{1}>".format(
                " "*margin,
                self.tag,
                "".join([u&#39; {}="{}"&#39;.format(k,v) for k,v in {}.iteritems()]),
                self.childrens[0].render())
  
        return u"{0}<{1}{2}>\n{3}\n{0}</{1}>".format(
            " "*margin,
            self.tag,
            "".join([u&#39; {}="{}"&#39;.format(k,v) for k,v in {}.iteritems()]),
            "\n".join((c.render(margin+2) for c in self.childrens)))
  
class TextElement(object):
    def __init__(self, content):
        self.content = content
  
    def __repr__(self):
        return "TextElement" def render(self, margin=0):
        return self.content

/time

PyPy 2169.90s

CPython 4494.69s

PyPy의 결과에 매우 놀랐습니다.

흥미로운 범주 집합 계산

한번은 내 애플리케이션 중 하나의 맥락에서 흥미로운 범주 집합을 계산하고 싶었습니다. 컴퓨팅 카테고리 계산을 시작하기 위한 일부 카테고리입니다. 이렇게 하려면 클래스를 제공하는 클래스 다이어그램(하위 클래스 다이어그램)을 작성해야 합니다.

구조 클래스 - 하위 클래스 관계 다이어그램

이 작업은 MongoDB를 데이터 소스로 사용하고 구조를 재배포합니다. 알고리즘은 다음과 같습니다.

이런 의사 코드를 작성해서 죄송하지만 좀 더 간결해 보이길 바랍니다.

따라서 이 작업은 한 데이터베이스에서 다른 데이터베이스로 데이터만 복사합니다. 여기의 결과는 MongoDB가 워밍업된 후에 얻은 것입니다(데이터가 워밍업되지 않으면 데이터가 편향됩니다. 이 Python 작업은 CPU의 약 10%만 소비합니다). 타이밍은 다음과 같습니다:

for each category.id in redis_categories (it holds *category.id -> category title mapping*) do:
    title = redis_categories.get(category.id)
    parent_categories = mongodb get categories for title
    for each parent_cat in parent categories do:
        redis_tree.sadd(parent_cat, title) # add to parent_cat set title

/시간

PyPy 175.11s 사용자 모드 66.11s 시스템 모드 64% CPU

CPython 457.92s 사용자 모드 72.86s 시스템 모드 81% CPU

redis_tree 탐색(재분산 트리)

redis_tree 데이터베이스가 있는 경우 남은 문제는 다음과 같습니다. 컴퓨팅 카테고리를 탐색하여 달성 가능한 모든 노드를 다운로드합니다. 루프 순회를 방지하려면 방문한 노드를 기록해야 합니다. Python의 데이터베이스 성능을 테스트하고 싶었기 때문에 컬렉션 열을 재배포하여 이 문제를 해결했습니다.

/ 시간

PyPy 14.79s 사용자 모드 6.22s 시스템 모드 69% CPU 30.322 합계

CPython 44.20s 사용자 모드 13.86s 시스템 모드 71% CPU 1:20.91 합계

솔직히 이 작업에는 불필요한 카테고리 입력을 피하기 위해 금기 목록도 작성해야 합니다. 하지만 이 글의 요점은 그게 아닙니다.

결론

이번 테스트는 제 최종 작품의 미리보기일 뿐입니다. 그러기 위해서는 일련의 지식, 즉 위키피디아에서 적절한 콘텐츠를 추출하여 얻은 지식 체계가 필요합니다.

CPython에 비해 PyPy는 간단한 데이터베이스 작업으로 성능이 2~3배 향상되었습니다. (여기서는 SQL 파서를 세지 않고 약 8배 정도)

PyPy 덕분에 일이 더 즐겁습니다. 알고리즘을 다시 작성하지 않고도 Python을 효율적으로 만들었고, PyPy는 CPython처럼 CPython을 사용하지 않습니다. CPython.CPU가 중단되어 한동안 노트북을 정상적으로 사용할 수 없었습니다(CPU 시간 비율을 보세요).

작업은 거의 모든 데이터베이스 작업이며 CPython에는 가속화된 지저분한 C 언어 모듈이 있습니다. PyPy는 이를 사용하지 않지만 결과는 더 빠릅니다!

제가 하는 모든 작업에는 많은 사이클이 필요하기 때문에 PyPy를 사용하게 되어 정말 기쁩니다.

성명：

이전 기사：순수 Python ODBC 라이브러리 PyPyODBC 1.0 출시다음 기사：순수 Python ODBC 라이브러리 PyPyODBC 1.0 출시

PyPy와 CPython의 성능 비교 테스트

관련 기사