>  기사  >  백엔드 개발  >  java - 데이터 수집 및 분석을 위한 PHP 또는 Python, 더 성숙한 프레임워크는 무엇입니까?

java - 데이터 수집 및 분석을 위한 PHP 또는 Python, 더 성숙한 프레임워크는 무엇입니까?

WBOY
WBOY원래의
2016-10-22 00:14:101394검색

이제 웹사이트의 기사 목록과 목록의 실제 콘텐츠에서 데이터를 자동으로 수집해야 합니다. 각 기사의 ID는 목록에서 얻을 수 있으며, 각 기사는 통합 인터페이스를 통해 수집됩니다(매개변수는 해당 기사를 가져옵니다). 해당 json은 id로 얻을 수 있습니다.) 그 안에는 수집하고 분석해야 할 일부 데이터가 있습니다.

내 요구사항을 충족할 수 있는 성숙한 프레임워크나 휠이 있나요? (멀티스레딩이 필요하며, 컬렉션 수가 많아 연중무휴 안정적으로 실행 가능합니다)

그리고 수집된 컨텐츠(수백만~수천만)를 어떻게 저장하는지 문의드리고 싶습니다. 통계분석이 필요한 데이터 중에 수치적인 데이터가 있는데, mysql을 사용할 수 있나요? 아니면 사용할 수 있는 더 성숙하고 단순한 다른 바퀴가 있습니까?

답글 내용:

이제 웹사이트의 기사 목록과 목록의 실제 콘텐츠에서 데이터를 자동으로 수집해야 합니다. 각 기사의 ID는 목록에서 얻을 수 있으며, 각 기사는 통합 인터페이스를 통해 수집됩니다(매개변수는 해당 기사를 가져옵니다). 해당 json은 id로 얻을 수 있습니다.) 그 안에는 수집하고 분석해야 할 일부 데이터가 있습니다.

내 요구사항을 충족할 수 있는 성숙한 프레임워크나 휠이 있나요? (멀티스레딩이 필요하며, 컬렉션 수가 많아 연중무휴 안정적으로 실행 가능합니다)

그리고 수집된 컨텐츠(수백만~수백만)를 어떻게 저장하는지 묻고 싶습니다. 통계적인 분석이 필요한 데이터 중에 수치적인 데이터가 있는데, mysql을 사용할 수 있나요? 아니면 사용할 수 있는 더 성숙하고 단순한 다른 바퀴가 있습니까?

데이터 분석이라면.
map-reduce는 로그 분석을 합니다
Dpark는 PV 및 UV 분석을 해결할 수 있습니다
Spark도 좋습니다.
데이터 보고서를 생성한 후 Pandas를 사용하여 분석하고 표시할 수 있습니다. .

데이터 수집이라면. 많은 도구가 있습니다.

왜 검색엔진을 만들고 싶다고 생각하시나요? . . 양이 비교적 많습니다. 분산된 콘텐츠를 권장합니다.
MYSQL을 사용하는 것은 실용적이지 않습니다. . .

젊은이여, 이것이 파충류에게 바라는 것이 아닌가?

  1. 크롤러 프레임워크: scrapy

  2. 데이터베이스 선택: MySQL을 사용하여 귀하의 수준에 맞게 색인을 생성하면 확실히 500년 더 지속될 수 있습니다.

MongoDB를 사용해 볼 수도 있습니다

언어나 환경에 대해서는 언급하지 않으셨는데요. 멀티스레딩의 경우 현재 일반적으로 nodejs와 Python이 사용됩니다. 둘 다 mysql 등을 사용하여 데이터를 저장할 수 있습니다. 수백만, 수천만은 문제가 되지 않습니다.

Python Selenium + PhantomJ를 사용해 본 적이 있나요?

파이썬 언어로 된 이 scrapy 또는

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.