찾다
백엔드 개발파이썬 튜토리얼DevTools 및 HAR 파일을 사용하여 데이터 스크래핑

데이터 스크래핑은 웹사이트에서 의미 있는 정보를 추출하려는 모든 사람에게 획기적인 변화를 가져옵니다. Chrome DevTools 및 HAR 파일과 같은 도구를 사용하면 숨겨진 API를 찾아내고 귀중한 데이터 스트림을 손쉽게 캡처할 수 있습니다. 이 게시물에서는 식료품 배달 플랫폼인 Blinkit에서 제품 데이터를 스크랩하기 위해 이러한 도구를 사용하는 방법을 공유하고 여러분도 이를 수행할 수 있는 방법을 보여 드리겠습니다.

내가 식료품 앱에 데이터 스크래핑을 선택한 이유

식료품 배달 앱을 구축하는 동안 실제 데이터가 부족하다는 큰 난제에 직면했습니다. 처음부터 나만의 데이터 세트를 만드는 것은 시간이 많이 걸리고 프로젝트에 실질적인 이점을 제공하지 못했습니다. 저는 더 빠르고 실용적인 솔루션이 필요했고, 그 결과 데이터 스크랩에 대한 아이디어를 얻게 되었습니다. Blinkit에서 제품 세부정보를 추출함으로써 리소스 낭비 없이 앱을 테스트하고 개선할 수 있는 정확한 실제 데이터를 얻을 수 있었습니다.

웹에서 데이터를 스크랩하는 일반적인 방법

  1. 수동 복사-붙여넣기

    • 간단하지만 지루합니다. 소량의 데이터 추출에 적합합니다.
  2. 웹 스크래핑 도구

    • Scrapy, BeautifulSoup 또는 Puppeteer와 같은 도구는 웹사이트에서 데이터를 추출하는 프로세스를 자동화합니다.
    • 대규모 구조화된 데이터 추출에 가장 적합합니다.
  3. API 통합

    • 일부 웹사이트에서는 데이터에 직접적이고 합법적으로 액세스할 수 있는 공개 API를 제공합니다.
    • API 엔드포인트 및 인증 프로세스에 대한 지식이 필요합니다.
  4. 브라우저 개발 도구

    • 브라우저에서 직접 네트워크 요청을 검사하고, HAR 파일을 캡처하거나 페이지 요소를 분석하세요.
    • 숨겨진 API나 JSON 데이터를 식별하는 데 적합합니다.
  5. 헤드리스 브라우저

    • Puppeteer 또는 Selenium과 같은 헤드리스 브라우저 라이브러리를 사용하여 탐색 및 스크래핑을 자동화합니다.
    • JavaScript 렌더링이나 상호작용이 필요한 사이트에 적합합니다.
  6. HAR 파일 구문 분석

    • HAR 파일은 웹페이지의 모든 네트워크 활동을 캡처합니다. API, JSON 응답 또는 기타 데이터를 추출하기 위해 구문 분석할 수 있습니다.
    • 동적 콘텐츠나 숨겨진 데이터가 있는 사이트에 유용합니다.
  7. HTML 파싱

    • BeautifulSoup(Python) 또는 Cheerio(Node.js)와 같은 라이브러리를 사용하여 HTML 콘텐츠를 구문 분석하여 데이터를 추출합니다.
    • 단순하고 정적인 웹사이트에 효과적입니다.
  8. PDF 또는 이미지에서 데이터 추출

    • PyPDF2, Tesseract(OCR) 또는 Adobe API와 같은 도구는 온라인에서 데이터를 사용할 수 없을 때 파일에서 텍스트를 추출하는 데 도움이 됩니다.
  9. 자동 스크립트

    • Python, Node.js 또는 유사한 언어로 작성된 사용자 정의 스크립트로 데이터를 스크랩하고 구문 분석하고 저장합니다.
    • 스크래핑 프로세스를 완벽하게 제어할 수 있습니다.
  10. 타사 API

    • DataMiner, Octoparse 또는 Scrapy Cloud와 같은 서비스를 사용하여 스크래핑 작업을 처리하세요.
    • 시간은 절약되지만 서비스 요금제에 따라 제한이 있을 수 있습니다.

저는 HAR 파일 파싱을 선택했습니다

HAR 파일이란 무엇입니까?

Scraping Data with DevTools and HAR Files

HAR(HTTP Archive) 파일은 웹페이지의 네트워크 활동을 기록하는 JSON 형식의 아카이브 파일입니다. 여기에는 헤더, 쿼리 매개변수, 페이로드 및 타이밍을 포함하여 모든 HTTP 요청 및 응답에 대한 자세한 정보가 포함되어 있습니다. HAR 파일은 디버깅, 성능 분석, 이 경우 데이터 스크래핑에 자주 사용됩니다.

HAR 파일의 구조

HAR 파일은 여러 섹션으로 구성되며 기본 섹션은 다음과 같습니다.

Scraping Data with DevTools and HAR Files

  1. 로그

    • 녹화된 세션과 캡처된 항목에 대한 메타데이터가 포함된 HAR 파일의 루트 개체입니다.
  2. 출품작

    • 각 항목이 개별 HTTP 요청과 해당 응답을 나타내는 객체 배열입니다.

주요 속성은 다음과 같습니다.

  • 요청: URL, 헤더, 메소드, 쿼리 매개변수 등 요청에 대한 세부정보입니다.
  • 응답: 상태 코드, 헤더, 콘텐츠를 포함한 응답에 대한 정보입니다.
  • 타이밍: 요청-응답 주기(예: DNS, 연결, 대기, 수신) 동안 소요된 시간의 분석입니다.
  1. 페이지

    • 페이지 제목, 로드 시간, 페이지가 열린 타임스탬프 등 세션 중에 로드된 웹 페이지에 대한 데이터가 포함되어 있습니다.
  2. 크리에이터

    • 이름 및 버전을 포함하여 HAR 파일을 생성하는 데 사용된 도구 또는 브라우저에 대한 메타데이터입니다.

내가 HAR 파일 구문 분석을 선택한 이유

HAR 파일은 웹페이지의 모든 네트워크 활동에 대한 포괄적인 스냅샷을 제공합니다. 따라서 숨겨진 API를 식별하고, JSON 페이로드를 캡처하고, 스크래핑에 필요한 정확한 데이터를 추출하는 데 적합합니다. 구조화된 JSON 형식은 Python 또는 JavaScript 라이브러리와 같은 도구를 사용하여 구문 분석 프로세스도 단순화합니다.

계획: HAR 파일 구문 분석을 사용한 데이터 스크래핑

Scraping Data with DevTools and HAR Files

Blinkit에서 제품 데이터를 효율적으로 추출하기 위해 다음과 같은 체계적인 계획을 따랐습니다.

  1. 네트워크 활동 탐색 및 캡처
    • Blinkit 사이트를 열고 Chrome DevTools를 시작했습니다.
    • 네트워크 탭에서 필요한 모든 API 호출을 캡처하기 위해 다양한 제품 페이지를 탐색했습니다.

Scraping Data with DevTools and HAR Files

  1. HAR 파일 내보내기

    • 오프라인 분석을 위해 기록된 네트워크 활동을 HAR 파일로 저장했습니다.
  2. HAR 파일 구문 분석

    • Python을 사용하여 HAR 파일을 구문 분석하고 관련 데이터를 추출했습니다.
    • 프로세스를 간소화하기 위해 세 가지 주요 기능을 만들었습니다.
  • 기능 1: 관련 응답 필터링
    • 엔드포인트 /listing?catId=*와 일치하는 모든 응답을 추출하여 제품 관련 데이터를 가져왔습니다.

Scraping Data with DevTools and HAR Files

  • 기능 2: 데이터 정리 및 추출
    • 필터링된 응답을 처리하여 ID, 이름, 카테고리 등과 같은 주요 필드를 추출했습니다.

Scraping Data with DevTools and HAR Files

  • 기능 3: 이미지를 로컬에 저장
    • 데이터에서 모든 제품 이미지 URL을 식별하고 참조용으로 로컬 파일로 다운로드했습니다.

Scraping Data with DevTools and HAR Files

  1. 실행 및 결과
    • 일부 시행착오를 포함하여 전체 과정은 약 30~40분 정도 소요되었습니다.
    • 이름, 카테고리, 이미지 등 약 600개 제품에 대한 데이터를 성공적으로 스크랩했습니다.

Scraping Data with DevTools and HAR Files

이러한 접근 방식을 통해 식료품 배달 앱에 필요한 데이터를 빠르고 효율적으로 수집할 수 있었습니다.

결론

데이터 스크래핑을 효율적으로 수행하면 특히 애플리케이션을 테스트하거나 구축하기 위해 실제 데이터가 필요한 경우 많은 시간과 노력을 절약할 수 있습니다. Chrome DevTools 및 HAR 파일을 활용하여 데이터 세트를 수동으로 생성하지 않고도 Blinkit에서 귀중한 제품 데이터를 빠르게 추출할 수 있었습니다. 이 프로세스는 약간의 시행착오를 필요로 했지만 간단했으며 개발자가 직면한 일반적인 문제에 대한 실용적인 솔루션을 제공했습니다. 이 방법을 사용하면 한 시간 안에 600개의 제품 세부정보를 수집할 수 있었고 식료품 배달 앱 프로젝트를 진행하는 데 도움이 되었습니다.

그러나 데이터 스크래핑은 항상 윤리적이고 책임감 있게 접근해야 합니다. 스크랩하기 전에 항상 웹사이트의 서비스 약관 및 법적 지침을 준수하는지 확인하세요. 제대로 수행된다면 스크래핑은 데이터 수집 및 프로젝트 개선을 위한 강력한 도구가 될 수 있습니다.

위 내용은 DevTools 및 HAR 파일을 사용하여 데이터 스크래핑의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
파이썬 어레이를 어떻게 슬라이스합니까?파이썬 어레이를 어떻게 슬라이스합니까?May 01, 2025 am 12:18 AM

Python List 슬라이싱의 기본 구문은 목록 [start : stop : step]입니다. 1. Start는 첫 번째 요소 인덱스, 2.Stop은 첫 번째 요소 인덱스가 제외되고 3. Step은 요소 사이의 단계 크기를 결정합니다. 슬라이스는 데이터를 추출하는 데 사용될뿐만 아니라 목록을 수정하고 반전시키는 데 사용됩니다.

어떤 상황에서 목록이 배열보다 더 잘 수행 될 수 있습니까?어떤 상황에서 목록이 배열보다 더 잘 수행 될 수 있습니까?May 01, 2025 am 12:06 AM

ListSoutPerformArraysin : 1) DynamicsizingandFrequentInsertions/Deletions, 2) StoringHeterogeneousData 및 3) MemoryEfficiencyForsParsEdata, butMayHavesLightPerformanceCosceperationOperations.

파이썬 어레이를 파이썬 목록으로 어떻게 변환 할 수 있습니까?파이썬 어레이를 파이썬 목록으로 어떻게 변환 할 수 있습니까?May 01, 2025 am 12:05 AM

TOCONVERTAPYTHONARRAYTOALIST, USETHELIST () CONSTUCTORORAGENERATERATOREXPRESSION.1) importTheArrayModuleAndCreateAnarray.2) USELIST (ARR) 또는 [XFORXINARR] TOCONVERTITTOALIST.

Python에 목록이있을 때 배열을 사용하는 목적은 무엇입니까?Python에 목록이있을 때 배열을 사용하는 목적은 무엇입니까?May 01, 2025 am 12:04 AM

chooSearRaysOverListSinpyTonforBetTerferformanceAndMemoryEfficiencyInspecificscenarios.1) arrgenumericalDatasets : arraysreducememoryUsage.2) Performance-CriticalOperations : ArraysofferspeedboostsfortaskslikeApenorsearching.3) TypeSenforc

목록과 배열의 요소를 반복하는 방법을 설명하십시오.목록과 배열의 요소를 반복하는 방법을 설명하십시오.May 01, 2025 am 12:01 AM

파이썬에서는 루프에 사용하여 열거 및 추적 목록에 대한 이해를 나열 할 수 있습니다. Java에서는 루프를 위해 전통적인 사용 및 루프가 트래버스 어레이를 향해 향상시킬 수 있습니다. 1. Python 목록 트래버스 방법에는 다음이 포함됩니다. 루프, 열거 및 목록 이해력. 2. Java 어레이 트래버스 방법에는 다음이 포함됩니다. 루프 용 전통 및 루프를위한 향상.

Python Switch 문은 무엇입니까?Python Switch 문은 무엇입니까?Apr 30, 2025 pm 02:08 PM

이 기사는 버전 3.10에 도입 된 Python의 새로운 "매치"진술에 대해 논의하며, 이는 다른 언어로 된 문장과 동등한 역할을합니다. 코드 가독성을 향상시키고 기존 IF-ELIF-EL보다 성능 이점을 제공합니다.

파이썬의 예외 그룹은 무엇입니까?파이썬의 예외 그룹은 무엇입니까?Apr 30, 2025 pm 02:07 PM

Python 3.11의 예외 그룹은 여러 예외를 동시에 처리하여 동시 시나리오 및 복잡한 작업에서 오류 관리를 향상시킵니다.

파이썬의 기능 주석이란 무엇입니까?파이썬의 기능 주석이란 무엇입니까?Apr 30, 2025 pm 02:06 PM

Python의 기능 주석은 유형 확인, 문서 및 IDE 지원에 대한 기능에 메타 데이터를 추가합니다. 코드 가독성, 유지 보수를 향상 시키며 API 개발, 데이터 과학 및 라이브러리 생성에 중요합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경