HTML 렌더링 기능 메모리 누수-Golang-php.cn

집

백엔드 개발

Golang

HTML 렌더링 기능 메모리 누수

王林

Feb 06, 2024 am 10:39 AM

html 渲染函数内存泄漏

질문 내용

제가 직면한 문제는 200개의 요청만 시도해도 프로그램이 컨테이너 메모리의 6GB를 차지하게 되어 결국 oom에 의해 종료된다는 것입니다. 내 생각은 html에 있는 모든 텍스트 노드를 추출한 다음 처리하여 이름, html 및 해당 태그의 텍스트를 추출하는 것입니다. 따라서 특정 태그에 대한 html을 생성하려면 golang.org/x/net/html의 렌더링 기능을 사용합니다. 생성된 HTML을 작성하기 위해 strings.builder를 io.writer로 제공합니다. 그러나 어떤 이유로 빌더는 너무 많은 메모리를 차지합니다.

으아아아

특정 URL 목록을 원하시면 여기를 클릭하세요. 한번에 60개 정도 요청했어요.

bytes.buffer bytes.buffer 및 sync.pool을 사용해 보았지만 둘 다 동일한 문제가 있습니다. pprof를 사용하여 strings.builder의 writestring 메서드로 인해 많은 메모리 사용량이 발생하는 것을 확인했습니다. bytes.buffer 和 sync.pool 但两者都有相同的问题。使用 pprof 我注意到 strings.builder 的 writestring 方法导致大量内存使用。

正确答案

所以这里的基本问题是接受任何 content-type ，这在抓取方面是不可接受的，大多数网站都需要发送 text/html

정답

그래서 여기서 기본적인 문제는 크롤링 측면에서 허용되지 않는 모든 content-type을 허용하는 것입니다. 대부분의 웹사이트는 모두 필요합니다. text/html을 보내려고 합니다. golang.org/x/net/html문제는

url이

html 데이터를 나타내지 않는 모든 것을 application/pdf ，然后正文将包含 html.Parse 보내더라도 오류 없이 이를 수락한다는 것입니다.

파싱된 PDF의 바이너리 데이터가 반환되고 오류가 반환되지 않는 예를 들어 보겠습니다. 이는 바이너리 데이터를 받아들이는 스크래핑/크롤링에 대한 이상한 동작 생각 라이브러리입니다.

🎜해결책은 다음과 같습니다. 🎜응답 헤더를 확인하고 데이터만 html인 경우 계속 진행합니다. 그렇지 않으면 모호성이 발생하거나 메모리 사용량이 더 많아질 수 있지만(어쩌면 더 낮을 수도 있음) 무슨 일이 일어날지 예측할 수 없습니다. 🎜

위 내용은 HTML 렌더링 기능 메모리 누수의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 stackoverflow에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

GO 프로그래밍 언어로 확장 가능한 시스템 구축Apr 25, 2025 am 12:19 AM

goisidealforbuildingscalablesystemsduetoitssimplicity, 효율성 및 빌드-내부 컨 컨 오렌 스upport.1) go'scleansyntaxandminimalisticdesignenenhance-reductivityandreduceerrors.2) itsgoroutinesandChannelsableefficedsoncurrentProgramming, DistributingLoa

GO에서 시작 기능을 효과적으로 사용하기위한 모범 사례Apr 25, 2025 am 12:18 AM

initTectionsIntOnaUtomaticallyBeforemain () andAreSefulforsettingupenvirondentAnitializingVariables.usethemforsimpletasks, propoysideeffects 및 withtestingntestingandloggingtomaincodeclarityAndestability.

GO 패키지에서 시작 함수의 실행 순서Apr 25, 2025 am 12:14 AM

goinitializespackages는 theyareimported, theexecutesinitfunctions, theneiredefinitionorder, andfilenamesDeterMineDeTerMineTeRacrossMultipleFiles.ThemayLeadTocomplexInitializations의 의존성 의존성의 의존성을 확인합니다

이동 중에 사용자 정의 인터페이스를 정의하고 사용합니다Apr 25, 2025 am 12:09 AM

CustomInterfacesingoAreCrucialForwritingFlectible, 관리 가능 및 TestAblEcode.theyenabledeveloperstofocusonBehaviorimplementation, 향상 ModularityAndRobustness

이동 중에 조롱 및 테스트를위한 인터페이스 사용Apr 25, 2025 am 12:07 AM

시뮬레이션 및 테스트에 인터페이스를 사용하는 이유는 인터페이스가 구현을 지정하지 않고 계약의 정의를 허용하여 테스트를보다 고립되고 유지 관리하기 쉽기 때문입니다. 1) 인터페이스를 암시 적으로 구현하면 테스트에서 실제 구현을 대체 할 수있는 모의 개체를 간단하게 만들 수 있습니다. 2) 인터페이스를 사용하면 단위 테스트에서 서비스의 실제 구현을 쉽게 대체하여 테스트 복잡성과 시간을 줄일 수 있습니다. 3) 인터페이스가 제공하는 유연성은 다른 테스트 사례에 대한 시뮬레이션 동작의 변화를 허용합니다. 4) 인터페이스는 처음부터 테스트 가능한 코드를 설계하여 코드의 모듈성과 유지 관리를 향상시키는 데 도움이됩니다.

GO에서 패키지 초기화에 Init을 사용합니다Apr 24, 2025 pm 06:25 PM

GO에서는 INT 기능이 패키지 초기화에 사용됩니다. 1) INT 기능은 패키지 초기화시 자동으로 호출되며 글로벌 변수 초기화, 연결 설정 및 구성 파일로드에 적합합니다. 2) 파일 순서로 실행할 수있는 여러 개의 초기 함수가있을 수 있습니다. 3)이를 사용할 때 실행 순서, 테스트 난이도 및 성능 영향을 고려해야합니다. 4) 부작용을 줄이고, 종속성 주입을 사용하고, 초기화를 지연하여 초기 기능의 사용을 최적화하는 것이 좋습니다.

GO의 선택 설명 : 다중화 동시 작업Apr 24, 2025 pm 05:21 PM

go'selectStatementsTreamLinesconcurramprogrammingBymultiplexingOperations.1) ItallowSwaitingOnMultipLechannelOperations, executingThefirStreadYone.2) thedefaultCasePreventsDeadLocksHavingThepRamToproCeedifNooperationSready.3) Itcanusedfored