Java를 처음부터 작성하고 크롤링된 콘텐츠를 로컬에 저장합니다. (2)-java지도 시간-php.cn

집

Java

java지도 시간

Java를 처음부터 작성하고 크롤링된 콘텐츠를 로컬에 저장합니다. (2)

黄舟

Dec 24, 2016 am 11:50 AM

이후 사용을 위해 이 두 함수를 FileReaderWriter.java 파일에 캡슐화합니다.
그런 다음 Zhihu 크롤러로 돌아갑니다.
로컬에 쓸 때 조판 형식을 지정하려면 Zhihu의 Zhihu 캡슐화 클래스에 함수를 추가해야 합니다.

코드는 다음과 같습니다.

public String writeString() {  
        String result = "";  
        result += "问题：" + question + "\r\n";  
        result += "描述：" + questionDescription + "\r\n";  
        result += "链接：" + zhihuUrl + "\r\n";  
        for (int i = 0; i < answers.size(); i++) {  
            result += "回答" + i + "：" + answers.get(i) + "\r\n";  
        }  
        result += "\r\n\r\n";  
        return result;  
}

그렇습니다. 다음으로 main 메소드의 System.out.println을

코드로 변경합니다.

// 写入本地  
        for (Zhihu zhihu : myZhihu) {  
            FileReaderWriter.writeIntoFile(zhihu.writeString(),  
                    "D:/知乎_编辑推荐.txt", true);  
        }

실행하면 원래 콘솔에 표시된 내용이 로컬 txt 파일에 기록된 것을 확인할 수 있습니다.

Java를 처음부터 작성하고 크롤링된 콘텐츠를 로컬에 저장합니다. (2)

일반적으로 언뜻 보면 문제가 없습니다. 자세히 살펴보면 문제가 있습니다. 주로 및
등의 HTML 태그가 너무 많습니다.
출력 중에 이러한 태그를 처리할 수 있습니다.
먼저 io 스트림에서
를 rn으로 바꾼 다음 모든 html 태그를 삭제하면 훨씬 더 명확해집니다.

코드는 다음과 같습니다.

public String writeString() {  
    // 拼接写入本地的字符串  
    String result = "";  
    result += "问题：" + question + "\r\n";  
    result += "描述：" + questionDescription + "\r\n";  
    result += "链接：" + zhihuUrl + "\r\n";  
    for (int i = 0; i < answers.size(); i++) {  
        result += "回答" + i + "：" + answers.get(i) + "\r\n\r\n";  
    }  
    result += "\r\n\r\n\r\n\r\n";  
    // 将其中的html标签进行筛选  
    result = result.replaceAll("<br>", "\r\n");  
    result = result.replaceAll("<.*?>", "");  
    return result;  
}

여기서 replacementAll 함수는 정규 표현식을 사용할 수 있으므로 마지막에 모든 태그가 삭제됩니다.

위 내용은 캡처한 내용을 로컬에 저장하기 위해 기초 없이 Java Zhihu 크롤러를 작성하는 내용입니다(2). 더 많은 관련 내용은 PHP 중국어 홈페이지(www.kr)를 참고해주세요. .php.cn)!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

JVM은 Java의 'Write Once, Run Aloneeringly'(Wora) 기능에 어떻게 기여합니까?May 02, 2025 am 12:25 AM

JVM은 바이트 코드 해석, 플랫폼 독립 API 및 동적 클래스 로딩을 통해 Java의 Wora 기능을 구현합니다. 1. 바이트 코드는 크로스 플랫폼 작동을 보장하기 위해 기계 코드로 해석됩니다. 2. 표준 API 추상 운영 체제 차이; 3. 클래스는 런타임에 동적으로로드되어 일관성을 보장합니다.

JAVA의 최신 버전은 JVM 최적화, 표준 라이브러리 개선 및 타사 라이브러리 지원을 통해 플랫폼 별 문제를 효과적으로 해결합니다. 1) Java11의 ZGC와 같은 JVM 최적화는 가비지 수집 성능을 향상시킵니다. 2) Java9의 모듈 시스템과 같은 표준 라이브러리 개선은 플랫폼 관련 문제를 줄입니다. 3) 타사 라이브러리는 OpenCV와 같은 플랫폼 최적화 버전을 제공합니다.

JVM이 수행 한 바이트 코드 검증 프로세스를 설명하십시오.May 02, 2025 am 12:18 AM

JVM의 바이트 코드 검증 프로세스에는 네 가지 주요 단계가 포함됩니다. 1) 클래스 파일 형식이 사양을 준수하는지 확인, 2) 바이트 코드 지침의 유효성과 정확성을 확인하고 3) 유형 안전을 보장하기 위해 데이터 흐름 분석을 수행하고 4) 검증의 철저한 성능 균형을 유지합니다. 이러한 단계를 통해 JVM은 안전하고 올바른 바이트 코드 만 실행되도록하여 프로그램의 무결성과 보안을 보호합니다.

플랫폼 독립성은 Java 응용 프로그램의 배포를 어떻게 단순화합니까?May 02, 2025 am 12:15 AM

Java'splatforminccendenceallowsapplicationStorunonAnyAnyOperatingSystemwithajvm.1) SingleCodeBase : writeAndCompileOnceforAllPlatforms.2) EasyUpdates : UpdateByTeCodeForsimultiancodeporsimultiancomeDeployment.3) 시험 효율성 : westernoneplatformforunivor.4) Scalab

Java의 플랫폼 Independence는 시간이 지남에 따라 어떻게 진화 했습니까?May 02, 2025 am 12:12 AM

Java의 플랫폼 Independence는 JVM, JIT 컴파일, 표준화, 제네릭, Lambda 표현 및 ProjectPanama와 같은 기술을 통해 지속적으로 향상됩니다. 1990 년대 이래 Java는 기본 JVM에서 고성능 현대 JVM으로 발전하여 다양한 플랫폼에서 코드의 일관성과 효율성을 보장했습니다.

Java 응용 프로그램에서 플랫폼 별 문제를 완화하기위한 몇 가지 전략은 무엇입니까?May 01, 2025 am 12:20 AM

Java는 플랫폼 별 문제를 어떻게 완화합니까? Java는 JVM 및 표준 라이브러리를 통해 플랫폼 독립성을 구현합니다. 1) Bytecode 및 JVM을 사용하여 운영 체제 차이를 추상화합니다. 2) 표준 라이브러리는 Paths 클래스 처리 파일 경로 및 Charset 클래스 처리 문자 인코딩과 같은 크로스 플랫폼 API를 제공합니다. 3) 최적화 및 디버깅을 위해 실제 프로젝트에서 구성 파일 및 다중 플랫폼 테스트를 사용하십시오.

Java의 플랫폼 독립성과 마이크로 서비스 아키텍처의 관계는 무엇입니까?May 01, 2025 am 12:16 AM

java'splatformincendenceenhancesmicroservicesarchitectureDeploymentFlexibility, 일관성, 확장 성 및 포트 가능성

Graalvm은 Java의 플랫폼 독립 목표와 어떤 관련이 있습니까?May 01, 2025 am 12:14 AM

Graalvm은 Java의 플랫폼 독립성을 세 가지 방식으로 향상시킵니다. 1. 교차 언어 상호 운용성, Java는 다른 언어와 원활하게 상호 작용할 수 있습니다. 2. 독립적 인 런타임 환경, Java 프로그램을 GraalvMnativeImage를 통해 로컬 실행 파일로 컴파일합니다. 3. 성능 최적화, Graal Compiler는 Java 프로그램의 성능과 일관성을 향상시키기 위해 효율적인 기계 코드를 생성합니다.

See all articles