찾다
Javajava지도 시간기사에서 반복되는 중국어 문자열을 읽기 위한 샘플 코드 분석의 Java 구현

本文主要介绍了Java实现读取文章中重复出现的中文字符串的方法。具有很好的参考价值。下面跟着小编一起来看下吧

在上个星期阿里巴巴一面的时候,最后面试官问我如何把一篇文章中重复出现的词或者句子找出来,当时太紧张,答的不是很好。今天有时间再来亲手实现一遍。其实说白了也就是字符串的处理,所以难度并不是很大。

以下是代码和运行效果:

实现方法:

import java.io.*;
import java.util.*;
/**
 * Created by chunmiao on 17-3-20.
 */
public class ReadArticle {
 //读取文件名称
 private String filename;
 //读取段落
 private ArrayList<String> result = new ArrayList<>();
 //最小字长(两个字以上进行匹配)
 private final int MINSIZE = 2;
 //重复词储存
 HashSet<String> set;
 public ReadArticle(String filename, HashSet<String> set) {
 this.filename = filename;
 this.set = set;
 }
 public void createData() throws IOException {
 String r;
 //读取文章内容
 BufferedReader in = new BufferedReader(new FileReader(new File(filename).getAbsoluteFile()));
 try {
  while ((r = in.readLine()) != null) {
  //消除不必要的标点符号
  r = r.replaceAll("\\s+ |“|\\[|‘|《| *|", "").trim();
  //留下” , 。 。” ”。 ”, ? 》 -等作为划分句子的分割符标示
  Collections.addAll(result, r.split(",|(。”|”(。|,)|。)|(\\])|”|&#39;|?|:|》|-"));
  }
 }finally {
  in.close();
 }
 //对文章内容进行遍历找出重读出现的句子或者是词语
 for (int i = 0 ; i < result.size() - 1; i ++){
  for (int j = 0 ; j < result.size() - i - 1; j ++) {
  //将重复出现的词语保存到set集合里面
  set.addAll(getSameCharacter(result.get(i), result.get(j + i + 1)));
  }
 }
 }
 private ArrayList<String> getSameCharacter(String a1, String a2){
 String maxS;
 String minS;
 //短句遍历开始处
 int start = 0;
 //词的长度最短为两个字长
 int range =2;
 //设定短句和长句s,使得遍历更加快捷
 if (a1.length() <= a2.length()){
  maxS = a2;
  minS = a1;
 }else {
  maxS = a1;
  minS = a2;
 }
 String result = "";
 ArrayList<String> list = new ArrayList<String>();
 //防止substring时超出范围
 while (start + range <= minS.length()) {
  //如果句子或词在对象里面,则找出相应的句子或词保存在list里面
  if (maxS.indexOf(minS.substring(start, start + range)) != -1) {
  //获取最长句子,删除短句子
  list.remove(result);
  list.add(minS.substring(start, start + range));
  result = minS.substring(start, start + range);
  range++;
  continue;
  }
  range = MINSIZE;
  start++;
 }
 return list;
 }
}

测试代码:

import java.io.IOException;
import java.util.HashSet;
public class Main {
 public static void main(String[] args) throws IOException {
 String filename = "test.txt";
 HashSet<String> result = new HashSet<String>();
 ReadArticle read = new ReadArticle(filename,result);
 read.createData();
 System.out.println("这篇文章中的重复出现的词或句子有以下几个词或句子:\n");
 for (String s : result){
  System.out.println(s);
 }
 }
}

读取的文章内容:

기사에서 반복되는 중국어 문자열을 읽기 위한 샘플 코드 분석의 Java 구현

正则匹配结果(去掉多余字符):

기사에서 반복되는 중국어 문자열을 읽기 위한 샘플 코드 분석의 Java 구현

字符串转换成ArrayList:

기사에서 반복되는 중국어 문자열을 읽기 위한 샘플 코드 분석의 Java 구현

最终处理结果:

기사에서 반복되는 중국어 문자열을 읽기 위한 샘플 코드 분석의 Java 구현

其实从上面的结果可以看出。单纯的操控字符串并不能判断它是否是一个完整的词和句,应该还要配合数据库字典来匹配上面的结果,从而找出真正的词和句

위 내용은 기사에서 반복되는 중국어 문자열을 읽기 위한 샘플 코드 분석의 Java 구현의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
Java 개발의 어떤 측면이 플랫폼 의존적입니까?Java 개발의 어떤 측면이 플랫폼 의존적입니까?Apr 26, 2025 am 12:19 AM

javadevelopmentisnotentirelyplatform-IndectionentDuetoSeveralFactors.1) JVMVARIATIONSAFFERFFERFORMANDBEHAVIORACROSSDIFFERENTOS.2) nativelibrariesViajniintrictionPlatform-specificiss.3) filepathsandsystempropertiesdifferbetweenplatectry. 4)

다른 플랫폼에서 Java 코드를 실행할 때 성능 차이가 있습니까? 왜?다른 플랫폼에서 Java 코드를 실행할 때 성능 차이가 있습니까? 왜?Apr 26, 2025 am 12:15 AM

Java 코드는 다른 플랫폼에서 실행할 때 성능 차이가 있습니다. 1) JVM의 구현 및 최적화 전략은 OracleJDK 및 OpenJDK와 같이 다릅니다. 2) 메모리 관리 및 스레드 스케줄링과 같은 운영 체제의 특성도 성능에 영향을 미칩니다. 3) 적절한 JVM을 선택하여 JVM 매개 변수 및 코드 최적화를 조정하여 성능을 향상시킬 수 있습니다.

Java의 플랫폼 독립성의 몇 가지 한계는 무엇입니까?Java의 플랫폼 독립성의 몇 가지 한계는 무엇입니까?Apr 26, 2025 am 12:10 AM

Java'SplatformIndenceHASLIMITATIONSINTERFORMANTOWORHEAD, 버전 컴포팅 가능성, 도전 과제, 플랫폼-특이 적 식품, 및 JVMINSTALLATION/MAYMENDENT.ThesefacteThe "WriteOnce, Runanywhere"

플랫폼 독립성과 크로스 플랫폼 개발의 차이점을 설명하십시오.플랫폼 독립성과 크로스 플랫폼 개발의 차이점을 설명하십시오.Apr 26, 2025 am 12:08 AM

Platform IndependenCealLowsProgramStorunannyplatformwithoutModification, whileCross-PlatformDevelopmentRequiressomplatformspecificAdJustments.platformIndence, PreemplifiedByjava, enableStalExecutionButmayPromiseperformance.cross-platformd

JIT (Just-In-Time) 컴파일은 Java의 성능 및 플랫폼 독립에 어떤 영향을 미칩니 까?JIT (Just-In-Time) 컴파일은 Java의 성능 및 플랫폼 독립에 어떤 영향을 미칩니 까?Apr 26, 2025 am 12:02 AM

jitcompilationinjavaenhancesperformance는 platformindence.1) ItdynamicallyTransLatesByTecodeIntonativeMachinecodeatimeTime, 최적화 FREQUELTEREDCODE.2) TheJVMREMAINSPLATFORM- Independent, 허용 THEMEJAVAAPPLITIONTORUNONDIFFEREN을 허용합니다

Java가 크로스 플랫폼 데스크톱 응용 프로그램을 개발하기 위해 인기있는 선택 인 이유는 무엇입니까?Java가 크로스 플랫폼 데스크톱 응용 프로그램을 개발하기 위해 인기있는 선택 인 이유는 무엇입니까?Apr 25, 2025 am 12:23 AM

javaispopularforcross-platformdesktopapplicationsduetoits "writeonce, runanywhere"철학

Java의 플랫폼 별 코드 작성 상황에 대해 토론하십시오.Java의 플랫폼 별 코드 작성 상황에 대해 토론하십시오.Apr 25, 2025 am 12:22 AM

Java에서 플랫폼 별 코드를 작성하는 이유에는 특정 운영 체제 기능에 대한 액세스, 특정 하드웨어와 상호 작용하고 성능 최적화가 포함됩니다. 1) JNA 또는 JNI를 사용하여 Windows 레지스트리에 액세스하십시오. 2) JNI를 통한 Linux 특이 적 하드웨어 드라이버와 상호 작용; 3) 금속을 사용하여 JNI를 통해 MacOS의 게임 성능을 최적화하십시오. 그럼에도 불구하고 플랫폼 별 코드를 작성하면 코드의 이식성에 영향을 미치고 복잡성을 높이며 잠재적으로 성능 오버 헤드 및 보안 위험을 초래할 수 있습니다.

플랫폼 독립성과 관련된 Java 개발의 미래 트렌드는 무엇입니까?플랫폼 독립성과 관련된 Java 개발의 미래 트렌드는 무엇입니까?Apr 25, 2025 am 12:12 AM

Java는 Cloud-Native Applications, Multi-Platform 배포 및 교차 운용성을 통해 플랫폼 독립성을 더욱 향상시킬 것입니다. 1) Cloud Native Applications는 Graalvm 및 Quarkus를 사용하여 시작 속도를 높입니다. 2) Java는 임베디드 장치, 모바일 장치 및 양자 컴퓨터로 확장됩니다. 3) Graalvm을 통해 Java는 Python 및 JavaScript와 같은 언어와 완벽하게 통합되어 언어 교차 수용 가능성을 향상시킵니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

VSCode Windows 64비트 다운로드

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구