>  기사  >  Java  >  Java의 URL에서 도메인 이름을 정확하게 추출하는 방법은 무엇입니까?

Java의 URL에서 도메인 이름을 정확하게 추출하는 방법은 무엇입니까?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-10-31 22:00:03564검색

How to Accurately Extract Domain Names from URLs in Java?

URL에서 도메인 이름 추출

URL에서 도메인 이름을 추출하는 작업이 자주 발생합니다. 이 기사에서는 이 작업에 대한 일반적인 Java 구현에 대해 설명하고 정확성을 향상하고 잠재적인 극단적인 경우를 처리하기 위한 대체 접근 방식을 탐색합니다.

초기 구현

제공된 Java 코드는 정규화로 시작됩니다. 필요한 경우 앞에 "http://"를 추가하여 URL을 입력하세요. 그런 다음 java.net.URL을 사용하여 URL을 구문 분석하여 호스트 문자열을 얻습니다. 마지막으로 호스트가 "www"로 시작하는 경우 "www" 뒤의 하위 문자열입니다. 도메인 이름으로 반환됩니다.

대체 접근 방식

그러나 이 접근 방식에는 제한 사항이 있습니다.

  • 특정 극단적인 경우를 처리하지 못합니다. , 예를 들어 경로가 "http" 또는 "www"로 시작하는 상대 URL입니다.
  • 프로토콜이 항상 소문자라고 가정하는데 이는 유효한 가정이 아닙니다.
  • 실행 중에 불필요한 DNS 조회를 수행합니다. 서비스 거부 공격으로 이어질 수 있는 URL 동일성 검사.

향상된 구현

이러한 문제를 해결하려면 java.net.URI를 사용하는 것이 좋습니다. URL 분석. URI는 더욱 강력하고 안정적인 접근 방식을 제공합니다.

<code class="java">public static String getDomainName(String url) throws URISyntaxException {
    URI uri = new URI(url);
    String domain = uri.getHost();
    return domain.startsWith("www.") ? domain.substring(4) : domain;
}</code>

이 코드는 URL을 URI로 변환하고 호스트 문자열을 얻은 다음 "www"를 제거합니다. 접두사가 있는 경우

추가 고려 사항

개선된 구현에도 불구하고 여전히 주의해야 할 몇 가지 극단적인 경우가 있을 수 있습니다. RFC 3986 부록 B는 더 복잡한 URI 구문 분석 시나리오를 처리할 수 있는 정규식을 제공합니다.

특정 사례

다음은 초기 구현이 실패할 수 있는 몇 가지 추가 극단적인 사례입니다. 처리 대상:

  • 경로 또는 호스트에 여러 개의 슬래시가 있는 URL
  • 인코딩된 문자가 있는 URL
  • 쿼리 문자열 또는 조각 식별자가 있는 URL
  • ASCII가 아닌 도메인 이름으로 확인되는 URL

전체적으로, URL 구문 분석에 java.net.URI를 사용하면 특히 복잡하거나 잠재적인 도메인 이름을 처리할 때 URL에서 도메인 이름을 추출하는 보다 포괄적이고 정확한 방법을 제공합니다. 잘못된 URL입니다.

위 내용은 Java의 URL에서 도메인 이름을 정확하게 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.