Maison >Java >javaDidacticiel >Exemple de correspondance régulière Java des caractères chinois dans la balise a en HTML

Exemple de correspondance régulière Java des caractères chinois dans la balise a en HTML

高洛峰original: 2017-01-22 14:27:351402parcourir

本文实例讲述了java正则匹配HTML中a标签里的中文字符。分享给大家供大家参考，具体如下：

今天群里一位朋友问到了一个正则表达式的问题，有如下内容：

<a href=&#39;www.baidu.comds=id32434#comment&#39;rewr>特432</a>
453543
<a guhll,,l>a1特123你好123吗？</a>
<a href=id=32434#comment&#39;ewrer>特2</a>
<a>标签中的文字</a>

现在要匹配出内容包含中文但标签的属性中不包含comment的3499910bf9dac5ae3c52d5ede7383485标签中的汉字。

解决思路如下：

1、首先匹配出不包括comment的3499910bf9dac5ae3c52d5ede7383485标签；

2、在匹配结果中进行二次匹配出中文；

代码如下：

package com.mmq.regex;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
 * @use 匹配HTML的<a>标签中的中文字符
 * @ProjectName stuff
 * @Author mumaoqiang
 * @FullName com.mmq.regex.MatchChineseCharacters.java
 * @JDK 1.6.0
 * @Version 1.0
 */
public class MatchChineseCharacters {
  /**
   * 根据输入的内容，匹配出包含中文但不包含comment的<a>标签中的中文字符
   * @param source 要匹配的内容
   * @return <a>标签中的中文字符
   */
  public static String matchChineseCharacters(String source) {
    //匹配出包含中文但不包含comment的<a>标签
    String reg = "<a((?!comment).)*?>([^<>]*?[\\u4e00-\\u9fa5]+[^<>]*?)+(?=</a>)";
    Pattern pattern = Pattern.compile(reg);
    Matcher matcher = pattern.matcher(source);
    StringBuilder character = new StringBuilder();
    while(matcher.find()){
      String result = matcher.group();
      System.out.println(result);
      //对结果进行二次正则，匹配出中文字符
      String reg1 = "[\\u4e00-\\u9fa5]+";
      Pattern p1 = Pattern.compile(reg1);
      Matcher m1 = p1.matcher(result);
      while(m1.find()){
        character.append(m1.group());
      }
      //System.out.println(character.toString());
    }
    return character.toString();
  }
  public static void main(String[] args) {
    String result = matchChineseCharacters("<a href=&#39;www.baidu.comds=id32434#comment&#39;rewr>特432</a>453543<a guhll,,l>a1特123你好123吗？</a><a href=id=32434#comment&#39;ewrer>特2</a><a>标签中的文字</a>");
    System.out.println(result);
  }
}

输出结果如下：

<a guhll,,l>a1特123你好123吗？
<a>标签中的文字
特你好吗标签中的文字

这里做一下解释：

String reg = "<a((?!comment).)*?>([^<>]*?[\\u4e00-\\u9fa5]+[^<>]*?)+(?=</a>)";

这个匹配内容包含中文但标签的属性中不包含comment的3499910bf9dac5ae3c52d5ede7383485标签的正则中，不能使用向后查找?<=，因为向后查找只能是固定长度的内容，这里3499910bf9dac5ae3c52d5ede7383485标签中属性不确定，所以不能使用；[\\u4e00-\\u9fa5]+匹配中文字符串；而(?=5db79b134e9f6b82c0b36e0489ee08ed)使用向前查找?=，在结果中不会包含结束标签5db79b134e9f6b82c0b36e0489ee08ed。

这个问题就这样得到解决了。如果说要匹配指定标签中的指定内容，那么也是很容易改进的了。若有更好的正则，还请留言相互学习。

希望本文所述对大家java程序设计有所帮助。

更多java正则匹配HTML中a标签里的中文字符示例相关文章请关注PHP中文网！

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Quatre méthodes de traitement couramment utilisées des expressions régulières Java (correspondance, segmentation, substitution, acquisition)Article suivant：Quatre méthodes de traitement couramment utilisées des expressions régulières Java (correspondance, segmentation, substitution, acquisition)

Articles Liés

Voir plus