日付正規表現の詳しい説明

巴扎黑
巴扎黑オリジナル
2017-09-21 11:25:392035ブラウズ

日付の正規化は通常、形式要件があり、データがユーザーによって直接入力されない場合に使用されます。この記事では主に日付正規表現の詳細な考え方を紹介しますので、必要な方は参考にしてください

1 概要

まず最初に、Winform と Webform の両方について説明する必要があります。使いやすさや拡張性の観点から見ても、カレンダー コントロールを使用して日付の選択と検証を実装することをお勧めします。

数日前、CSDN の複数のセクションで日付の正規化が必要な投稿を見つけたので、議論し連絡するためにこの記事をまとめました。欠落や誤りがある場合は修正してください。

日付の正規化は通常、形式要件があり、データがユーザーによって直接入力されない場合に使用されます。アプリケーションシナリオが異なるため、記述される通常のルールも異なり、当然複雑さも異なります。通常の文章では、特定の状況に基づいた詳細な分析が必要です。基本原則は、複雑なものではなく、適切なものだけを書くことです。

日付抽出の場合、日付以外のデータと区別できる限り、


\d{4}-\d{2}-\d{2}

のような最も単純な正規表現を記述するだけです。ソース文字列を抽出することができます。

検証は文字構成や書式だけを検証するだけではあまり意味がなく、ルールの検証も加える必要があります。うるう年の存在により、日付の検証がより複雑になります。

まず、日付の有効範囲とうるう年について調べてみましょう。

2
MSDN で定義されている DateTime オブジェクトの有効範囲は、0001-01-01 00:00:00 ~ 9999-12-31 23:59:59 です。
ISO 8601 仕様によると、UNIX タイムスタンプの 0 は 1970-01-01T00:00:00Z です。

実際のアプリケーションでは、日付範囲は基本的にDateTimeで指定された範囲を超えることはありませんので、通常の検証ではよく使用される日付範囲のみを使用できます。
2.2 閏年とは

(以下、百度百科より引用)

閏年(うるう年)は、人工暦の規制により生じる年間日数の時差を埋めるために設けられたそして実際の地球の公転周期。時差が埋められる年は閏年となります。

太陽の周りを回る地球の公転周期は 365 日 5 時間 48 分 46 秒 (365.24219 日) で、これは熱帯年です。グレゴリオ暦の通常の年は 365 日しかなく、熱帯の年よりも約 0.2422 日短くなります。この日は 4 年ごとに約 1 日追加されるため、一年の長さは366日になります。 今年は閏年です。

現在のグレゴリオ暦はローマ人の「ユリウス暦」を基にしていることに注意してください。当時は、紀元前 46 年から 16 世紀まで、毎年 0.0078 日余分に計算する必要があることを理解していなかったので、合計 10 日余分に計算されていました。このため、当時の教皇グレゴリウス13世は1582年10月5日を人為的に10月15日と定めた。そして新たな閏年規制が始まりました。つまり、グレゴリオ暦は100年であり、閏年となるためには400の倍数でなければならず、400の倍数でなければ平年となると規定されている。たとえば、1700 年、1800 年、1900 年は平年で、2000 年はうるう年です。それ以来、年間の平均長さは 365.2425 日となり、約 4 年間で 1 日の誤差が生じています。 4 年ごとのうるう年の計算によれば、毎年平均 0.0078 日が追加され、400 年後には約 3 日余分に存在することになります。したがって、400 年ごとに 3 日のうるう年が減ります。閏年の計算は通常どおり要約できます。4 年ごとに閏があり、100 年ごとに閏はなく、400 年ごとにまた閏があります。
2.3 日付形式

言語や文化が異なると、日付のハイフンは通常次の形式になります:

yyyyMMdd

yyyy-MM-dd

yyyy/MM/ dd
yyyy.MM.dd

3 日付正規表現の構築

3.1 ルール分析

複雑な正規表現を記述する一般的な方法は、最初に無関係な要件を分離して書き込みます。対応する規則ルールを組み合わせて、相互の相関や影響を確認することで、基本的には対応する規則ルールを取得できます。 閏年の定義によれば、日付はいくつかの方法で分類できます。

3.1.1 日数が年と関係があるかどうかで2つのカテゴリに分けられます

年と関係のない1つのカテゴリでは、年に基づいてさらに2つのカテゴリに分けることができます月ごとの日数

1、3、5月、7月、8月、10月、12月は1日から31日です

4. 6月、9月、11月は1日から30日です

年に関連するカテゴリ内
  • 通常の年2月は1〜28日です
  • 閏年の2月は1〜29日です

すべての年のすべての月に1〜28日が含まれます
  • すべて2月を除く年には29日と30日が含まれます
  • 1月、3月、5月、7月、8月、10月、12月にはすべて31日が含まれます

  • 閏年の2月には29日が含まれます

3.1.2  根据包含日期不同可划分为四类

3.1.3  分类方法选择

因为日期分类之后的实现,是要通过(exp1|exp2|exp3)这种分支结构来实现的,而分支结构是从左侧分支依次向右开始尝试匹配,当有一个分支匹配成功时,就不再向右尝试,否则尝试所有分支后并报告失败。

分支的多少,每个分支的复杂程度都会影响匹配效率,考虑到被验证日期概率分布,绝大多数都是落到1-28日内,所以采用第二种分类方法,会有效提高匹配效率。

3.2     正则实现

采用3.1.2节的分类方法,就可以针对每一个规则写出对应的正则,以下暂按MM-dd格式进行实现。

先考虑与年份无关的前三条规则,年份可统一写作


(?!0000)[0-9]{4}

下面仅考虑月和日的正则

包括平年在内的所有年份的月份都包含1-28日


(0[1-9]|1[0-2])-(0[1-9]|1[0-9]|2[0-8])

包括平年在内的所有年份除2月外都包含29和30日


(0[13-9]|1[0-2])-(29|30)

包括平年在内的所有年份1、3、5、7、8、10、12月都包含31日


(0[13578]|1[02])-31)

合起来就是除闰年的2月29日外的其它所有日期


(?!0000)[0-9]{4}-((0[1-9]|1[0-2])-(0[1-9]|1[0-9]|2[0-8])|(0[13-9]|1[0-2])-(29|30)|(0[13578]|1[02])-31)

接下来考虑闰年的实现

闰年2月包含29日

这里的月和日是固定的,就是02-29,只有年是变化的。

可通过以下代码输出所有的闰年年份,考察规则


for (int i = 1; i < 10000; i++){
  if ((i % 4 == 0 && i % 100 != 0) || i % 400 == 0){
   richTextBox2.Text += string.Format("{0:0000}", i) + "\n";
  }
}

根据闰年的规则,很容易整理出规则,四年一闰;


([0-9]{2}(0[48]|[2468][048]|[13579][26])

百年不闰,四百年再闰。


(0[48]|[2468][048]|[13579][26])00

合起来就是所有闰年的2月29日


([0-9]{2}(0[48]|[2468][048]|[13579][26])|(0[48]|[2468][048]|[13579][26])00)-02-29)

四条规则都已实现,且互相间没有影响,合起来就是所有符合DateTime范围的日期的正则


^((?!0000)[0-9]{4}-((0[1-9]|1[0-2])-(0[1-9]|1[0-9]|2[0-8])|(0[13-9]|1[0-2])-(29|30)|(0[13578]|1[02])-31)|([0-9]{2}(0[48]|[2468][048]|[13579][26])|(0[48]|[2468][048]|[13579][26])00)-02-29)$

考虑到这个正则表达式仅仅是用作验证,所以捕获组没有意义,只会占用资源,影响匹配效率,所以可以使用非捕获组来进行优化。


^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$

以上正则年份0001-9999,格式yyyy-MM-dd。可以通过以下代码验证正则的有效性和性能


DateTime dt = new DateTime(1, 1, 1);
DateTime endDay = new DateTime(9999, 12, 31);
Stopwatch sw = new Stopwatch();
sw.Start();
 
Regex dateRegex = new Regex(@"^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$");
 
//Regex dateRegex = new Regex(@"^((?!0000)[0-9]{4}-((0[1-9]|1[0-2])-(0[1-9]|1[0-9]|2[0-8])|(0[13-9]|1[0-2])-(29|30)|(0[13578]|1[02])-31)|([0-9]{2}(0[48]|[2468][048]|[13579][26])|(0[48]|[2468][048]|[13579][26])00)-02-29)$");
Console.WriteLine("开始日期: " + dt.ToString("yyyy-MM-dd"));
while (dt < endDay){
  if (!dateRegex.IsMatch(dt.ToString("yyyy-MM-dd"))){
   Console.WriteLine(dt.ToString("yyyy-MM-dd") + " false");
  }
  dt = dt.AddDays(1);
}
if (!dateRegex.IsMatch(dt.ToString("yyyy-MM-dd"))){
  Console.WriteLine(dt.ToString("yyyy-MM-dd") + " false");
}
Console.WriteLine("结束日期: " + dt.ToString("yyyy-MM-dd"));
sw.Stop();
Console.WriteLine("测试用时: " + sw.ElapsedMilliseconds + "ms");
Console.WriteLine("测试完成!");
Console.ReadLine();

4       日期正则表达式扩展

4.1     “年月日”形式扩展

  以上实现的是yyyy-MM-dd格式的日期验证,考虑到连字符的不同,以及月和日可能为M和d,即yyyy-M-d的格式,可以对以上正则进行扩展


^(?:(?!0000)[0-9]{4}([-/.]?)(?:(?:0?[1-9]|1[0-2])([-/.]?)(?:0?[1-9]|1[0-9]|2[0-8])|(?:0?[13-9]|1[0-2])([-/.]?)(?:29|30)|(?:0?[13578]|1[02])([-/.]?)31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)([-/.]?)0?2([-/.]?)29)$

  使用反向引用进行简化,年份0001-9999,格式yyyy-MM-dd或yyyy-M-d,连字符可以没有或是“-”、“/”、“.”之一。


^(?:(?!0000)[0-9]{4}([-/.]?)(?:(?:0?[1-9]|1[0-2])\1(?:0?[1-9]|1[0-9]|2[0-8])|(?:0?[13-9]|1[0-2])\1(?:29|30)|(?:0?[13578]|1[02])\1(?:31))|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)([-/.]?)0?2\2(?:29))$

  这就是“年月日”这种形式最全的一个正则了,不同含义部分以不同颜色标识,可以根据自己的需要进行栽剪。

4.2     其它形式扩展

  了解了以上正则各部分代表的含义,互相间的关系后,就很容易扩展成其它格式的日期正则,如dd/MM/yyyy这种“日月年”格式的日期。


^(?:(?:(?:0?[1-9]|1[0-9]|2[0-8])([-/.]?)(?:0?[1-9]|1[0-2])|(?:29|30)([-/.]?)(?:0?[13-9]|1[0-2])|31([-/.]?)(?:0?[13578]|1[02]))([-/.]?)(?!0000)[0-9]{4}|29([-/.]?)0?2([-/.]?)(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00))$

  这种格式需要注意的就是不能用反向引用来进行优了。连字符等可根据自己的需求栽剪。

4.3     添加时间的扩展

  时间的规格很明确,也很简单,基本上就HH:mm:ss和H:m:s两种形式。


([01][0-9]|2[0-3]):[0-5][0-9]:[0-5][0-9]

  合入到日期的正则中,yyyy-MM-dd HH:mm:ss


^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)\s+([01][0-9]|2[0-3]):[0-5][0-9]:[0-5][0-9]$

4.4     年份定制

  以上所有涉及到平年的年份里,使用的是0001-9999。当然,年份也可以根据闰年规则定制。

  如年份1600-9999,格式yyyy-MM-dd或yyyy-M-d,连字符可以没有或是“-”、“/”、“.”之一。


^(?:(?:1[6-9]|[2-9][0-9])[0-9]{2}([-/.]?)(?:(?:0?[1-9]|1[0-2])\1(?:0?[1-9]|1[0-9]|2[0-8])|(?:0?[13-9]|1[0-2])\1(?:29|30)|(?:0?[13578]|1[02])\1(?:31))|(?:(?:1[6-9]|[2-9][0-9])(?:0[48]|[2468][048]|[13579][26])|(?:16|[2468][048]|[3579][26])00)([-/.]?)0?2\2(?:29))$

5       特别说明

  以上正则采用的是最基本的正则语法规则,绝大多数采用传统NFA引擎的语言都可以支持,包括JavaScript、Java、.NET等。

  另外需求说明的是,虽然日期的规则相对明确,可以采用这种方式裁剪来得到符合要求的日期正则,但是并不推荐这样使用正则,正则的强大在于它的灵活性,可以根据需求,量身打造最合适的正则,如果只是用来套用模板,那正则也就不称其为正则了。

  正则的语法规则并不多,而且很容易入门,掌握语法规则,量体裁衣,才是正则之“道”。

6       应用

一、首先看需求

  日期的输入:

  手动输入,可输入两种格式yyyymmdd或yyyy-mm-dd

二、解决思路

用户手动输入日期,需要验证输入的日期格式

用户可能的输入情况可以分为以下几种:

(1).输入为空或者为空格

(2).输入非日期格式

  根据保存到数据库中的日期格式,保存的格式为yyyy-mm-dd,所以用户在输入yyyymmdd后需要进行转换,转换成yyyy-mm-dd。

  思路:

  验证日期格式,首现想到的是VS的验证控件,但是因为需要验证的控件有几十个,使用验证控件就需要一个个的拉控件,如果后期需要修改也很麻烦,而通过JS实现控制,再通过正则表达式对日期进行验证。

三、JS实现


//验证日期
function date(id) {
  var idvalue = document.getElementById(id).value;  //通过查找元素
  var tmpStr = "";
  var strReturn = "";
  //调用trim()去掉空格,因为js不支持trim()
  var iIdNo = trim(idvalue);
  //正则表达式,判断日期格式,包括日期的界限,日期的格式,平年和闰年
  var v = idvalue.match(/^((((1[6-9]|[2-9]\d)\d{2})-(0?[13578]|1[02])-(0?[1-9]|[12]\d|3[01]))|(((1[6-9]|[2-9]\d)\d{2})-(0?[13456789]|1[012])-(0?[1-9]|[12]\d|30))|(((1[6-9]|[2-9]\d)\d{2})-0?2-(0?[1-9]|1\d|2[0-8]))|(((1[6-9]|[2-9]\d)(0[48]|[2468][048]|[13579][26])|((16|[2468][048]|[3579][26])00))-0?2-29-))$/);
  //输入为空时跳过检测
  if (iIdNo.length == 0) {
    return false;
  }
  //自动更改日期格式为yyyy-mm-dd
  if (iIdNo.length == 8) {
    tmpStr = iIdNo.substring(0, 8);
    tmpStr = tmpStr.substring(0, 4) + "-" + tmpStr.substring(4, 6) + "-" + tmpStr.substring(6, 8)
    document.getElementById(id).value = tmpStr;
    document.getElementById(id).focus();
  }
  //验证,判断日期格式
  if ((iIdNo.length != 8) && !v) {
    strReturn = "日期格式错误,提示:19990101或1999-01-01";
    alert(strReturn);
    document.getElementById(id).select();
    return false;
  }
}
//运用正则表达式去除字符串两端空格(因为js不支持trim()) 
function trim(str) {
  return str.replace(/(^\s*)|(\s*$)/g, "");
}
//前台调用(获得焦点触发)
<input class="txtenterschooldate" size="14" type="text" id="txtenterschooldate" name="txtenterschooldate" onblur="date(&#39;txtenterschooldate&#39;)"/>

以上が日付正規表現の詳しい説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。