PHP環境、元の文章作成時の誤解を指摘 標準的な文章ではピリオドの後にスペースがあるため、文章を作成する際に小数点やドメイン名を考慮する必要はありません。 最初のステップは、一部の引用符がコロンで終わっているため、段落を複数の段落に分割することです。
- /*TWWY'S ART*/
- function Break_passage($text){ //段落を分割
- return preg_split("/(r|n|rn)/", $text, -1 , PREG_SPLIT_NO_EMPTY);
- }
- function Break_sentence($text){ //文を分割するには英語のピリオドの後にスペースが必要です
- $re = '/# 文の間の空白で文を分割します
- (?<= #肯定的な後読みを開始します。
- [.!?] # 文末の句読点、
- | [.!?]['"] # または文末の句読点と引用符のいずれかです。
- ) # 肯定的な後読みを終了します。
- (?< ! # 後読みを開始します。
- Mr. # 「Mrs. #」または「Mrs.」、
- 、「Jr. #」または「Jr.」、
- | | Dr. # または「Dr.」、
- | Prof. # または「Prof.」、
- Sr. # または「Sr.」、
- # または... (おわかりでしょう) # 否定を終了しますlookbehind.
- s+ # 文間の空白で分割します。
- /ix';
- $sentences = preg_split($re, $text, -1, PREG_SPLIT_NO_EMPTY);
- return $sentences;
- }
- function get_sentence($text){ //最初に段落を分割し、次に文を分割します [推奨]
- $passage = Break_passage($text);
- $return = array();
- foreach ($passage as $key => $value) $return = array_merge($return 、break_sentence( $value));
- return $return;
- }
-
- ?>
-
-
- コードをコピー
|