首頁  >  文章  >  後端開發  >  php過濾廣告內容兼職,QQ號,淘寶兼職,網址

php過濾廣告內容兼職,QQ號,淘寶兼職,網址

WBOY
WBOY原創
2016-08-08 09:19:161568瀏覽

如果你網站有評論那麼你一定會發現你網站經常會被一人注入廣告了,如會有兼職,QQ號,淘寶兼職,網址信息了,下面我們就來看如何過濾這些內容吧。


用戶發表的評論或其他內容的廣告的類型一般有下面的幾種:

1:淘寶兼職加QQ 123456789 群(帶qq號碼或微信號碼或其他數字號碼)
2:taobao,加兼職QQ 號碼(帶著英文的關鍵字)
3:淘寶兼職,加QQ ① ① ① ① ① ① (特殊數字的號碼)
4:2222222<符合和替換字串的標點符號,數字,字母,判斷是否存在連續的數字或關鍵字(支援全角和圓角),因為廣告一般都是會帶上qq號等聯絡方式。因此首先要對評論進行”淨化”和替換,把全角的轉換成半角的,去掉一些”沙子”,比如標點符號,空格,字母等等,只留下中文和數字。

例子:

$comment= “這$%是一個(1)8神器三四的網站,B快來加入④④呵@#呵qq 1 2 3 4 5 6 7 8″;

1:”淨化」內容,去除標點符號

$flag_arr=array('?','!','¥','(',')',':',''',''','“', '”','《','》',',','…','。','、','nbsp','】','【','~');             

$comment= preg_replace('/s/','',preg_replace("/[[:punct:]]/",'',strip_tags(html_entity_decode(str_replace($flag_arr,'',$comment),ENT_QUOTES,'UTF-8 ')));

處理後,$comment 變成了:」這是一個(1)8神器三四的網站B快來加入①④呵呵qqq12345678″

2:其中可能參雜了一些全角的符號或數字,所以利用下面的程式碼把全角符號轉成正規可以匹配的半角

 $quanjiao = array('0' => '0', '1' => '1', '2' => '2 ', '3' => '3', '4' => '4','5' => '5', '6' => '6', '7' => '7', '8' => '8', '9' => '9', 'A' => 'A', 'B' => 'B', 'C' => 'C', 'D' => 'D' , 'E' => 'E','F' => 'F', 'G' => 'G', 'H' => 'H', 'I' => 'I', 'J' = > 'J', 'K' => 'K', 'L' => 'L', 'M' => 'M', 'N' => 'N', 'O' => 'O', 'P' => 'P', 'Q' => 'Q', 'R' => 'R', 'S' => 'S', 'T' => 'T','U' => 'U', 'V' => 'V', 'W' => 'W', 'X' => 'X', 'Y' => 'Y','Z' => 'Z', ' a' => 'a', 'b' => 'b', 'c' => 'c', 'd' => 'd','e' => 'e', 'f' => ' f', 'g' => 'g', 'h' => 'h', 'i' => 'i','j' => 'j', 'k' => 'k', 'l ' => 'l', 'm' => 'm', 'n' => 'n','o' => 'o', 'p' => 'p', 'q' => 'q ', 'r' => 'r', 's' => 's', 't' => 't', 'u' => 'u', 'v' => 'v', 'w' => 'w', 'x' => 'x', 'y' => 'y', 'z' => 'z','(' => '(', ')' => ')' , '〔' => '[', '〕' => ']', '【' => '[','】' => ']', '〖' => '[', '〗' = > ']', '“' => '[', '”' => ']',''' => '[', ''' => ']', '{' => '{', '}' => '}', '《' => ' '>','%' => '%', '+' => '+', '—' => '-', '-' => '-', '~' => '-',':' => ':', '。 ' => '.', '、' => ',', ',' => '.', '、' => '.', ';' => ',', '? ' => '?', '! ' => '!', '…' => '-', '‖' => '|', '”' => '"', ''' => '`', ''' => '` ', '|' => '|', '〃' => '"',' ' => ' ');

$comment=strtr($comment, $quanjiao);

php 的strtr 函數是用來轉換字串中特定的字元。 B快來加入①④呵呵qq12345678″;

3:評論裡面可能還包含有特殊字元(可以自己在下面的陣列進行擴展新的特殊字元)

$special_num_char=array('①'=>'1','②'=>'2','③'=>'3','④'=>'4','⑤'=>'5' ,'⑥'=>'6','⑦'=>'7','⑧'=>'8','⑨'=>'9','⑩'=>'10','⑴'= >'1','⑵'=>'2','⑶'=>'3','⑷'=>'4','⑸'=>'5','⑹'=>'6', '⑺'=>'7','⑻'=>'8','⑼'=>'9','⑽'=>'10','一'=>'1','二'=> '2','三'=>'3','四'=>'4','五'=>'5','六'=>'6','七'=>'7','八'=>'8','九'=>'9','零'=>'0');
$comment=strtr($comment, $special_num_char);
處理後,$comment變成了: 「這是一個18神器的網站B快來加入14呵呵qq12345678″;
如果評論裡面出現繁體的數字,例如'零','壹','貳','叁','肆','伍' ,'陸','柒','捌','玖','拾' 這些,一樣的在上面的$special_num_char 添加和擴展就行。

4:評論裡還可能出現正常的數字和漢字的數字混合,一樣的用第3點的方法轉換成正常的數字即可。

例子:這是一則廣告qq 1二貳45六7899
轉換後:
這是一則廣告qq 1224567899

5:正則處理過濾廣告

利用正則使用正則匹配$match)
分析所獲得的match[0] 匹配數組

foreach($match[0] as $val)//是否存在數字的qq號和微訊號
{
    if(strlen($val)>== 6)
    {//存在連續的長度超過6位的數字串,廣告嫌疑犯很大
         $is_ad=true;
       {//間斷的數字很多,有廣告的嫌疑
    $is_ad=true;
}

ok,這樣就可以判斷內容是否廣告,可以過濾大部分的常見的廣告了

 $flag_arr=array('?','!','¥','(',')',':','‘','’','“','”','《','》',',','…','。','、','nbsp','】','【','~');
        $comment=preg_replace('/\s/','',preg_replace("/[[:punct:]]/",'',strip_tags(html_entity_decode(str_replace($flag_arr,'',$comment),ENT_QUOTES,'UTF-8'))));

        $quanjiao = array('0' => '0', '1' => '1', '2' => '2', '3' => '3', '4' => '4','5' => '5', '6' => '6', '7' => '7', '8' => '8', '9' => '9', 'A' => 'A', 'B' => 'B', 'C' => 'C', 'D' => 'D', 'E' => 'E','F' => 'F', 'G' => 'G', 'H' => 'H', 'I' => 'I', 'J' => 'J', 'K' => 'K', 'L' => 'L', 'M' => 'M', 'N' => 'N', 'O' => 'O','P' => 'P', 'Q' => 'Q', 'R' => 'R', 'S' => 'S', 'T' => 'T','U' => 'U', 'V' => 'V', 'W' => 'W', 'X' => 'X', 'Y' => 'Y','Z' => 'Z', 'a' => 'a', 'b' => 'b', 'c' => 'c', 'd' => 'd','e' => 'e', 'f' => 'f', 'g' => 'g', 'h' => 'h', 'i' => 'i','j' => 'j', 'k' => 'k', 'l' => 'l', 'm' => 'm', 'n' => 'n','o' => 'o', 'p' => 'p', 'q' => 'q', 'r' => 'r', 's' => 's', 't' => 't', 'u' => 'u', 'v' => 'v', 'w' => 'w', 'x' => 'x', 'y' => 'y', 'z' => 'z','(' => '(', ')' => ')', '〔' => '[', '〕' => ']', '【' => '[','】' => ']', '〖' => '[', '〗' => ']', '“' => '[', '”' => ']','‘' => '[', '\'' => ']', '{' => '{', '}' => '}', '《' => '<','》' => '>','%' => '%', '+' => '+', '—' => '-', '-' => '-', '~' => '-',':' => ':', '。' => '.', '、' => ',', ',' => '.', '、' => '.', ';' => ',', '?' => '?', '!' => '!', '…' => '-', '‖' => '|', '”' => '"', '\'' => '`', '‘' => '`', '|' => '|', '〃' => '"',' ' => ' ');
        $comment=strtr($comment, $quanjiao);
        $special_num_char=array('①'=>'1','②'=>'2','③'=>'3','④'=>'4','⑤'=>'5','⑥'=>'6','⑦'=>'7','⑧'=>'8','⑨'=>'9','⑩'=>'10','⑴'=>'1','⑵'=>'2','⑶'=>'3','⑷'=>'4','⑸'=>'5','⑹'=>'6','⑺'=>'7','⑻'=>'8','⑼'=>'9','⑽'=>'10','一'=>'1','二'=>'2','三'=>'3','四'=>'4','五'=>'5','六'=>'6','七'=>'7','八'=>'8','九'=>'9','零'=>'0');
        $comment=strtr($comment, $special_num_char);
        preg_match_all('/\d+/',$comment,$match);
        $is_ad = false;
        foreach($match[0] as $val)//是否存在数字的qq号和微信号
        {
            if(strlen($val)>=6)
            {//存在连续的长度超过6位的数字串,广告嫌疑很大
                $is_ad=true;
                break;
            }
        }
        if(count($match[0])>=10)
        {//间断的数字很多,存在广告的嫌疑
            $is_ad=true;
        }

以上就介紹了php過濾廣告內容兼職,QQ號,淘寶兼職,網址,包括了方面的內容,希望對PHP教程有興趣的朋友有所幫助。

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn