首頁  >  文章  >  後端開發  >  Python對雜亂文字資料進行處理實例

Python對雜亂文字資料進行處理實例

PHP中文网
PHP中文网原創
2017-06-20 16:34:565501瀏覽

一、運行環境

1、python版本2.7.13 部落格程式碼皆是這個版本
2、系統環境:win7 64位元系統

二、需求對雜亂文本資料進行處理

部分資料截圖如下,第一個字段是原始字段,後面3個是清洗出的字段,從資料庫中聚合字段觀察,乍一看資料比較規律,類似(幣種金額萬元)這樣,我想著用sql寫條件判斷,統一轉換為'萬元人民幣' 單位,用sql腳本進行字符串截取即可完成,但是後面發現數據並不規則,條件判斷太多清洗質量也不一定,有的前面不是左括號,有的字段裡面沒有幣種,有的數字並不是整數,有的沒有萬字,這樣如果存儲成數字和'萬元人民幣'單位兩個字段寫sql腳本複雜了, mysql我也沒找到能從文本中提取數字的函數,正則表達式常用於where條件中好像,如果誰知道mysql有類似從文本中過濾文本提取數字的函數,可以告訴我哈,這樣就不用費這麼多功夫,用kettle一個工具即可,工具活學活用最好。

結合用python的經驗,python對字串過濾有許多函數稍後程式碼中就是用了這樣的辦法去過濾文字。


第一次部分清洗資料截圖

三、對資料處理的宏觀邏輯思考

拿到數據,先不要急著寫程式碼,先思考清洗的邏輯,這點很關鍵,方向對了事半功倍,剩下的時間就是程式碼實作邏輯和調試程式碼的過程。

3.1思考過程不寫代碼:

我想實現的最終的數據清洗是將資金字段換算成【金額+單位+各幣種】的組合形式或【金額+單位+統一的人民幣幣種】(幣種進行匯率換算),分兩步或三步都可以

3.1.1拆分出三個字段,數字,單位,幣種

(單元分為萬和不含萬,幣種分為人民幣和具體的外幣)

3.1.2將單位統一換為萬為單位

第一步中單位不是萬的數字部分/10000,是萬的數字部分保持不變

3.1.3將幣種統一為人民幣

幣種是人民幣的前兩個字段都不變,不是的數字部分變成數字*各外幣兌換人民幣的匯率,單位不變依舊是第二步統一的'萬'

3.2期望各步驟清洗效果數據列舉:

從這個結果著手我們步步拆解,先梳理清洗邏輯部分

3.2.1第一次清洗期望效果拆分出三個字段數字單位幣種:

①字段值=“ 2000元人民幣”,第一次清洗
2000  不含萬  人民幣
②字段值=“2000萬元人民幣”,第一次清洗
2000  萬  人民幣
③字段值=“2000萬元外幣”, 第一次清洗
2000  萬  外幣

3.2.2第二次清洗期望效果將單位統一歸為萬:

#二次处理条件case when 单位=‘万’ then 金额 else 金额/10000 end as 第二次金额

①字段值=“2000元人民幣”
0.2    萬 人民幣
②字段值=“2000萬元人民幣”
2000    萬 人民幣
③字段值=「2000萬元外幣」
2000    萬 外幣

注意:如果上面達到需求則清洗完畢,如果上面達到需求想將單位換成人民幣就進行下面三次清洗

3.2.3第三次清洗期望效果:單位幣種都統一為萬+人民幣

如果最後需求是換算成幣種統一人民幣,那麼我們就在二次清洗後的基礎上再寫條件就好,

#三次处理条件case when 币种=‘人民币’ then 金额 else 金额*币种和人民币的换算汇率 end as 第三次金额

①字段值=“2000元人民幣”
0.2    萬 人民幣
②欄位值=「2,000萬元人民幣」
2000    萬 人民幣
③欄位值=「2000萬元外幣」
2000*外幣兌換人民幣匯率 萬 

四、對具體程式碼的宏觀邏輯思考

幣種和單位這兩個就2種情況,很好寫

4.1、幣種部分

這個條件簡單,如果幣種的值在字元中出現就讓新欄位等於這個幣種的值即可。

4.2、單位(萬為單位)

這個條件也簡單,萬字出現在字元中單位這個變數='萬' 沒出現就讓單位變數等於'不含萬',這樣寫是為了方便下一步對數字進行二次處理的時候寫條件判斷了。

4.3、數字部分確保清洗後和原值邏輯上一樣做些判斷

確保清洗後和原值邏輯上一樣意思是假如有這樣字段300.0100萬清洗後變成300.01萬人民幣也是正確的。

filter(str.isdigit,字段的值)這個程式碼我首先知道可以將文字中數字取出,同過對字段group by 聚合以後知道有小數點的字段,取出的值不再帶有小數點,如'20.01萬',filter(str.isdigit,'20.01萬')取出的數字就是2001,顯然這個數字是不正確,因此就需要考慮有無小數點的情況,有小數點的做到和原字段一樣

四、第一次清洗主要程式碼,先不讀取資料庫資料

從資料庫中抽異常值10個左右做測試,info是regCapital欄位的值

   #带小数点的以小数点分割 取出小数点前后部分进行拼接if '.' in info and int(filter(str.isdigit,info.split('.')[1]))>0:
        derive_regcapital=filter(str.isdigit,info.split('.')[0])+'.'+filter(str.isdigit,info.split('.')[1])
    elif '.' in info and int(filter(str.isdigit,info.split('.')[1]))==0:
        derive_regcapital = filter(str.isdigit, info.split('.')[0])

    elif filter(str.isdigit,info)=='':
        derive_regcapital='0'else:
        derive_regcapital=filter(str.isdigit,info)#单位 以万和不含万 为统一if '万' in info:
        derive_danwei='万'else:
        derive_danwei='不含万'   #币种 第一次清洗 外币保留外币字段 聚合大量数据 发现数据中含有外币的情况大致有下面这些情况 如果有新外币出现 进行数据的update操作即可if '美元' in info:
           derive_currency='美元'
    elif '港币' in info:
        derive_currency = '港币'
    elif '阿富汗尼' in info:
        derive_currency = '阿富汗尼'
    elif '澳元' in info:
        derive_currency = '澳元'
    elif '英镑' in info:
         derive_currency = '英镑'
    elif '加拿大元' in info:
        derive_currency = '加拿大元'
    elif '日元' in info:
        derive_currency = '日元'
    elif '港币' in info:
        derive_currency = '港币'
    elif '法郎' in info:
        derive_currency = '法郎'
    elif '欧元' in info:
        derive_currency = '欧元'
    elif '新加坡' in info:
        derive_currency = '新加坡元'else:
         derive_currency = '人民币'

五、全部程式碼:讀取資料庫資料進行全量清洗

第四步我是將部分資料做了測試,驗證程式碼無誤,此時邏輯上應再從宏觀再拓展,將info變數動態變為資料庫中所有的值,進行全量清洗

#coding:utf-8from class_mysql import Mysql
project=Mysql('s_58infor_data',[],0,conn_type='local')
p2=Mysql('etl1_58infor_data',[],24,conn_type='local')
field_list=p2.select_fields(db='local_db',table='etl1_58infor_data')print field_list
project2=Mysql('etl1_58infor_data',field_list=field_list,field_num=26,conn_type='local')#以上部分 看不懂没关系 由于我有两套数据库环境,测试和生产#不同的数据库连接和网段,因此要传递不同的参数进行切换数据库和数据连接 如果一套环境 连接一次数据库即可 数据处理需要经常做测试 方便自己调用
data_tuple=project.select(db='local_db',id=0)#data_tuple 是我实例化自己写的操作数据库的类对数据库数据进行全字段进行读取,返回值是一个不可变的对象元组tuple,清洗需要保留旧表全部字段,同时增加3个清洗后的数据字段
data_tuple=project.select(db='local_db',id=0)#遍历元组 用字典去存储每个字段的值 插入到增加3个清洗字段的表 etl1_58infor_datafor data in data_tuple:
    item={}#old_data不取最后一个字段 是因为那个字段我想用当前处理的时间 
#这样可以计算数据总量运行的时间 来调整二次清洗的时间去和和kettle定时任务对接#元组转换为列表 转换的原因是因为元组为不可变类型 如果有数据中有null值 遍历转换为字符串会报错
    old_data=list(data[:-1])if data[-2]:if len(data[-2]) >0 :
            info=data[-2].encode('utf-8')else:
        info=''if '.' in info and int(filter(str.isdigit,info.split('.')[1]))>0:
        derive_regcapital=filter(str.isdigit,info.split('.')[0])+'.'+filter(str.isdigit,info.split('.')[1])elif '.' in info and int(filter(str.isdigit,info.split('.')[1]))==0:
        derive_regcapital = filter(str.isdigit, info.split('.')[0])elif filter(str.isdigit,info)=='':
        derive_regcapital='0'else:
        derive_regcapital=filter(str.isdigit,info)if '万' in info:
        derive_danwei='万'else:
        derive_danwei='不含万'if '美元' in info:
           derive_currency='美元'elif '港币' in info:
        derive_currency = '港币'elif '阿富汗尼' in info:
        derive_currency = '阿富汗尼'elif '澳元' in info:
        derive_currency = '澳元'elif '英镑' in info:
         derive_currency = '英镑'elif '加拿大元' in info:
        derive_currency = '加拿大元'elif '日元' in info:
        derive_currency = '日元'elif '港币' in info:
        derive_currency = '港币'elif '法郎' in info:
        derive_currency = '法郎'elif '欧元' in info:
        derive_currency = '欧元'elif '新加坡' in info:
        derive_currency = '新加坡元'else:
         derive_currency = '人民币'
    time_58infor_data = p2.create_time()
    old_data.append(time_58infor_data)
    old_data.append(derive_regcapital)
    old_data.append(derive_danwei)
    old_data.append(derive_currency)#print len(old_data)for i in range(len(old_data)):if not  old_data[i] :
            old_data[i]=''else:pass
        data2=old_data[i].replace('"','')
        item[i+1]=data2print item[1]   #插入测试环境 的表 
    project2.insert(item=item,db='local_db')

六、程式碼運行情況

6.1讀取資料庫原表數據和新表建立的欄位


讀取資料庫原始表資料和新表建立的欄位

6.2 插入新表並進行第一次資料清洗

紅框部分為清洗部分,其他資料做了減敏處理


插入新表格並進行第一次資料清洗

6.3 数据表数据清洗结果


数据表数据清洗结果

七、增量数据处理

由于每天数据有增量进入,因此第一次执行完初始话之后,我们要根据表中的时间戳字段进行判断,读取昨日新的数据进行清洗插入,这部分留到下篇博客。
初步计划用下面函数 作为参数 判断增量 create_time 是爬虫脚本执行时候写入的时间,yesterday是昨日时间,在where条件里加以限制,取出昨天进入数据库的数据 进行执行 win7系统支持定时任务

import datetimefrom datetime import datetime as dt#%进行转义使用%%来转义#主要构造sql中条件“where create_time like %s%%“  % yesterday#写入脚本运行的当前时间 

def create_time(self):
    create_time = dt.now().strftime('%Y-%m-%d %H:%M:%S')return create_timedef yesterday(self):
    yestoday= datetime.date.today()-datetime.timedelta(days=1)return yestoday

以上是Python對雜亂文字資料進行處理實例的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn