搜尋

首頁  >  問答  >  主體

使用python的pandas模块时,查找和修改dataFrame中的值速度非常慢,请问是什么原因,有什么好办法解决吗?

最近在用pandas做一个机器学习的项目,训练集大概2G。我用的dataFrame来操作数据,对训练集做了一次groupby和mean的操作,速度还挺快的,但把得到的结果赋值给用户参数(也是一个dataframe表)的时候,速度缺特别慢,请问这是什么原因呢?
训练集大概有7000多万行,做groupby和mean操作大概十几分钟也就完成了,但赋值操作缺超级慢,每秒钟大概只能赋值50条左右,差距太大了。其中赋值语句大概是这样操作的:
dataframeA.loc[user,'']=dataframeB.loc[user,'']。两张dataFrame表都很大,都是百万级的,不知道是不是和量级较大有关,但千万级的训练集做groupby也没什么压力啊,而且这个机器学习项目,会经常使用和修改表中的参数,如果都这么慢的话,可能就无法正常使用了,哪位大神有什么好的解释或者建议吗?非常感谢了。部分代码如下,有什么细节没有说清楚的话可以问我,我再详细解释下。

def get_average_rating(self):
        self.u = log_train['Result'].mean()
        print 'u is ',self.u
        i,j = 0,0
        user_mean_rate = log_train.groupby('UserId').agg({'Result':np.mean})
        item_mean_rate = log_train.groupby('ItemId').agg({'Result':np.mean})

        #计算bias
        print 'calc bias start'
        start_time = time.time()
        for user in train_users:
            i += 1
            if i%2000==0:
                print '2000 used time',time.time()-start_time
                start_time = time.time()
            self.user_params.loc[user,'bias'] = user_mean_rate.loc[user,'Result']-self.u
        for item in train_items:
            self.item_params.loc[item,'bias'] = item_mean_rate.loc[item,'Result']-self.u

        print 'bias total used time',time.time()-start_time
大家讲道理大家讲道理2894 天前1000

全部回覆(4)我來回復

  • 阿神

    阿神2017-04-17 17:55:21

    pandas 存在 df.iterrows() 的generator 來循環DataFrame 的 row, 這樣的效率是最高的。

    詳細可以看文件說明:
    http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.iterrows.html

    回覆
    0
  • ringa_lee

    ringa_lee2017-04-17 17:55:21

    沒做過這麼大的數量級,但我的經驗是,df最好不要逐條操作,基本上都慢,整列操作快很多
    1.增(append)
    最好在一個空的df寫好全部新增值,然後merge
    但有時直接append也是難免的
    2.刪
    直接用del語句比較快
    3.改
    也是採用合併的思路,覆蓋原值

    回覆
    0
  • 高洛峰

    高洛峰2017-04-17 17:55:21

    我覺得不是賦值慢
    self.user_params.loc[user,'bias']這條等於是一級index裡再取二級index,應該會很慢
    能否把item和user分成兩個dataframe呢?

    回覆
    0
  • PHP中文网

    PHP中文网2017-04-17 17:55:21

    loc是最慢的。盡量用ix代替。最好能使用iterrows 來建構循環。

    回覆
    0
  • 取消回覆