ホームページ >バックエンド開発 >Python チュートリアル >比較的メモリを節約する疎行列 Python ストレージソリューション

比較的メモリを節約する疎行列 Python ストレージソリューション

高洛峰オリジナル: 2016-10-18 09:54:261357ブラウズ

レコメンデーションシステムでは、実際には数学におけるスパース行列である user_id、item_id、評価などのデータを処理する必要があることがよくありますが、Scipy はこの問題を解決するためのスパースモジュールを提供していますが、scipy.sparse には使用に適さない多くの問題があります。 data[i, ...]、data[..., j]、data[i, j] の高速スライスを同時にサポートできません。 2. データはメモリに保存されるため、十分にサポートできません。大量のデータ処理。

data[i, ...]、data[..., j] の高速スライスをサポートするには、大量のデータを保存するために、i または j のデータを同時に一元的に保存する必要があります。のデータもハードディスク上に配置する必要があり、メモリをバッファとして使用します。ここでの解決策は比較的単純です。特定の i (9527 など) については、そのデータは dict['i9527'] に保存されます。、そのすべてのデータは dict['j3306'] に格納されています。data[9527, ...] を取り出す必要がある場合は、dict['i9527'] を取り出すだけです。元々は dict オブジェクトです。、特定の j に対応する値を保存します。メモリ領域を節約するために、この辞書をバイナリ文字列の形式で保存し、コードを直接アップロードします:

&#39;&#39;&#39;
Sparse Matrix
&#39;&#39;&#39;
import struct
import numpy as np
import bsddb
from cStringIO import StringIO
  
class DictMatrix():
    def __init__(self, container = {}, dft = 0.0):
        self._data  = container
        self._dft   = dft
        self._nums  = 0
  
    def __setitem__(self, index, value):
        try:
            i, j = index
        except:
            raise IndexError(&#39;invalid index&#39;)
  
        ik = (&#39;i%d&#39; % i)
        # 为了节省内存，我们把j, value打包成字二进制字符串
        ib = struct.pack(&#39;if&#39;, j, value)
        jk = (&#39;j%d&#39; % j)
        jb = struct.pack(&#39;if&#39;, i, value)
  
        try:
            self._data[ik] += ib
        except:
            self._data[ik] = ib
        try:
            self._data[jk] += jb
        except:
            self._data[jk] = jb
        self._nums += 1
  
    def __getitem__(self, index):
        try:
            i, j = index
        except:
            raise IndexError(&#39;invalid index&#39;)
  
        if (isinstance(i, int)):
            ik = (&#39;i%d&#39; % i)
            if not self._data.has_key(ik): return self._dft
            ret = dict(np.fromstring(self._data[ik], dtype = &#39;i4,f4&#39;))
            if (isinstance(j, int)): return ret.get(j, self._dft)
  
        if (isinstance(j, int)):
            jk = (&#39;j%d&#39; % j)
            if not self._data.has_key(jk): return self._dft
            ret = dict(np.fromstring(self._data[jk], dtype = &#39;i4,f4&#39;))
  
        return ret
  
    def __len__(self):
        return self._nums
  
    def __iter__(self):
        pass
  
    &#39;&#39;&#39;
    从文件中生成matrix
    考虑到dbm读写的性能不如内存，我们做了一些缓存，每1000W次批量写入一次
    考虑到字符串拼接性能不太好，我们直接用StringIO来做拼接
    &#39;&#39;&#39;
    def from_file(self, fp, sep = &#39;t&#39;):
        cnt = 0
        cache = {}
        for l in fp:
            if 10000000 == cnt:
                self._flush(cache)
                cnt = 0
                cache = {}
            i, j, v = [float(i) for i in l.split(sep)]
  
            ik = (&#39;i%d&#39; % i)
            ib = struct.pack(&#39;if&#39;, j, v)
            jk = (&#39;j%d&#39; % j)
            jb = struct.pack(&#39;if&#39;, i, v)
  
            try:
                cache[ik].write(ib)
            except:
                cache[ik] = StringIO()
                cache[ik].write(ib)
  
            try:
                cache[jk].write(jb)
            except:
                cache[jk] = StringIO()
                cache[jk].write(jb)
  
            cnt += 1
            self._nums += 1
  
        self._flush(cache)
        return self._nums
  
    def _flush(self, cache):
        for k,v in cache.items():
            v.seek(0)
            s = v.read()
            try:
                self._data[k] += s
            except:
                self._data[k] = s
  
if __name__ == &#39;__main__&#39;:
    db = bsddb.btopen(None, cachesize = 268435456)
    data = DictMatrix(db)
    data.from_file(open(&#39;/path/to/log.txt&#39;, &#39;r&#39;), &#39;,&#39;)

4500W 定格データ (整数、整数) 、浮動小数点形式）、メモリ dict を使用して保存すると、構築は 12 分で完了します。サンプルコードで bdb ストレージを使用すると、構築が完了します。所要時間は 20 分で、メモリの占有量は約 300 ～ 400 MB で、キャッシュサイズよりもそれほど大きくはありません。データの読み取りテストを受けてください。

Dict クラスを使用してデータを保存するもう 1 つの利点は、メモリ Dict やその他の形式の DBM、さらには伝説的な Tokyo Cabinet さえも使用できることです...

さて、今日は終わりにしましょう。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Python プログラマーが犯しやすい 10 の間違い次の記事：Python プログラマーが犯しやすい 10 の間違い

続きを見る

比較的メモリを節約する疎行列 Python ストレージ ソリューション

関連記事

比較的メモリを節約する疎行列 Python ストレージソリューション