python - mongodb 去重

Question

爬取了一个用户的论坛数据，但是这个数据库中有重复的数据，于是我想把重复的数据项给去掉。数据库的结构如下 里边的forundata是这个帖子的每个楼层的发言情况。但是因为帖子爬取的时候有可能重复爬取了，我现在...

黄舟 · Answer

この問題がまだ解決されていない場合は、次のアイデアを参照するとよいでしょう:

1. MongoDB では集約が推奨されますが、map-reduce は推奨されません。

2. 要件の中で非常に重要な点は、配列の長さである Forumdata の長さを取得して、配列の長さが最も長いドキュメントを見つけることです。元の記事では、Forumdata はリストであると述べています (MongoDB では配列である必要があります)。MongoDB は配列のサイズを取得するための $size 演算子を提供します。

以下の栗を参照してください:

リーリー

3. 上記のデータを取得した後、集計で $sort や $group などを使用して、ニーズを満たすドキュメントの objectId を見つけることができます。具体的な方法については、次の投稿を参照してください。

https://segmentfault.com/q/10...

4.最後に関連するObjectIdを一括削除します

類似:

var dupls = [] 削除する objectId を保存します

db.collectionName.remove({_id:{$in:dupls}})

ご参考までに。

MongoDB が大好きです!楽しんでください！

つついてください<-左側をつついてください、4 月です! MongoDB 中国語コミュニティ深センユーザーカンファレンスの登録が開始されました。偉大な神々が集結！

迷茫 · Answer

データの量がそれほど大きくない場合は、データを保存するたびに再度クロールして、最も多くのデータを含むデータセットのみが保存されることを検討できます。
優れたクローラ戦略>>優れたデータクリーニング戦略

PHPz · Answer

ネットユーザーに感謝します。qq グループで誰かがアイデアを出しました。マップでは、forumdata が最初に urlId で処理され、次に urlId と forumdatad.length が返され、最大の forumdata を持つものが返されます。 .length と対応する urlId が保持され、最後にそれをデータベースに保存し、このデータベースの urlId を介して元のデータベースからすべてのデータを読み取ります。試してみたところ、効率は期待していたほどではありませんでしたが、それでも以前に Python を使用するよりもはるかに高速でした。
map とreduce のコードを添付します:
'''javaScript
mapfunc=Code(

リーリー

reducefunc=コード(

リーリーリーリー

mapfunc=コード(

リーリー

)

reducefunc=コード(

リーリー

)

リーリー

python - mongodb 去重

全員に返信(3)返信します