mongodb去重

Question

现在的数据是使用爬虫抓取的。现在有些数据是重复的。然后现在我想请教应该怎么做才能去重呢？我想的是只要能查到相对应的name也是ok的打个比方。我现在有个community_name字段。我想查询一下，community_name重...

怪我咯 · Answer

RDBMSのようなものを実現したいようですね

リーリー

正しく理解できているかわかりません。この場合、対応するアプローチは集計フレームワークを使用する必要があります。

リーリー

このクエリは、次のインデックスを使用すると結果をより速く取得できます:

リーリー

それでも、このクエリはすべてのレコードを走査するため、速度はそれほど速くありません。
実際、毎回すべてのレコードをカウントするのは無駄です。結果を取得した後にキャッシュする方法は、収集したデータをどのように使用するかによって異なります。
同じ community_name が既に存在する場合は、community_name则记录在案，比如

SELECT community_name, COUNT(*)
FROM table
GROUP BY community_name
HAVING COUNT(*) > 1

这样就可以直接得到一个community_name_stat集合得到每个community_name のように記録することをお勧めします。リーリー

この方法で、community_name_stat コレクションを直接取得して、各 community_name が出現する回数を取得できます。もちろん、最終的なアプローチはニーズによって異なります。 MongoDB は非常に柔軟であり、これがリレーショナルデータベースと異なる重要な機能の 1 つです。 MongoDB のさまざまな機能を理解し、ニーズに合わせて最もコスト効率の高いソリューションをカスタマイズすることは、MongoDB を使用する際の最大の課題の 1 つです。 🎜

phpcn_u1582 · Answer

正しく理解していれば、upsert を直接使用できます。システムに同じ条件のレコードが既にある場合は、それを更新するだけで、そうでない場合は、新しいレコードを作成します。

db.collection.update(query, update, {upsert: True, multi: })

multi が true に設定されている場合は、複数のレコードを変更することもできます。

mongodb去重

全員に返信(2)返信します