Mongodb数据库去重

Mongodb数据库去重

news/2024/7/19 10:30:43 标签: MongoDB, 爬虫, 数据, 数据库

只写干货

写了个爬虫，爬了点数据。由于没有做好爬虫重启和数据库检索，爬取的数据有重复。

`如何查看未重复数据的数量：`

进入命令行，切换到mongo shell；
use 你的数据库名；
db.要操作的表名.distinct("针对数据进行区分的键名").length

`编写一个去重的脚本`

mongodb 在内部是用js来管理的。所以，写一个js文件：

var duplicates = [];

db.你的collection名.aggregate([
  { $group: {
    _id: { 针对数据进行区分的键名: "$针对数据进行区分的键名"},
    dups: { "$addToSet": "$_id" },
    count: { "$sum": 1 }
  }},
  { $match: {
    count: { "$gt": 1 }
  }}
],
{allowDiskUse: true}).forEach(function(doc) {
    doc.dups.shift();
    doc.dups.forEach( function(dupId){
        duplicates.push(dupId);
        }
    )
})
printjson(duplicates);
db.你的collection名.remove({_id:{$in:duplicates}})

执行js脚本

在shell中，注意不是在mongo shell 中，输入mongo 你的数据库名刚才写的js文件的绝对路径

不到2秒就完事儿了，执行速度还可以。不过也可能是我数据量比较小，原始数据约148000条，重复的约有14000条。

后记

重要的还是要做index，在插入的时候就检查。

http://www.niftyadmin.cn/n/811181.html

相关文章

关于RCNN中Bounding-box regression的个人理解

关于RCNN中Bounding-box regression的个人理解

前言 RCNN可以说是深度学习应用到目标检测领域一个不小的贡献。最近看了RNN的文章，对里面的Bounding-box regression回归不甚理解，google一番，把学到的东西写在这里。参考的文章。为啥要回归鉴于bounding box太长，下面简写…

阅读更多...

【机器学习】线性模型总结

【机器学习】线性模型总结

机器学习线性模型总结

阅读更多...

【机器学习】决策树总结

【机器学习】决策树总结

决策树总结

阅读更多...

【机器学习】神经网络总结

【机器学习】神经网络总结

机器学习神经网络总结

阅读更多...

【机器学习】支持向量机SVM总结

【机器学习】支持向量机SVM总结

支持向量机SVM总结

阅读更多...

【机器学习】贝叶斯分类器总结

【机器学习】贝叶斯分类器总结

【机器学习】贝叶斯分类器总结

阅读更多...

【机器学习】集成学习总结

【机器学习】集成学习总结

【机器学习】集成学习总结

阅读更多...

【机器学习】聚类总结

【机器学习】聚类总结

聚类总结

阅读更多...

最新文章