只写干货
写了个爬虫,爬了点数据。由于没有做好爬虫重启和数据库检索,爬取的数据有重复。
如何查看未重复数据的数量:
mongodb 在内部是用js来管理的。所以,写一个js文件:
var duplicates = [];
db.你的collection名.aggregate([
{ $group: {
_id: { 针对数据进行区分的键名: "$针对数据进行区分的键名"},
dups: { "$addToSet": "$_id" },
count: { "$sum": 1 }
}},
{ $match: {
count: { "$gt": 1 }
}}
],
{allowDiskUse: true}).forEach(function(doc) {
doc.dups.shift();
doc.dups.forEach( function(dupId){
duplicates.push(dupId);
}
)
})
printjson(duplicates);
db.你的collection名.remove({_id:{$in:duplicates}})
执行js脚本
在shell中,注意不是在mongo shell 中,输入mongo 你的数据库名 刚才写的js文件的绝对路径
后记
重要的还是要做index,在插入的时候就检查。