mongodb 删除集合中字段 mongodb删除集合数据

转载

mob64ca140651e5 2024-08-21 11:07:34

文章标签 mongodb 删除集合中字段大数据面试学习数据 文章分类 MongoDB 数据库

锁定的记录多

相对而言，更容易导致锁等待。

即使是分布式数据库，如TiDB，如果一次删除了大量数据，这批数据在进行Compaction时有可能会触发流控。

所以，对于线上的大规模删除操作，建议分而治之。具体来说，就是批量删除，每次只删除一部分数据，分多次执行。

就如何删除大量数据，接下来我们看看MongoDB中的落地方案。

本文主要包括以下四部分内容。

MongoDB中删除数据的三种方式。
三种方式的执行效率对比。
通过Write Concern规避主从延迟。
删除过程中碰到的Bug。

MongoDB中删除数据的三种方式

=================

在MongoDB中删除数据，可通过以下三种方式：

db.collection.remove()

删除单个文档或满足条件的所有文档。

db.collection.deleteMany()

删除满足条件的所有文档。

db.collection.bulkWrite()

批量操作接口，可执行批量插入、更新、删除操作。

接下来，对比下这三种方式的执行效率。

三种方式的执行效率对比

===========

环境：MongoDB 3.4.4，副本集。

测试思路：分别使用 remove、deleteMany、bulkWrite 删除 10w 条记录（每批删除 5000 条），交叉执行 5 次。

1. remove

// delete_date是删除条件
var delete_date = new Date(“2021-01-01T00:00:00.000Z”);
// 获取程序开始时间
var start_time = new Date();
// 获取满足删除条件的记录数
rows = db.test_collection.find({“createtime”: {$lt: delete_date}}).count()
print(“total rows:”, rows);
// 定义每批需要删除的记录数
var batch_num = 5000;
while (rows > 0) {
// rows也可理解为剩余记录数
// 如果剩余记录数小于batch_num，则将剩余记录数赋值给batch_num
// 为什么要怎么做，后面会提到。
if (rows < batch_num) {
batch_num = rows;
}
// 获取满足删除条件的最小的5000个_id（ObjectID）
var cursor = db.test_collection.find({“createtime”: {$lt: delete_date}}, {“_id”: 1}).sort({“_id”: 1}).limit(batch_num);
rows = rows - batch_num;
cursor.forEach(function (each_row) {
// 通过remove删除记录，这里指定了"justOne": true，每次只能删除一条记录。
// 为了避免误删除，这里同时指定了主键和删除条件。
db.test_collection.remove({‘_id’: each_row[“_id”], “createtime”: {‘$lt’: delete_date}}, {
“justOne”: true,
w: “majority”
})
});
}
// 获取程序结束时间
var end_time = new Date();
// 两者的差值，即为程序执行时长
print((end_time - start_time) / 1000);

2. deleteMany

实例思路同remove类似，只不过会将待删除的_id放到一个数组中，最后再通过deleteMany一次性删除。

具体代码如下：

var delete_date = new Date(“2021-01-01T00:00:00.000Z”);
var start_time = new Date();
rows = db.test_collection.find({“createtime”: {$lt: delete_date}}).count()
print(“total rows:”, rows);
var batch_num = 5000;
while (rows > 0) {
if (rows < batch_num) {
batch_num = rows;
}
var cursor = db.test_collection.find({“createtime”: {$lt: delete_date}}, {“_id”: 1}).sort({“_id”: 1}).limit(batch_num);
rows = rows - batch_num;
var delete_ids = [];
// 将满足条件的主键值放入到数组中。
cursor.forEach(function (each_row) {
delete_ids.push(each_row[“_id”]);
});
// 通过deleteMany一次删除5000条记录。
db.test_collection.deleteMany({
‘_id’: {“$in”: delete_ids},
“createTime”: {‘$lt’: delete_date}
},{w: “majority”})
}
var end_time = new Date();
print((end_time - start_time) / 1000);

3. bulkWrite

实现思路同deleteMany类似，也是将待删除的_id放到一个数组中，最后再调用bulkWrite进行删除。

具体代码如下：

var delete_date = new Date(“2021-01-01T00:00:00.000Z”);
var start_time = new Date();
rows = db.test_collection.find({“createtime”: {$lt: delete_date}}).count()
print(“total rows:”, rows);
var batch_num = 5000;
while (rows > 0) {
if (rows < batch_num) {
batch_num = rows;
}
var cursor = db.test_collection.find({“createtime”: {$lt: delete_date}}, {“_id”: 1}).sort({“_id”: 1}).limit(batch_num);
rows = rows - batch_num;
var delete_ids = [];
cursor.forEach(function (each_row) {
delete_ids.push(each_row[“_id”]);
});
db.test_collection.bulkWrite(
[
{
deleteMany: {
“filter”: {
‘_id’: {“$in”: delete_ids},
“createTime”: {‘$lt’: delete_date}
}
}
}
],
{ordered: false},
{writeConcern: {w: “majority”, wtimeout: 100}}
)
}
var end_time = new Date();
print((end_time - start_time) / 1000);

接下来，看看三者的执行效率。

| 删除方式 | 平均执行时间（s） | 第一次 | 第二次 | 第三次 | 第四次 | 第五次 |
| — | — | — | — | — | — | — |
| remove | 47.341 | 49.606 | 48.487 | 49.314 | 47.572 | 41.727 |
| deleteMany | 16.951 | 16.566 | 18.669 | 17.932 | 18.66 | 12.928 |
| bulkWrite | 16.476 | 17.247 | 14.181 | 16.151 | 18.403 | 16.397 |

结合表中的数据，可以看出，

执行最慢的是remove，执行最快的是bulkWrite，前者差不多是后者的 2.79 倍。
deleteMany 和 bulkWrite 的执行效率差不多，但就语法而言，前者比后者简洁。

所以线上如果要删除大量数据，推荐使用 deleteMany + ObjectID 进行批量删除。

通过 Write Concern 规避主从延迟

=======================

虽然是批量删除，但在MySQL中，如果没控制好节奏，还是很容易导致主从延迟。在MongoDB中，其实也有类似的担忧，不过我们可以通过 Write Concern 进行规避。

Write Concern，可理解为写安全策略，简单来说，它定义了一个写操作，需要在几个节点上应用（Apply）完，才会给客户端反馈。

看下面这个原理图。

mongodb 删除集合中字段 mongodb删除集合数据_面试

图中是一个一主两从的副本集，设置了w: “majority”，代表一个写操作，需要等待副本集中绝大多数节点（本例中是两个）应用完，才能给客户端反馈。

在前面的代码中，无论是remove，deleteMany还是bulkWrite方法，都设置了w: “majority”。

之所以这样设置，一方面是为了保证数据的安全性，毕竟删除操作能在多个节点落盘，另一方面，还能有效降低批量操作可能导致的主从延迟风险。

Write Concern的完整语法如下，

{ w: , j: , wtimeout:  }

其中，

w：指定节点数或tags。其有如下取值：

：显式指定节点数量。

设置为0，无需Server端反馈。

设置为1，只需Primary节点反馈。

设置为2，在副本集中，需要一个Primary节点（Primary节点必需）和一个Secondary节点反馈。

需要注意的是，这里的Secondary节点必须是数据节点，可以是隐藏节点、延迟节点或Priority为 0 的节点，但仲裁节点（Arbiter）绝对不行。

一般来说，设置的节点数越多，数据越安全，写入的效率也会越低。

majority：副本集大多数节点。

与上面不一样的是，这里的Secondary节点不仅要求是数据节点，它的votes（members[n].votes）还必须大于0。

：指定tags。

tag，顾名思义，是给节点打标签。常用于多数据中心部署场景。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：ios 促销优惠开发 storekit2 apple促销

下一篇：iOS 本地国际化苹果手机的国际化

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

mongodb 删除集合中字段 mongodb删除集合数据

mongodb 删除集合中字段 mongodb删除集合数据

51CTO博客