分块提取查询结果

原创

navysummer 2019-02-11 11:19:00 博主文章分类：R ©著作权

©著作权归作者所有：来自51CTO博客作者navysummer的原创作品，请联系作者获取转载授权，否则将追究法律责任

在本节开始的部分，我们提到使用关系型数据库的优势之一，是可以存储大量数据。

通常，我们只提取出数据库的一个子集进行研究。然而，有时，我们需要检查的数据量还

是超过了计算机内存容量。显然不能把所有数据载入内存，所以必须逐块处理。

绝大部分关系型数据库支持逐块提取查询。接下来的例子，我们用 dbSendQuery( ) 进

行查询，而不是用 dbGetQuery( )。然后，我们重复地从查询结果中取回一块数据（几

行记录），直到取回所有的查询结果。通过这种方式，逐块地处理数据，便不需要用到很大

的内存空间。

con <- dbConnect(SQLite( ), "data/datasets.sqlite")

res <- dbSendQuery(con,

"select carat, cut, color, price from diamonds

where cut = 'Ideal' and color = 'E' ")

while(!dbHasCompleted(res)){

chunk <- dbFetch(res, 800)

cat(nrow(chunk), "records fetched\n")

}

## 800 records fetched

## 703 records fetched

dbClearResult(res)

## [1] TRUE

dbDisconnect(con)

## [1] TRUE

实践中，数据库中可能有数十亿条记录，查询结果有可能达到千万条。如果用 dbGet

Query( ) 一次性取出所有查询结果，内存可能会吃不消。但是，如果允许分块处理数据

来完成任务，那么上述方法不失为一个好的选择。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯