MongoDB聚合运算符:$stdDevSamp
文章目录
- MongoDB聚合运算符:$stdDevSamp
- 语法
- 使用
- 非数值类型的值
- 单个值
- 数组操作数
- 窗口值
- 举例
- 应用于`$group`阶段
- 在`$setWindowFields`阶段使用
$stdDevSamp
聚合运算符用来计算输入值的样本标准差。如果数据样本是总体的一部分并可以概括整体,可以使用
$stdDevSamp
。如果样本值代表了数据的总体,或者不希望概括更大的总体,则应该使用
$stdDevPop
。
$stdDevSamp
可以应用于下面的阶段:
-
$addFields
阶段,从MongoDB3.4开始支持 -
$group
阶段 -
$match
阶段的$expr
表达式 -
$project
阶段 -
$replaceRoot
阶段,从MongoDB 3.4开始支持 -
$replaceWith
阶段,从MongoDB 4.2开始支持 -
$set
阶段,从MongoDB 4.2开始支持 -
$setWindowFields
阶段,从MongoDB 5.0开始支持
语法
当用于$bucket
、$bucketAuto
、$group
和$setWindowFields
阶段时的语法为:
{ $stdDevSamp: <expression> }
当用于其它阶段时,$stdDevSamp
的语法有两种形式:
- 操作数为一个表达式:
{ $stdDevSamp: <expression> }
- 操作数为一个表达式列表:
{ $stdDevSamp: [ <expression1>, <expression2> ... ] }
<expression>
为可解析为数组的表达式。
参数可以是任何能够解析为数组的表达式。
使用
非数值类型的值
$stdDevSamp
忽略所有非数值的值,如果所有的操作数都是非数值的值,$stdDevSamp
返回null。
单个值
如果样本只有一个数值类型的值,$stdDevSamp
返回0。
数组操作数
在$group
和$setWindowFields
阶段,如果表达式解析为数组,$stdDevSamp
会将操作数视为非数字值,对计算没有影响。
针对其它阶段:
- 当使用单个表达式作为操作数时,如果表达式解析为数组,
$stdDevSamp
会遍历数组元素,并对数字元素进行操作返回单个值。 - 当使用表达式列表作为操作数,如果表达式解析为数组,
$stdDevSamp
不会遍历该数组,而是将数组视为非数字值。
窗口值
对于$setWindowFields
阶段窗口的值:
- 忽略窗口中的非数值、空值和缺失字段。
- 如果窗口为空,则返回 null。
- 如果窗口中包含 NaN 值,则返回空值。
- 如果窗口包含 Infinity 值,则返回空值。
- 如果前面几点都不适用,则返回一个 double 值。
举例
应用于$group
阶段
users
集合有下面的字段:
{_id: 0, username: "user0", age: 20}
{_id: 1, username: "user1", age: 42}
{_id: 2, username: "user2", age: 28}
...
下面的聚合计算用户样本的标准差,首先使用$sample
管道阶段对100
个用户进行采样,然后使用$stdDevSamp
计算用户的样本标准差:
db.users.aggregate(
[
{ $sample: { size: 100 } },
{ $group: { _id: null, ageStdDev: { $stdDevSamp: "$age" } } }
]
)
操作结果如下:
{ "_id" : null, "ageStdDev" : 7.811258386185771 }
在$setWindowFields
阶段使用
使用下面的脚本创建cakeSales
集合,包含了在加利福尼亚州(CA)和华盛顿州(WA)的蛋糕销售记录:
db.cakeSales.insertMany( [
{ _id: 0, type: "chocolate", orderDate: new Date("2020-05-18T14:10:30Z"),
state: "CA", price: 13, quantity: 120 },
{ _id: 1, type: "chocolate", orderDate: new Date("2021-03-20T11:30:05Z"),
state: "WA", price: 14, quantity: 140 },
{ _id: 2, type: "vanilla", orderDate: new Date("2021-01-11T06:31:15Z"),
state: "CA", price: 12, quantity: 145 },
{ _id: 3, type: "vanilla", orderDate: new Date("2020-02-08T13:13:23Z"),
state: "WA", price: 13, quantity: 104 },
{ _id: 4, type: "strawberry", orderDate: new Date("2019-05-18T16:09:01Z"),
state: "CA", price: 41, quantity: 162 },
{ _id: 5, type: "strawberry", orderDate: new Date("2019-01-08T06:12:03Z"),
state: "WA", price: 43, quantity: 134 }
] )
下面的示例在 $setWindowFields
阶段使用 $stdDevSamp
输出每个州蛋糕销售数量的样本标准差:
db.cakeSales.aggregate( [
{
$setWindowFields: {
partitionBy: "$state",
sortBy: { orderDate: 1 },
output: {
stdDevSampQuantityForState: {
$stdDevSamp: "$quantity",
window: {
documents: [ "unbounded", "current" ]
}
}
}
}
}
] )
在本例中:
-
partitionBy: "$state"
按照州state
对集合的文档进行分区,有CA
和WA
两个区。 -
sortBy: { orderDate: 1 }
根据orderDate
对分区内文档进行由小到大的排序,orderDate
最早的排在第一个。 -
output
使用$stdDevSamp
将窗口内文档的quantity
标准差赋予stdDevPopQuantityForState
字段。窗口包含无界下限和输出中的当前文档之间的文档,这意味着$stdDevSamp
返回分区开头和当前文档之间文档的数量样本标准差。
在此示例输出中,CA
和WA
的quantity
样本标准差放在stdDevPopQuantityForState
字段:
操作结果如下:
{ "_id" : 4, "type" : "strawberry", "orderDate" : ISODate("2019-05-18T16:09:01Z"),
"state" : "CA", "price" : 41, "quantity" : 162, "stdDevSampQuantityForState" : null }
{ "_id" : 0, "type" : "chocolate", "orderDate" : ISODate("2020-05-18T14:10:30Z"),
"state" : "CA", "price" : 13, "quantity" : 120, "stdDevSampQuantityForState" : 29.698484809834994 }
{ "_id" : 2, "type" : "vanilla", "orderDate" : ISODate("2021-01-11T06:31:15Z"),
"state" : "CA", "price" : 12, "quantity" : 145, "stdDevSampQuantityForState" : 21.1266025033211 }
{ "_id" : 5, "type" : "strawberry", "orderDate" : ISODate("2019-01-08T06:12:03Z"),
"state" : "WA", "price" : 43, "quantity" : 134, "stdDevSampQuantityForState" : null }
{ "_id" : 3, "type" : "vanilla", "orderDate" : ISODate("2020-02-08T13:13:23Z"),
"state" : "WA", "price" : 13, "quantity" : 104, "stdDevSampQuantityForState" : 21.213203435596427 }
{ "_id" : 1, "type" : "chocolate", "orderDate" : ISODate("2021-03-20T11:30:05Z"),
"state" : "WA", "price" : 14, "quantity" : 140, "stdDevSampQuantityForState" : 19.28730152198591 }