目录

GEOHASH算法原理及实现

基本原理

Geohash算法的三步骤

首先将经纬度变成二进制。

第2步,就是将经纬度合并。

第3步,按照Base32进行编码

GEO数据结构

GEOADD

1.1 GEOADD概念

1.2 GEOADD命令

1.3 GEOADD示例

GEODIST

2.1 GEODIST概念

2.2 GEODIST命令

2.3 GEODIST示例

GEOPOS

3.1 GEOPOS概念

3.2 GEOPOS命令

3.2 GEOPOS示例

GEOHASH

4.1 GEOHASH概念

4.2 GEOHASH命令

4.3 GEOHASH示例

GEORADIUS

5.1 GEORADIUS概念

5.2 GEORADIUS命令

5.3 GEORADIUS示例

GEORADIUSBYMEMBER

6.1 GEORADIUSBYMEMBER概念

6.2 GEORADIUSBYMEMBER命令

6.3 GEORADIUSBYMEMBER示例


GEOHASH算法原理及实现

        需求:假如在抖音中发布视频时,可以选择带上位置信息,请设计一种数据结构或方案,用于存储检索位置信息(简化为平面坐标 x, y),以实现搜索附近视频的功能(如附近 3km)。

Geohash算法就是将经纬度编码,将二维变一维,给地址位置分区的一种算法。

基本原理

GeoHash是一种地址编码方法。他能够把二维的空间经纬度数据编码成一个字符串

我们知道,经度范围是东经180到西经180,纬度范围是南纬90到北纬90,我们设定西经为负,南纬为负,所以地球上的经度范围就是[-180, 180],纬度范围就是[-90,90]。如果以本初子午线、赤道为界,地球可以分成4个部分。

如果纬度范围[-90°, 0°)用二进制0代表,(0°, 90°]用二进制1代表,经度范围[-180°, 0°)用二进制0代表,(0°, 180°]用二进制1代表,那么地球可以分成如下4个部分

redis geohash缺点 redis geohash算法_redis geohash缺点

如果在小块范围内递归对半划分呢?

redis geohash缺点 redis geohash算法_数组_02

可以看到,划分的区域更多了,也更精确了。geohash算法就是基于这种思想,划分的次数更多,区域更多,区域面积更小了。通过将经纬度编码,给地理位置分区

Geohash算法的三步骤

Geohash算法一共有三步。

首先将经纬度变成二进制。

比如这样一个点(39.923201, 116.390705)
纬度的范围是(-90,90),其中间值为0。对于纬度39.923201,在区间(0,90)中,因此得到一个1;(0,90)区间的中间值为45度,纬度39.923201小于45,因此得到一个0,依次计算下去,即可得到纬度的二进制表示,如下表:

redis geohash缺点 redis geohash算法_redis_03

最后得到纬度的二进制表示为:

10111000110001111001

同理可以得到经度116.390705的二进制表示为:

11010010110001000100

第2步,就是将经纬度合并。

经度占偶数位,纬度占奇数位,注意,0也是偶数位。

11100 11101 00100 01111 00000 01101 01011 00001

第3步,按照Base32进行编码

Base32编码表的其中一种如下,是用0-9、b-z(去掉a, i, l, o)这32个字母进行编码。具体操作是先将上一步得到的合并后二进制转换为10进制数据,然后对应生成Base32码。需要注意的是,将5个二进制位转换成一个base32码。上例最终得到的值为

wx4g0ec1

Geohash比直接用经纬度的高效很多,而且使用者可以发布地址编码,既能表明自己位于北海公园附近,又不至于暴露自己的精确坐标,有助于隐私保护。

  • GeoHash用一个字符串表示经度和纬度两个坐标。在数据库中可以实现在一列上应用索引(某些情况下无法在两列上同时应用索引)
  • GeoHash表示的并不是一个点,而是一个矩形区域
  • GeoHash编码的前缀可以表示更大的区域。例如wx4g0ec1,它的前缀wx4g0e表示包含编码wx4g0ec1在内的更大范围。 这个特性可以用于附近地点搜索

编码越长,表示的范围越小,位置也越精确。因此我们就可以通过比较GeoHash匹配的位数来判断两个点之间的大概距离。

redis geohash缺点 redis geohash算法_redis_04

问题

geohash算法有两个问题。首先是边缘问题。

redis geohash缺点 redis geohash算法_redis_05

如图,如果车在红点位置,区域内还有一个黄点。相邻区域内的绿点明显离红点更近。但因为黄点的编码和红点一样,最终找到的将是黄点。这就有问题了。

要解决这个问题,很简单,只要再查找周边8个区域内的点,看哪个离自己更近即可。

另外就是曲线突变问题。

本文第2张图片比较好地解释了这个问题。其中0111和1000两个编码非常相近,但它们的实际距离确很远。所以编码相近的两个单位,并不一定真实距离很近,这需要实际计算两个点的距离才行。

 


GEO数据结构

redis geohash缺点 redis geohash算法_redis geohash缺点_06


GEOADD

1.1 GEOADD概念

        将给定的空间元素(纬度、经度、名字)添加到指定的键里面。 这些数据会以有序集合的形式被储存在键里面, 从而使得像 GEORADIUS GEORADIUSBYMEMBER 这样的命令可以在之后通过位置查询取得这些元素。

  GEOADD 命令以标准的 x,y 格式接受参数, 所以用户必须先输入经度, 然后再输入纬度。 GEOADD 能够记录的坐标是有限的: 非常接近两极的区域是无法被索引的。 精确的坐标限制由 EPSG:900913 / EPSG:3785 / OSGEO:41001 等坐标系统定义, 具体如下:

        有效的经度介于 -180 度至 180 度之间。

        有效的纬度介于 -85.05112878 度至 85.05112878 度之间。

        当用户尝试输入一个超出范围的经度或者纬度时, GEOADD 命令将返回一个错误。

1.2 GEOADD命令

        时间复杂度: 每添加一个元素的复杂度为 O(log(N)) , 其中 N 为键里面包含的位置元素数量。

        命令demo: GEOADD key longitude latitude member [longitude latitude member ...]

        命令描述:将指定的地理空间位置(纬度、经度、名称)添加到指定的key中。

        返回值:添加到sorted set元素的数目,但不包括已更新score的元素。

1.3 GEOADD示例

redis geohash缺点 redis geohash算法_hash算法_07


GEODIST

2.1 GEODIST概念

返回两个给定位置之间的距离。

如果两个位置之间的其中一个不存在, 那么命令返回空值。

指定单位的参数 unit 必须是以下单位的其中一个:     

  • m 表示单位为米。
  • km 表示单位为千米。
  • mi 表示单位为英里。
  • ft 表示单位为英尺。

        如果用户没有显式地指定单位参数, 那么 GEODIST 默认使用作为单位。

  GEODIST 命令在计算距离时会假设地球为完美的球形, 在极限情况下, 这一假设最大会造成 0.5% 的误差。

2.2 GEODIST命令

复杂度: O(log(N))

命令demo: GEODIST key member1 member2 [unit]

2.3 GEODIST示例

redis geohash缺点 redis geohash算法_时间复杂度_08


GEOPOS

3.1 GEOPOS概念

        从键里面返回所有给定位置元素的位置(经度和纬度)。

        因为 GEOPOS 命令接受可变数量的位置元素作为输入, 所以即使用户只给定了一个位置元素, 命令也会返回数组回复。

   GEOPOS 命令返回一个数组, 数组中的每个项都由两个元素组成: 第一个元素为给定位置元素的经度, 而第二个元素则为给定位置元素的纬度。 当给定的位置元素不存在时, 对应的数组项为空值。

3.2 GEOPOS命令

时间复杂度: 获取每个位置元素的复杂度为 O(log(N)) , 其中 N 为键里面包含的位置元素数量。

命令demo: GEOPOS key member [member ...]

3.2 GEOPOS示例

redis geohash缺点 redis geohash算法_数组_09


GEOHASH

4.1 GEOHASH概念

返回一个或多个位置元素的 Geohash 表示。

返回值:一个数组, 数组的每个项都是一个 geohash 。 命令返回的 geohash 的位置与用户给定的位置元素的位置一一对应。

4.2 GEOHASH命令

时间复杂度: 寻找每个位置元素的复杂度为 O(log(N)) , 其中 N 为给定键包含的位置元素数量。

命令demo: GEOHASH key member [member ...]

命令描述:返回一个或多个位置元素的 Geohash 表示。通常使用表示位置的元素使用不同的技术,使用Geohash位置52点整数编码。由于编码和解码过程中所使用的初始最小和最大坐标不同,编码的编码也不同于标准。此命令返回一个标准的Geohash

4.3 GEOHASH示例

redis geohash缺点 redis geohash算法_hash算法_10


GEORADIUS

5.1 GEORADIUS概念

以给定的经纬度为中心, 返回键包含的位置元素当中, 与中心的距离不超过给定最大距离的所有位置元素。

范围可以使用以下其中一个单位:

  • m 表示单位为米。
  • km 表示单位为千米。
  • mi 表示单位为英里。
  • ft 表示单位为英尺。

在给定以下可选项时, 命令会返回额外的信息:

WITHDIST : 在返回位置元素的同时, 将位置元素与中心之间的距离也一并返回。 距离的单位和用户给定的范围单位保持一致。

WITHCOORD : 将位置元素的经度和维度也一并返回。

WITHHASH : 以 52 位有符号整数的形式, 返回位置元素经过原始 geohash 编码的有序集合分值。 这个选项主要用于底层应用或者调试, 实际中的作用并不大。

命令默认返回未排序的位置元素。 通过以下两个参数, 用户可以指定被返回位置元素的排序方式:

ASC : 根据中心的位置, 按照从近到远的方式返回位置元素。

DESC : 根据中心的位置, 按照从远到近的方式返回位置元素。

在默认情况下, GEORADIUS 命令会返回所有匹配的位置元素。 虽然用户可以使用 COUNT 选项去获取前 N 个匹配元素, 但是因为命令在内部可能会需要对所有被匹配的元素进行处理, 所以在对一个非常大的区域进行搜索时, 即使只使用 COUNT 选项去获取少量元素, 命令的执行速度也可能会非常慢。 但是从另一方面来说, 使用 COUNT 选项去减少需要返回的元素数量, 对于减少带宽来说仍然是非常有用的。

GEORADIUS 命令返回一个数组, 具体来说:

  • 在没有给定任何 WITH 选项的情况下, 命令只会返回一个像 ["New York","Milan","Paris"] 这样的线性(linear)列表。
  • 在指定了 WITHCOORD 、 WITHDIST 、 WITHHASH 等选项的情况下, 命令返回一个二层嵌套数组, 内层的每个子数组就表示一个元素。

在返回嵌套数组时, 子数组的第一个元素总是位置元素的名字。 至于额外的信息, 则会作为子数组的后续元素, 按照以下顺序被返回:

  • 以浮点数格式返回的中心与位置元素之间的距离, 单位与用户指定范围时的单位一致。
  • geohash 整数。
  • 由两个元素组成的坐标,分别为经度和纬度。

5.2 GEORADIUS命令

时间复杂度: O(N+log(M)), 其中 N 为指定半径范围内的位置元素数量, 而 M 则是被返回位置元素的数量。

命令demo: GEORADIUS key longitude latitude radius m|km|ft|mi [WITHCOORD] [WITHDIST] [WITHHASH] [COUNT count]

5.3 GEORADIUS示例

redis geohash缺点 redis geohash算法_redis geohash缺点_11

redis geohash缺点 redis geohash算法_时间复杂度_12


GEORADIUSBYMEMBER

6.1 GEORADIUSBYMEMBER概念

这个命令和 GEORADIUS 命令一样, 都可以找出位于指定范围内的元素, 但是 GEORADIUSBYMEMBER 的中心点是由给定的位置元素决定的, 而不是像 GEORADIUS 那样, 使用输入的经度和纬度来决定中心点。

时间复杂度: O(log(N)+M), 其中 N 为指定范围之内的元素数量, 而 M 则是被返回的元素数量。

6.2 GEORADIUSBYMEMBER命令

命令: GEORADIUSBYMEMBER key member radius m|km|ft|mi [WITHCOORD] [WITHDIST] [WITHHASH] [COUNT count]

6.3 GEORADIUSBYMEMBER示例

redis geohash缺点 redis geohash算法_时间复杂度_13