python中处理空间地理数据时,往往需要处理shp文件PyShp package可以用于shp文件的读取、写入等操作。

Shapefile属于一种矢量图形格式,它能够保存几何图形的位置及相关属性。但这种格式没法存储地理数据的拓扑信息。Shapefile在九十年代初的ArcView GIS的第二个版本被首次应用。许多自由的程序或商业的程序都可以读取Shapefile。

Shapefile是一种比较原始的矢量数据存储方式,它仅仅能够存储几何体的位置数据,而无法在一个文件之中同时存储这些几何体的属性数据。因此,Shapefile还必须附带一个二维表用于存储Shapefile中每个几何体的属性信息。Shapefile中许多几何体能够代表复杂的地理事物,并为他们提供强大而精确的计算能力。

Shapefile文件指的是一种文件存储的方法,实际上该种文件格式是由多个文件组成的。其中,要组成一个Shapefile,有三个文件是必不可少的,它们分别是".shp", ".shx"与 ".dbf"文件。表示同一数据的一组文件其文件名前缀应该相同。例如,存储一个关于湖的几何与属性数据,就必须有lake.shp,lake.shx与lake.dbf三个文件。而其中“真正”的Shapefile的后缀为shp,然而仅有这个文件数据是不完整的,必须要把其他两个附带上才能构成一组完整的地理数据。除了这三个必须的文件以外,还有八个可选的文件,使用它们可以增强空间数据的表达能力。所有的文件名都必须遵循MS DOS的8.3文件名标准(文件前缀名8个字符,后缀名3个字符,如shapefil.shp),以方便与一些老的应用程序保持兼容性,尽管现在许多新的程序都能够支持长文件名。此外,所有的文件都必须位于同一个目录之中。

必须的文件:

  • .shp— 图形格式,用于保存元素的几何实体。
  • .shx— 图形索引格式。几何体位置索引,记录每一个几何体在shp文件之中的位置,能够加快向前或向后搜索一个几何体的效率。
  • .dbf— 属性数据格式,以dBase IV的数据表格式存储每个几何形状的属性数据。

其他可选的文件:

  • .prj— 投帧式,用于保存地理坐标系统与投影信息,是一个存储well-known text投影描述符的文本文件。
  • .sbnand.sbx— 几何体的空间索引
  • .fbnand.fbx— 只读的Shapefiles的几何体的空间索引
  • .ainand.aih— 列表中活动字段的属性索引。
  • .ixs— 可读写Shapefile文件的地理编码索引
  • .mxs— 可读写Shapefile文件的地理编码索引(ODB格式)
  • .atx—.dbf文件的属性索引,其文件名格式为shapefile.columnname.atx(ArcGIS 8及之后的版本)
  • .shp.xml— 以XML格式保存元数据。
  • .cpg— 用于描述.dbf文件的代码页,指明其使用的字符编码。

在每个.shp,.shx与.dbf文件之中,图形在每个文件的排序是一致的。也就是说,.shp的第一条记录与.shx及.dbf之中的第一条记录相对应,如此类推。此外,在.shp与.shx之中,有许多字段的字节序是不一样的。因此用户在编写读取这些文件格式的程序时,必须十分小心地处理不同文件的不同字节序。

Shapefile通常以X与Y的方式来处理地理坐标,一般X对应经度,Y对应纬度,用户必须注意X,Y的顺序。

安装shapefile库。

这里使用pip install shapefile会报错,应使用 pip install pyshp 安装完成即可使用import shapefile

完成导入。

读取文件


import shapefile

sf = shapefile.Reader('test.shp')  # 读取shp文件
print('sf = ', sf)
print('sf.shapeType = ',
      sf.shapeType)  # 查询shp属性 NULL = 0; POINT =1;POLYLINE =3; POLYGON =5;MULTIPOINT =8; POINTZ=11;POLYLINZ=13;POLYGONZ=15;MULTIPOINTZ =18; POINTM=21;POLYLINEM =23;POLYGONM=25;MULTIPOINTM=28;MULTIPATCH=31

print('sf.shapeTypeName = ', sf.shapeTypeName)  # shp属性的具体名称
print('sf.bbox = ', sf.bbox)  # shp的bounds 界限
# print(sf.__geo_interface__)  #获取整个shp文件属性(一般将shp文件转换为GeoJSON用到)

print(sf.shape(240)) # 利用index获取其中单一shape
shapes = sf.shapes()  # 读取shape的geometry,输出为一个矩阵
print(shapes)
# 每个shapes都可以独立查询其属性
print(shapes[0].shapeType)
print(shapes[0].points)  # 线上的每个点坐标(x,y)

#获得shp文件的fields,每个field含有以下属性
##Field name 描述数据的column index
##Field类型:'C'-字符;'N'-数字;'F'-浮点数;'L'-逻辑数;'D'-时间;'M'-Memo
## Field length 在这个列index下数据长度
## Decimal length 小数点后的有效数位数

fields = sf.fields
# print(fields)  # 需要传入dbf文件 属性数据格式,以dBase IV的数据表格式存储每个几何形状的属性数据
# 获取 records
records = sf.records()  # 需要传入dbf文件
# print(records)
# 将records整理为字典型
rcd = sf.record(1)
dct = rcd.as_dict()
print(dct)
# 同时读取geometry and records
shapeRecs = sf.shapeRecords()
print(shapeRecs)