工商信息主要来源爬虫抓取与即时更新

  • 爬的:
  • 工商局不提供任何数据接口,第三方数据库信息为爬取所得
  • 爬取信息属合规性质,工商局有义务公开企业信用信息
  • 目前各第三方数据库信息抓取方式如下:
  • 通过爬取全国各省市企业信用信息公示系统获得部分公司的工商数据
  • 用户查询某公司信息时,第三方数据库将判断其是否存在数据库(不存在将重新抓取,数秒时间)以及是否长时间未更新(重新定向抓取,数秒时间),如不需更新则直接从数据库中提取(毫秒时间)

1、信息公开

企业信息是属于规定公开的,个人、企业均可在不经该企业授权的情况下查询。

所以求职、背景调查、工作单位调查等等,各种场景都会需要查询对应企业信息,这些信息公开层面有两种:

一种就是官方工商系统/法院失信公开平台,这个适用于手动,自己查,不是天眼查的方法

第二种就是API!这个是各机构、平台常用的渠道,背景不细说,反正合法合规。涵盖范围包括工商、法院、知识产权等等。渠道提供方有第一手(如早前支付宝直接接入国家高院信息),也有二手N手,不论几手,都是从第一手出来,最多加工处理下。

2、信息缓存

同字面意思,A用户在天眼查上查询了B企业,B企业的信息就缓存下来,短期内任何人来查B都看到B了,同时这些信息和数据也在天眼查上缓存下来了。

这么做的目的是为了时效和成本:API是要钱的!!!早期天眼查跟企查查(其实还有很多)都是不限制的免费查,推广期过后才开始要注册、VIP等门槛。时效不说了,缓存下来,下一次查出结果更快。当然缓存下来也是平台本身的资产,这些都是数据啊,随便分析下都能弄个数据产品,你查信息免费,可是投资关系、经营力、热度……这些对普通人来说就要太大的时间和精力才能得出结论。何况还有宏观的行业、地域等数据分析,以及一些探索性的数据产品可以产出。

扯远了,总而言之,所有这些数据平台的路子很简单,数据元的标准建立全部来自API,建立了信息主体,接下来就是整合数据,包括爬取、平台合作,再辅以综合分析(例如舆情监测、知识产权、专利),一份完整的企业报告就出来了。说实话,有这些数据其实也大致能评估出一家企业的实力了,但问题是很多企业没数据。。。。除了投资关系过滤掉一部分,剩下的继续没数据没背景的企业,不论是实力评估还是风险评估,全部都没料,这个就靠走个人征信(企业法人、股东等),这个就是需要授权的了。