接着上面的。使用xpath提取信息,虽然python很多库,比如beautifulsoup,也有很多功能,比如查找节点,添加删除节点。但是个人感觉对爬虫来说,最重要的还是提取信息,当然,顺利的提取信息的前提是你得掌握好这些库的用法,不过有些功能确实一辈子也不会用到。对爬虫来说,就是提取文本,获取属性,这两个。还是打开页面,这里我直接读入本地的文件,知识为了简单起见。不在requests了。我们自己
前言在有一些电影里面,特别是科幻高科技电影里面经常出现的一幕,获得某人的照片然后进行各种数据对比,然后找出这个人的个人信息:姓名、年龄、性别、工作等等。理论上:你可以建立一个你感兴趣的百万级的数据库,给你个照片 ,你就可以得到她是谁,哪里的,信息都可以知道,而且因为人与人之间的网状的关联,你甚至可以知道她喜欢的人是谁,男朋友长啥样子。相信我:一切都不是虚构的,你能做的更多!思路:一、数据收集,可以
作者介绍王梅,女,西安工程大学电子信息学院,2022级研究生 研究方向:机器视觉与人工智能 王泽宇,男,西安工程大学电子信息学院,2022级研究生,张宏伟人工智能课题组 研究方向:机器视觉与人工智能 一. 阿里云OCR算法介绍1.1 API简介API(Application Programming Interface)API是应用程序接口,API可以被看作是两个软件系统之间的桥梁,它定义了一组规则
    目前快递查询接口有两种方式可以对接,一是和顺丰、圆通、中通、天天、韵达、德邦这些快递公司一一对接接口,二是和快递鸟这样第三方集成接口一次性对接多家常用快递。第一种耗费时间长,但是是直接和快递公司合作,第二种虽然是间接对接,但是对接简便,对后期的接口维护可以省很多时间和人力成本。    集成接口还有其他公司提供,有其他需要可以去找,快递鸟其实能满足电商
# 实现“天眼 python教程 ## 1. 流程图 ```mermaid flowchart TD A(开始) B(安装依赖库) C(登录天眼) D(搜索公司信息) E(解析网页) F(提取公司信息) G(输出结果) H(结束) A --> B --> C --> D --> E --> F --> G -->
原创 2024-02-09 10:52:31
107阅读
# -*- coding:utf-8 -*- # author: kevin # CreateTime: 2018/8/16 # software-version: python 3.7 import time from selenium import webdriver from selenium.webdriver import Firefox import os class GetCo
转载 2023-06-21 16:14:05
898阅读
信息收集一、简介什么是信息搜集信息搜集也称踩点,信息搜集毋庸置疑就是尽可能的搜集目标的信息,包括端口信息、DNS信息、员工邮箱等等看似并不起眼的一些信息都算是信息搜集,这些看似微乎其微的信息,对于渗透测试而言就关乎到成功与否了。信息搜集的重要性信息搜集是渗透测试的最重要的阶段,占据整个渗透测试的60%,可见信息搜集的重要性。根据收集的有用信息,可以大大提高我们渗透测试的成功率。信息搜集的分类1、主
转载 2023-08-24 11:02:33
25阅读
# 用Python实现“天眼”的步骤指南 ## 一、项目概述 “天眼”是一个提供企业信息查询的服务,我们可以利用Python的爬虫技术从网上获取相关企业信息。本文将带领你一步一步实现这个项目,包括准备环境、请求数据、解析数据和存储数据。 --- ## 二、流程步骤 以下是实现“天眼”所需的基本步骤: | 步骤 | 描述
原创 9月前
51阅读
1.作者介绍严松,男,西安工程大学电子信息学院,2022级研究生研究方向:机器人抓取检测电子邮件:2448052777@qq.com2.百度API实现logo商标识别接口介绍该请求用于检测和识别图片中的台标、品牌商标等logo信息。即对于输入的一张图片(可正常解码,且长宽比适宜),输出图片中logo的名称、位置和置信度。使用时,可直接调用logo识别-检索接口,支持识别超过2万类logo名称;当效
应用性能稳定是良好用户体验中非常关键的一环,而现实情况却是应用崩溃、卡顿、加载缓慢、页面白屏等问题频频出现在用户的真实体验之中,成为影响业务表现的直接杀手。作为面向企业用户提供企业信息查询的工具,天眼APP一直以来都非常关注良好的应用稳定性和性能体验。天眼APP,是3亿用户都在用的商业查询平台。通过2.8亿社会实体信息,帮助用户全面了解公司状况、老板信用及资本关系,为各界人士提供丰富、全面、可
接口名称:企业诉讼信息查询接口接口名称:聚合数据接口地址:http://tianyancha.api.juhe.cn/services/v3/open/lawsuit支持格式:json请求方式:get请求示例:http://tianyancha.api.juhe.cn/services/v3/open/lawsuit?name=北京百度网讯科技有限公司&pageNum=1接口备注:根据企业
# 如何实现天眼API调用和数据爬虫 本文将指导你如何使用Python调用天眼API并实现数据爬虫。无论你是编程初学者,还是希望掌握网络爬虫技术的开发者,本文将为你提供一个清晰的步骤和具体的代码示例,帮助你实现这个项目。 ## 一、项目流程 在开始之前,我们需要明确整个项目的步骤。下面是一张实现天眼数据爬虫的流程表: | 步骤 | 描述
原创 7月前
487阅读
声明:爬虫技术话题比较敏感,本文仅作技术交流,不得用作任何非法途径 用python实现一个简单的小爬虫,可以把你输入的文本作为关键字,向天眼发起请求,得到返回的页面,然后清洗网页,得到数据,存储在本地。比如我最近有个需求,查询某市注册资本超过500w的教培公司名称、数量、地址。示例只做了简单的反爬,配置了一下headers参数,修改cookie参数即可使用。 这是代码运行效果使用前需要配置req
转载 2023-07-29 17:43:55
2535阅读
首先要注册一个账号密码,通过账号密码登录,并且滑块验证,自动输入搜索关键词,进行跳转翻页爬取数据,并保存到Excel文件中。代码运行时,滑块验证经常不通过,被吃掉,但是发现打包成exe运行没有这个问题,100%成功登录。如果大家知道这个问题麻烦请与我分享,谢谢!废话不多说直接上代码# coding=utf-8 from selenium import webdriver import time f
转载 2023-08-08 14:44:50
567阅读
@TOC天眼、企查查APP的Authorized值和sign值破解思路记载天眼APP已知条件1.爱加密壳子,sm4加密 2.检测了模拟器 3.脱壳拖出来的代码只有类名 4.把so拿出来也不能用,大概so里面进行过什么判断 5.不到包了骚操作: 1.app登陆后拿到的值,可以放在cookie里面,这样可以进行web抓取,就没有字体反爬的困扰了。 2.authorized这个值有效时长在5-10
刚开始学习Python,不愿意看基础,记忆不好,那些语法记不住,直接上个项目,这样比较深刻刚好公司有个情况要企业的信息,就想做个爬虫吧,有验证码的不愿意搞,那是个老大难问题,就选择了天眼查过程都略了,直接写个结果吧,总结出来的步骤如下:一、天眼最大的障碍在于字体问题,这个网上都有介绍,大概意思就是说,在网页显示出来的某些字符,是天眼自己的字体文件处理的。比如汉字 坐  的utf-8
转载 2023-07-05 17:42:16
523阅读
项目代码:Github [目录]一.引入问题二.分步实现1.页面爬取2.woff下载3.字体解析规则一.引入问题可以看到,猫眼网电影评分,票房等的数据在响应的html中并不是直接提供给你的。这里的xefcf,xef87等数据,是以‘特殊符号’的形式显示出来的。可以发现这里请求了一个woff字体文件,而xefcf,xef87等数据的规则就是在这其中的。所以我们只需要在请求这个网页的同时,截去这部分s
已知企业ID,查询企业信息。主要是token和_utm两个值的获取。代码如下:Sub Main() '根据企业在天眼内的ID来查询企业信息 '原创:wcymiss Dim strText As String Dim objHttp As Object Dim strURL As String Dim ID As String Di
转载 2023-05-29 15:30:23
243阅读
# Python爬虫天眼 在当今信息爆炸的时代,信息查询变得越来越方便,但有些信息可能并不是那么容易获取,比如企业的工商信息。而天眼是一个专门提供企业工商信息查询的平台,用户可以通过天眼了解企业的基本信息、股东信息、法律诉讼等内容。如果想要通过编程的方式获取这些信息,就可以使用Python爬虫来实现。 ## 如何通过Python爬虫获取天眼信息 Python是一种功能强大的编程语言,
原创 2024-03-16 07:14:04
113阅读
# Python 天眼接口使用指南 ## 引言 天眼是一个提供企业信息查询服务的平台,特别适合通过其API接口获取各类企业信用信息。本文将详细介绍如何使用Python天眼的API接口进行交互,包括如何进行环境配置、调用API、处理数据等,并且会附上相应的代码示例,帮助大家快速上手。 ## 准备工作 ### 1. 注册天眼查账户 首先,访问 [天眼官网]( ### 2. 安装所
原创 2024-09-01 05:47:28
552阅读
  • 1
  • 2
  • 3
  • 4
  • 5