目录说明年报筛选流程代码 说明首先从页面用八爪鱼爬取公告链接列表,但是该链接指向页面还有一个下载按钮且链接无法在详情页对下载直接元素提取,索性链接之间有关系可以直接修改。 年报筛选流程1、通过简称:“文本包含”ST 2、通过标题: (1)摘要、已取消 (2)英文版 (3)关于、公告、H股 3、通过代码升序、时间降序排序: (1)先将以前年度的更新报告放到以前年度文件中(从最新一年开始处理)
I. 爬取目标爬取资讯网的公告文件II. 开发者工具F12的使用(network部分)看到有提交的表单,大概猜测一下是用json。因此用开发者工具的network看一下是否有json文件。从图片中可以看到query这个xhr会response我们所需要的json III. 基础请求 - request获取公告元数据发现query这个请求能得到我们想要的东西,故而直接构造query请求
实现爬取过程 1:找到正确的url首先分析网页,我们会发现我们在设置关键字以及的时候,网页上方的url是不会发生变化的,所以找到争取的url,同时设置参数,才能请求到我们想要的内容。(1):右键检查。(2):找到Nebwork,先全部清空。 (3):输入关键字点击查询,找到query,点击Headers。划到最下方找到相关参数。修改某些参数可以达到翻页,设置时间和关键字的效果。
  实现财务自由 之 A 股上市公司的年报(年度财报)查阅查看、下载地址、以及下载的方法 目录实现财务自由 之 A 股上市公司的年报(年度财报)查阅查看、下载地址、以及下载的方法A 股上市公司年报,下载具体方法1、打开浏览器,输入网址,打开资讯网2、找到输入框,输入想要查看或下载上市公司的名称或代码3、点击搜索,跳转到搜索上市公司的资讯界面4、在标题关键字中输入
转载 2023-11-15 22:14:45
379阅读
在这篇博文中,我将详细记录如何使用Python爬虫技术将资讯网的年报转换为txt格式的过程。下面,我将分步骤深入探讨这个项目,从背景定位到故障复盘,力求为读者提供清晰而全面的视角。 ## 背景定位 在当今信息时代,获取公司年报等财务信息尤为重要。企业投资者、分析师和普通用户都需要快速且有效的方式来获取这些信息。而资讯网作为中国证券市场的重要信息发布平台,提供了丰富的上市公司年报数据。由
原创 5月前
176阅读
同学的博客引言:网页爬虫分为静态网页爬虫和动态网页爬虫,前者是指索要获取的网页内容不需要经过js运算或者人工交互,后者是指获取的内容必须要经过js运算或者人工交互。这里的js运算可能是ajax,人工交互不需要解释了。静态爬虫现在已经很成熟了,借助于python中的urllib和beautifulsoup可以很容易实现,爬到的内容通过python的字符串处理写入数据库,甚至可以通过web形式展现。动
转载 3月前
265阅读
打开资讯的基金招募说明书页面:http://www.cninfo.com.cn/new/fulltextSearch/full?searchkey=%E5%B0%81%E9%97%AD%E5%BC%8F%E5%9F%BA%E7%A1%80%E8%AE%BE%E6%96%BD%E8%AF%81%E5%88%B8%E6%8A%95%E8%B5%84%E5%9F%BA%E9%87%91%E6%8B%
原创 2024-06-18 07:14:11
76阅读
原标题:Python爬虫学习篇:time与datetime模块time与datetime模块在Python中,通常有这几种方式来表示时间:时间戳(timestamp):通常来说,时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量。我们运行“type(time.time())”,返回的是float类型。格式化的时间字符串(Format String)结构化的时间(struct_t
今天乐视的股价可以说是从水深火热到激情澎湃,振幅高达 19.5%,不知大家都赚到了吗?不管赚没赚到,买股票前收集资料进行调研还是必须的。上市公司信息发布哪里权威呢,自然是资讯,毕竟是中国证监会指定信息披露网站。如
原创 2022-06-16 21:53:47
247阅读
资讯网是股票公告的指定披露渠道之一,上面有非常详细的A股股票公告内容。现在,我们要获取2023-01-04~2023-07-04期间所有新三板公司中标题包含“2023年日常性关联交易”的公告。首先从network中获取到真实网址:http://www.cninfo.com.cn/new/hisAnnouncement/query然后在查询里面输入时间和关键词,点击查询然后可以看到返回的是jso
原创 2023-07-07 22:54:32
361阅读
资讯分析(1) 爬取资讯万科A网站下载pdf (2)从pdf中筛选指定字段 (3)利用python进行可视化分析前言博主最近接的一个单子的需求需要是爬取资讯中指定公司的年度报告pdf并且下载下来再对pdf筛选指定字段再进行可视化分析鉴于预算问题可视化分析就使用了最基本的几个图表例如散点图 折线图 以及柱状图一、先对资讯网页进行分析爬虫和反爬虫的斗争都是无时无刻的这个网页的反爬机制我
增量式爬虫引言:    当我们在浏览相关网页的时候会发现,某些网站定时会在原有网页数据的基础上更新一批数据,例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。那么,类似的情景,当我们在爬虫的过程中遇到时,我们是不是需要定时更新程序以便能爬取到网站中最近更新的数据呢? 一.增量式爬虫概念:通过爬虫程序监测某网站数据更新的
转载 2024-06-07 21:32:26
23阅读
# 如何实现一个“Python资讯”项目 在这篇文章中,我将引导你完成创建一个基本的“Python资讯”项目的过程。这个项目可以用来获取关于Python的新闻和资讯信息,帮助你了解Python社区的最新动态。我们将使用Python的请求库获取新闻数据,并使用Flask框架搭建一个简单的Web应用。 ## 项目步骤流程 首先,让我们看看整个项目的步骤流程: | 步骤 | 描述
原创 2024-09-29 04:53:51
53阅读
一、朴素贝叶斯改进之拉普拉斯平滑上篇文章提到过,算法存在一定的问题,需要进行改进。那么需要改进的地方在哪里呢?利用贝叶斯分类器对文档进行分类时,要计算多个概率的乘积以获得文档属于某个类别的概率,即计算p(w0|1)p(w1|1)p(w2|1)。如果其中有一个概率值为0,那么最后的成绩也为0。 可以看到很多0 如果新实例文本,包含这种概率为0的分词,那么最终的文本属于某个类别的概率也就是0了。为了降
程序名称##计及DG的基于半不变量和Gram_charlier级数潮流计算(matlab版+python版)程序功能(对象)适用于任意大小的纯交流电网,支持节点和支路的增删;适用于接入多个服从不同概率分布的风电、光伏等分布式电源;采用Gram_Charlier级数拟合随机变量的概率分布函数;构建原点矩计算半不变量函数,以及DG原点矩计算函数;误差分析:与蒙特卡洛计算结果对比,误差<10^-2
# 使用Python获取财经资讯的流程指南 财经资讯获取是金融领域中一个重要的环节,开发者可以通过编程来实现对实时财经新闻、数据的抓取和分析。本文将教会一位刚入行的小白如何使用Python获取财经资讯,并详细介绍每个步骤及相应代码实现。 ## 流程概述 以下是获取财经资讯的基本流程: | 步骤 | 描述 | |------|------| | 1 | 选择数据源和库 | | 2
原创 7月前
275阅读
Python网络爬虫与文本数据分析(视频课)常见的爬虫都是采集文本数据,如果待采集的是很多个文件,如何批量下载?今天我们以资讯网http://www.cninfo.com.cn为例子在实战前先总结一下爬虫的访问方法90%的爬虫大都是requests.get剩下的10%是requests.post访问方法的确定,查看开发者工具Network面板里对应url里的RequestMethod本教程中的
原创 2021-01-01 18:57:48
5594阅读
1评论
  和正在兴起的“雷文化”风潮一样,一场“语”大革命也在兴起。受到这股语热的影响,在各大论坛、博客和个人msn通讯上,语都成为了人们表达的一种方式。   语,非潮州方言,也不是潮湿的文艺腔调,而是当下潮人都热衷使用的语言,在电玩青年、文艺青年、人、网民之间流传,而大众对它几乎一无所知。   语大测试   你对语的认识有多少?你是一个经常使用语的人吗?以下这个测试,马上为你验明正身。
转载 精选 2008-11-13 22:22:56
1555阅读
# Python安装Transbigdata的指南 在这一篇文章中,我们将学习如何在Python中安装“Transbigdata”库。对于一名刚入行的新手来说,安装Python库可能会遇到速度慢、依赖包不全等问题。这里我们将严格按照步骤来进行,确保每个环节都能让你理解。 ## 安装流程 下面是安装Transbigdata库的基本流程: | 步骤 | 描述
原创 2024-09-24 06:33:07
275阅读
websocket中就有建立连接connect、发送消息send等函数可供使用,但是websocket.WebSocketApp将这些都封装好了,只用在实例化的时候传入自定义函数即可,更方便。因此这里选择使用websocket.WebSocketApp来模拟客户行为。WebSocketApp也是websocket中的一个类。要使用WebSocketApp中的回调函数需要传入一系列的可调用对象。在实
  • 1
  • 2
  • 3
  • 4
  • 5