在成功完成基金净值爬虫的爬虫后,简单了解爬虫的一些原理以后,心中不免产生一点困惑——为什么我们不能直接通过Request获取网页的源代码,而是通过查找相关的js文件来爬取数据呢? 有时候我们在用requests抓取页面的时候,得到的结果可能和浏览器中看到的不一样:浏览器中可以看到正常显示的页面数据,但是使用requests得到的结果并没有。这是因为requests获取的都是原始的HTML
转载
2023-12-28 16:10:08
216阅读
一、前言前几天有个粉丝找我获取基金信息,这里拿出来分享一下,感兴趣的小伙伴们,也可以积极尝试。二、数据获取这里我们的目标网站是某基金官网,需要抓取的数据如下图所示。可以看到上图中基金代码那一列,有不同的数字,随机点击一个,可以进入到基金详情页,链接也非常有规律,以基金代码作为标志的。其实这个网站倒是不难,数据什么的,都没有加密,网页上的信息,在源码中都可以直接看到。这样就降低了抓取难度了。通过浏览
转载
2023-08-06 15:12:51
195阅读
python爬虫,用scrapy爬取天天基金学了一段时间的爬虫,准备做个爬虫练习巩固一下,于是选择了天天基金进行数据爬取,中间遇到的问题和解决方法也都记录如下。 附上代码地址:https://github.com/Marmot01/python-scrapy-爬取思路一.分析网站首选来到天天基金首页http://fund.eastmoney.com/jzzzl.html,分析要爬取的内容。 在首页
转载
2023-12-28 22:56:08
546阅读
点赞
通过python爬取SCDN论坛的标题,返回请求网址使用requests请求网址 lxml中etree请求数据 time延时 openpyxl保存再excel中网站共有100页数据,5000个论坛。我们可以输入爬取的页数:运行代码:将数据储存在excel中:源代码如下:在这里插入代码片
# _*_ coding:utf _*_
# 人员:21292
#
转载
2023-07-01 00:19:47
247阅读
。,。数据源和爬取的方式我们已经确定,接下来我们构建数据的储存格式和进行爬取类的程序编写。首先,为了方便调用,爬取的公告信息必须以对应的股票分类,这里我们使用股票的代码作为分类依据。一个股票代码文件对应该股票所有的公告信息。但如果我们只用股票代码做简单的一层分类,文件也过大,并不方便调用。于是进一步将公告信息按年份与月份分类,形成三层数据结构。每一个月份为一个json文件,内涵该股票代码对应年月所
转载
2023-10-28 14:10:51
11阅读
在简单完成了基金净值爬取以后,我们对中间的过程可能产生了很多疑惑,即使完成了目标,也仅仅是知其然而不知其所以然,而为了以后爬虫任务的顺利进行,对爬虫过程中所涉及的原理进行掌握是十分有必要的。本文将会针对之前爬虫过程中所涉及到的几个爬虫原理进行简单的阐述。 url究竟是什么?它的构成有什么规律可循? URL和URI 在访问任何一个网页时,我们都需要一个网页链接(如百度:
转载
2023-09-13 16:07:22
239阅读
# Python 爬取年报教程
在这个教程中,我们将学习如何使用 Python 爬取企业的年度报告(年报)。年报通常包含企业的财务状况、管理层讨论和分析、以及对未来的展望等重要信息。下面我们将对整个爬取过程进行分解,确保即使是初学者也能轻松理解和实现。
## 整体流程
在开始之前,我们需要明确整个爬虫的流程。以下是一个简单的流程表,描述了完成这项工作的各个步骤:
| 步骤 | 描述
一、选题背景 基金业发展历史。20世纪70年代以来,基金业随着世界投资规模的剧增、基金业现代金融业的创新,品种繁多、基金业名目各异的基金风起云涌,基金业形成了一个庞大的产业。目前,基金业从世界范围来看.基金产业已经与银行业、证券业、保险业并驾齐驭,基金业成为现代金触体系的四大支柱之一。而在如今的投资理财市场中,基金产品非常多,比如货币基金、债券基金等,所有基金产品都受到投资者
转载
2024-05-06 17:05:36
102阅读
一、提出问题经过前两期文章的分析,我们基本理清了思路——通过爬虫软件获取天天基金网、好买基金网的公募基金数据,最终找到以下问题的答案。找出3年中最具投资价值的基金找出3年中风控最好的基金公司二、数据获取2.1爬虫软件八爪鱼介绍本次使用的爬虫软件名字叫八爪鱼采集器,下载地址http://www.bazhuayu.com/。不需要任何爬虫知识和基础,只要给它设定好路径后便可以自动爬取数据
转载
2023-10-11 20:25:39
23阅读
使用Python爬取公司年报
原创
2021-07-05 17:45:37
682阅读
使用Python爬取公司年报
原创
2022-01-25 15:27:56
1373阅读
最新模板请见:1.模板架构模板有四个py文件,我放在crawlerTemplate包下。 (1)getAgent模块# -*- coding: utf-8 -*-
# @Time: 2023-08-20 20:14
# @Author: hexh
# @File: getAgent.py
# @Software: PyCharm
from random import randint
#
做跨境电商,产品的市场行情是非常关键的指标,无论是新品开发还是市场调研都有需求,那么今天我们就来做个敦煌网的产品价格与销量查询的工具。一、基础版本其实敦煌网是很客气的网站,基本上没有做针对的反爬措施,既然别人这么客气,我们也要懂得礼貌,做爬虫的同学都知道爬虫的基本礼仪。那就是该停就停,能在晚上没有太多人的时候运行就放在人少的时候,频率不要太高。不过还我们的工具,一开始就打算按照关键词进行
转载
2024-01-12 13:03:23
126阅读
Python基金选取实例目标:选择多个周期内,同时出现在排名前列的基金工具:lPython3lPycharm——Python IDE,社区版免费lChromelPandas,requests,lxml——用到的Python库可能了解:lPython爬虫lPandas操作l抓取JS生成的网页l准备数据:1、既然是挑选基金,我们选比较热的天天基金网为例,用Chrome打开,选择基金排行2、右键->
转载
2024-01-22 22:34:59
66阅读
相信很多金融类的从业者和学者都比较偏好于爬取金融类数据,比如博主我✧(≖ ◡ ≖✿)在完成了简单的环境配置后,博主我安耐不住鸡冻的心情,打算先爬个基金数据以解手痒,顺便通过这个案例简单了解一下其中涉及到的一些爬虫原理 环境tools1、Chrome及其developer tools2、python3.73、PyCharm python3.7中使用的库1、requests2、re
转载
2023-05-31 14:44:43
900阅读
这篇文章主要为大家分享对基金数据的爬取,并通过python对获取的基金数据做一定的数据分析,如净值数据绘图,周均值,月均值的计算,及搜寻处于下降态势的基金,通过这些方法能对基金的买入与卖出提供一定的辅助作用!最后还是建议大家尽量不要盲目相信数据分析结果或者群众引导而进行买入和卖出,一定要结合自身对该基金或者股票的思考来考虑是否进行买入和卖出操作。目录 文章目录目录1.基金数据爬取1.工具准备:2.
转载
2024-02-05 14:47:50
20阅读
1:首先,开始分析天天基金网的一些数据。经过抓包分析,可知: ./fundcode_search.js包含所有基金的数据,同时,该地址具有反爬机制,多次访问将会失败的情况。2:同时,经过分析可知某只基金的相关信息地址为:fundgz.1234567.com.cn/js/ + 基金代码 + .js3:分析完天天基金网的数据后,搭建IP代理池,用于反爬作用。# 返回一个可用代理,格式为ip:
转载
2023-07-03 18:48:24
727阅读
一、选题背景为什么要选择此选题?要达到的数据分析的预期目标是什么?随着互联网进入大数据时代,人们获取咨询的方法越来越多,而财经信息又与人们的生活息息相关,所以关于财经的信息就有为重要,为了能更快更好的了解市场基金的走向,我选择了这个课题,主要为了更方便了解有关基金的动态。二、主题式网络爬虫设计方案1.主题式网络爬虫名称:天天基金网爬虫分析2.主题式网络爬虫爬取的内容与数据特征分析:通过访问天天基金
转载
2023-07-29 21:46:12
143阅读
基金是一种很好的理财方式,利用pyhton根据以往的跌幅情况进行基金选择,是一种很可靠的选择方式。本文以债券基金(稳定且风险较低)的爬虫和策略选择为例子,实现基金的选择。1、数据库准备1.1、ubuntu下的mysql安装以Ubuntu为例,首先安装mysql数据库。 首先执行下面三条命令:sudo apt-get install mysql-server
sudo apt install mys
转载
2024-06-21 17:33:50
412阅读
2018.11.22爬虫要求: 目标 url:http://gs.amac.org.cn/amac-infodisc/res/pof/fund/index.html 抓取信息:每条基金的 基金名称 私募基金管理人名称 托管人名称 成立时间 备案时间 基金具体url。 即下图信息+url 链接一、环境 安装好 Anaconda(Python 版本为 3.6)即可,较简单,教程较多,如:https:/
转载
2023-09-06 11:20:51
197阅读