小编说:数据可以说是量化投资的根本,一切投资策略都是建立在数据基础上的。本文以优矿为例,带领大家用Python实现金融数据的获取与整理。本文选自《Python与量化投资:从基础到实战》一书。作为投资者,我们常听到的一句话是“不要把鸡蛋放入同一个篮子中”,可见分散投资可以降低风险,但如何选择不同的篮子、每个篮子放多少鸡蛋,便是见仁见智的事情了,量化投资就是解决这些问题的一种工具。目前各种在线策略编
# 金价的流程 ## 1. 网页 首先,我们需要使用Python的爬虫库来的网页内容。通常,我们可以使用requests库来发送HTTP请求,并获取网页的HTML内容。 ```python import requests url = " response = requests.get(url) html = response.text ``` 上面的代码中,我们首先
原创 2023-09-24 18:50:39
764阅读
前言多线程+代理池天天基金、股票数据(无需使用爬虫框架)简介提到爬虫,大部分人都会想到使用Scrapy工具,但是仅仅停留在会使用的阶段。为了增加对爬虫机制的理解,我们可以手动实现多线程的爬虫过程,同时,引入IP代理池进行基本的反操作。本次使用天天基金进行爬虫,该网站具有反机制,同时数量足够大,多线程效果较为明显。技术路线IP代理池多线程爬虫与反编写思路首先,开始分析天天基金的一些数
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理本品文章来自腾讯云 作者:孤独的明月目标 — 简单获取天天基金网站的基金数据代码区import requestsimport timeimport pandas as pdif __name__ == '__main__':for j in range(1, 49):        
转载 2021-02-04 12:58:30
1097阅读
2评论
前言上次使用了BeautifulSoup库电影排行榜,相对来说有点麻烦,的速度也较慢。本次使用的lxml库,我个人是最喜欢的,的语法很简单,速度也快。该排行榜一共有22页,且发现更改网址的 start=0 的 0 为25、50就可以跳到排行榜的第二、第三页,所以后面只需更改这个数字然后通过遍历就可以整个排行榜的书籍信息。本次的内容有书名、评分、评价数、出版社、出版年份以
Python京东书籍信息(包括书籍评论数、简介等)一. 工具二. 准备数据三. 内容简述四. 页面分析(一) 寻找目录中商品所在标签(二) 寻找页面中能取到的所有数据(三) 寻找评论数所在链接(四) 寻找书籍简介所在链接五. 代码整合 一. 工具PyCharmScrapyChrome浏览器二. 准备数据items.pyimport scrapy class JdbookIt
转载 2023-10-01 20:11:22
793阅读
通过发送post请求,对拉勾的职位信息进行提取,很好的一个联系项目知识要求:request库发送post请求,csv库的使用,常用的反爬虫,对网页数据的解析等目地: 拉勾网上python相关职位的信息 随便放一张图,输入python后,会跳出来职位,每页十五个职位,一共有三十页,那我们的就是这三十页的所有职位信息。首先,我们打开fiddler,找出职位信息在哪个文件,每个文件都找一下,
# Python爬虫拉勾数据 ## 引言 Python作为一种强大的编程语言,被广泛用于数据和分析。爬虫技术允许我们从网页上提取数据,拉勾是一家专注于互联网招聘的平台,数据丰富,对求职者和招聘方都非常有价值。在这篇文章中,我们将通过使用Python编写简单的爬虫代码,获取拉勾网上的招聘信息。 ## 准备工作 在开始爬虫之前,我们需要安装一些库,包括`requests`和`Beaut
原创 8月前
221阅读
的站点:http://beijing.8684.cn/(1)环境配置,直接上代码:# -*- coding: utf-8 -*- import requests ##导入requests from bs4 import BeautifulSoup ##导入bs4中的BeautifulSoup import os headers = {'User-Agent':'Mozilla/5.0 (Win
The website is the API......(未来的数据都是通过网络来提供的,website本身对爬虫来讲就是自动获取数据的API)。掌握定向网络数据和网页解析的基本能力。##Requests 库的使用,此库是Python公认的优秀的第三方网络爬虫库。能够自动的HTML页面;自动的生成网络请求提交。##robots.tex 协议 网络爬虫排除标准 (网络爬虫的盗亦有道)1.安装
个人作业2:APP案例分析题目传送门:个人作业2:APP案例分析产品选择产品:UC(原名为UC浏览器,后改名为UC)版本:iOS版选择理由:从高中就开始使用,是我手机中必装APP之一,在我手机上使用频率较高,自己对它的了解比较深入调研第一次上手体验“第一次”使用UC的时候感觉它的页面设计还不错,APP主页主要分两个页面:第一个页面上半部分是搜索引擎框以及一些常见的网站链接包括(百度、新浪、淘宝等)
import requests from bs4 import BeautifulSoup import re import pymysql url = 'https://openaccess.thecvf.com/CVPR2020?day=2020-06-18' response = requests.get(url) obj1 = re.compile(r'<dt class="pt
转载 2023-06-20 10:19:31
183阅读
在这个博文中,我们将介绍如何使用 Python 豆丁数据。本文将涵盖环境准备、分步指南、配置详解、验证测试、优化技巧和排错指南等各个方面,确保你能顺利完成这个任务。 --- ### 环境准备 在开始之前,你需要确保你的环境中安装了以下依赖项。这将帮助我们的爬虫正常运行。 - **Python 3.x** - **requests**:用于发送 HTTP 请求 - **Beautif
原创 6月前
98阅读
python链家的房屋数据内容源网站内容思路数据代码获取房屋url获取房屋具体信息 内容源网站北京二手房 https://bj.lianjia.com/chengjiao/内容思路通过不同的条件组合,来尽量获取多的数据(因为有100页的限制)获取当前页的房屋url翻页保存每一页的房屋url,并把url写到本地读取房屋url,每个房屋的具体信息
转载 2023-12-15 17:06:59
124阅读
有小朋友提出了这个需求,今天就来实践一下~这里有视频教程:https://www.bilibili.com/video/av94574531/1.先明确目的——今天想实现这个功能得到知网上所有和吸烟相关的文献信息,如下,包括文章标题,作者信息,被引频次,下载次数,关键词,摘要信息。 要是一个一个搜,那要查到天荒地老嘛?!有python怕啥?!不要慌2.动手之前先动脑(噗,思考)step1
在这个博文中,我将记录如何使用 Python 拉钩的详细过程,包括环境准备、分步指南、配置详解、验证测试、优化技巧和扩展应用等内容。我的目标是确保读者在阅读之后,能够对整个流程有清晰的理解并能顺利实现。 ### 环境准备 在开始之前,需要准备合适的环境和依赖。以下是所需的Python库及其版本兼容性矩阵: | 依赖库 | 版本 | 兼容性 | |--
原创 6月前
15阅读
# Python学科: 一步一步走向数据采集 在现今信息爆炸的时代,数据的获取和处理是非常重要的。网络爬虫技术作为一种利用程序自动获取互联网数据的方法,已被广泛应用于科研、商业分析等多个领域。本文将介绍如何使用Python学科(www.xkw.com)的数据,包括需要的库、基本步骤以及示例代码。 ## 爬虫基础知识 在深入代码之前,首先了解一下虫的基本概念。网络爬虫是自动访问互
原创 10月前
1314阅读
yan = re.search(r’参数错误’, r.text) if yan != None: print(“参数”) break yan = re.search(r’验证码’, r.text) if yan != None: print(“验证”) break #这里开始抓列表里每一个文献的url soup = re.findall(r’<TR([.$\s\S]*?)', r.text)
1、简介在取之前,我先用requests包get了一下拉勾的官,发现源码并没有包含我想要的招聘信息,这时候就麻烦,当然解决的方法有很多种,可以抓包得到招聘信息的json数据,通过解析json来获取招聘信息,另外还可以通过PhantomJS来伪装浏览器获取,PhantomJS的安装我就不多说了,大家可以自行度娘。接下来我就告诉大家如何拉勾。2、招聘信息的网站首先大家进入拉勾官,我随便输
基金是一种很好的理财方式,利用pyhton根据以往的跌幅情况进行基金选择,是一种很可靠的选择方式。本文以债券基金(稳定且风险较低)的爬虫和策略选择为例子,实现基金的选择。1、数据库准备1.1、ubuntu下的mysql安装以Ubuntu为例,首先安装mysql数据库。 首先执行下面三条命令:sudo apt-get install mysql-server sudo apt install mys
转载 2024-06-21 17:33:50
414阅读
  • 1
  • 2
  • 3
  • 4
  • 5