大数据是什么?对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。而麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。随着云时            
                
         
            
            
            
            目录map1.1 map定义1.2map基本使用1.3判断某个键是否存在1.4 map的遍历1.5 使用delete()函数删除键值对1.6 按照指定顺序遍历map1.7 元素为map类型的切片1.8 值为切片类型的mapGo语言中提供的映射关系容器为map,其内部使用散列表(hash)实现。map       &nb            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-12 00:11:18
                            
                                35阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1.首先看一个简单的web服务package main
import (
    "io"
    "net/http"
    "log"
)   
// hello world, the web server
func HelloServer(w http.ResponseWriter, req *http.Request) {
    io.WriteString(w, "hello, wo            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-12 01:32:10
                            
                                68阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            最近试图从财经网站上积累数据,选中了同花顺财经的数据中心的数据。插一句话,个人认为同花顺可能是目前财经领域掌握着最先进的机器学习技巧与人工智能算法的网站了。这个网站,这种智能化的金融问答以及其叙述性的策略回测系统全网恐怕只此一家,确实是让人感到很惊艳。言归正传,掌握了如此技术的同花顺对付几个爬虫可不是收到擒来。然而无论我用什么办法,我都只能获取到前五页的数据。下面我说明一下我的操作历程:首先自然是            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-13 13:20:37
                            
                                1628阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            数据观察沪、深证券交易所自1990年成立以来,已伴随经济发展将近30年了。在这将近30年里,沪、深股市起起落落、跌跌撞撞顽强走出了一条支撑企业、经济发展的股市成长道路。然而最近随着外部经济环境不断趋紧,国内经济也存在下行压力,沪深股市已经持续低迷相当长一段时间。为进一步了解沪深股市目前现状,这里使用python来爬取同花顺网上所有沪深上市公司基本信息以及当前市值信            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-16 16:24:58
                            
                                1179阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            
      另外一对我经常需要用到的, 是 
     Resources和 
     Files. 
      一般来说, 如果我有一大块的文本, 或者properties文件, xml, 我会选择把它们存到一个文本文件里, 放到jar里. 然后在运行时, 把这个文件当作资源读出. 这样做比直接存到文件系统里面的好处, 在于它对部署方式不敏感, 不管我的代码如何部署, 我只需要从Class            
                
         
            
            
            
            采集字段:文章标题、发布时间、文章来源、正文内容、网页地址
     采集网站【场景描述】采集同花顺基金评论模块数据。【源网站介绍】同花顺全方位提供财经资讯及全球金融市场行情,覆盖股票、基金、期货、外汇、债券、银行、黄金等多种面向个人和企业的服务。【使用工具】前嗅ForeSpider数据采集系统,免费下载:ForeSpider免费版本下载地址【入口网址            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-14 16:39:55
                            
                                322阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # 使用Python爬取同花顺的数据
在现代金融投资中,获取及时的市场数据对投资者的决策过程至关重要。本文将介绍如何使用Python爬取同花顺(iFinD)的股票数据,帮助投资者获取他们所需的市场信息。我们将通过实际代码示例进行演示,并以图表和序列图的形式帮助理解整体流程。
## 一、数据爬取的基础知识
网络爬虫(Web Scraping)是提取互联网上信息的技术。使用Python编写爬虫程            
                
         
            
            
            
            use LWP::UserAgent;use utf8;use DBI; $user="root"; $passwd='xxx'; $dbh=""; $dbh = DBI->connect("dbi:mysql:database=zjzc_vote;host=14.5.5.57;por...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2016-04-01 15:36:00
                            
                                194阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
              前言学习python有一小段时间了,爬虫也看了一些,所以想拿个简单点的练一下手,而且最近碰上自如比较火,这里就用自如来练手把上面那个是自如北京的搜索页面,按照我的理解,所有的房源和一些基本信息应该都可以从这个页面得来(自如宅是自如自己的广告,不是我们需要的),这些都是页面看到的信息,还有一个信息我们其实也可以拿下来,用于以后如果有需要的时候用,就是每一个房源的详细页面链接然后我们看到其实链接都            
                
         
            
            
            
            use LWP::UserAgent;use utf8;use DBI; $user="root"; $passwd='xxx'; $dbh=""; $dbh = DBI->connect("dbi:mysql:database=zjzc_vote;host=14.5.5.57;por...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2016-04-01 15:36:00
                            
                                139阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            use LWP::UserAgent;use utf8;use DBI; $user="root"; $passwd='xxx'; $dbh=""; $dbh = DBI->connect("dbi:m...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2016-04-01 15:36:00
                            
                                121阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            看了半天帖子都是都是通过selenium破解js加密的,个人感觉用selenium破解js加密效率太低,而且繁琐,根据目前业务需求就自己研究了一下同花顺的js加密。通过接口测试工具直接请求接口发现获取不到该网站实际的页面数据; 如下图看到了页面有加载了一段js 与 window.location这个方法,可以大概猜出直接打开网站链接,再不带cookie的情况下每次请求都会通过js生成一段密钥,然后            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-29 19:35:43
                            
                                93阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            相信大家如果同花顺临时授权很多,手动更新非常麻烦,重复劳动太多,可采用如下powershell脚本downkey.ps1实现自动更新,主要实现判断pauth.ini中证书在一周内,执行则会去自动更新授权,如把脚本放置在计划任务中,定义晚上8点更新,则可做到自动更新授权(前提是同花顺已经重新授权)。具体脚本如下:#同花顺更新委托主站证书,注意key有特殊字符+-等要转义,无转义情况下authcode            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2019-04-30 14:32:25
                            
                                1356阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            本文介绍,如何用python抓取股票数据,展示在终端上.作为程序员,如果你一整天打开同花顺,雪球,富途这些app,容易让领导看到,但有时你就想看一看,怎么办呢?现有不少api可以使用的.比如新浪,腾讯,雪球,网易都有.经过对比,这里用腾讯的,因为其它只有代码,没有名字,看起来不方便.先来一段效果展示:iterm2上绿色没显示出来,所以换手率这里还是黑色的.vs code上正常.tencent_ur            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-05 17:08:38
                            
                                73阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
                前文的爬虫都建立在静态网页基础之上,首先通过请求网站url获取到网页源代码。之后对源代码进行信息提取进而存储即可,本文则针对动态网页进行数据采集,首先介绍Ajax相关理论,之后实战爬取同花顺动态网页,获取个股相关信息。目录    一、Ajax理论                   
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-11 17:15:15
                            
                                1985阅读
                            
                                                        
                                点赞
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            推荐用Jupyter 不需要导包爬取二手车之家的部分数据
# 爬取二手车网站的数据
from bs4 import BeautifulSoup
# 用于网络请求的库
import urllib.request
import csv
#指定编码
import codecs
# 目标网址
url = 'http://www.che168.com/china/a0_0msdgscncgpi1lto8cs            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-22 13:33:18
                            
                                947阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            本文介绍一个 Golang 轻量的支持分布式爬虫框架。可作为 Colly 之外的又一选择。其中包括:基本使用和概念针对 Golang 爬虫的优化和与 Colly 区别gocolly 是用 go 实现的网络爬虫框架,目前在 github 上具有 3400+星,名列 go 版爬虫程序榜首。gocolly 快速优雅,以回调函数的形式提供了一组接口,可以实现任意类型的爬虫。Goribot github.c            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-12 00:11:38
                            
                                165阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Pic: Gopher mascot and old logo 让我们从Go(或Golang)的简短介绍开始。 Go 是由 Google 工程师 Robert Griesemer,Rob Pike 和 Ken Thompson 设计的。 它是一种静态类型的编译语言。 第一个版本于 2012 年 3 月作为开源发布。" Go 是一种开放源代码编程语言,可轻松构建简单,可靠且高效的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-11 20:21:10
                            
                                60阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            首先放上Card的代码"""This module contains a code example related to
Think Python, 2nd Edition
by Allen Downey
http://thinkpython2.com
Copyright 2015 Allen Downey
License: http://creativecommons.org/licens