在互联网行业中,电子商务领域绝对是数据分析用途最多的地方,各大电商平台都依赖数据分析帮助其挖掘用户订单增长机会。比如某宝的随手买一件,核心思路也就是根据用户的日常浏览内容及停留时间,以及订单的关联度来进行推荐的。
在日常的数据分析工作中,常常会有根据日期来对数据进行分析。比如我们需要通过用户的下单时间来分析用户在不同时间段对商品的喜好;如通过访问日志的访问时间来分析系统的访问周期和负载,为不同时间段的资源调配提供依据;如通过用户刷短视频的时间来分析用户的行为特征和工作时间和工种;由此可以看出,在数据分析中,根据日期(时间)来分析的情况还是不少的。
当我们从数据文件(CSV、Excel等)或者其他数据源加载到 DataFrame 中时,往往会遇到某些单元格的数据是缺失的。当我们打印出 DataFrame 时,缺失的部分会显示为 NaN, 或者 None,或者 NaT(取决于单元格的数据类型),这样的值我们就称之为缺失值。
对于 DataFrame 对象,我们只是简单将其打印出来,这一篇我们来学习围绕 DataFrame 的基本操作(添加行、列,删除行、列,排序等),除了 DataFrame,也会介绍另外一个重要的 pandas 数据结构: Series。
在前面的文章中,我们了解了Python爬虫的一些内容。截止到现在,我们已经可以将需要的数据通过爬虫获取,并保存到CSV文件中。 在有了数据集后,接下来我们就开始了解如何将数据集的内容加载到Python中。虽然在之前也有了解简单的读取csv数据。但是存在两个问题: 只能读取csv文件,但数据分析的数据除了可能来自 csv,也可能来自 Excel,甚至可以来自 html 的表格。 读取到的结果一般是
上篇文章我们串联了爬虫技术的几个基础环节,将电视剧的信息保存到了 csv 文件。这里,我们做个小实验:将主演信息生成词云。(其他文章可看专栏文章)
在前面几篇文章中,我们了解了Python爬虫技术的三个基础环节:下载网页、提取数据以及保存数据。 这一篇文章,我们通过实际操作来将三个环节串联起来,以国产电视剧为例,构建我们的电视剧评分数据集。
今天我们来了解一下在数据分析领域最为常见一种文件格式:CSV 文件,然后我们再将上一篇文章案例中抓取到的数据保存到 CSV 文件中。 1、什么是CSV文件? CSV(Comma-Separated Values) 是一种使用逗号分隔来实现存储表格数据的文本文件。 我们都知道表格有多种形式的存储,比如 Excel 的格式或者数据库的格式。CSV 文件也可以存储表格数据,并且能够被多种软件兼容,比如
前面的内容,我们了解了使用urllib3和selenium来下载网页,但下载下来的是整个网页的内容,那我们又怎么从下载下来的网页中提取我们自己感兴趣的内容呢?这里就需要Python的另一个库来实现-BeautifulSoup。
在上一篇文章中,我们了解了爬虫的原理以及要实现爬虫的三个主要步骤:下载网页-分析网页-保存数据。 下面,我们就来看一下:如何使用Python下载网页。
数据获取是数据分析的第一步,可以通过获取现成的数据集或构建数据集。现成的数据集包括比赛数据集和行业数据集,而构建数据集则可以使用Python爬虫技术从互联网上抓取网页信息。在使用爬虫技术时,应注意适度降低抓取频率,避免给相关网站服务器造成负担,同时抓取到的数据仅作自己分析使用,不可传播或销售,以免违法。
类与对象本质上是抽象与具象的关系,对象在类的基础上进行了适当的具象。所以在某个抽象关系中的对象也可能会成为另一个抽象关系中的类。
Python 中的函数简单来说就是一段有名字的代码块。通过函数的机制,我们可以给我们希望重复使用的代码块起个名字,这样我们之后要用这个代码块的时候,就不需要重新写一遍一模一样的代码块,而只需要简单写一次之前给代码块起的名字即可。
在上一篇文章中,我们所操作的所有代码都是顺序执行的。什么意思呢?就是我们在所有例子中的代码,计算机都是从第一句开始执行,执行完毕后执行第二句,以此类推,最终执行完整个代码块。 以下面代码为例: print("First Line!") print("Second Line!") print("Third Line!") 输出结果:
Python 语言的基础构成要素:变量与数据类型。因为不仅是 Python,变量与数据类型可以说是所有编程语言的核心。掌握了语言的变量与数据类型的体系,可以说就掌握了这门语言的一大半儿。
“工欲善其事,必先利其器”,这里我们来搭建一套高效的 Python 开发环境,为后续的数据分析做准备。
互联网公司从红利下的爆发期,进入新的精细化发展阶段,亟须深入分析与挖掘业务与数据价值,从而找到新的增长点突破现有增长瓶颈。各行各业的数据分析需求井喷,数据分析人才成为争抢的对象,数据分析技能也成为一大职业亮点。 想要掌握一项新技能,或者转行进入一个新行业,最难就在于起步阶段。本篇文章,我们来聊一下为什么是 Python。 一、为什么选用 Python 来学数据分析? 1、Python:简单易用,好
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号