@https://www.bilibili.com/video/av97047290 视频讲解 #000014.sz.csv为通过tushare下载的日线数据*一、数据清洗
1、去除重复值
(1)利用pdandas的DataFrame 中的df.duplicated() 显示是否有重复值,重复则为True,没有重复则为False。
df.duplicated()
df.duplic
工作中每天都在使用MySQL数据库,抽时间复习一下本科课程。一、数据、信息、数据处理:数据:指的是描述事物的符号记录,是数据库中存储的基本对象。信息:是反应现实世界的知识。数据处理:指将数据转换为信息的过程。如:对数据收集、存储、传播、分类、加工或计算输出各种报名、图形等。数据和信息的关系:1、信息是以数据的形式表示的,数据是信息的载体。2、信息时抽象的,不随数据形式的变化而改变。3、数据是具
Postgresql查询表的大小--数据库中单个表的大小(不包含索引)select pg_size_pretty(pg_relation_size('表名'));--查出所有表(包含索引)并排序SELECT table_schema || '.' || table_name AS table_full_name, pg_size_pretty(pg_total_relation_s...
原创
2021-06-29 13:32:59
228阅读
Python数据处理和Pandas库1.前言2. 导入模块3. Pandas3.1 Series对象3.1.1 创建Series对象3.1.2 索引Series对象3.1.3 统计Series对象3.2 DataFrame对象3.2.1 创建DataFrame对象3.2.2 索引DataFrame对象3.2.2 统计DataFrame对象3.3 文件IO3.3.1 数据格式处理3.3.2 数据索
如果你是一名数据科学家或数据分析师,或者只是对这一行业感兴趣,那下文中这些广受欢迎且非常实用的Python库你一定得知道。从数据收集、清理转化,到数据可视化、图像识别和网页相关,这15个Python库涵盖广泛,本文将对它们进行简介。想必其中一些你已经熟知,但如果有不知道的,强烈建议你一定要好好了解一下。数据收集大部分数据分析项目都始于数据收集和提取。在一些情况下,当为公司处理现存问题时,公司可能会
列表处理技术1、列表基础2、列表切片3、列表的增加、删除、修改4、实例应用(汇总每个人的总成绩)5、列表操作符6、列表推导式列表推导式的转换列表嵌套推导式条件列表推导7、实例应用(筛选各工作表中符合条件的值)8、列表转换list 方法reverse 方法copy 方法zip 方法9、实例应用(统计出大于等于2万的记录到新表)10、列表常见统计方式1实例应用:如下表所示,我们统计一下每个人工资的各
目录pandas.DataFrame新建dataframe将数据转化为dataframedict与dataframelist与dataframedataframe常用域遍历dataframedataframe排序dataframe去重pandas读取保存文件保存文件读取文件pandas.concatpandas.mergepandas将dataframe的多列合并为一列 pandas是pytho
~
原创
2021-06-29 11:09:10
268阅读
1.NumPy数值计算 NumPy是使用Python进行科学计算的基础包,Numpy可以提供数组支持以及相应的高效处理函数,是Python数据分析的基础,也是SciPy、Pandas等数据处理和科学计算库最基本的函数功能库,且其数据类型对Python数据分析十分有用。它包含:一个强大的N维数组对象复杂的(广播)功能用于集成C / C ++和Fortran代码的工具有用的线性代
目录五、Numpy随机数Poisson分布六、求和求积、均值方差七、大小与排序 八、多维数组操作九、基本线性代数张量乘积 解方程Ax=b求最小二乘解求行列式求特征值和特征向量求条件数 范数求迹Cholesky分解QR分解 SVD分解 求逆 求伪逆目录五、Numpy随机数numpy自带大量的函数,可以基本覆盖常见线性代数运算和随机数生成。配
本文主要介绍了数据库的DML语言相关操作
原创
2017-10-02 15:58:04
376阅读
复制? 复制起初并不是用于作为高可用性功能而设计的,实际上复制的概念就像其名称一样,用于复制数据。比如将某个库中的数据“复制”到另一个库,到另一个实例中,由OLTP复制到OLAP环境中,由某数据中心复制到位于地球另一侧的另外一个数据中心中。因此,由于复制所提供的功能,复制可用被用来剥离负载,用于做数
原创
2021-07-25 15:33:07
365阅读
预处理原则:根据不同任务,考虑希望得到什么效果,有什么是会影响到最终呈现效果的,留下需要的,去除不需要的。一、文本数据清洗为什么:有碍于数据准确 主要考虑去除有碍于数据准确的因素,如非中文的字符:符号、数字、英文,其次是文本内容。符号:爬虫时的html标签、url等;无意义表情符号(根据任务需求,如情感分析需有意义)数字、英文:长串混乱等文本内容:广告、低俗话语等二、分词为什么:神经网络需在字词之
概述Excel固然功能强大,也有许多函数实现数据处理功能,但是Excel仍需大量人工操作,虽然能嵌入VB脚本宏,但也容易染上宏病毒。python作为解释性语言,在数据处理方面拥有强大的函数库以及第三方库,excel作为主要基础数据源之一,在利用数据进行分析前往往需要预先对数据进行整理。因此,本文就python处理excel数据进行了学习,主要分为python对excel数据处理的常用数据类型以及常
Python是数据科学家十分喜爱的编程语言,其内置了很多由C语言编写的库,操作起来更加方便,Python在网络爬虫的传统应用领域,在大数据的抓取方面具有先天优势,目前,最流行的爬虫框架Scrapy、HTTP工具包urlib2、HTML解析工具、XML解析器lxml等,都是能够独当一面的Python类库。Python十分适合数据抓取工作,对于大数据的处理,Python在大数据处理方面的优势有:1、异
流程图与过程详解MapTask阶段既然需要进行数据处理,自然需要我们提供数据,那么首先我们需要提供待处理的文件,可以是一个也可以是多个在我们(客户端)提交(submit())数据前,客户端会获取数据的信息,根据参数配置,形成任务分配的规划,即计划切片数(默认一个切片大小128M,hadoop老版本是64M) 注:虽然切片的大小是按照128M为一个分界线,但是如果有两个文件需要被切片,那么不论第二的
数据处理之增删改分以下几个步骤进行学习:• 使用 DML 语句• 插入数据• 更新数据• 删除数据(1)DML(数据操纵语言)• DML(Data Manipulation Language –数据操纵语言) 可以在下列条件下执行: – 向表中插入数据 – 修改现存数据 – 删除现存数据 • 事务是由完成若干项工作的DML语句组成的(2)插入数据INSERT 语句语法• 使用 INSERT 语句向
1、concat() 连接两个或更多的数组该方法不会改变现有的数组,而仅仅会返回被连接数组的一个副本。例如: 1 <script type="text/javascript">
2 var arr = [1, 2, 3];
3 var arr1 = [11, 22, 33];
4 document.write(arr.concat(4,
js中对数组处理的常见三种高阶函数:filter、map、reduce常见编程范式有:命令式/声明式;面向对象编程/函数式编程。命令式编程:告诉计算机第一步做什么,第二部做什么。声明式编程:声明式编程是以数据结构的形式来表达程序执行的逻辑。它的主要思想是告诉计算机应该做什么,但不指定具体要怎么做。面向对象编程:第一公民是对象。面向函数编程:第一公民是函数;高阶函数:其中对于函数式编程在JavaSc