寒假看了一本数据分析的启蒙书籍叫《深入浅出数据分析》,这本书插图很多,主要是通过举实际例子来介绍数据分析的各种方法,非常通俗易懂。下面分享当时的读书笔记(内容不多,觉得重要的才记下来~)。
第一章 数据分析引言:分解数据
1、数据分析的固定基本流程:
确定—>分解—>评估—>决策
确定:第一步是了解问题(从你的客户了解)再确定问题。
分解:分解问题和数据使其成为更小的组成部分。
评估:对了解到的情况作出结论。
决策:作出一个决策(建议)来。
第二章 实验:检验你的理论
1、统计与分析最基本的原理之一是比较法。
2、通过拆分数据块来管理混杂因素。
3、好的实验总有一个控制组(对照组)。
4、控制组:一组体现现状的处理对象,未经任何新处理。
5、观察研究法:被研究的人字自行决定自己属于哪个群体的一种研究方法。
第三章 最优化:寻找最大值
1、决策变量就是你能控制的因素,同时它受约束条件的限制。
2、用电子表格实现最优化,比如Excel里的Solver求解器。
第四章 数据图形化
1、利用散点图进行探索性数据分析。
第五章 假设检验
1、伪证:不是选出最合理的假设,而是剔除无法证实的假设。
2、假设检验的核心是伪证。
3、诊断性是证据所具有的一种功能,能够帮助你评价所考虑的假设的相对似然。
第六章 贝叶斯统计
1、条件概率记法:P ( L | + )
2、基础概率又称作事前概率。
第七章 主观概率
1、用一个数字形式的概率来表示自己对某事的确认程度,所用的就是主观概率。
2、使用贝叶斯规则求主观概率的根本在于找出在假设成立的条件下,证据出现的概率。
第八章 启发法
1、选取一两个变量,然后根据这些变量对整个系统做出结论,这就是在使用启发法。
2、启发法:1(心理学定义)用一种更便于理解的属性代替一种难理解的、令人困惑的属性。2(计算机科学定义)一种解决问题的方法,可能会得出正确答案,但不保证得出最优答案。
第九、十章 略
第十一章 误差
1、机会误差又称残差、均方根误差
第十二章 关系数据库
2、关系数据库管理系统(RDBMS)是最重要最有效的数据管理方法之一。
3、SQL是结构化查询语言,是一种关系数据库检索方法。
第十三章 整理数据
1、SUBSTITUTE:以指定的新文本替代单元格中不需要的文本。
VALUE:求以文本格式存储的数字的数值。
CONC ATENATE:取两个值,然后合并在一起LEN:求单元格的长度。
TRIM:删除单元格中的空格。
RIGHT:取单元格右边的字符。
LEFT:取单元格左边的字符。
FIND:告诉你在单元格中的哪个位置查找搜索字符串。
2、R用正则表达式处理复杂的数据模式。
3、正则表达式是一种编程工具,可以用这个工具指定复杂的模式以便匹配和替换文本字符串。
4、\ ( . * \ )
左括号:反斜杠为退出符,告诉R括号本身不是R表达式。
句点:代表任何字符。
星号:代表任何数目的前面字符。
链接:link.密码:kwmv