本文的大部分代码都是参考了这篇文章 数据来自Kaggle官网的Titanic项目,很容易找到的,但是需要注册一个Kaggle账号才可以下载哦。import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.linear_model import LogisticRegression from
1.题目这道题目的地址在https://www.kaggle.com/c/titanic,题目要求大致是给出一部分泰坦尼克号乘船人员的信息与最后生还情况,利用这些数据,使用机器学习的算法,来分析预测另一部分人员最后是否生还。题目练习的要点是语言数据分析的基础内容(比如python、numpy、pandas等)以及二分类算法。数据包含3个文件:train.csv(训练数据)、test.csv(测
1.提出问题什么样的人在泰坦尼克号中更容易存活?2.理解数据2.1 采集数据从Kaggle泰坦尼克号项目页面下载数据:Titanic: Machine Learning from Disaster2.2 导入数据 #导入处理数据包 import numpy as np import pandas as pd import matplotlib.pyplot as plt #训练数据
    描述性统计分析 数据分析包括描述性统计分析和推断统计描述性分析主要是把观测数据本身的信息加以总结概括、整理简化,是进行后续的统计分析的基础和前提。通过描述性分析可以对数据的总体特征有比较准确的把握,从而进行更深入的统计分析。     描述性分析分为集中趋势分析、离散趋势分析以及分布特征分析。 l  集中趋势分析
原创 2010-09-03 14:03:18
3074阅读
2评论
数据使用的是Motor Trend杂志的车辆路试(mtcars)数据。监测点在于每加仑汽油行驶英里数(mpg)、马力(hp)、车重(wt)。主要是计算描述性统计量,
原创 2022-05-09 21:19:49
304阅读
一、什么是描述统计分析(Descriptive Analysis)概念:使用几个关键数据描述整体的情况描述性数据分析属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析法、交叉分析法等。描述性统计分析要对调查总体所有变量的有关数据统计描述,主要包括数据的频数分析数据的集中趋势分析数据离散程度分析数据的分布、以及一些基本的统计图形。Excel里的分析工具库里的数据分析可以实现描
原创 2021-01-20 08:30:46
1342阅读
本小节介绍什么是描述性统计分析,以及常用的指标
原创 2021-09-07 14:06:56
1038阅读
描述性统计分析(Description Statistics)是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。描述性统计分析分为集中趋势分析和离中趋势分析。提到用python来进行描述性统计分析,第一反应就是用:dataframe.describe(), 我们不妨用一组数据来展示:# 读取数据 df = pd.read_csv(
转载 2023-10-12 11:00:19
182阅读
目录一:一些基本方法1.归约方法2.积累型方法3.其他方法二:相关和协方差三:唯一值,计数和成员属性  pandas对象有一个常用数学,统计学方法的集合。大部分属于归纳或汇总统计。这些方法从DataFrame的行或列中抽取一个Series或一系列的值。   pandas的描述性统计的方法和NumPy的方法相比,内建了处理缺失值的功能,很好地针对于每一个我们需要处理的数据。一:一些基本方法1.归约
有很多方法用来集体计算DataFrame的描述性统计信息和其他相关操作。 其中大多数是sum(),mean()等聚合函数。 一般来说,这些方法采用轴参数,就像ndarray.{sum,std,...},但轴可以通过名称或整数来指定:数据帧(DataFrame) - “index”(axis=0,默认),columns(axis=1) 下面创建一个数据帧(DataFrame),并使用此对象
原创 2019-10-30 22:12:00
215阅读
学习了机器学习这么久,第一次真正用机器学习中的方法解决一个实际问题,一步步探索,虽然最后结果不是很准确,仅仅达到了0.78647,但是真是收获很多,为了防止以后我的记忆虫上脑,我决定还是记录下来好了。 1,看到样本是,查看样本的分布和统计情况#查看数据统计信息 print(data_train.info()) #查看数据关于数值的统计信息 print(data_train.descri
# 使用R语言对iris数据进行描述性统计分析 ## 流程图 ```mermaid flowchart TD Start --> 准备数据 准备数据 --> 数据探索 数据探索 --> 描述性统计分析 描述性统计分析 --> End ``` ## 步骤 | 步骤 | 描述 | |------|------| | 1 | 准备数据 | | 2 | 数据探索 |
原创 6月前
111阅读
        查看运行结果: #查看已安装的包,查看已载入的包,查看包的介绍 ########例题3.1 #向量的输入方法 w<-c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0) plot(w)#概况,数据的可视化可以让我们看的更轻松
原创 2021-08-31 13:54:50
1513阅读
      #查看已安装的包,查看已载入的包,查看包的介绍 ########例题3.1 #向量的输入方法 w<-c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0) plot(w)#概况,数据的可视化可以让我们看的更轻松 summary(w) #求均
原创 2021-08-30 16:22:26
284阅读
本系列是针对《机器学习实战》蜥蜴书第二版自己的总结,结合吴恩达的ML课部分理论内容。这里拿泰坦尼克这个经典例子来说明对于机器学习算法的数据清洗技术。观察数据首先从kaggle下载数据得到 train.csv 和 test.csv加载数据train_data = pd.read_csv('drive/Colab Notebooks/ml/datasets/titanic/train.csv') te
说明:本文为博主原创文章,未经博主允许不得转载。如果代码有不懂的,欢迎与我探讨!邮箱:1103540209@qq.comgithub地址:https://github.com/wstchhwp描述性统计分析1.单因子频数:描述名义变量的分布-----条形图、饼状图2.单变量描述:描述连续变量的分布-----直方图3.两个分类变量+频数(统计样本数用的):表分析(先行后列)------...
原创 2021-06-18 16:21:43
1796阅读
说明:本文为博主原创文章,未经博主允许不得转载。 如果代码有不懂的,欢迎与我探讨! github地址:https://github.com/wstchhwp文章目录​​一、描述统计方法大全​​​​1.单因子频数:描述名义变量的分布-----条形图、饼状图​​​​2.单变量描述:描述连续变量的分布-----直方图​​​​3.两个分类变量+频数(统计样本数用的):表分析(先行后列)------分类柱
原创 2022-02-23 17:11:13
1620阅读
泰坦尼克号乘客数据和鸢尾花数据一样, 是机器学习中最常用的样例数据之一下载数据登录 https://www.kaggle.com , 在帐户页面中https://www.kaggle.com/walterfan/account 页面上选择 "Create API Token" , 下载 kaggle.json文件内容为{"username":"$user_name","key":"$use
目录一、数据获取(可用数据):二、python常用的工具包:(即用即查)三、简单数据分类:四、基本的描述性分析1、数据预览2、异常值分析——需要对数据进行单变量及整体异常值分析(具体问题具体分析)3、对比分析4、分布分析五、数据简单可视化分析:matplotlib;seaborn;plotly1、柱状图2、直方图3、箱线图4、折线图5、饼图一、数据获取(可用数据):1、Kaggle&天
转载 2023-09-01 18:54:38
65阅读
基本知识: **1.1.**Summary函数的格式及参数意义 调用格式: summary(x, maxsum, digits, quantile.type) summary 参数: x 要进行统计的对象比方说是个数据框 maxsum 整数值,对于因子型变量展示几个水平 digits 整数值,属于格式输出中指定有效数字的位数 quantile.type 使用哪种方法计算4分位 除了x,其它参数一般
  • 1
  • 2
  • 3
  • 4
  • 5