案例:泰坦号数据分析背景:泰坦尼克号的沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在首次航行期间,泰坦尼克号撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。这场轰动的悲剧震撼了国际社会,并导致了更好的船舶安全条例。 海难导致生命损失的原因之一是没有足够的救生艇给乘客和机组人员。虽然幸存下来的运气有一些因素,但一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。数据描述
转载 2023-08-13 15:31:06
848阅读
接触数据挖掘内容较少,加之本次写作业较为匆忙,只能借鉴大佬思路进行相应的探索,后续会合理安排工作与学习时间,挤出时间认真完成作业!!数据探索之前断断续续做过中文文本分类项目,通过朴素贝叶斯原理,使用多项式算法建立模型对商品进行打标签,才算是首次接触数据挖掘,通过中文文本分类,第一次了解过拟合、交叉验证、TF-IDF、词向量等等术语,不断地加深对数据挖掘的认知,而本次泰坦尼克-数据挖掘项目,算是另一
泰坦尼克号数据可视化分析报告 1. 提出问题泰坦尼克号作为一部感人至深的电影流传至今,作为数据分析领域的一员,也站在数据分析的角度对其进行一些思考和分析,究竟什么样的人在泰坦尼克号更容易生还?2.理解数据2.1 采集数据从Kaggle泰坦尼克号项目界面下载数据:Kaggle泰坦尼克号项目2.2 导入数据 import 2.3 查看数据信息 print 由上面信息可看出,数据
文章目录泰坦尼克号旅客生存预测1. 数据1.1 获取1.2 数据展示及主要字段说明2. 数据预处理2.1 读入数据2.2 查看数据摘要2.3 筛选提取字段2.4 存在的问题及解决方案2.5 找出有 null 值的字段2.6 填充 null 值2.7 转换编码2.8 删除 name 字段2.9 打乱数据顺序2.10 分离特征值和标签值2.11 特征值标准化处理2.12 完整的数据预处理函数3.
import pandas #ipython notebook titanic = pandas.read_csv("titanic_train.csv") titanic.head(5)titanic["Age"] = titanic["Age"].fillna(titanic["Age"].median()) #age将空值填充为平均值 (处理age) titanic.describe()
泰坦尼克号乘客数据和鸢尾花数据一样, 是机器学习中最常用的样例数据之一下载数据登录 https://www.kaggle.com , 在帐户页面中https://www.kaggle.com/walterfan/account 页面上选择 "Create API Token" , 下载 kaggle.json文件内容为{"username":"$user_name","key":"$use
一,分析背景和目的分析背景:在上一篇里做过泰坦尼克号项目的数据清洗,模型训练,预估,链接如下https://zhuanlan.zhihu.com/p/157763714本篇着重于该项目的可视化分析目的:什么样的人在泰坦尼克号事件中的存活率较高?二,分析维度 三,导入数据 # Step1:导入数据处理包 四,理解数据1)理解字段 2)查看信息 #查看数据类型的信息 fu
数据提供有关泰坦尼克号乘客的信息,可用于预测乘客是否幸存。1. 字段描述2. 数据预览3. 字段诊断信息
原创 2022-10-17 13:46:11
191阅读
泰坦尼克号数据,是kaggle(Titanic: Machine Learning from Disaster)上入门机器学习(ML)的一个好的可选数据,当然,也是不错的练习数据分析的数据。对 python ,在数据分析方面,作为一柄利器,涵盖了「数据获取→数据处理→数据分析→数据可视化」这个流程中每个环节,这个项目作为新生练习最好不过了。探索的问题主要探寻坦尼克号上的生还率和各因素(客舱等
# Python泰坦尼克号数据分析实现指南 ## 1. 简介 在本文中,我们将介绍如何使用Python语言进行泰坦尼克号数据分析。泰坦尼克号是一艘著名的沉船事件,我们将使用相关的乘客数据进行分析。本文将逐步指导您完成整个数据分析过程。 ## 2. 数据准备 首先,我们需要获取泰坦尼克号乘客数据。您可以在Kaggle网站( ## 3. 导入所需的库 在开始分析之前,我们需要导入一些常用的Pyt
原创 2023-11-13 05:01:57
158阅读
泰坦尼克号生存预测这是kaggle上面比较入门的一个比赛。今天让我们来看看怎么做吧。kaggle传送门。首先报名,下载数据数据载入及概述首先导入从Kaggle上面下载的数据,在导入的过程中就需要先导入一些必备的包了。import numpy as np import pandas as pd # 接着导入我们的训练数据 filename = 'titanic/train.csv' # 这
Sklearn实现决策树详解 Sklearn实现了以下四种类型的树 1)tree.DecisionTreeClassifier([criterion, …]) 决策树分类器.2)tree.DecisionTreeRegressor([criterion, …]) 回归树.3)tree.ExtraTreeClassifier([criterion, …]) 一种非常随机的树分类器.4)tree.Ex
项目概述在本项目中,将会分析 泰坦尼克号数据,将会使用 Python 库 NumPy、Pandas 和 Matplotlib 。本项目效果展示需要安装的软件和库需要按照 Python,和以下库pandasnumpymatplotlibcsv建议安装 Anaconda,它自带所有必要的包和 IPython 笔记本。安装 AnacondaAnaconda 可用于 Windows、Mac OS X 和
hi everybody,这周开始了对随机森林算法的学习,kaggle网站上有一个关于泰坦尼克号幸存预测的案例很适合用随机森林算法来预测,所以我们本周的算法就以这个数据开始讲解。定义问题本研究是利用泰坦尼克号乘客数据,运用随机森林算法根据乘客的不同变量参数特征进行学习,最后得出预测是否幸存。本文运用的编程语言为 python所需要的包为:sklearn,numpy,matplotlib,sea
题目一:数据清洗及预处理一、首先导入读取csv的pandas包,然后读取训练数据及预测数据import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns #训练数据 train = pd.read_csv("train.csv") #测试数据 test = pd.re
# 实现泰坦尼克号数据的分析与可视化 ## 介绍 泰坦尼克号数据是一个经典的用于机器学习和数据分析的数据,它包含了泰坦尼克号上乘客的信息,如年龄、性别、船票等级、是否生还等等。在本文中,我将指导你使用R语言来实现对泰坦尼克号数据的分析与可视化。 ## 步骤 下面是实现该任务的整个流程,我们将分为以下几个步骤来进行: | 步骤 | 描述 | | ---- | ---- | | 1. 导
原创 2023-07-23 07:37:55
550阅读
这次尝试用逻辑回归来解决泰坦尼克号的问题。 逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。二分类问题是指预测的y值只有两个取值的问题。逻辑回归和线性回归都属于广义上的线性模型。逻辑回归假设因变量y服从伯努利分布,线性回归假设因变量y服从高斯分布。逻辑回归通过Sigmoid函数引入了非线性因素。用python画一下
文章目录一、建模基本流程二、结构化数据建模流程2.1 泰塔尼克号数据2.2 数据处理2.3 建立模型2.4 训练模型2.5 评估模型2.6 模型预测27 保存模型 一、建模基本流程数据处理建立模型训练模型评估模型模型预测保存模型二、结构化数据建模流程数据文件:链接:https://pan.baidu.com/s/1H3QBVLPv4WeUnIYH92OKEA?pwd=wh77 提取码:wh77
问题简介、目标问题简介:泰坦尼克号的沉没是历史上最重大的沉船事件之一。1912 年 4 月 15 日,在她的处女航中,被广泛认为“永不沉没”的泰坦尼克号在与冰山相撞后沉没。不幸的是,没有足够的救生艇供船上的每个人使用,导致2224名乘客和船员中有1502人死亡。虽然生存有一些运气因素,但似乎有些人群比其他人更有可能生存。目标:通过综合分析乘客的各类特征对幸存与否的影响,通过机器学习建立并选择最优模
这是我做的第一个半完整的数据分析项目,里面包含数据获取,数据清洗,描述性统计,数据可视化,机器学习建模等内容。花了我两天时间,中间出了很多bug,而且原始数据也有问题,因此存在较多缺陷,还请各位大佬多多指教!目录: 1.数据获取 2.数据预处理 3.描述性统计 4.变量分布统计 5.探索变量间的关系 6.特征处理 7.机器学习建模 8.模型准确性评估第一步:数据获取 直接从互联网获取数据impor
转载 2023-12-28 10:01:12
320阅读
  • 1
  • 2
  • 3
  • 4
  • 5