泰坦尼克号生存分析1.对数据进行大概浏览以及对缺失数据的处理2.描述性数据可视化3.随机森林模型分析1.进行最简单的随机森林模型测试2.各个特征的重要性3.和决策树进行对比4.对超参数进行调优 摘要:本次分析主要对泰坦尼克号上的人员特征进行描述性统计分析,以及利 用随机森林出建立简单的预测模型。 1.对数据进行大概浏览以及对缺失数据的处理train_data = pd.read_csv("tra            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-19 09:23:16
                            
                                37阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            sklearn的随机森林实现泰坦尼克号旅客生存预测介绍数据集介绍算法学习器分类器实现数据下载与导入预处理建立模型评估,预测结果代码 介绍数据集介绍 boat(船),body(身体),home(家庭地址)看起来没什么用,删去。算法随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-06 12:52:50
                            
                                89阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            本文主要用kaggle网站上的泰坦尼克号生存数据信息,来进行机器学习的入门。其中用到的是逻辑回归算法。一、提出问题什么样的人在泰坦尼克号中更容易存活?二、理解数据1、数据来源2、导入数据测试数据集比训练数据集少一列,是因为测试数据集里缺少生存情况这一列,这一列是需要我们通过构建模型进行预测的。pandas的append( )为添加新元素,在表尾中添加新行,并且返回添加后的数据对象。3、查看数据集信            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-05 20:39:58
                            
                                49阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录前言: 【一】数据清洗及可视化介绍知识点环境准备数据特征介绍检查数据相关系数缺失值偏态分布数值化和标准化离群点实验总结一【二】分类模型训练及评价介绍环境准备模型评估模型选择性能度量实验总结二【三】随机森林分类器及其参数调节介绍知识点实验原理决策树集成学习随机森林Python sklearn 参数调节交叉验证法调参scikit-learn 自动调参函数 GridSearchCV实验总结            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-28 12:53:10
                            
                                64阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1. one hot encoder
one hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码:
>>> from sklearn.preprocessing import OneHotEncoder
>>> enc = OneHotEncoder()
>>> enc.fit([            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-09 16:54:21
                            
                                40阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            【编者按】大家熟知的电影《泰坦尼克号》,是一部经典的奥斯卡电影,也是一部以真实故事改编而拍的电影。真实故事中,1912年4月14日,这艘当时世界上体积最庞大、内部设施最豪华的客运轮船泰坦尼克号,与一座冰山相撞,2224名船员及乘客中,逾1500人丧生,其中仅333具罹难者遗体被寻回。时隔一个世纪之久,如果用编程的角度,来审视这场灾难,会有什么发现呢?今天的文章,正是用编程来研究泰坦尼克号的生还者情            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-29 17:12:50
                            
                                252阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            数据集下载链接:https://pan.baidu.com/s/1f6x0ZHlAdwch52rHKDYBgA 提取码:9hgz数据集简介PassengerId: 乘客ID
Survived: 是否生存,0代表遇难,1代表还活着
Pclass: 船舱等级:1Upper,2Middle,3Lower
Name: 姓名
Sex:性别
Age: 年龄
SibSp: 兄弟姐妹及配偶个数
Parch:父母或            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-24 11:34:31
                            
                                83阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、概述本文分析了泰坦尼克号船员获救的数据集合。数据集包括船员的一些信息(年龄、船舱等级、名字等等)和 是否获救的数据PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked游客ID 是否被救 船舱等级 名字 性别 年龄 兄弟姐妹数 老人孩子数 票编号 票价 座位号 哪个站登船的注意:兄弟姐妹数、            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-18 07:02:20
                            
                                39阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、背景 Titanic: Machine Learning from Disaster-https://www.kaggle.com/c/titanic/data,必须先登录kaggle就是那个大家都熟悉的『Jack and Rose』的故事,豪华游艇倒了,大家都惊恐逃生,可是救生艇的数量有限,无法人人都有,副船长发话了『 lady and kid first!』,所以是否获救其实并非随机,而是            
                
         
            
            
            
            P1 数据载入及初步观察1.1 数据载入# 1.1.1 导包
import numpy as np
import pandas as pd
-----------------------------------
#1.1.2 载入数据
df = pd.read_csv('train.csv')
df = pd.read_csv('E:/pythonProject/jupyter/第一单元项目集合/            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-21 21:18:00
                            
                                47阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            【目录】kaggle介绍项目练手:泰坦尼克号收获分享 一、kaggle介绍 kaggle是一个数据科学竞赛平台,创立于2010年,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。kaggle官方表示,该社区目前在全世界范围内已有超过80万注册用户。 以上是官方介绍,我们换个角度来理解kaggle:kaggle是为了解决什么问题而被创造出            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-04 13:12:48
                            
                                304阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            这是我做的第一个半完整的数据分析项目,里面包含数据获取,数据清洗,描述性统计,数据可视化,机器学习建模等内容。花了我两天时间,中间出了很多bug,而且原始数据也有问题,因此存在较多缺陷,还请各位大佬多多指教!目录: 1.数据获取 2.数据预处理 3.描述性统计 4.变量分布统计 5.探索变量间的关系 6.特征处理 7.机器学习建模 8.模型准确性评估第一步:数据获取 直接从互联网获取数据impor            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-28 10:01:12
                            
                                330阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            泰坦尼克号代码简单分析流程分析 1、导入相关库和类 2、获取数据 3、数据处理 4、数据集划分 5、特征工程 6、决策树预估 7、模型评估内容介绍首先我们需要清楚我们的目标,就是通过船上乘客的信息分析和建模,预测哪些乘客得以生还。其次,我们在说明一下文件中各个英文单词的意思: PassengerId :乘客的id号 Survived :生存的标号,数值1表示这个人很幸运,生存了下来。数值0,则表示            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-02 16:43:17
                            
                                59阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             文章目录数据集数据清理特征工程分类结果 Xgboost为一个十分有效的机器学习模型,在各种竞赛中均可以看到它的身影,同时Xgboost在工业届也有着广泛的应用,本文以Titanic数据集为研究对象,简单地探究Xgboost模型建模过程,同时对数据清理以及特征工程的内容作简单的介绍,以此作为Xgboost模型的学习笔记,错误和不足之处还请各位看官指出。数据集本文数据集源自于竞赛Titanic: M            
                
         
            
            
            
            连续变量对获救情况的影响Age–> 连续值特征对结果的影响print('Oldest Passenger was of:',data['Age'].max(),'Years')
print('Youngest Passenger was of:',data['Age'].min(),'Years')
print('Average Age on the ship:',data['Age'].m            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-10 10:00:05
                            
                                250阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            数据集来源于kaggle经典竞赛数据集 
 一、目的根据数据集中的信息,利用python机器学习对泰坦尼克乘客是否生还进行预测。二、数据集我的数据集有三个,test、train、genderclassmodel,都是csv格式test和train数据集中的字段:       从左到右依次是,乘客编号、是否生还、仓位、姓名、性别、年龄、船上同辈亲属的人数、乘客有父母或孩子的人数、船票号、旅费            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-10 17:40:00
                            
                                144阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            import pandas #ipython notebook
titanic = pandas.read_csv("titanic_train.csv")
titanic.head(5)titanic["Age"] = titanic["Age"].fillna(titanic["Age"].median())  #age将空值填充为平均值  (处理age)
titanic.describe()            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-02 13:51:20
                            
                                183阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             上一篇数据分析案例是回归问题,本次案例带来分类问题的 机器学习案例。这个数据集比上个案例更小、更简单,代码也不复杂,新手都可以学一学。1、背景分析预测乘客是否存活下来泰坦尼克号是数据科学机器学习领域很经典的数据集,在统计学里面也有很多案例,比如拟合优度检验,方差分析等等。其背景就是当年泰坦尼克号上那么多人,灾难发生后,有人生存有人死亡,而且每个人都有很多不同的特征,比如性别,年龄,船仓            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-26 09:18:55
                            
                                152阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            概述1912年4月15日,泰坦尼克号在首次航行期间撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。沉船导致大量伤亡的原因之一是没有足够的救生艇给乘客和船员。虽然幸存下来有一些运气因素,但有一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。在本文中将对哪些人可能生存作出分析,特别是运用Python和机器学习的相关模型工具来预测哪些乘客幸免于难,最后提交结果。从kaggle泰坦尼克生存            
                
         
            
            
            
            1. 引言0x1:故事背景泰坦尼克号(RMS Titanic),又译作铁达尼号,是英国白星航运公司下辖的一艘奥林匹克级邮轮,排水量46000吨,于1909年3月31日在北爱尔兰贝尔法斯特港的哈兰德与沃尔夫造船厂动工建造,1911年5月31日下水,1912年4月2日完工试航。泰坦尼克号是当时世界上体积最庞大、内部设施最豪华的客运轮船,有“永不沉没”的美誉 。然而不幸的是,在它的处女航中,泰坦尼克号便