#导入2个Python常用数据分析的库import numpy as npimport pandas as pd#将数据源文件读取#注意Windows环境下,需要用r转义一下,不然读取不进来train = pd.read_csv(r"C:甥敳獲AdministratorDesktoprain.csv")test = pd.read_csv(r"C:甥敳獲AdministratorDesktopes            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-07 13:17:16
                            
                                48阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            持续优化中~~~研究背景:泰坦尼克号的沉没是历史上最臭名昭著的沉船之一。1912年4月15日,泰坦尼克号在处女航时与冰山相撞沉没,2224名乘客和船员中有1502人遇难。这一耸人听闻的悲剧震惊了国际社会,并导致更好的船舶安全法规。船难造成如此巨大的人员伤亡的原因之一是船上没有足够的救生艇供乘客和船员使用。虽然在沉船事件中幸存下来是有运气因素的,但有些人比其他人更有可能存活下来。比如妇女、儿童和上层            
                
         
            
            
            
              在之前的机器学习中,我们使用的数据集都是sklearn自带的数据集以及非常经典的泰坦尼克号数据集,这些数据集都是一些经过处理被验证为对机器学习很友好的数据集,而现实生活中我们往往数据集并不是那么友好,所以需要对其进行一些预处理,下面我们利用sklearn对数据进行一些预处理。1数据无量纲化  在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的            
                
         
            
            
            
            今天,拿Kaggle中的项目来实战演练下:泰坦尼克号船员获救预测,先看下项目的基本描述:Competition Description项目描述The sinking of the RMS Titanic is one of the most infamous shipwrecks in history. On April 15, 1912, during her maiden voyage, th            
                
         
            
            
            
            import pandas #ipython notebook
titanic = pandas.read_csv("titanic_train.csv")
titanic.head(5)titanic["Age"] = titanic["Age"].fillna(titanic["Age"].median())  #age将空值填充为平均值  (处理age)
titanic.describe()            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-02 13:51:20
                            
                                183阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            【目录】kaggle介绍项目练手:泰坦尼克号收获分享 一、kaggle介绍 kaggle是一个数据科学竞赛平台,创立于2010年,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。kaggle官方表示,该社区目前在全世界范围内已有超过80万注册用户。 以上是官方介绍,我们换个角度来理解kaggle:kaggle是为了解决什么问题而被创造出            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-04 13:12:48
                            
                                304阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # 用Python分析泰坦尼克号沉船数据
泰坦尼克号是一艘著名的豪华客轮,它在1912年首次航行时撞上了冰山,导致1500多名乘客和船员遇难。这个悲剧引发了人们对海上安全的广泛关注。同时,泰坦尼克号也成为了数据分析和机器学习领域的重要案例。在本文中,我们将使用Python分析泰坦尼克号的数据,并尝试预测乘客的生存机会。
## 数据集介绍
我们将使用Kaggle上提供的“泰坦尼克号”数据集。这            
                
         
            
            
            
            # 基于Python的“泰坦尼克号”项目指导
欢迎来到“泰坦尼克号Python”项目的学习之旅!这个项目旨在使用Python分析泰坦尼克号乘客数据,预测哪些乘客可能生还。下面的文章将指引你一步步完成这个项目。
## 项目流程
在开始我们的项目之前,让我们先概述一下整个流程。以下是完成泰坦尼克号项目的步骤表:
| 步骤 | 描述            
                
         
            
            
            
            介绍泰坦尼克号是一艘著名的豪华客轮,在其处女航中遭遇灾难,导致1500多名乘客和船员丧生。在这个项目中,我们将基于泰坦尼克号数据集探索一个基于机器学习的问题,该数据集包含有关乘客的信息,如他们的年龄、性别、船舱等级以及他们是否在船沉没时幸存下来。本项目的目标是使用机器学习技术构建一个能够根据可用特征准确预测给定乘客是否在泰坦尼克号灾难中幸存的模型。这个问题不仅对历史感兴趣,还具有实际应用,比如改善            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-22 11:15:44
                            
                                65阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            泰坦尼克船员获救数据:    titanic_train.csv用excel打开数据集。显示如下:写在前边:np和pd.import pandas as pd         #造pandas的别名为pd
import numpy as np          #造numpy的别名为np 一、读取数据import pandas as pd         #造pandas的别名为pd
i            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-23 08:38:11
                            
                                88阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Kaggle入门——Titanic(一)最近开始接触Kaggle,并且希望借此机会学习一下PyTorch,因此开坑一下这个系列,主要是借助PyTorch搭建模型来解决Kaggle的问题,由于PyTorch和Kaggle都是入门,所有错误在所难免,大家别当做什么入门宝典== 问题大致就是船倒了,旅客需要逃生,但是救生艇的数量是有限的,没有办法每个人都坐上救生艇,然后副船长说出了女士和小孩优先,由此可            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-27 10:20:34
                            
                                133阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            工作流程:在数据科学竞赛的解决问题的七个步骤:1.问题或问题的定义。(理解题目)2.获得培训和测试数据。(获取数据)3.争论,准备清理数据。(初步清洗数据)4.分析、识别模式,并探索数据。(特征工程)5.模型,预测和解决问题。(机器学习算法介入)6.可视化报告,并提出解决问题的步骤和最终的解决方案。(调参、优化)7.供应或提交结果。涉及相关算法:线性回归、逻辑回归、随机森林、模型融合。问题回顾:1            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-15 19:37:17
                            
                                43阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            简介Titanic是Kaggle竞赛的一道入门题,参赛者需要根据旅客的阶级、性别、年龄、船舱种类等信息预测其是否能在海难中生还,详细信息可以参看https://www.kaggle.com/,本文的分析代码也取自 kaggle 中该竞赛的 kernal。数据介绍给出的数据格式如下:PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-16 20:32:36
                            
                                74阅读
                            
                                                                             
                 
                
                             
         
            
            
            
             文章目录数据引入和初步分析csv数据引入和概览初步探索分析PclassSexNameSibSpParchEmbarkedFare可视化分析AgeAge & SexPclass & AgePclass & Sex & EmbarkedEmbarked & Sex & Fare数据整理PassengerIdTitle将分类值转变为数值以便模型分析和预测            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-07 15:29:20
                            
                                276阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            数据集来源于kaggle经典竞赛数据集 
 一、目的根据数据集中的信息,利用python机器学习对泰坦尼克乘客是否生还进行预测。二、数据集我的数据集有三个,test、train、genderclassmodel,都是csv格式test和train数据集中的字段:       从左到右依次是,乘客编号、是否生还、仓位、姓名、性别、年龄、船上同辈亲属的人数、乘客有父母或孩子的人数、船票号、旅费            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-10 17:40:00
                            
                                144阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            泰坦尼克号生存分析1.对数据进行大概浏览以及对缺失数据的处理2.描述性数据可视化3.随机森林模型分析1.进行最简单的随机森林模型测试2.各个特征的重要性3.和决策树进行对比4.对超参数进行调优 摘要:本次分析主要对泰坦尼克号上的人员特征进行描述性统计分析,以及利 用随机森林出建立简单的预测模型。 1.对数据进行大概浏览以及对缺失数据的处理train_data = pd.read_csv("tra            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-19 09:23:16
                            
                                37阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            泰坦尼克号代码简单分析流程分析 1、导入相关库和类 2、获取数据 3、数据处理 4、数据集划分 5、特征工程 6、决策树预估 7、模型评估内容介绍首先我们需要清楚我们的目标,就是通过船上乘客的信息分析和建模,预测哪些乘客得以生还。其次,我们在说明一下文件中各个英文单词的意思: PassengerId :乘客的id号 Survived :生存的标号,数值1表示这个人很幸运,生存了下来。数值0,则表示            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-02 16:43:17
                            
                                59阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言:泰坦尼克号数据集,是kaggle竞赛(Titanic: Machine Learning from Disaster)上入门机器学习(ML)的一个高质量的可选数据集,我们可以用这个数据集实践我们的机器学习知识,熟悉数据分析“数据获取→数据清洗→特征工程→建模分析→网格调参(超参数)→数据可视化”这个流程中每个环节。探索的问题:探寻泰坦尼克号上乘客的生还率和各个因素如(客舱等级、年龄、性别、上            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-21 10:24:40
                            
                                296阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            本文主要用kaggle网站上的泰坦尼克号生存数据信息,来进行机器学习的入门。其中用到的是逻辑回归算法。一、提出问题什么样的人在泰坦尼克号中更容易存活?二、理解数据1、数据来源2、导入数据测试数据集比训练数据集少一列,是因为测试数据集里缺少生存情况这一列,这一列是需要我们通过构建模型进行预测的。pandas的append( )为添加新元素,在表尾中添加新行,并且返回添加后的数据对象。3、查看数据集信            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-05 20:39:58
                            
                                49阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            数据准备import numpy as np
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
from __future__ import division
from scipy import stats
import seaborn as sns
import pand            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-25 17:30:16
                            
                                121阅读
                            
                                                                             
                 
                
                                
                    