本笔记前面的笔记参照b站视频,后面的笔记参考了付费视频 笔记顺序做了些调整【个人感觉逻辑顺畅】,并删掉一些不重要的内容,以及补充了个人理解 系列笔记目录【持续更新】:1.R语言 R语言是S语言的一种实现。R是一个全面的统计研究平台,提供了各式各样的数据分析技术,拥有顶尖的绘图功能。 R中有大量的扩展功能,这些扩展功能称为R的包,目前R已经有5000个以上的扩展包 R的官网:https://www            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-28 14:27:38
                            
                                176阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            数据集2.1数据集概念概念:通常是由数据构成的矩形数据不同行业对数据集的行和列叫法不同行业人行列统计学家观测(observation)变量(variable)数据库分析师记录(record)字段(field)数据挖掘和机器学习研究中示例(example)属性(attribute)可处理的数据类型(模式):数值型、字符型、逻辑型、复数型、原生型(字节)存储数据的结构:标量、向量、数据、数据框和列表实            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-18 14:40:25
                            
                                173阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # 如何在R语言中使用swiss数据集
## 概述
在这篇文章中,我将向你展示如何在R语言中使用swiss数据集。swiss数据集包含了关于瑞士的一些基本统计数据,是一个很好的学习和练习数据集。
### 流程
下面是使用swiss数据集的整个流程,我们将通过几个步骤来实现这个目标。
| 步骤 | 描述 |
| --- | --- |
| 1 | 加载swiss数据集 |
| 2 | 查看数据            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-06-24 04:29:41
                            
                                198阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            using TEntityContext context = new TEntityContext(); //foreach(var record in listRecords) //{ //} context.Set<T>().AddRange(listRecords); //context.Ad            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2020-05-15 15:28:00
                            
                                101阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            h5py简单介绍h5py文件是存放两类对象的容器,数据集(dataset)和组(group),dataset类似数组类的数据集合,和numpy的数组差不多。group是像文件夹一样的容器,它好比python中的字典,有键(key)和值(value)。group中可以存放dataset或者其他的group。”键”就是组成员的名称,”值”就是组成员对象本身(组或者数据集),下面来看下如何创建组和数据集            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-09 15:03:36
                            
                                497阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            chap.2 创建数据集2.1 数据集的概念数据集行列的叫法:1)统计学家    观测(observation)和变量(variable)                           2)数据库分析师    记录            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-16 19:38:37
                            
                                23阅读
                            
                                                                             
                 
                
                             
         
            
            
            
              R语言网络爬虫工具中比较常用的包有RCurl、XML、rvest等,本文以新浪财经频道A股交易数据的抓取为例简单总结一下rvest包的用法。install.packages('rvest')
library(rvest)url <- 'http://vip.stock.finance.sina.com.cn/corp/go.php/vMS_FuQuanMarketHistory/stoc            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-28 17:24:48
                            
                                4阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            R语言入门学习笔记!
    2.1 数据集的概念不同的行业对于数据集的行和列叫法不同。统计学家称它们为观测(observation)和变量(variable),数据库分析师则称其为记录(record)和字段(field),数据挖掘和机器学习学科的研究者则把它们叫作示例(example)和属性(attribute)。R中有许多用于存储数据的结构,包括            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-12 09:19:53
                            
                                96阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            数据集结构数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。不同的行业对于数据集的行和列叫法不同。统计学家称它们为观测(observation)和变量(variable),数据库分析师则称其为记录(record)和字段(field),数据挖掘和机器学习学科的研究者则把它们叫作示例(example)和属性(attribute)。(摘录自R语言实战第2版)R 的数据结构R中有许多用于存储数            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-16 22:15:15
                            
                                94阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            数据集的概念1.1何为数据集数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。不同的行业对于数据集的行和列叫法不同。统计学家称它们为观测(observation)和变量(variable),数据库分析师则称其为记录(record)和字段(field),数据挖掘和机器学习学科的研究者则把它们叫作示例(example)和属性(attribute)。我们在本篇使用术语观测和变量。你可以清楚地            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-17 18:09:32
                            
                                226阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            摘要本文以R语言为基础,利用数据预览,探索式数据分析,缺失值的填补,增加新特征以及去除相关特征等方法,并通过构建随机森林模型,参数调优的方式对kaggle上的泰坦尼克项目进行了生存预测,结果是得分为0.81818,前4%。一、项目介绍泰坦尼克生存预测是Kaggle上参赛人数较多的竞赛之一,对于数据爱好者来说是初入机器学习领域相对比较容易的比赛,属于入门级比赛项目。比赛的目的其实很简单            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-13 22:17:01
                            
                                718阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录1.加载数据2. 查看数据3. 数据类型转化3.1 批量转化变量为因子型3.2 插入缺失值4. 重命名列变量5. 创建新变量6. 删除列变量7. 列变量重排序8. 行观测重排序  8.1升序排列 8.2 降序排列8.3 缺失值排序9. 数据筛选子集9.1 筛选行数据9.2 筛选列变量10. 修改因子水平顺序11. 修改因子水平名称12. 连续变量转分类变量13.            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-16 20:21:22
                            
                                157阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            多方法实现单一决策树
    决策树比较简单明晰,但存在不稳定的风险,数据的微小变化会导致最佳决策树结构的巨大变化,且决策树可能会变得比较复杂。其算法原理参见https://zhuanlan.zhihu.com/p/148010749。笔记中主要以R语言中iris数据集描述实现步骤。data("iris") 
#导入iris数据集set.seed(1926)
#            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-05-23 16:18:48
                            
                                686阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            R语言实现决策树和朴素贝叶斯分类预测,并比较准确度(含数据集)一开始用了《数据科学与大数据分析》(美国EMC教育服务集团)的书上的案例分析是否出去玩,后来发现只有10条训练数据,并且测试数据真值也不知道,故换了鸢尾花数据。 源数据链接:iris.data 提取码: frg4 如果打不开网盘请用这个地址,选iris.data右键保存:http://archive.ics.uci.edu/ml/mac            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-21 18:28:11
                            
                                101阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            基本内容描述型统计分析频数表和列联表卡方检验相关系数和协方差t检验描述型统计量首先我们以mtcars数据集为例,先看一下这个数据集前几行的内容 ,主要有英里数(mpg),马力(hp),车重(wt),变速箱的类型(am),气缸数(cyl)等> head(mtcars)
                   mpg cyl disp  hp drat    wt  qsec vs am gear            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-20 23:17:20
                            
                                535阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            R中的数据集数据集的概念:数据集是由数据构成的一个矩形数组。统计学家称数据集的行为观测,列为向量;数据库分析师称数据集的行为记录,列为字段;数据挖掘/机器学习的研究者则称其为示例和属性。数据集包括数据结构、内容和数据类型。R语言常用的数据结构包括标量、向量、数组、数据框和列表,可以处理的数据类型包括数值型、字符型、逻辑型、复数型(虚数)、原生型(字节)。向量定义:向量是用于存储数值型、字符型或逻辑            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-19 12:32:37
                            
                                285阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            文章目录数据描述导入数据变量含义数据清洗检查缺失值及重复值探索性分析钻石的形状钻石的重量分布每种切割类型、颜色、清晰度的钻石分别有多少个钻石的价格最昂贵的10只钻石的属性信息理想切割、颜色和清晰度最好的钻石的价格钻石各属性与价格的关系整体价格分布情况不同切割状态钻石的价格分布不同颜色钻石的价格分布不同透明度的价格分布钻石长宽深与价格之间的关系不同切割类型的钻石,价格是否具有显著性差异?价格分布的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-16 22:08:05
                            
                                284阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            在用R语言做数据分析的时候,我们经常需要一些数据做实验,尤其当学会一个新的方法或者算法的时候,就想赶快编程实现一下。那么,问题来了,用什么数据好呢,什么样的数据适合做这种实验呢?好在R语言提供了很多的基本数据集,这些基本数据集是可以直接加载、可以完成几乎所有的数据分析任务模拟数据的。这都是些哪些种类的数据呢?之前我们安装了 ggplot2 会使用其默认数据集,其实R语言自带也是有数据集的。&nbs            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-05-19 09:30:01
                            
                                661阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            R会把所有的对象读存入虚拟内存中。对我们大多数用户来说,这种设计可以提高与R相互的速度,但是当分析大数据集时,这种设计会降低程序运行速度有时还会产生跟内存相关的错误。 内存限制主要取决于R的build版(32位还是64位),而在32位的windows下,取决于操作系统的版本。以cannot allocate vectoe of size开头的出错信息表示无法分配充足的连续内存,而以cannot a            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-28 00:02:17
                            
                                264阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            R语言系统自带及附属包开元可用数据集汇总目录R语言系统自带及附属包开元可用数据集汇总#R自带数据集#R的各种包自带数据集#R自带数据集向量 euro #欧元汇率,长度为11,每个元素都有命名 landmasses #48个陆地的面积,每个都有命名 precip #长度为70的命名向量 rivers #北美141条河流长度 state.abb #美国50个州的双字母缩写 state.area #美国            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-09 09:16:54
                            
                                145阅读
                            
                                                                             
                 
                
                                
                    