一、数据科学数据科学:计算和统计技术的综合应用,用于解决一些真实世界中的问题。 计算:获得结果 统计:分析和建模 真实世界:机器学习、AI数据科学Data Science = 统计+数据处理+机器学习+科学探究+可视化+商业分析+大数据数据科学:数据收集-提出初始问题-解决问题-阐释方案 数据科学不是统计学。 统计学:包括更多数学和理论领域的内容,偏向算法。 数据科学:更偏向实践应用。数据可视化、
1、数据框是R语言里中的一种数据结构,其内部可以由多种数据类型,每一列是一个变量,每行是一个观测记录。在R数据框是很通用的数据结构,它是一种特殊的列表对象2、初始化数据框 1. > mydataframe=data.frame( 2. + name=c(\"张三\", \"李四\", \"王五\", \"赵六\", \"丁一\"), 3. + sex=c(\"F\", \"F\",
转载 2023-07-31 10:48:17
0阅读
  R语言网络爬虫工具中比较常用的包有RCurl、XML、rvest等,本文以新浪财经频道A股交易数据的抓取为例简单总结一下rvest包的用法。install.packages('rvest') library(rvest)url <- 'http://vip.stock.finance.sina.com.cn/corp/go.php/vMS_FuQuanMarketHistory/stoc
转载 2023-08-28 17:24:48
0阅读
摘要: 仅用于记录R语言学习过程:内容提要:字符串的处理、正则表达式、stringi包和stringr包正文:  字符串的处理n  导读:u  nchar(x)函数:字符串的个数:> x <- c('fudan','jiaoda')> nchar(x)[1] 5 6   #返回字符串的个数u  length()函数:返回
R语言 一、数组 > x=c(1:6) > x [1] 1 2 3 4 5 6 > is.vector(x) #判断x是一个向量 [1] TRUE > is.array(x) #判断x不是一个数组 [1]
转载 2023-08-25 10:53:04
177阅读
生信技能树R语言部分学习笔记dir() #列出工作目录下的文件 ls() #列出环境中的变量1. 认识csv格式csv打开方式: (1)默认excel (2)记事本打开 (3)sublime(适用大文件) (4)R语言读取:读进R语言之后的数据是一个数据框,可赋值,变量名与文件名无必然联系,对数据框进行的修改不会同步到表格文件。2. 认识分隔符常见分隔符: 逗号, 空格 制表符(\t)C
转载 2023-06-21 22:56:58
504阅读
目录1.载入R包2.利用AnnoProbe下载GEO数据库中的数据3.提取表达矩阵和临床信息4.输出文件1.获得GEO数据库中的数据下面以GSE14520数据系为例:获得GEO数据库中的数据总体上分为两种办法:1.从GEO数据库中下载;2.用R包下载(1)从GEO数据库中下载进入GEO网站,找到对应的Series Matrix File(s)即表达矩阵进行下载,保存到本地进行加载。 在R
转载 2023-06-21 10:40:21
2628阅读
R语言提取PDF表格数据#简单!!!R语言提取PDF表格数据#简单!!!#需要用到pdftables包以及api号,api需要从https://pdftables.com网站注册申请api,一般申请后可以免费转50页pdfinstall.packages("pdftables")library("pdftables")write.csv(head(iris,20),file = "test.csv
要点:1)数据可视化:直方图hist()、QQ图qq.plot()、箱图boxplot()、二维箱图bwplot()2)空值处理:查找complete.cases()、空值删除na.omit()、均值/中位值填充mean()/median()3)多元回归:lm()4)回归树:rpart()5)模型选择/交叉验证:6)模型预测:1、问题描述监测和早期预测有害海藻开花对提升河流水质有很大作用。我们希望
R语言数据挖掘实战系列(2)二、R语言简介R语言是一种为统计计算和图形显示而设计的语言环境,具有免费、多平台支持,同时可以从各种类型的数据源中导入数据,具有较高的开放性以及高水准的制图功能。R是一个体系庞大的应用软件,主要包括核心的R标准包和各专业领域的其他包。R数据分析、数据挖掘领域具有特别优势。R安装R可在其主页(https://www.r-project.org/)上获得,根据所选择的平台
数据框是一种表格式的数据结构,其结构与矩阵类似,但数据框的每一列必须命名且为同类型数据数据框用于组织存储多个存储类型不相同的变量。数据框是一张二维表格,行和列分别称为观测和变量,在R中分别称为记录和域,域名即变量名。在实际运用中,数据框是R中最多使用的数据结构。如上为一组数据框,排名行称为表头,即为该数据框的各域名,除去域名行,数据框中的每一行可以视作一个列表,每一列可以视为一个矩阵。(一)数据
有时数据需要比向量更复杂的存储方式。幸运的是,R软件提供了很多的数据结构。常见的有数据框(data.frame)、矩阵(matrix)、列表(list)以及数组(array)。数据框类似于电子表格,矩阵类似于人们熟悉的矩阵数学计算,列表对于程序员比较熟悉。 01数据数据框是R语言中最有用的功能之一,它也是R语言的易用性经常被提及的原因之一。直观上,数据框就像Excel电子表格一样有列和
转载 2023-07-07 22:22:42
115阅读
本文将探讨 Fisher 和 Anderson 鸢尾花数据集(查看文末了解数据获取方式)中呈现的三个变量之间的关系,特别是virginica 和 versicolor 级别的因变量变量物种对预测变量花瓣长度和花瓣宽度的逻辑回归。单因素方差分析和数据可视化都确定了因变量的一个因素水平,即 I. setosa,很容易与其他两个因素线性分离,具有非常明显的均值和方差,因此不是我们对逻辑回归感兴趣。相关视
转载 2023-06-21 10:30:44
253阅读
我们在SCI论文中常常可以见到这样的表格,是根据分类来做出统计结果的,如下图,是根据患者是否存活把患者分成了两类幸存的和死亡的做分别统计,然后得出各类统计结果 那么,R语言是怎么做出这样的表格呢?首先我们要把数据进行分割,得到一个幸存的数据表和一个死亡的数据表,然后再分别统计,我们今天利用R语言自带的subset函数来演示这一功能,这是一个非常重要的功能,为今后我们对数据进一步分析做准备。 我们使
janitor功能介绍janitor可以检查并清理脏数据,适用于R语言用户。主要功能如下: 1、完美格式化数据框的列名; 2、创建并格式化1-3个变量的频率表,可以看作是一个改进的table()函数; 3、提供用于清理和检查数据框的其他工具制表和报告功能类似于SPSS和excel的常用功能。janitor是一个对标tidyverse的包。具体来讲,它与%>%这一pipeline配合的很好,并
数据数据框是指有若干个行和列的数据集,它与矩阵类似,但是并不要求所有列都是相同的类型;数据框就是一个列表,它的每个成分都是一个向量,并且长度相同,以表格的形式展现。数据框是有列向量组成、有着矩阵形式的列表 数据框与最常见的数据表是对应的:每列代表一个变量属性,每行代表一条样本数据:1、数据框的建立data.frame() #用函数创建>sjk<-data.frame( Name
转载 2023-06-21 10:39:04
194阅读
在科学研究中免不了和数据打交道,收集到原始数据后我们经常需要对其进行清洗、转换才能得到我们需要的数据。今天我总结了一下自己常用的一些多条件的数据转换方法,在临床中遇到问题能多一种选择。 继续使用我们的乳腺癌数据(公众号回复:乳腺癌,可以获得数据)。我们先导入数据R包。library(survival) bc <- read.spss("E:/r/test/Breast cancer sur
今天的主题有点nerd。因为最近学习了一些R语言中关于中文分词、词频统计这类方法,就想到把它们用到中文歌词上,加以分析。之前看过不少不错的基于唐诗宋词、红楼水浒的文本分析技术帖,中文歌词的暂时还没看到。接下来几周的专栏,大概会延续这个主题,用R语言统计分析方法,深挖下中文歌词文本,看看有没有一些有趣的发现。首先读入数据,用的源文件是一个我整理的优秀中文歌词集: text <-
一、R简介1.1 工具:R下载:R: The R Project for Statistical ComputingRStudio下载:https://www.rstudio.com1.2 R扩展包安装扩展包packages:R界面:Rstudio界面: 载入扩展包:RStudio的packages勾选后,在控制台后显示载入 1.3 工作空间#1. R简介 #创建文件夹 #di
  • 1
  • 2
  • 3
  • 4
  • 5