KNN 算法是 Cover 和 Hart 于1968 年提出一种基于统计的学习方法。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。等于就是把先数据通过特征空间属性,主要就是计算欧式距离,分为K个相近类别,后面的数据根据自己的属性划分到和自己属性最相似的类别上。我们通过R语言来演示一下近邻分析(KNN),先导入我们的R包和数据,library(class)
转载
2023-11-24 21:21:11
126阅读
# R语言 NMF模型入门指南
## 引言
非负矩阵分解(NMF)是一种常见的矩阵分解方法,广泛应用于数据挖掘和机器学习,尤其在图像处理、文本挖掘和生物信息学等领域。这种方法能够将复杂的高维数据降维并提取潜在的特征。本文将通过实例介绍如何在R语言中实现NMF模型,同时展示数据的可视化过程,包括饼状图和流程图。
## NMF模型概述
NMF的基本假设是,给定一个非负矩阵 \( V \),我们
数据分析科学(统计学、计量心理学、计量经济学、机器学习)的发展一直与数据的爆炸式增长保持同步。 典型的数据分析步骤: 1.1 为什么要使用RR可以轻松的从各种类型的数据源导入数据,包括文本文件、数据库管理系统、统计软件、乃至专门的数据仓库R是免费的R是一个全面的统计研究平台R的可视化牛……1.2 R的获取和安装1.3 R的使用R是一种区分大小写的解释型语言。 一次交互会话期间的所有数据对象都被保
转载
2023-06-21 22:15:09
234阅读
是下载csv文件,https://github.com/stedy/Machine-Learning-with-R-datasets 在目录下创建R语言的workspace,将concrete.csv放在工作目录下;下载neuralnet添加包用于网络实现,可以直接通过键入语句下载: 如果因为网络问题无法下载成功也可以选择手动导入.tgz文件,https://github.com/HazelNut
转载
2023-08-21 14:28:59
183阅读
## R语言中非负矩阵分解(NMF)结果不能复现的解决方法
### 1. 问题描述
在R语言中进行非负矩阵分解(NMF)时,有时会遇到结果不能复现的情况。这意味着多次运行相同的代码得到的结果可能会有所不同,这对于需要结果的一致性的任务来说是不可接受的。本文将介绍如何解决这个问题,确保NMF的结果可以复现。
### 2. NMF流程
首先,让我们来了解一下NMF的基本流程。NMF的主要步骤如
原创
2023-11-29 15:58:58
471阅读
前言 最近想试一下捣腾一个 R 包出来,故参考了一些教程。现在看到的最好的就是谢益辉大大之前写过的开发R程序包之忍者篇,以及 Hadley 大神(ggplot2 devtools 等一系列包的作者)的 教程。但是前者有一些过时,后者是全英文的,所以我这里记录一下比较简单的过程,给读者们一个参考思路。如果你有一些 R 程序,想塞到去一个自创的 R 包中,那么这篇文章就可能是你想要的。为了方
转载
2023-09-02 15:12:54
589阅读
导读本文整理了R语言绘图中使用频率较高的程序包,每个程序包都附载相应的参考来源链接(链接里有实现绘图的脚本)和下载链接。另:茗创科技为大家提供免会员极速下载服务,需要相应程序包的小伙伴可以私信茗创科技周翊工程师,微信号MCKJ-zhouyi或17373158786。gganimate:在R中绘制动态图gganimate在CRAN上可通过install.packages('gganimate')来安
转载
2023-11-05 19:59:46
368阅读
1. vim 删除一列先使用ctrl + v,移动方向键,选择矩形区域,然后按 d 进行删除如果要在每一列前面加一个“{ ”------>修改列为特殊字符(ctrl + v选好后使用r替换成特殊字符),然后使用:%s替换命令如果要在每一列后面加一个“},” ------> 1. 修改最后一个字符为特殊;2. 使用命令“:%s /,\r/
转载
2024-08-20 20:02:48
68阅读
数据挖掘主要分为4类,即预测、分类、聚类和关联,根据不同的挖掘目的选择相应的算法。R语言博大精深,吸纳了来自各方的挖掘算法包,这些包都是由统计学家或是算法研究人员提供,我们可以站在这些伟人的肩膀上实现算法的应用。下面对常用的数据挖掘包做一个汇总:连续因变量的预测:stats包stats包stats包rpart包RWeka包adabag包adabag包randomForest包e1071包kernl
转载
2023-06-21 18:36:04
222阅读
另外再推荐一个在线绘制venn图的网站(除了广告较多都挺好的):https://www.meta-chart.com/venn具体包括下面三个包: limma、venneuler、VennDiagram。总的来说,三个包都有着各自的不足。下面会一一进行说明,这里先放上结论:综合方便程度以及函数的多样性而言,VennDiagram > venneuler > limma。limma首先针
转载
2024-01-25 16:49:11
567阅读
2.3.6 导入 SPSS 数据
IBM SPSS数据集可以通过foreign包中的函数read.spss()导入到R中,也可以使用Hmisc
包中的spss.get()函数。函数spss.get()是对read.spss()的一个封装,它可以为你自动设
置后者的许多参数,让整个转换过程更加简单一致,最后得到数据分析人员所期望的结果。
首先,下载并安装Hmisc包(foreign包已被默认安装
转载
2024-02-28 10:47:41
514阅读
转录组edgeR分析差异基因edgeR是一个研究重复计数数据差异表达的Bioconductor软件包。一个过度离散的泊松模型被用于说明生物学可变性和技术可变性。经验贝叶斯方法被用于减轻跨转录本的过度离散程度,改进了推断的可靠性。该方法甚至能够用最小重复水平使用,只要至少一个表型或实验条件是重复的。该软件可能具有测序数据之外的其他应用,例如蛋白质组多肽计数数据。可用性:程序包在遵循LGPL许可证下可
转载
2023-11-03 09:45:11
327阅读
qgg包:一款大规模数量遗传和基因组分析的R包一、概述该包基于:假设基因组特征可能会富集影响性状的因果变体。根据以往的研究和不同的信息来源,可以分成几种基因组特征,如基因、染色体或生物途径。1、核心功能拟合线性混合模型 构建基因组关系矩阵 估计遗传参数(遗传性和相关性) 基因预测 单标记关联分析 基因集合富集分析2、qgg利用以下处理大规模数据使用openMP的多核处理 在BLAS库(如OpenB
R 2.14.0版本以后,parallel包被作为核心包引入R,这个包主要建立在 multicore 和 snow 包的工作基础之上,包含了这两个包大部分功能函数,以及集成了随机数发生器。实际上对于R来说,并行化可以在不同的层级上实现:比如,在最底层,现在的多核CPU可以实现一些基础的数值运算(比如整数和浮点算数); 高级一点的,一些扩展BLAS包使用多线程并行处理向量和矩阵的操作,甚至有些R扩展
转载
2023-12-09 12:17:34
152阅读
R语言利用ALL数据集作柱状图和热图#下载数据包
#BiocManager::install(“ALL”)
#BiocManager::install(“Biobase”)#加载数据包
library(“ALL”)
library(“Biobase”)#载入数据集
data(“ALL”)#查看相关消息
ALL‘筛选数据子集,并且将数据存入case1内,条件一:BT列数据在前五行的集合内
转载
2023-08-09 20:55:45
215阅读
注:以下内容是我个人翻译自Rstudio官网的Shiny教程http://shiny.rstudio.com/articles/basics.html水平有限,敬请谅解在开始之前,先简单介绍一下Shiny框架,以下内容引用于百度百科:‘Shiny是R中的一种Web开发框架,使得R的使用者不必太了解css、js只需要了解一些html的知识就可以快速完成web开发,且shiny包集成了bo
转载
2023-10-30 21:34:27
102阅读
目录引言1、数据构造2、筛选2.1 dplyr::filter基本语法:案例2.2 sqldf:sqldf关键字select、from、where、where3、排序3.1 dplyr::arrange3.2 sqldf:sqldf关键字:order by4、选择列4.1dplyr::select4.2 sqldf::select5、创建新的变量5.1 dplyr::mutate5.2 sqld
转载
2023-08-18 14:48:10
139阅读
[更新~] Python网络爬虫与文本数据分析dplyr简介dplyr是R语言的数据分析包,很像python中的pandas,能对dataframe类型的数据做很方便的数据处理和分析操作。最初我也很奇怪dplyr这个奇怪的名字,我查到其中一种解释d代表dataframeplyr是英文钳子plier的谐音library(tidyverse)## ── Attaching packages ─────
转载
2024-08-02 22:36:37
42阅读
上一篇博客(R中两种常用并行方法——1. parallel)中已经介绍了R中常见的一种并行包:parallel,其有着简单便捷等优势,其实缺点也是非常明显,就是很不稳定。很多时候我们将大量的计算任务挂到服务器上进行运行时,更看重的是其稳定性。这时就要介绍R中的另一个并行利器——snowfall,这也是在平时做模拟时用的最多的一种方法。针对上篇中的简单例子首先是一个最简单的并行的例子,这个例子不需要
转载
2023-11-29 09:55:27
112阅读
R包的安装R语言的特点就是有众多的第三方扩展包,扩展包涉及到各行各业的数据分析内容。包是R函数、数据、预编译代码以一种定义完善的格式组成的集合,包括R程序,运行该程序的其他语言(例如C语言),解释这个程序功能、方法的帮助文档,例子、测试数据等。R自带了一系列默认包,包括base、datasets、utils、graDevices、graphics、stats以及methods。这些包提供了很多的默
转载
2023-06-20 14:26:00
358阅读