前言NMF(非负矩阵分解)目前在生物信息领域主要用于肿瘤分型,目前网上大多数的教程也是针对于对样本聚类的,但其实NMF这个方法还可以对基因进行聚类,已经有许多文章使用了这个方法来识别肿瘤表达的元程序,其实本质也就是挖掘基因模块。具体原理其实是对样本的聚类分型其实也是基于基因特征来的,因此当样本进行聚类时也会随之产生与各样本簇最相关的一些基因模块,当我们着重关注这些基因模块时,NMF就可以用于挖掘基
数据威斯康乳腺癌数据集由699个样本和11个特征组成,第一列为Sample code number (id number),最后一列为Class: (2是良性, 4是恶性),是需要预测的变量。其余几个特征的大小均介于1-10之间。数据可以在UCI的网站上得到。data <- read.csv("breast-cancer-wisconsin.data")
str(data)
levels(d
转载
2023-07-27 21:16:33
812阅读
# 使用R语言中的nnet包进行预测
在机器学习和数据科学领域,预测模型的应用无处不在。R语言提供了多种机器学习方法,其中`nnet`包是一个用于构建神经网络模型的常见选择。本文将带您深入了解如何使用R语言中的`nnet`包进行预测。
## 什么是nnet包?
`nnet`包是R语言中的一个包,用于实现单层和多层神经网络模型。这个包是建立在非线性回归基础之上的,并且使用了反向传播算法来更新网
目录创建任务创建learner训练、预测和性能评价 本篇主要介绍mlr3包的基本使用。一个简单的机器学习流程在mlr3中可被分解为以下几个部分:创建任务 比如回归、分裂、生存分析、降维、密度任务等等挑选学习器(算法/模型) 比如随机森林、决策树、SVM、KNN等等训练和预测创建任务本次示例将使用mtcars数据集创建一个回归任务,结果变量(或者叫因变量等等)是mpg。# 首先加载数据
data(
转载
2023-06-21 22:14:07
171阅读
R的数据类型与相应运算11 R矩阵和数组11.1 R矩阵11.2 矩阵子集11.3 ``cbind()`` 和 ``rbind()`` 函数11.4 矩阵运算11.4.1 四则运算11.4.2 矩阵乘法11.4.3 向量与矩阵相乘11.4.4 内积11.4.5 外积11.5 逆矩阵与线性方程组求解11.6 ``apply()`` 函数11.7 多维数组 (学习资料参考北京大学李东风老师《R语言
转载
2024-09-13 20:09:16
54阅读
标准分布也即是:正态分布。 在来自独立源的数据的随机集合中,通常观察到数据的分布是正态的。 在图中,曲线的中心表示数据集的平均值。 50%的值位于平均值的左侧,另外50%位于图表的右侧。正态分布R语言有四个内置函数来产生正态分布:dnorm(x, mean, sd)
pnorm(x, mean, sd)
qnorm(p, mean, sd)
rnorm(n, mean, sd)以下是在上述功
转载
2023-06-21 22:14:34
590阅读
逻辑回归算法一、逻辑回归(LR)基本概念1. 引入背景1.1 概述logistics回归1.2 模型引入1.3 构造h函数(预测函数)1.4 构造损失函数J并最小化J1.5 总结1.6 Logistics回归的梯度上升算法之Python代码实现1.6.1 批量梯度上升算法GD1.6.2 随机梯度上升算法SGD1.6.3 小批量随机梯度上升算法MSGD2. 调用Python的sklearn.lin
转载
2023-12-11 13:05:03
228阅读
###################################################问题:基础绘图plot 18.4.30 plot函数,基础绘图的各个参数?解决方案: cars <- c(1, 3, 6
转载
2023-07-16 16:28:35
211阅读
目录依赖库代码功能完整代码总结 算法部分源码是我的数模兄弟想要深入研究nmf算法方面的内容发给我让我跑的 当然我们实际计算机项目中一般用现成库的前任写好的命令····依赖库import numpy as np
import torch
import random
import matplotlib.pyplot as plt
import pyreadr
import pandas as p
转载
2023-11-15 21:31:06
80阅读
3.1 常用图形参数R是一个功能强大的图形构建平台,可以逐条输入语句构建图形元素(颜色、点、线、文本等),逐渐完善图形,直至得到想要的结果。更改图形参数有两种方式,一种是直接在绘图函数中设置参数,这种方式只影响当前的绘图函数;另一种是通过par()函数设置,这种方式会影响当前绘图设备上的所有图形。3.1.1 颜色元素R语言可以设置绘图参数col,改变图像、坐标轴、文字、点、线等的颜色。例如,对数据
转载
2023-07-07 14:40:17
1356阅读
plot()函数是R中基本的画x-y两个变量的函数,其用法如下为:plot(x, y, ...)
例如:首先我用runif()函数产生了两列随机数:x1,y1,然后用plot()函数直接画图:
转载
2023-05-24 21:19:25
228阅读
在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。那么,这种结果是为何发生的呢?到底是什么因素影响了这些算法的表现?在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此,机器学习算法常常被要求应用在平衡数据集上。那我们该如何处理不平衡数据集?本文会介绍一些相关方法,它们并不复杂只是技巧性比较强。本文
转载
2024-03-05 11:01:23
39阅读
为了能够使用Make来构建完整的数据自动分析流程,我们就需要R代码能够从命令行解析参数并在R代码中使用。argparse包是受到Python中同名包的启发开发的,其用法与Python中接近,可以让我们在跨语言编程的时候更加轻松。Linux/Unix Shebang在命令行中运行R脚本,可以使用Rscript example.R的方式,其中example.R是我们希望运行的脚本。在Linux和Uni
转载
2024-06-09 18:39:52
34阅读
参考:1.《R数据科学》 2.R语言中的purrr:map()函数使用purr实现迭代简介减少重复代码的另一种工具是迭代,它的作用在于可以对多个输入执行同一种处理,比如对多个列或多个数据集进行同样的操作。两种重要的迭代方式:命令式编程和函数式编程1.准备工作purrr包是tidyverse的核心R包之一library(tidyverse)2.for循环df <- tibble(
a = rn
转载
2023-11-28 01:28:16
94阅读
在Visual Studio 2010 Beta 1发行版本中,为负载测试和Visual Studio 2010 Beta1所支持的几乎每种测试中引入了真实网络仿真。下载地址:VSTS 2010 Beta 1 Suite Installer真实网络仿真是什么?真实的网络仿真是通过直接操纵网络数据包来模拟网络条件。Visual Studio 2010里提供 的网络仿真是一种基于软件的仿真程
本文接 预测模型变量筛选:方法篇常见回归模型评估方法平均绝对误差,Mean Absolute Error (MAE):预测值与真实值之间平均相差多大;均方误差,Mean Square Error (MSE):是指参数估计值与参数真值之差平方的期望值。MSE是衡量平均误差的一种较方便的方法,MSE 可以评价数据的变化程度,MSE的值越小,说明预测模型描述数据具有更好的精确度。R平方值,R-
转载
2023-08-10 15:33:29
244阅读
当我们在回归模型中包含连续变量作为协变量时,重要的是我们使用正确的(或近似正确的)函数形式。例如,对于连续结果Y和连续协变量X,可能是Y的期望值是X和X ^ 2的线性函数,而不是X的线性函数。一种简单但通常有效的方法是简单地查看Y对X的散点图,以直观地评估。对于我们通常使用逻辑回归建模的二元结果,事情并不那么容易(至少在尝试使用图形方法时)。首先,Y对X的散点图现在完全没有关于Y和X之间关联的形状
转载
2023-08-27 10:33:12
75阅读
今天笔记的内容是R语言中绘图相关的基础知识,绘制简单的饼图、条形图。公众号:生信分析笔记 饼图怎么画
今天笔记的内容是R语言中绘图相关的基础知识,绘制简单的饼图、条形图。公众号:生信分析笔记饼图怎么画?R语言中pie()函数用于绘制饼状图,需要准备向量数据、标签、调色板等信息,然后利用函数生成图片,语法格式为:pie(
x, #数值向量,饼状图中每块面
转载
2023-07-03 20:35:31
109阅读
9.绘图函数9.1 柱状图绘制柱状图使用barplot()函数barplot(H, xlab, ylab, main, names.arg, col)H 是包含在条形图中使用的数值的向量或矩阵。xlab 是 x 轴的标签。ylab 是 y 轴的标签。main 是条形图的标题。names.arg 是在每个条下出现的名称的向量。col 用于向图中的条形提供颜色。> H <- c(3,6,8
转载
2023-09-18 21:23:11
141阅读
Permutation Tests用于构建抽样分布的越来越常见的统计工具是置换测试(或有时称为随机化测试)。与自举一样,置换测试通过重新采样观察数据来构建 - 而不是假设 - 采样分布(称为“置换分布”)。具体而言,我们可以“混洗”或置换观察到的数据(例如,通过从实际观察到的结果集中的每个观察中分配不同的结果值)。与bootstrapping不同,我们无需替换即可完成此操作。排列测试在实验研究中特
转载
2023-07-31 10:41:21
131阅读