本文用讲一下指定分布的随机抽样方法:MC(Monte Carlo), MC(Markov Chain), MCMC(Markov Chain Monte Carlo)的基本原理,并用R语言实现了几个例子:1. Markov Chain (马尔科夫链)2. Random Walk(随机游走)3. MCMC具体方法: 3.1 M-H法 &
转载
2024-01-18 19:13:03
186阅读
本文用讲一下指定分布的随机抽样方法:MC(Monte Carlo), MC(Markov Chain), MCMC(Markov Chain Monte Carlo)的基本原理,并用R语言实现了几个样例:1. Markov Chain (马尔科夫链)2. Random Walk(随机游走)3. MCMC详细方法: 3.1 M-H法 &
转载
2023-07-05 21:38:52
306阅读
于是在网上搜索了一下,真的发现了一个叫textreuse的包可以实现这样的功能,而且该包较为完整,可以很好地满足要求。现在的版本是 0.1.3,最近的更新的时间为 2016-03-28。 国内貌似比较少的用这个包来实现这个功能,毕竟R语言在运行大规模数据的
转载
2024-08-12 14:04:48
80阅读
# R语言中的马尔可夫链(MH)算法入门
马尔可夫链(Markov Chain)是一种用于描述系统状态转变的随机过程,这种模型的特点是未来状态只依赖于当前状态,而与过去状态无关。在统计学和机器学习中,马尔可夫链常被用于生成样本和优化问题。其中,Metropolis-Hastings(MH)算法是一种广泛使用的马尔可夫链蒙特卡洛(MCMC)方法。本文将通过一个简单的例子介绍MH算法,并结合R语言的
原创
2024-09-26 07:04:42
64阅读
文章目录练习:用程序实现正态分布均值、方差的后验分布抽样。题目背景Gibbs抽样(详细公式推导)Gibbs采样R代码实现
μ
\mu
转载
2023-11-16 22:07:24
246阅读
目录实现原理与代码全部代码结束语 实现原理与代码像全局序列匹配一样,局部序列比对的目的也是找到两个序列之间的相似度。 Smith-Waterman这一局部比对算法的原理和Needleman-Wunsch全局比对算法一样,也是运用了动态规划(DP)的思想。具体关于Needleman-Wunsch全局比对算法可参考我的这篇博客。Smith-Waterman算法经常两序列长度相差较大时使用,或需要匹配
转载
2024-04-10 21:14:14
71阅读
本节书摘来自华章计算机《数据科学:R语言实现》一书中的第3章,第3.12节,作者 丘祐玮(David Chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。3.12 估计缺失数据之前的教程介绍了如何检测数据集中的缺失数值。尽管包含缺失值的数据并不完整,但是我们还是要采用启发式的方法来补全数据集。这里,我们会介绍一些技术来估计缺失值。准备工作按照3.3节“转换数据类型”教程,把导入数据的
转载
2023-08-21 10:29:04
156阅读
#coding=utf-8
from numpy import *
#coding=utf-8
import re
from numpy import *
def load_data(file_name):
open_file=open(file_name)
read=open_file.readlines()
data=re.split(pattern='!',strin
转载
2024-01-03 12:07:14
35阅读
'''
Created on Nov 4, 2010
Chapter 5 source file for Machine Learing in Action
@author: Peter
'''
from numpy import *
from time import sleep
# 加载数据
def loadDataSet(fileName):
"""
:param file
转载
2023-12-28 03:48:08
96阅读
一、简介EM(Expectation-Maximum)算法也称期望最大化算法,曾入选“数据挖掘十大算法”中,可见EM算法在机器学习、数据挖掘中的影响力。EM算法是最常见的隐变量估计方法,在机器学习中有极为广泛的用途,例如常被用来学习高斯混合模型(Gaussian mixture model,简称GMM)的参数;隐式马尔科夫算法(HMM)、LDA主题模型的变分推断等等。本文就对EM算法的原理做一个详
转载
2023-11-26 10:38:19
98阅读
众所周知,当我们利用R语言处理大型数据集时,for循环语句的运算效率非常低。有许多种方法可以提升你的代码运算效率,但或许你更想了解运算效率能得到多大的提升。本文将介绍几种适用于大数据领域的方法,包括简单的逻辑调整设计、并行处理和Rcpp的运用,利用这些方法你可以轻松地处理1亿行以上的数据集。 让我们尝试提升往数据框中添加一个新变量过程(该过程中包含循环和判断语句)的运算效率。下面的代码输出原始数据
转载
2023-08-08 01:31:36
132阅读
集成算法集成算法(Ensemble method)是目前数据科学家工具箱的一种重要补充。这个工具非常流行,目前是许多机器学习比赛参赛者的选择策略。通常是通过一系列分类器,一般是决策树,然后对预测值进行投票。总而言之,集成算法不是挑选一个模型,而是通过一定的方式将多个模型组合起来。其中两个重要方法是套袋法(bagging)和提升法(boosting)。套袋法和提升法套袋(Bagging)法:集成中的
转载
2024-04-10 14:04:05
56阅读
声明:本文笔记来源《一个贯穿图像处理与数据挖掘的永恒问题》,作者为左飞,# 1. 算法基础部分:求解一个3*3矩阵的中位数,常常用在图像处理中的patch处理。 # 2. R语言基础部分:读取数据,预处理,Kmeans算法实现。算法基础假如有一个矩阵为 036147258 这里用一个9维矩阵代表一个3*3的patch,寻找其中的中位数,实际上对应的是medfilter,对于椒盐噪音的处理真的是
转载
2023-11-21 13:14:42
49阅读
初识EM算法EM算法也称期望最大化(Expectation-Maximum,简称EM)算法。它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM)等等。EM算法是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,其中一个为期望步(E步),另一个为极大步(M步),所以算法被称为EM算法(Expectation-Maximization Algorithm)。EM算法受到
转载
2024-05-28 11:07:02
132阅读
修改了原文段落100中关于score计算方式的理解。对于厘清事件关系和符号定义有很大帮助。001、一个非常简单的例子假设现在有两枚硬币1和2,,随机抛掷后正面朝上概率分别为P1,P2。为了估计这两个概率,做实验,每次取一枚硬币,连掷5下,记录下结果,如下:硬币结果统计1正正反正反3正-2反2反反正正反2正-3反1正反反反反1正-4反2正反反正正3正-2反1反正正反反2正-3反可以很容易地估计出P1
转载
2024-02-29 10:44:05
78阅读
一、SMOTE原理SMOTE的全称是Synthetic Minority Over-Sampling Technique 即“人工少数类过采样法”,非直接对少数类进行重采样,而是设计算法来人工合成一些新的少数样本。SMOTE步骤__1.选一个正样本红色圈覆盖SMOTE步骤__2.找到该正样本的K个近邻(假设K = 3)SMOTE步骤__3.随机从K个近邻中选出一个样本绿色的SMOTE步骤__4.在
转载
2023-06-21 16:48:13
727阅读
二项分布理论 二项分布是一种离散概率分布,描述了在n次独立重复的伯努利试验中成功的次数的概率分布。其中,每次试验的结果只有两个可能:成功或失败,且每次试验的成功概率p是相同的。 具体来说,如果随机变量X表示在n次试验中成功的次数,那么X服从参数为n和p的二项分布,记为X~B(n,p)。意味着在n次试验中成功的次数为k的概率可以用二项分布的概率质量函
转载
2024-06-25 16:57:45
47阅读
1.什么是FDR校正?FDR (false discovery rate),即校正后的P值,中文一般译作错误发现率。在转录组分析中,主要用在差异表达基因的分析中,控制最终分析结果中,假阳性结果的比例。为什么要用FDR?在转录组分析中,如何确定某个转录本在不同的样品中表达量是否有差异是分析的核心内容之一。一般来说,我们认为,不同样品中,表达量差异在两倍以上的转录本,是具有表达差异的转录本。为了判断两
转载
2023-09-18 21:36:32
429阅读
本章目的:基于一组预测变量预测一个分类结果(如:根据关键词、图像、来源等判断一份邮件是否是病毒邮件)本章用到的package:#rpart rpart.plot party 实现决策树模型及其可视化 #randomForest包拟合随机森林 #e1071包构造支持向量机 #基本函数glm实现逻辑回归library(rpart) library(rpart.plot) library(party)
转载
2024-05-28 11:54:12
26阅读
dnorm(x, mean = 0, sd = 1, log = FALSE)返回值是正态分布概率密度函数值,比如dnorm(z)则表示:标准正态分布密度函数f(x)在x=z处的函数值。pnorm(q, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)返回值是正态分布的分布函数值,比如pnorm(z)等价于P[X ≤ z]qnorm(p, me
转载
2023-05-22 09:37:31
347阅读