聚类 距离(点和点、类和类) 相关系数 层次聚类法 K-means聚类法聚类(“物以类聚,人以群分”) 聚类是一种无监督的学习,使用聚类不需要提前被告知要划分的组是什么样的,甚至在我们不知道找什么时就自动完成分组。 根据样本点的几何特征完成分类 距离距离————样本(点)之间相似程度
    闵可夫斯基距离(Minkowski)
        棋盘距离(曼哈顿距离)
        欧式距离
             
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-24 17:50:41
                            
                                214阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            注: 本文是R语言sf包的核心开发者和维护者——来自德国明斯特大学的地理信息学教授: 
  Edzer Pebesma 的一篇关于sf包的简介,发表于2018年7月的R语言期刊,主要讲述了sf的定位、功能、开发现状及现存问题和今后展望,sf包是一个非常了不起的工具,在R语言中引入了空间数量分析领域通用的标准规范(simple feature),结合tidyverse工具箱组合            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-30 18:38:28
                            
                                419阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1.单因素方差分析:适用于单因素A有两个水平或以上,研究个水平对因变量的影响正态假设条件:W检验shapiro.test():原假设为数据来自正态分布方差齐性条件:Bartlett检验(主要用于正态分布的数据) bartlett.test(x, g, ...)x是数据向量或列表(list);g是因子向量,如果x是列表则忽略g。 当使用数据集时,也可以通过formula调用函数&            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-25 20:40:28
                            
                                273阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            http://blog.sina.com.cn/s/blog_597fcb450100c3um.html   【转】R与SAS、SPSS的比较       (2009-03-05 20:29:40) 
  转载  标签: 教育分类: 学习R与SAS、SPSS的比较R语言                       R是用于统计分析、绘图的语言和操作环境。R是            
                
         
            
            
            
            基本理论知识ARMA模型称为自回归移动平均模型,是时间序列里常用的模型之一。ARMA模型是对不含季节变动的平稳序列进行建模。它将序列值表示为过去值和过去扰动项的加权和。模型形式如下:  yt=c+a1yt−1+a2yt−2+...+apyt−p+ϵt−b1ϵt−1−b2ϵt−2−...−bqϵt−qyt=c+a1yt−1+a2yt−2+...+apyt−p+ϵt−b1ϵt−1−b2ϵt−2−...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-17 16:13:10
                            
                                174阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            回归分析是科学研究中十分重要的数据分析工具。随着现代统计技术发展,回归分析方法得到了极大改进。混合效应模型(Mixed effect model),或称多水平模型(Multilevel model)/分层模型(Hierarchical Model)/嵌套模型(Nested Model),无疑是现代回归分析中应用最为广泛的统计模型,代表了现代回归分析主流发展方向。混合效应模型形式灵活可以应对现代科学            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-11 09:45:08
                            
                                167阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            全面的回归分析包括对异常值的分析:离群点、高杠杆值点、强影响点。 离群点:模型效果不佳的观测点。 使用car包中的outlierTest()函数,可以求得最大标准化残差绝对值Bonferroni调整后的p值,若不显著,则说明数据集中没有离群点,若显著,则必须删除该离群点。 > library(car)
> outlierTest(fit)可见,在这个回归模            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-13 20:56:44
                            
                                323阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            R语言是为数学工作者设计的一种数学编程语言,主要用于统计分析。绘图、数据挖掘。R语言是一种解释型的面向数学理论工作者的语言,与C语言同样是出自贝尔实验室之手,但是C语言是面向计算机软件工程师设计的。R 语言的特点R语言属于GNU开源软件,兼容性好,使用免费语法十分有利于复杂的数学运算数据类型丰富,包括向量、矩阵、因子、数据集等常用数据结构代码风格好,可读性强R环境安装R语言的开发环境本身具备了图形            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-06 19:50:33
                            
                                84阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Mosaic plot常常用来展示Categorical data(分类数据)(关于不同的数据类别,参照连接更严谨英文比较好的朋友可以看[1]),mosaic plot 强大的地方在于它能够很好的展示出2个或者多个分类型变量(categorical variable)的关系. 它也可以定义为用图像的方式展示分类型数据。当变量是类别变量时,且数目多于三个的时候,可使用马赛克图。马赛克图中,嵌套矩阵面            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-25 16:13:16
                            
                                343阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针对性的问题是,我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题不会推迟太久,迟早要定夺。下面简要            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-15 10:49:15
                            
                                34阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            在R语言中,因子(factor)表示的是一个符号、一个编号或者一个等级,即,一个点。例如,人的个数可以是1,2,3,4......那么因子就包括,1,2,3,4.....还有统计量的水平的时候用到的高、中、低,也是因子,因为他是一个点。与之区别的向量,是一个连续性的值,例如,数值中有1,1.1,1.2......可以作为数值来计算,而因子则不可以。如果用我自己的理解,简单通俗来讲:因子是一个点,向            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-21 22:48:48
                            
                                223阅读
                            
                                                                             
                 
                
                             
         
            
            
            
             (注明:以下文章均在Linux操作系统下执行)一、R语言简介R语言是用于统计分析,图形表示和报告的编程语言和软件环境。R语言由Ross Ihaka和Robert Gentleman在新西兰奥克兰大学创建,目前由R语言开发核心团队开发。R语言的核心是解释计算机语言,其允许分支和循环以及使用函数的模块化编程。R语言允许与以C,C ++,.Net,Python或FORTRAN语言编写的过程集            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-23 20:22:52
                            
                                309阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一个关于 R作直方图的小例子  2010-04-27 19:31:36|  分类: R&Bioconductor|举报|字号订阅 
  首先是一串很简单的数据,有30个元素:      把它逐行打到一个TXT文件中去,命名为ex1.txt,保存在目录E:\Da 105  
    93  
    80 109 112  
    88            
                
         
            
            
            
            温故而知新6.函数6.5 自定义函数基本使用> ce2fa <- function(ce){
+   fa <- 1.8 * ce + 32
+   return(fa)
+ }
> ce2fa(0)
[1] 32
> ce2fa(0:10)
 [1] 32.0 33.8 35.6 37.4 39.2 41.0 42.8 44.6 46.4 48.2 50.0
>            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-23 14:20:17
                            
                                7阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录1. 仅知道函数的部分名称,想列出全部2. 列出全部有tab字段的函数,或者访问3. 自动补全4. 更改小数点位数5. 显示错误信息6. 升级R,但不想重装packages?7. 卸载已安装的packages8. library()的逆向操作9. 得到加载package的列表10. 读取Excel数据两种方法补充:读取pdf文件11. 在对原数据进行了删除处理,但是希望调出原数据12.            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-21 18:29:31
                            
                                154阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            R语言︱情感分析—基于监督算法R语言实现笔记。可以与博客 R语言︱词典型情感分析文本操作技巧汇总(打标签、词典与数据匹配等)对着看。 词典型情感分析大致有以下几个步骤:训练数据集、neg/pos情感词典、分词+数据清洗清洗(一、二、三级清洗步骤)、计算情感得分、模型评价 ————————————————————————————————————————————             
                
         
            
            
            
             
plot(x, y, ...)
ylab, xlab:  x轴与y轴名称设置参数子标题设置参数ylim, xlim: x轴与y轴数值界限设置参数
type:划线类型
col:划线颜色
lwd:线粗举个栗子:
plot(AvTemp,type="b",col=2,xlab="月份",ylab="平均温度",main="森林地区月平均温度时序折线图",sub = "子标题",lwd=2            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-31 13:52:51
                            
                                159阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            函数 par()中的参数可以分为三大类: ( 
1 
) 只可以查询而不可以修改的参数 
,  
即  
readonly  
参数:  
"cin", "cra", "csi", "cxy", "din" 和  
"page" 
。( 2 
)只能通过  
par  
函数进行设置的参数 
: "ask", "fig", "fin", "lheight", "mai", "mar", "mex"            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-06 16:50:29
                            
                                274阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文本分词,就是对文本进行合理的分割,从而可以比较快捷地获取关键信息。例如,电商平台要想了解更多消费者的心声,就需要对消费者的文本评论数据进行内在信息的数据挖掘分析,而文本分词是文本挖掘的重要步骤。R语言中,对中文分词支持较好的包有RWordseg包和jiebaR包,这里学习jiebaR包。一、jiebaR包简介jiebaR 是中文分词的R语言版本,支持最大概率法(Maximum Probabili            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2022-05-21 11:46:00
                            
                                477阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             下载和安装Windows环境的R1.进入主页,点击 蓝色加粗的 download R 2.随便点击一个镜像,这里点击的是http://mirror.fcaglp.unlp.edu.ar/CRAN/ 3.点击Download R for Windows  4.点击install R for the first time. 5.点击 Dow            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-03 09:07:58
                            
                                380阅读
                            
                                                                             
                 
                
                                
                    