spark 实验报告心得 spark安装实验报告心得

转载

mob64ca13fe1aa6 2024-03-10 23:51:49

文章标签 spark 实验报告心得 hadoop jar spark 文章分类 Spark 大数据

Spark是Berkeley AMP实验室研究的最新成果。它是一个基于内存有容错性能的通用的集群计算框架。它的主要目的是用来处理iterative算法（机器学习）和iteractive查询（数据挖掘的一些工具）。

这两种应用场景的共同点是对一个基本不变的数据集会重复访问。而mapreduce对这样的算法的处理性能比较一般。

Spark的具体原理不在这里讲述，有兴趣的朋友可以去http://www.spark-project.org/进行进一步的了解。

下面主要介绍下安装过程（Linux平台）中需要注意的几个问题：

1. Spark安装过程需要用Git。但是在墙内还需要对Git进行代理设置，具体的设置方法请参见：http://mysuperbaby.iteye.com/blog/935741

2. 如果想用分布式文件系统HDFS（配置HDFS）,那么可能遇到如下问题：

　　2.1 在访问hdfs文件是抛出异常：“Exception in thread "main" java.io.IOException: Call to localhost/127.0.0.1:9000 failed on local exception: java.io.EOFException”

此问题由于客户端（spark）的hadoop版本与服务器端的hadoop版本不一致，此时你可以把服务器端的hadoop-core-xxxx.jar拷贝到spark目录下得lib_managed/jars/org.apache.hadoop/hadoop-core/文件夹下，并把文件命名成该文件夹原来的hadoop包得名字（不改名字得话，重新编译时不会用拷贝过来的jar包，会重新下载一个），然后重新assembly生成spark-core-xxxxx.jar文件。

2.2 如果在2.1操作后仍然出现问题：

　　　　java.lang.NoClassDefFoundError: org/apache/commons/configuration/Configuration

hadoop .NoClassDefFoundError: org/apache/commons/lang/StringUtils org/apache/commons/lang/StringUtils

此时就是缺少一些依赖包，我们可以从服务器端的hadoop下的lib文件夹中把commons-configuration-1.6.jar 和 commons-lang-2.4.jar拷贝spark-core-xxxxx.jar所在的目录即可。

　　　　然后把这些包加入CLASSPATH即可。

2.3 关于CLASSPATH的设置问题

　　　　经过我的尝试，在系统环境变量CLASSPATH设置没起任何作用。希望有可以的朋友分享一下经验。

　　　　现在我是这样做的，利用scala 语言本身功能设置classpath,即 scala -cp <path>。但是目前似乎只能带一个jar包。于是需要把先前的三个jar包打成一个包。

具体打包可以在windows下利用winrar完成：首先把三个包解压到统一个文件夹下，解压过程中可能会产生一些冲突，不过不要紧，有冲突的都是些MANIFEST.MF, LICENSE, NOTICE等文件。最后把解压出来的内容重新打成一个包即可。注意选择zip格式。

以上是自己安装过程遇到的问题的总结，希望对大家有帮助~~

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：rsync免密传输 rsync password

下一篇：java 数值增加千位符 java字符数字加减

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

spark 实验报告心得 spark安装实验报告心得

spark 实验报告心得 spark安装实验报告心得

51CTO博客