51CTO博客开发
基于Spark MLlib平台的协同过滤算法---电影推荐系统 又好一阵子没有写文章了,阿弥陀佛...最近项目中要做理财推荐,所以,回过头来回顾一下协同过滤算法在推荐系统中的应用。 说到推荐系统,大家可能立马会想到协同过滤算法。本文基于Spark MLlib平台实现一个向用户推荐
在使用spark MLlib时,有时候需要使用到一些基础的矩阵(向量),例如:全零矩阵,全一矩阵;以及矩阵之间的运算操作。这里整理了一些常用的矩阵操作方法:矩阵:package utilsimport java.util.Random/** * 密集矩阵,用于封装模型参数 */class DenseMatrix(rowNum: Int, columnNum: Int) exte
测试思路: 首先,使用网络数据发送程序发送数据; 然后,运行spark程序; 观察效果。说明: 1. 这里也需要设置检查点目录 2. 这里有四个参数: &nbs
测试思路: 首先,使用上篇文章的程序一发送网络数据; 其次,运行spark程序,观察效果。说明: 1. 这里使用到了更新函数; 2. 使用检查点来保证状态。sparkStreaming import&nb
测试思路: 首先,创建网络数据源数据发送器(程序一); 其次,创建spark接收数据程序(程序二); 接着,将程序一打包,放在服务器上执行。这里有三个参数分别是:所要发送的数据文件,通过哪个端口号发送,每隔多少毫秒发送一次数据;  
直接上代码吧说下测试思路: 该代码监控的/tmp/sparkStream/目录; 首先,创建该目录mkdir -p /tmp/sparkStream; 然后,运行spark程序; 最后,向监控目录/tmp/spark
近日,在测试Flume结合Kafka结合Spark Streaming的实验。今天把Flume与Spark的简单结合做出来了,这里记录一下,避免网友走弯路。有不周到的地方还希望路过的大神多多指教。实验比较简单,分为两部分:一、使用avro-client发送数据 二、使用netcat发送数据首先Spark程序需要Flume的两个jar包:flume-ng-sdk-1.4.0、spark-stream
Impala与HBase整合测试说明:1、测试思路:使用sqoop将测试数据从关系数据库mysql导入到hbase中;接着进行Impala与HBase的整合测试;最后,如果环境允许,对比关系型数据库进行性能测试。2、测试环境: Cloudera5.3.0版本IP地址主机名说明172.16.30.2h1监控节点、mysql数据库172.16.30.3h2
项目环境中遇到的小文件较多,起初除了NAMENODE的内存外,还是比较担心文件物理空间的占用。于是就看一下,小文件是如何占用物理空间的:前提:HDFS块大小为64MB 文件副本总共3份1、 批量生成小文件(均20M)2、 记录测试前DFS空间使用情况目前,DFS空间已经使用50.04GB3、 &
清明假期折腾了两天,总结了两种方式使用IDE进行spark程序,记录一下:第一种方法比较简单,两种方式都是采用SBT进行编译的。注意:本地不需要安装Scala程序,否则在编译程序时有版本兼容性问题。一、基于Non-SBT方式创建一个Scala IDEA工程我们使用Non-SBT的方式,点击“Next”命名工程,其他按照默认点击“Finish”完成工程的创建修改项目的属性首先修改Modules选项在
折腾了一天,终于解决了上节中result3的错误。至于为什么会产生这个错误,这里,先卖个关子,先看看这个问题是如何发现的:首先,找到了这篇文章:http://apache-spark-user-list.1001560.n3.nabble.com/SparkSQL-select-syntax-td16299.html 里面有这么一段:The issue is that you're u
最近项目中使用SparkSQL来做数据的统计分析,闲来就记录下来。 直接上代码: import org.apache.spark.SparkContext import org.apache.spark.sql.SQLContext object SparkSQL { //定义两个case class A和
本节介绍两种调试Hadoop源代码的方法:利用Eclipse远程调试工具和打印调试日志。这两种方法均可以调试伪分布式工作模式和完全分布式工作模式下的Hadoop。本节主要介绍伪分布式工作模式下的Hadoop调试方法。(1)利用Eclipse进行远程调试下面以调试ResourceManager为例,介绍利用Eclipse远程调试的基本方法,这可分两步进行。步骤1 调试模式下启动Hadoop。在Had
package com.snglw.basic; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.h
离线安装ClouderaManager 5.3 关于CDH和ClouderaManagerCDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的ApacheHadoop构建,并集成了很多补丁,可直接用于生产环境(本次项目环境使用了4个节点的CDH5.1.3版本)。
执行srvctl时报错[oracle@rac01 bin]$ srvctl/u01/app/oracle/product/10.2.0/db_1/jdk/jre/bin/java: error while loading shared libraries: libpthread.so.0: cannot open shared object file: No such file or direct
一、Shared pool 作用:缓存SQL语句及SQL语句的执行计划 SQL语句执行三步:解析(parse)------执行(exec)------获取数据(fetch)shared pool的组成: 3块区域:free、librarycache、row cache(dictionary cache)library cache:缓存SQL语句以及SQL语句的执行计划diction
一、客户端输入sql语句sql语句通过网络到达数据库实例server process接收sql语句-------1、找shared pool2、解析 1、sql---执行计划,然后才能执行 2、解析(语法、权限、访问对象是否存在、sql该如何执行---找个最优的执行方案生成执行计划)消耗很多资源:CPU(最)、IO 3、sql语句和执行计划需要缓存---shared pool二、log
1、创建用户赋权,创建存储过程等create user test identified by test default tablespace users;grant dba to test;grant select on sys.v_$statname to test;grant select on sys.v_$mystat to test;grant select on sys.v_$latc
Oracle文档阅读指南(10g R2)Oracle官方文档数量庞大,而且往往没有侧重点,让oracle新手看起来很费力。但是,仍有很多Oracle使用者认为任何oracle学习资料都比不上Oracle官方文档的权威和扼要,且兼具基础与全面。这种差异可能与个人的阅读方法有很大关系,本文将为您提供一些可供参考的Oracle官方文档阅读方法。ReferenceReference意思是参考,向产品使用说
如何解压cpio.gz文件解压文件第一种方法:zcat lnx_920_disk1.cpio.gz | cpio -idmvzcat lnx_920_disk1.cpio.gz | cpio -idmvzcat lnx_920_disk1.cpio.gz | cpio -idmv第二种方法 :第一步: gunzip lnx_920_disk1.cpio.gzgunzip lnx_920_disk2
1. 硬件要求和概述客户操作系统环境概况:主机名操作系统处理器内存rac1 Oracle Enterprise Linux 4(32 位) 1700 MBrac2 Oracle Enterprise Linux 4(32 位) 1700 MB虚拟磁盘布局概况:大小(MB)描述d:\vm\rac\localdisk.vmdk /dev/sda1 /dev/sda2 /dev/sda3d:\vm\ra
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号