Dlimeng的博客_大数据

大数据职业规划

大数据

java

html

原创 2022-10-24 09:30:23 343 阅读

数据的分类和分级

数据分类分级原则

安全

数据

网络安全

数据安全

原创 2022-10-02 19:32:07 846 阅读

dslinkis数据开放平台报错01

2020-03-31 20:04:22.691 INFO [Thread-29] com.netflix.discovery.DiscoveryClient 866 shutdown - Shutting do

大数据

java

apache

.net

原创 2022-04-20 17:13:32 657 阅读

Phoenix中Sequence的用法

Phoenix--HBase的JDBC驱动序列（Sequence）是Phoenix提供的允许产生单调递增数字的一个SQL特性，序列会自动生成顺序递增的序列号，

phoenix

序列号

最小值

主键

原创 2022-03-25 14:09:46 92 阅读

zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg

zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg，需要将其修改为zoo.cfg。其中各配置项的含义，解释如下： 1.tickTime：CS通信心跳时间Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔，也就是每个 tickTime 时间就会发送一个心跳。tickTime以毫秒为单位。tickTime=2000 ...

zookeeper

服务器

客户端

原创 2022-03-23 10:43:34 974 阅读

phoenix删除数据

操作过程：第一步删除phoenix中系统的表格信息，主要为SYSTEM.CATALOG，第二步删除Hbase中的表格信息。操作步骤：（1）查询phoenix系统表 SYSTEM.CATALOG 内容是所有表格的信息，系统表和自建表SYSTEM.FUNCTION 内容是所有函数信息，系统函数和自定义函数SYSTEM.SEQUENCE 我也不知道SYSTEM.STATS 内容...

phoenix

表结构

建表

自定义函数

原创 2022-03-23 10:39:52 1187 阅读

使用Phoenix自带的工具执行sql脚本

phoenix自带了执行sql脚本的功能，这样方便了希望能够直接将一些关系型数据库的数据进行迁移到Hbase（也可以直接使用sqoop进行导入）。在【PHOENIX_HOME】目录下创建user.sql，内容如下： -- create table usercreate table if not exists user (id varchar primary key,accou...

phoenix

sql

sql脚本

sqoop

原创 2022-03-23 10:38:51 370 阅读

Phoenix优化

hbase-site.xml：<property><name>hbase.master.maxclockskew</name><value>45000000</value></property><property> <name>hbase.rpc.timeout&

phoenix

mapreduce

工具类

二级索引

原创 2022-03-23 10:38:31 211 阅读

Ambari介绍

Ambari目标解决Hadoop生态系统部署部署：hadoop组件间有依赖，包括配置、版本、启动顺序、权限配置等。部署过程跟踪。能够展示出部署过程中每个步骤的状态及相关信息。多机部署问题，当集群规模增加后，机器出问题机率增加，在部署或更新中可能会出现机器故障组件本身设计：hadoop及其组件需要容忍机器的故障，同时需要防止不兼容版本组件给系统带来的影响 ...

ambari

hadoop

json

原创 2022-03-23 10:36:17 259 阅读

Apache-Tika解析JPEG文档

package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;import org.apache.tika.metadata.Metadata;import org.apache.tika.parser.ParseContext;import org.apache.tika.parse...

tika

apache

元数据

java

原创 2022-03-23 10:35:53 384 阅读

Hbase集群部署计划---安装系列四

承接安装系列hadoop环境 1.上传hbase安装包tar -zxvf hbase-0.96.2-hadoop2-bin.tar.gz -C /itcast/2.解压 3.配置hbase集群，要修改3个文件（首先zk集群已经安装好了）注意：要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下 3.1修改hbase...

hbase

hadoop

xml

hdfs

原创 2022-03-23 10:33:07 116 阅读

phoenix安装---安装系列十

承接安装系列hadoop,hbase部署到（cdh5.5.1）安装flume下载安装包并解压flume-ng-1.6.0-cdh5.5.1.tar.gz配置环境变量：~/.bash_profile export FLUME_HOME=/itcast/flume-1.6.0export PATH=$PATH:$FLUME_HOME/bin配置flume-env.sh文件$FLUM...

phoenix

hadoop

h5

cloudera

原创 2022-03-23 10:32:43 120 阅读

kylin安装---安装系列十一

承接安装系列hadoop，hivehive 与 kylin的搭建在原有hadoop+hbase+hive+spark基础上搭建hive配置环境变量添加如下：/etc/profile和 ~/.bash_profile export HCAT_HOME=$HIVE_HOME/hcatalog export HIVE_CONF=$HIVE_HOME/conf export hiv...

kylin

hive

jar

原创 2022-03-23 10:30:57 152 阅读

hadoop+hbase+hive+Spark环境性能调优---安装系列九

部分调优spark-env.sh:spark.speculation 的节点上也尝试执行该任务的一个副本。打开此选项会帮助减少大规模集群中个别较慢的任务带来的影响。默认值falsespark.driver.memory为driver进程分配的内存。注意：在客户端模式中，不能在SparkConf中直接配置该项，因为driver JVM进程已经启动了。默认1gspark.executor...

hive

Spark

spark

数据

序列化

原创 2022-03-23 10:29:55 44 阅读

lucene,solr,nutch,hadoop的区别和联系

apache lucene是apache下一个著名的开源搜索引擎内核，基于Java技术，处理索引，拼写检查，点击高亮和其他分析，分词等技术。 nutch和solr原来都是lucene下的子项目。但后来nutch独立成为独立项目。nutch是2004年由俄勒冈州立大学开源实验室模仿google搜索引擎创立的开源搜索引擎，后归于apache旗下。nutch主要完成抓取，提取内容等工作。 ...

lucene

solr

nutch

hadoop

搜索引擎

原创 2022-03-23 10:28:23 116 阅读

squirrel-sql Phoenix安装

下载安装略导入jar:phoenix-4.8.1-HBase-1.2-clientphoenix-4.8.1-HBase-1.2-queryserverphoenix-4.8.1-HBase-1.2-serverphoenix-4.8.1-HBase-1.2-thin-clientphoenix-core-4.8.1-HBase-1.2phoenix-core-4....

phoenix

jar

apache

java

原创 2022-03-23 10:28:14 101 阅读

ambari安装

1.安装环境说明：三台Centos7Jdk1.7Mysql5.72.操作系统准备2.1配置ssh免密码登录mkdir ~/.ssh/ssh-keygen -t rsa （四个回车）执行完这个命令后，会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）将公钥拷贝到要免登陆的机器上ssh-copy-id localhost2.2创建ambari系...

ambari

mysql

centos

原创 2022-03-23 10:28:03 793 阅读

Phoenix 批量增加

1.phoenix 利用CsvBulkLoadTool 批量带入数据并自动创建索引在phoenix 目录下执行hadoop jar /home/phoenix-4.6.0-HBase-1.0-bin/phoenix-4.6.0-HBase-1.0-client.jar org.apache.phoenix.mapreduce.CsvBulkLoadTool -t POPULATION -...

phoenix

sql

centos

值类型

原创 2022-03-23 10:27:44 1115 阅读

Apache-Tika解析pdf文档

public DocumentContent readPath(InputStream stream,Path path) {//Tika默认是10*1024*1024，这里防止文件过大导致Tika报错 BodyContentHandler handler = new BodyContentHandler(100*1024*1024); Metad...

tika

派生类

超类

原创 2022-03-23 10:22:01 356 阅读

学习大数据方向

大数据指无法用传统数据库软件工具对其内容进行抓取、管理和处理的大体量数据集合。海量数据处理指判断数据的价值。一、海量数据分成两块，一是系统建设技术，二，海量数据应用。目前我了解大数据的职位：大数据架构工程师大数据算法工程师（数据分析工程师，数据挖掘工程师）大数据运维工程师二、系统建设技术目前常用的hadoop生态圈技术，结构如图：涉及到应用类型，数...

大数据

海量数据

数据挖掘

原创 2022-03-23 10:18:06 126 阅读

zookeeper shell

首先知道交互式shell和非交互式shell、登录shell和非登录shell是有区别的使用shell脚本启动zookeeper1.把profile的配置信息echo到.bashrc中 echo 'source /etc/profile' >> ~/.bashrc (集群每台) 2.在/zookeeper/bin/zkEnv.sh的中开始位置添加 export JAV...

zookeeper

hadoop

bash

其他

原创 2022-03-11 16:02:34 54 阅读

hue介绍系列02

配置cd /etc/hue/confvi hue.ini desktop default_hdfs_superuser hadoop HDFS管理用户desktop http_host 10.10.41.123 Hue Web Server所在主机/IPdesktop http_port 8000 Hue Web Server服务端口desktop server_user hadoop 运行Hue

hue

hadoop

hive

desktop

原创 2022-03-11 15:51:57 52 阅读

hue介绍系列01

Hue介绍Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口。 Hue作用 1，访问HDFS和文件浏览 2，通过web调试和开发hive以及数据结果展示 3，查询solr和结果展示，报表生成 4，通过web调试和开发impala交互式SQL Query 5，spark调试和开发 6，Pig开发和调试 7，oozie任务的开发，监控，和工作流协调调度 8，Hba

hue

hadoop

hdfs

ambari

原创 2022-03-11 15:51:23 76 阅读

分布式领域重要原理

一.FLP 不可能性原理FLP 不可能原理：在网络可靠，存在节点失效（即便只有一个）的最小化异步模型系统中，不存在一个可以解决一致性问题的确定性算法。提出该定理的论文是由 Fischer, Lynch 和 Patterson 三位作者于 1985 年发表，该论文后来获得了 Dijkstra（就是发明最短路径算法的那位）奖。FLP 不可能原理实际上告诉人们，不要浪费时间去为异步分布式系统设计在任意场

分布式

信息系统

ide

最短路径算法

原创 2022-03-11 15:46:46 23 阅读

开源数据交换（client）

文章目录一.项目简介二.编译部署2.1 客户端三.快速使用3.1 客户端四.底层已支持计算存储引擎

大数据

java

spark

flink

beam

原创 2022-02-10 11:22:48 317 阅读

rpc系列-ZooKeeper

一.简介Zookeeper是一个分布式协调服务，就是为用户的分布式应用程序提供协调服务。Zookeeper本身就是一个分布式程序（只要有半数以上节点存活，zk就能正常服务）。Zookeeper所提供的服务涵盖：主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务…… 虽然说可以提供各种服务，但是zookeeper在底层其实只提供了两个功能：管理(存储，读...

zookeeper

服务器

数据

其他

原创 2022-02-10 11:13:21 63 阅读

zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg

zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg，需要将其修改为zoo.cfg。其中各配置项的含义，解释如下： 1.tickTime：CS通信心跳时间Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔，也就是每个 tickTime 时间就会发送一个心跳。tickTime以毫秒为单位。tickTime=2000 ...

zookeeper

服务器

客户端

配置项

同步通信

原创 2021-08-31 09:33:10 991 阅读

zookeeper shell

首先知道交互式shell和非交互式shell、登录shell和非登录shell是有区别的使用shell脚本启动zookeeper1.把profile的配置信息echo到.bashrc中 echo 'source /etc/profile' >> ~/.bashrc (集群每台) 2.在/zookeeper/bin/zkEnv.sh的中开始位置添加 export JAV...

zookeeper

hadoop

bash

java

配置信息

原创 2021-08-31 09:32:50 86 阅读

phoenix删除数据

操作过程：第一步删除phoenix中系统的表格信息，主要为SYSTEM.CATALOG，第二步删除Hbase中的表格信息。操作步骤：（1）查询phoenix系统表 SYSTEM.CATALOG 内容是所有表格的信息，系统表和自建表SYSTEM.FUNCTION 内容是所有函数信息，系统函数和自定义函数SYSTEM.SEQUENCE 我也不知道SYSTEM.STATS 内容...

phoenix

表结构

建表

操作过程

自定义函数

原创 2021-08-31 09:30:54 2554 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

Dlimeng的博客

大数据职业规划

数据的分类和分级

dslinkis数据开放平台报错01

Phoenix中Sequence的用法

zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg

phoenix删除数据

使用Phoenix自带的工具执行sql脚本

Phoenix优化

Ambari介绍

Apache-Tika解析JPEG文档

Hbase集群部署计划---安装系列四

phoenix安装---安装系列十

kylin安装---安装系列十一

hadoop+hbase+hive+Spark环境性能调优---安装系列九

lucene,solr,nutch,hadoop的区别和联系

squirrel-sql Phoenix安装

ambari安装

Phoenix 批量增加

Apache-Tika解析pdf文档

学习大数据方向

zookeeper shell

hue介绍系列02

hue介绍系列01

分布式领域重要原理

推荐系统-简介

开源数据交换（client）

rpc系列-ZooKeeper

zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg

zookeeper shell

phoenix删除数据