校园论坛(Java)——环境配置篇
线性时间选择(Top K)问题(Java)1、前置介绍2、分治法求解3、代码实现4、复杂度分析5、扩展6、参考资料1、前置介绍定义选择问题(select problem)是指在n个元素的集合中,选出某个元素值大小在集合中处于第k位的元素, 即所谓的求第k小元素问题(kth-smallest)。元素选择问题的一般提法给定具有n个元素的一个线性序集和一个整数k,其中,l<=k<=n,题目要
Strassen矩阵乘法问题(Java)1、前置介绍3、代码实现4、复杂度分析5、参考资料1、前置介绍矩阵乘法是线性代数中最常见的问题之一 ,它在数值计算中有广泛的应用。 设A和B是2个nXn矩阵, 它们的乘积AB同样是一个nXn矩阵。 A和B的乘积矩阵C中元素C[i][j]定义为:采用传统方法,时间复杂度为:O(n3)因为按照上述的定义来计算A和 B的乘积矩阵c,则每计算C的一个元素C[i][j
最优二叉搜索树问题(Java)1、前置介绍2、算法设计思路2.1 最优二叉搜索树的结构2.2 一个递归算法2.3 计算最优二叉搜索树的期望搜索代价3、代码实现4、复杂度分析5、参考资料1、前置介绍设S={x1, x2, … , xn} 是有序集, 且x1 < x2 < … < xn, 表示有序集S的二叉搜索树利用二叉树的结点存储有序集中的元素。它具有下述性质:存储于每个结点中的元
棋盘覆盖问题(Java)1、问题描述2、算法设计思路3、代码实现4、复杂度分析5、参考1、问题描述在一个2k×2k个方格组成的棋盘中,若恰有一个方格与其他方格不同,则称该方格为一特殊方格,且称该棋盘为一个特殊棋盘。显然特殊方格在棋盘上出现的位置有4k 种情形.因而对任何k ≥ 0,有4k种不同的特殊棋盘。如下图中的特殊棋盘是当k = 2时16个特殊棋盘中的一个。在棋盘覆盖问题中,要用下图所示的4种
数仓采集通道的设计写在前面方案一:方案二:方案三:最终方案写在前面离线和实时数仓共用一套数据采集通道系统数据采集存储到HDFS上完全分布式(三台节点)方案一:(node01)Flume(TailDir Source) + Kafka Channel + HDFS Sink + Kafka --> Kafka(node02)架构图:Kafka Channel有一个参数:parseAsFlum
关于Hadoop集群物理及虚拟内存的检测的设置说明写在前面正文不能关闭对物理内存的检测关闭对虚拟内存的检测参考写在前面Linux:CentOS7.5Java:JDK8Hadoop:Hadoop3.1.3场景:离线数仓集群搭建正文配置yarn-site.xml文件不能关闭对物理内存的检测集群规划图如下图:计算任务运行在 NodeManager
Linux好用的管道命令1. 选取命令grepcut「分割」2. 排序命令sortwcuniq3. 划分命令 split4. 参数代换xargs5. 数据处理工具awk6. sed工具7. 参考1. 选取命令grep用法grep [-acinv] [--clolor=auto] '查找的字符' 查找的文件名
Python3操作MongoDB数据库0. 写在前面1. 安装开源驱动库pymongo2. 参考0. 写在前面Linux:Ubuntu Kylin 16.04MongoDB:MongoDB3.2.7Python:Anaconda With Python3.71. 安装开源驱动库pymongopymongo驱动程序可以直接连接MongoDB数据库zhangsan@node01
执行Hive查询时出现OOM写在前面报错:Error: Java heap space实验场景日志信息StckOverFlow的回答写在前面Hive执行引擎:Hive on MR报错:Error: Java heap space原因:内存分配问题解决思路:给map、reduce task分配合理的内存;map、reduce task处理合理的数据当前集群 m
Hive on Tez 的安装配置0. 写在前面1. 起源2. Tez概述3. 安装部署4. 解决日志Jar包冲突0. 写在前面Hadoop:Hadoop-2.9.2Hive:Hive-2.3.7Tez:Tez-0.9.01. 起源Hortonworks在2014年左右发布了Stinger Initiative,并进行社区分享,为的是让Hive支持更多SQL
Hive执行脚本: Return Code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask0. 写在前面1. 实验场景1. 留存会员与留存率说明2. 需求:1日、2日、3日的会员留存数和会员留存率3. 脚本2. 报错信息3. 解决方法4. 一个有趣的发现5. 参考0. 写在前面Ha
MapReduce报错:「MKDirs failed to create file」0. 写在前面1. 程序代码及报错信息输入、输出路径程序代码报错信息2. 查找资料3. 原因分析4. 参考0. 写在前面Linux:Ubuntu Kylin16.04Hadoop:Hadoop2.7.21. 程序代码及报错信息输入、输出路径zhangsan@had
MongoDB的「Linux」安装及基本使用0. 写在前面1. 下载并安装MongoDB2. 启动方式2.1 直接启动2.2 以「配置文件」方式启动3. 自定义配置文件启动MongoDB服务失败解决方法4. 基本使用5. 参考0. 写在前面Linux:Ubuntu Kylin16.04集群搭建方式:伪分布式MongoDB:MongoDB3
CentOS7.X时间调整为系统时间之后,重新开机就无效了0. 原因分析1. 时间修改2. 参考0. 原因分析系统时区非上海没有同步网络时间1. 时间修改查看虚拟机系统时间[root@node01 ~]$ timedatectl Local time: 日 2022-09-18 10:22:31 GMT Universal time: 日 2022-09-18
jps查看进程出现「xxxx -- process information unavailable」0. 写在前面1. 报错2. 参考0. 写在前面实验背景:离线数仓使用Kerberos安全环境下Linux:CentOS7.5Azkaban:Azkaban3.84.4Hadoop:Hadoop3.1.3Hive:Hive3.1.2Kylin:Kylin3.0.2ZooKee
MapReduce关于类型转换报错记录0. 写在前面1. 程序代码2. 参考0. 写在前面实验环境:Ubuntu Kylin16.04Hadoop版本:2.7.2IDE:Eclipse3.81. 程序代码Mapper端import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritabl
执行MapReduce报错:无法分配内存 (errno=12)0. 写在前面1. 程序介绍2. 报错解决3. 参考0. 写在前面Linux: Ubuntu Kylin16.04Hadoop: Hadoop2.7.2IDE: Eclipse3.81. 程序介绍程序执行一个MapReduce,该MapReduce实现了自定义分区,总共分为4个分区,且在Driver端自定
离线数仓之Kerberos基本使用及问题记录0. 写在前面1. Kerberos基本使用0. 启动Kerberos相关服务1. 安全模式下启动Hadoop集群2. 安装Kerberos客户端访问HDFS页面0. Windows下安装MIT Kerberos Ticket Manager1. 使用「MIT Kerberos Ticket Manager」
使用Python3操作HBase的两种方法0. 写在前面1. 安装conda2. 安装hbase-thrift-0.20.0.patch新建一个Python3.9的anaconda环境激活新建的anaconda环境test检查是否已经存在hbase-thrift环境下载hbase-thrift-0.20.0.patch3. python连接h
虚拟机Ubuntu安装Anaconda及注意事项0. 写在前面1. 安装步骤0.下载 Anaconda1.安装 Anaconda2. 确认安装的路径3. 确认conda命令是否可以正常使用4. 创建conda虚拟环境5. 查看conda版本6. 初始化anaconda7. 激活conda虚拟环境8. 查看当前拥有的co
关于Presto对lzo压缩的表查询使用记录0.写在前面1.正文0.提前说明1.查询ads层表2.查询dwd|dws|dwt层表3.查询ods层表0.写在前面实验背景:离线数仓项目Presto版本:0.196Hive版本:3.1.2Hadoop版本:3.1.31.正文0.提前说明纯lzo压缩:ods层parquet列式存储加lzo压缩:dwd,dws,d
Kylin启动失败||启动成功但Web界面显示4040.写在前面1.原因一:环境变量配置问题2.原因二:Kylin兼容性问题没有得到解决3.原因三:hive-site.xml配置文件的问题0.写在前面实验背景:离线数仓项目Kylin版本:Kylin3.0.2Hadooop版本:Hadoop-3.1.3Zookeeper版本:zookeeper-3.5.7Hive版本
Superset执行「superset db upgrade」命令的报错记录零、写在前面一、「superset db upgrade」报错记录0. 按照尚硅谷视频操作,执行到「superset db upgrade」出现以下错误二、报错2解决方案「Python3.7和3.9均有这个error」报错2报错原因解决方法三、报错3解决方案报错3
DataGrip连接Hive执行DDL操作报错:「FAILED: ParseException line 1:5 cannot recognize input near 'show' 'indexes' 'on' in ddl statement」写在前面解决方案参考写在前面搭建离线数仓项目中用DataGrip连接Hive,建立ODS业务表在hiveservice2客户端控
Windows10安装netcat 下载地址 netcat-win32-1.12 https://eternallybored.org/misc/netcat/ 注意:下载过程中安全卫士会将netcat安装包存放到隔离箱中,直接恢复到原位置即可 安装操作 解压netcat-win32-1.12.zip 配置解压好的目录路径到PATH环境变量 测试 打开命令行,输入以下命
Structured Streaming报错记录:Overloaded method foreachBatch with alternatives0. 写在前面1. 报错2. 代码及报错信息3. 原因及纠错4. 参考链接0. 写在前面Spark : Spark3.0.0Scala : Scala2.121. 报错overloaded method valu
Intellij IDEA配置Tomcat并创建JavaWeb项目Intellij IDEA配置Tomcat并创建JavaWeb项目一、实验环境二、说明三、Web项目搭建四、运行Web项目一、实验环境Win10Intellij IDEA 2019.2Tomcat9.0二、说明Intellij IDEA 使用的是Ultimate版本(终极版),社区
SLF4J: Hbase和Flume的slf4j-log4j12-x.x.xx.jar与hadoop的slf4j-log4j12-x.x.xx.jar冲突一、实验环境二、报错信息三、报错分析及解决方案一、实验环境Ubuntu16.04Flume1.7.0Hbase1.1.5Hadoop2.7.1二、报错信息SLF4J: Class path contains multipl
Windows系统下安装MySQL8高版本(已安装MySQL5)一、MySQL安装包下载地址二、安装步骤三、参考资料一、MySQL安装包下载地址MySQL国内镜像安装地址: https://mirrors.tuna.tsinghua.edu.cn/mysql/downloads/MySQLInstaller/?C=S&O=A二、安装步骤1. 先停止之前安装的低版本m
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号