跟张哥学编程的博客_大数据

《NoSQL数据库技术与应用》MongoDB数据库操作

而Robo 3T是一个跨平台的MongoDB GUI客户端管理工具，它以图形化的方式显示操作界面，让用户可以对MongoDB进行可视化操作

数据库

nosql

mongodb

Java

Python

原创 5月前 70 阅读

《NoSQL数据库技术与应用》 MongoDB副本集

MongoDB支持两种复制类型：传统的主/从复制和副本集，副本集可以理解为传统主/从复制的一种复杂形式，支持自动故障恢复功能，拥有更高的可用性，是MongoDB部署中的

nosql

mongodb

数据库

副本集

服务器

原创 5月前 116 阅读

大数据实训之数据可视化系列教程

数据可视化 github地址 ://github./alibaba/DataX/blob/master/introduction.md Datax的基本安装下载软件 ://datax-opensource.oss-cn-hangzhou.aliyuncs./20220530/datax.tar.gz 上传的服务器的指定目录(hadoop02) /bigda

ci

bc

mysql

原创 5月前 72 阅读

大数据项目实训之Hive环境集成

Hive环境集成 Hive环境配置 Hive是数据仓库中最常用的一个组件, 但是第一代的Hive的执行引擎是MapReduce,运行起来比较慢, 后面Hive的执行引擎用的比较多的有Tez,Spark Hive on Spark 核心组件是Hive, 只是把运行的执行引擎替换为了Spark内存计算框架, 提高的程序运行的效率其中Hive主要负责数据的存储以及SQL语句的解析 Spark on H

hive

spark

jar

原创精选 5月前 343 阅读

大数据实训之日志生成

安装Redis数据库下载redis wget https://download.redis.io/redis-stable.tar.gz 解压到指定目录 tar -zxvf redis-stable.tar.gz 安装一些gcc编译库 yum install -y gcc g++ gcc-c++ make 编译并且安装进入到redis的源码目录 make MA

redis

配置文件

数据

原创 5月前 62 阅读

安装数据采集软件Flume

安装数据采集软件Flume 前提条件: 业务系统需要有hadoop的客户端安装hadoop集群客户端直接从hadoop01节点通过scp拷贝客户端到biz01 # 在hadoop01上执行 cd /bigdata/server scp -r hadoop/ biz01:$PWD # 设置好主机名 vi /etc/hosts 192.168.113.145 hadoop01

hdfs

hadoop

apache

原创 5月前 82 阅读

大数据实训之集群规划

集群规划统一环境配置 [所有节点]IP地址设置修改Ip地址 vi /etc/sysconfig/network-scripts/ifcfg-ens33 TYPE="Ethernet" PROXY_METHOD="none" BROWSER_ONLY="no" BOOTPROTO="static" # 设置为静

mysql

hadoop

vim

原创 5月前 54 阅读

大数据工程师技术之Hive环境集成实践

Hive环境配置 Hive是数据仓库中最常用的一个组件, 但是第一代的Hive的执行引擎是MapReduce,运行起来比较慢, 后面Hive的执行引擎用的比较多的有Tez,Spark Hive on Spark 核心组件是Hive, 只是把运行的执行引擎替换为了Spark内存计算框架, 提高的程序运行的效率其中Hive主要负责数据的存储以及SQL语句的解析 Spark on Hive 核心组件是

hive

Hive

java

原创精选 5月前 213 阅读

root@localhost 变成了root@bogon

问题重现主机名在一次登录后，变成了bogon，此后每次登录Linux系统时都是bogon。 1 Connecting to 192.168.35.128:22... 2 Connection established. 3 To escape to local shell, press 'Ctrl+Alt+]'. 4 5 Last login: Mon Nov 18 17:24:49 2019 f

主机名

重启

x系统

原创 8月前 249 阅读

MyCat课程讲义

1. Mycat概述如今随着互联网的发展，数据的量级也是成指数的增长，从 GB 到 TB 到 PB。对数据的各种操作也是愈加的困难，传统的关系性数据库已经无法满足快速查询与插入数据的需求。这个时候 NoSQL 的出现暂时解决了这一危机。它通过降低数据的安全性，减少对事务的支持，减少对复杂查询的支持，来获取性能上的提升。但是，在有些场合 NoSQL 一些折衷是无法满足使用场景的，就比如有些使用

MySQL

数据库

mysql

原创 2023-11-02 22:22:14 92 阅读

大数据工程师必备之数据可视化技术

数据：偏耀明 7800高军鹏 8000代欣 8800王国庆 20000实际可视化：可以通过最简单的Excel也有自己分析的

数据可石化

数据

柱状图

数据可视化

原创精选 2023-07-14 14:36:28 318 阅读

01 数据库和MySQL简介

你可能还没有意识到，其实你自己一直在使用数据库。每当你从自己手机的联系人簿里查找名字时，你就在使用数据库。如果你在某个搜索引擎上进行搜索，也是在使用数据库。如果你在工作中登录网络，也需要依靠数据库验证自己的名字和密码。即使是在自动取款机上使用ATM卡，也要利用数据库进行PIN码验证和余额检查。数据库这个术语的

数据库

mysql

java

数据

MySQL

原创 2023-04-05 21:33:57 50 阅读

Linux概述和基础

LinuxLinux的概述：学习Linux之前先了解UnixUnix是一个强大的多用户、多任务操作系统。于1969年在AT&T的贝尔实验室开发。UNIX的商标权由国际开放标准组织（The Open Group）所拥有。UNIX操作系统是商业版，需要收费，价格比Microsoft Windows正版要贵一些。Linux的概述：Linux是基于Unix的Linux是一种自由和开放源

linux

mysql

java

原创 2022-10-23 18:08:48 205 阅读 1评论

Elasticsearch 搜索入门技术之一

官网：

elasticsearch

全文检索

搜索引擎

微服务

分布式

原创 2022-09-23 19:20:53 67 阅读

大数据：2019年汽车4S店访客画像

以2018年Q4到访过全国汽车4S店的人群（剔除了汽车4S店工作人员）为研究对象，从全国汽车4S店访客画像、不同城市等级、不同档次和不同品牌汽车4S店访客画像等角度勾勒出国内4S店访客群像。极光大数据（纳斯达克代码:JG）发布《2019年汽车4S店访

讯飞

数据

大数据

原创 2022-04-06 14:23:29 314 阅读

Google大数据技术架构探秘

Google是大数据时代的奠基者，其大数据技术架构一直是互联网公司争相学习和研究的重点

大数据

云计算

分布式

google

数据

原创 2022-04-06 14:13:35 745 阅读

疯狂的人工智能：谷歌AI可预测病人死亡，IBM AI击败了人类顶尖辩手

谷歌旗下的Medical Brian 团队开发了一种新的人工智能算法，可以预测病人死亡时间；IBM Research最新推出的AI系统Project Debater击败了以色列国际辩论协会主席Dan Zafrir和2016年以色列国家辩论冠军Noa Ovadia本文为数据猿推出的《大数据24小时》栏目内容，旨在让用户花最短的时间获取每日最新最全的行业信息一、谷歌发布 AI 医疗黑...

人工智能

区块链

迅雷

大数据

原创 2022-03-09 10:32:33 86 阅读

主流大数据平台及解决方案对比

个人学习总结大数据平台是为了计算，现今社会所产生的越来越大的数据量，以存储、运算、展现作为目的的平台。大数据技术是指从各种各样类型的数据中，快速获得有价值信息的能力。适用于大数据的技术，包括大规模并行处理（MPP）数据库，数据挖掘电网，分布式文件系统，分布式数据库，云计算平台，互联网，和可扩展的存储系统。...

大数据平台

分布式

云计算

hadoop

mapreduce

原创 2022-03-09 10:21:39 818 阅读

Google的三篇大数据思想论文

大数据 1、什么是大数据简单说就是身边的一切，你看到的是，听到的是，闻到的感觉到的触摸到的都是 2、具体一点天猫淘宝的购物数据，你的聊天记录，医疗记录，看书或者挑东西时候的推荐物品大数据的问题 1、生活中的种种数据数量如此之多，如何存储 2、要让数据有意义，又该怎么去处理海量的数据Google对大数据问题的思想...

数据

大数据

hdfs

转载 2022-03-09 10:21:02 285 阅读

google三篇论文之GFS

Google在03至06年发表了著名的三大论文——GFS、BigTable、MapReduce，用来实现一个大规模的管理计算系统。今天先来谈谈GFS。因为论文里大段大段的文字加上专业术语读起来对我来说还是有一定困难的，这几篇论文我粗略地看了一遍，然后查询了一些资料，

GFS

google

三篇论文

数据

服务器

原创 2022-03-09 10:20:42 217 阅读

三篇论文之bigtable

Bigtable：一个分布式的结构化数据存储系统译者：alex 摘要Bigtable是一个分布式的结构化数据存储系统，它被设计用来处理海量数据：通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据，包括Web索引、Google Earth、Google Finance。这些应用对Bigtable提出的要求差异非常大，无论是在数据量上（从UR...

bigtable

云计算

服务器

数据

缓存

原创 2022-03-09 10:20:15 247 阅读

三篇论文之Google MapReduce中文版

译者: alex摘要MapReduce是一个编程模型，也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/value pair的数据集合，输出中间的基于key/value pair的数据集合；然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足上述处理模型的例子，本论文将详细描述这个模型。...

map

reduce

mapreduce

数据

文件系统

原创 2022-03-09 10:19:33 124 阅读

教育部公布新增人工智能等本科专业的高校名单

【导读】近日，教育部印发了《教育部关于公布2018年度普通高等学校本科专业备案和审批结果的通知》，全国共有35所高校获首批“人工智能”新专业建设资格，96所高校获批“智能科学与技术”专业，203所高校获批“数据科学与大数据技术”专业，25所高校获批“大数据管理

大数据

河南高校志愿填报

高考计算机志愿

人工智能填报

云计算志愿

原创 2022-03-09 10:18:05 422 阅读

java转大数据方向如何走？

大数据的三个发展方向，平台搭建/优化/运维/监控、大数据开发/ 设计/ 架构、数据分析/挖掘。请不要问我哪个容易，哪个前景好，哪个钱多。先扯一下大数据的4V特征：数据量大，TB->PB数据类型繁多，结构化、非结构化文本、日志、视频、图片、地理位置等;商业价值高，但是这种价值需要在海量数据之上，通过数据分析与机器学习更快速的挖掘出来;处理时效性高，海量数据的处理...

大数据

数据学习

数据清洗

hadoop

spark

原创 2022-03-09 10:17:26 374 阅读

2019全球AI人才报告发布：AI专家仅3.6万

有很多证据表明，顶级AI人才供不应求。然而，这类人才究竟有多么稀缺，或者他们都集中在世界各地哪些地方，却几乎不为人知。近日，加拿大Element AI首席执行官发布了最新的2019年《全球AI人才流动报告》，对AI人才的数量、分布范围等情况做了总结，可以说是目前最全的报告，主要采集了三个数据源。AI领域21个主要学术会议发表的论文，比如AAAI、CVPR等，并分析了作者的概括。有针对性...

AI

人工智能与机器人

机器人时代

人工智能工资

智能时代

原创 2022-03-09 10:17:13 90 阅读

数据分析的结构体系

大数据从几年前的概念演变为现在是落地数据，越来越多的人感受的数据的价值，目前全国各大高校同样陆续开设数据科学与大数据专业，企业也已开展招聘数据分析相关的职位。之前想成为数据分析师的人大致有三类：第一类是非计算机专业的在校生，不知道怎么回事，反正就是对数据感兴趣了，然后想毕业之后从事相关工作，但对职位要求、该做什么准备一无所知，处于懵懂期;第二类是互联网公司的产品经理和运营经理，及少数的...

数据分析

hadoop

产品

运维

数据库

原创 2022-03-09 10:17:00 73 阅读

大数据平台应用 17 个知识点汇总

一、大数据中的数据仓库和Mpp数据库如何选型?在Hadoop平台中，一般大家都把hive当做数据仓库的一种选择，而Mpp数据库的典型代表就是impala，presto。Mpp架构的数据库主要用于即席查询场景，暨对数据查询效率有较高要求的场景，而对数据仓库的查询效率要求无法做大MPP那样，所以更多地适用与离线分析场景。Hadoop已经是大数据平台的实时标准，其中Hadoop生态中有数据仓库H...

storm

spark

hadoop

hdfs

olap

原创 2022-03-09 10:10:12 78 阅读

大数据最核心的关键技术——32个算法，记得收藏！

奥地利符号计算研究所的Christoph Koutschan博士在自己的页面上发布了一篇文章，提到他做了一个调查，参与者大多数是计算机科学家，他请这些科学家投票选出最重要的算法，以下是这次调查的结果，按照英文名称字母顺序排序。1、A* 搜索算法——图形搜索算法，从给定起点到给定终点计算出路径。其中使用了一种启发式的估算，为每个节点估算通过该节点的最佳路径，并以之为各个地点排定次...

大数据算法

算法时代

大数据合并

数据核心算法

数据

原创 2022-03-09 10:09:47 415 阅读

分布式系统Kafka和ES中，JVM内存越大越好吗？

这篇文章，给大家聊一个生产环境的实践经验：线上系统部署的时候，JVM 堆内存大小是越大越好吗？本文主要讨论的是 Kafka 和 Elasticsearch 两种分布式系统的线上部署情况，不是普通的 Java 应用系统。是否依赖 Java 系统自身内存处理数据？先说明一点，不管是我们自己开发的 Java 应用系统，还是一些中间件系统，在实现的时候都需要选择是否基于自己 Java 进程...

kafka

springData

分布式系统

工作进程

OS Cache

原创 2022-03-09 10:09:22 157 阅读

快递员要失业？两位前谷歌工程师研发出自动驾驶汽车只送货不载人

一家名叫Nuro.ai的新公司在自动驾驶汽车技术上提出了一种完全不同的概念。但与目前遍布全球的自动驾驶初创公司不一样的是，Nuro的重点并不是以现有车型为基础打造自动驾驶出租车或自动驾驶卡车，而是设计出了一种全新的交通工具1月30日消息，

无人驾驶

快递小哥

自动驾驶

数据

远程控制

原创 2022-03-01 16:50:05 133 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

欢迎来视频课学习

《NoSQL数据库技术与应用》MongoDB数据库操作

《NoSQL数据库技术与应用》 MongoDB副本集

大数据实训之数据可视化系列教程

大数据项目实训之Hive环境集成

大数据实训之日志生成

安装数据采集软件Flume

大数据实训之集群规划

大数据工程师技术之Hive环境集成实践

root@localhost 变成了root@bogon

MyCat课程讲义

大数据工程师必备之数据可视化技术

01 数据库和MySQL简介

Linux概述和基础

Elasticsearch 搜索入门技术之一

大数据：2019年汽车4S店访客画像

Google大数据技术架构探秘

疯狂的人工智能：谷歌AI可预测病人死亡，IBM AI击败了人类顶尖辩手

主流大数据平台及解决方案对比

Google的三篇大数据思想论文

google三篇论文之GFS

三篇论文之bigtable

三篇论文之Google MapReduce中文版

教育部公布新增人工智能等本科专业的高校名单

java转大数据方向如何走？

2019全球AI人才报告发布：AI专家仅3.6万

数据分析的结构体系

大数据平台应用 17 个知识点汇总

大数据最核心的关键技术——32个算法，记得收藏！

分布式系统Kafka和ES中，JVM内存越大越好吗？

快递员要失业？两位前谷歌工程师研发出自动驾驶汽车只送货不载人