如何跟一个非相关性的人解释你是做大数据的,你是做大数据的哪一部分工作,从求职者角度,如何从jd描述中估摸大概率做哪一块,从猎头角度,如何从一份简历中看出你更匹配哪个jd1.相关技术大数据开发的技术名词无非是下面几种,Hadoop,Hive,Spark,Kafka,Sqoop,Flink,Oozie,Hbase,hue但是大数据架构根据每个厂的基础建设不同,可能会有不同的方案,但是总的流程是大致一致
转载
2021-04-07 13:47:20
796阅读
2评论
一、什么是大数据?大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。 二、大数据的数据类型:大数据包括体积庞大,高流速和可扩展的各种数据。它的数据为三种类型。结构化数据:关系数据。半结构化数据:XML数据。非结构化数据:Word, PDF, 文本,媒体日志。 三、大数据两大技术:
操作大数据 这些包括像MongoDB系统,提供
转载
2024-04-09 19:52:32
89阅读
从2月28号开始报名大数据微专业,到4月29号看完最后模块的视频。两个月的时间,收获非常大。早在上班的时候就对大数据的技术非常好奇,后来考了研,终于有时间和机会来系统地学习。由于我不是cs本科出身,在报名这门课之前,我自己学习了很多前置知识,比如linux,数据库,java,python。我能在比较短的时间内完成这门课的学习主要得归功于前置知识的掌握
原创
2018-05-15 10:41:57
823阅读
点赞
写了几年代码,看到这些年大数据,AI闹得火热火热,也想系统学习下大数据方面的东西,给自己充电一下。其实随着IT技术的发展,我们行业(地理信息)也已经开始拥抱大数据了。越来越多的带有位置的非结构化的数据需要处理,需要进一步挖掘。好了,废话不多说了。下面开始分享下,学习大数据这门过程中的一些心得。其实,大数据这门课,学起来还是得要有些知识储备的,比如最基本的linux操作,以及操作hive以及mysq
原创
2018-01-09 11:24:38
2029阅读
点赞
4评论
# 大数据挖掘中的分类技术
在当今社会,大数据已经成为一种重要的资源。企业、政府和科研机构都在努力挖掘数据中的价值。大数据挖掘涵盖了许多技术和方法,其中“分类”是一个关键的技术。本文将介绍大数据挖掘中的分类,包含代码示例以及图示,帮助大家更好地理解这一概念。
## 什么是分类
分类是一种监督学习的过程,目的是根据已标记的训练数据为新的、未知的数据实例分配分类标签。常见的分类方法包括决策树、支
原创
2024-10-23 06:06:04
74阅读
按照大数据应用层次划分,可以把大数据相关技术分为数据收集、数据存储、资源管理、计算框架、数据分析和数据展示这六类,各类代表性组件如下图:
原创
2021-09-28 19:52:16
3898阅读
点赞
1评论
大数据是通过高速捕捉、发现和分析,从大容量数据中获取价值的一种新的技术架构。有四个"V"字开头的特征:Volume(体量大),Velocity(速度快),Variety(种类杂),Value(价值大)。Volume是指大数据巨大的 ... 当“大数据”铺天盖地般向我们
转载
2023-09-22 21:12:43
82阅读
数据分析之决策树ID3算法什么是分类算法? 分类算法跟之前的聚类都是让不同对象个体划分到不同的组中的。但是分类不同之处在于类别在运算之前就已经是确定的。 分类是根据训练数据集合,结合某种分类算法,比如这篇讲的ID3算法来生成最终的分类规则,这样当提供一个对象的时候我们可以根据它们的特征将其划分到某个分组中。 决策树ID3算法是分类中的经典算法,决策树的每一层节点依照某一确定程度比较高的属性向
转载
2024-01-16 15:34:50
55阅读
大数据是个铺天盖地的词,而谈论大数据又不可避免地要提到Hadoop,Hadoop到底是什么玩意,以及有何功用。 Hadoop是Apache软件基金会管理的开源软件平台,但Hadoop到底是什么呢?简单来说,Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一种方法。Hadoop被设计成一种非常“鲁棒”的系统,即使某台服务器甚至集群宕机了,运行其上的大数据分析应用也不会中断。此外H
转载
2023-07-20 17:53:41
0阅读
随着各行各业的数据量快速增长,无论是从对数据的存储、分析、处理和挖掘等方面提出了越来越高的要求。IT行业正在逐渐向“DT”行业转变,未来是以数据为驱动的。所以我认为大数据是未来一个主流方向,了解和学习大数据对我们以后的工作和生活都有一定帮助。 近期我个人学习了大数据工程师微职位这门课,并且已经通过了所有的考核。下面切入正题,分享一下我的学习心得
原创
2017-09-05 22:25:05
1487阅读
点赞
1评论
随着各行各业的数据量快速增长,无论是从对数据的存储、分析、处理和挖掘等方面提出了越来越高的要求。IT行业正在逐渐向“DT”行业转变,未来是以数据为驱动的。所以我认为大数据是未来一个主流方向,了解和学习大数据对我们以后的工作和生活都有一定帮助。 近期我个人学习了大数据工程师微职位这门课,并且已经通过了所有的考核。下面切入正题,分享一下我的学习心得,因为篇幅关系,不涉及具体知
转载
2017-12-21 16:51:14
10阅读
这是大数据入门常识第二篇,主要讨论大数据工作的方向问题。第一篇没看的同学可
原创
2023-01-26 13:34:28
141阅读
大数据团队必须设置的五种职位作者:chszs,转载需注明。博客主页:http://blog.csdn.net/chszs麦肯锡认为,大数据团队必须有五种职位:1)数据卫生员(Data Hygienists) - 这些人,确保数据总是干净的、准确的。2)数据探索者(Data Explorers) - 这些人在大数据项目找到你真正需要的数据。3)企业解决方案架构师(Business Solution Architects) - 这些人把收集的数据组织在一起,以便用于分析,他们负责设计数据的结构,以确保数据可以有效地供所有用户检索,有些数据的访问需要数分钟、甚至数小时,例如,需要每分钟或每小时使更新
转载
2013-07-28 21:59:00
132阅读
2评论
大数据团队必须设置的五种职位作者:chszs,转载需注明。博客主页:
原创
2013-07-27 18:04:38
26阅读
博客:大数据分类算法深度解析1. 背景大数据的快速增长带来了更多的机会和挑战。分类算法作为机器学习的基石之一,在处理大规模数据时变得尤为重要。其目标是根据已知的数据集,将新数据分配到预定义的类别中。2. 特征提取与预处理在分类算法中,特征提取是非常关键的一步。特征是从原始数据中提取的具有代表性的信息,用于描述数据的属性和特性。有效的特征提取可以帮助算法更好地理解数据,提高分类模型的性能。2.1 数
原创
精选
2024-01-15 08:39:13
1592阅读
# 使用Python进行商品大数据分类的指南
在这个数据驱动的时代,商品大数据的分类对零售和电商行业至关重要。对于刚入行的新手来说,了解流程和关键技术是非常重要的。本文将带你从零开始,实现一个商品大数据分类系统。
## 整体流程
在开始之前,我们首先要明确整个流程。如下表所示,我们将使用四个主要步骤来实施商品分类。
| 步骤 | 描述 |
|------
原创
2024-11-01 08:39:49
341阅读
大数据团队必须设置的五种职位作者:chszs,转载需注明。博客主页:http://blog..net/chszs麦肯锡认为,大数据团队必须有五种职位:1)数据卫生员(Data Hygienists) - 这些人,确保数据总是干净的、准确的。2)数据探索者(Data Explorers) - 这些人在大数据项目找到你真正需要的数据。
转载
2013-07-27 20:23:00
61阅读
通过采集招聘网站大数据职位信息、利用数据清洗、数据分析、jieba分词、数据挖掘完成整体项目的开发工作。任务包含爬取招聘网站大数据职位信息、使用BeautifulSoup清洗职位信息网页、使用PySpark对智联
原创
2021-12-28 17:24:17
842阅读
数据分级存储,是指数据客体存放在不同级别的存储设备(磁盘、磁盘阵列、光盘库、磁带库)中,通过分级存储管理
软件实现数据客体在存储设备之间的自动迁移。数据迁移的规则是可以人为控制的,通常是根据数据的访问频率、保留时间、容量、性能要求等因素确定的最佳存储策略。在分级数据存储结构中,磁带库等成本较低的存储资源用来存放访问频率较低的信息,而磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常
转载
2024-04-09 19:52:27
174阅读
目前国内外做大数据的厂商依旧分为两类:一类是现在已经有获取大数据能力的公司,他们打算利用自身优势地位冲击大数据领域,将现有安装基础及产品线口碑推广到新一轮技术浪潮当中。如IBM、微软、谷歌、亚马逊、百度、腾讯、阿里巴巴等互联网巨头以及华为、浪潮、中兴等国内领军企业,涵盖了数据采集,数据存储,数据分析,数据可视化以及数据安全等领域;另一类则是初创的大数据公司,他们依赖于大数据工具,针对市场需求,为市
转载
2023-07-10 15:43:03
294阅读