(一)网络技术
1.大数据基础:
#大数据tongchn通常用来形容一个公司创造的结构化和非结构化数据。
#数据分为结构化数据和非结构化数据;结构化数据是指可以存放在数据库里,可以用二维表结构来逻辑表达实现的数据;非结构化数据是指不方便用二维表结构来逻辑表达实现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频视频等。当代数据由25%的结构化数据和75%的非结构化数据构成。
#电信大数据
#第一种常见的应用场景是潜在离网用户维婉场景。例如,通过对潜在的离网用户进行数据分析,通过大数据实现用户管理、营销策略、营销实施和闭环反馈的拉通; 第二种常见的应用场景是综合网管分析平台、基站关联分析场景,例如:根据离网用户的位置轨迹,用户的业务行为等获得数据源,然后进行大数据分析,最后进行一系列的网络优化,用户行为分析等; 第三种是数据变现场景:户外数字媒体。非数字媒体价值评估场景,例如:通过大数据去分析人流量,车流量等相关信息根据所得的数据进行统一管理,获得相应的需求描述,得到一系列价值评估及营销策划。
#拥抱大数据时代
#大数据的基本特征
Volume:数量大(集中存储/计算已经无法处理巨大的数据量)
variety:种类和来源多样化(文本/图片/视频/文档等)
velocity:及时性要求高(海量数据的及时有效的分析)
value:价值密度低(大量的不相关信息的进行复杂深度分析,深挖价值)
#大数据的发展趋势:bussiness(大数据从技术驱动转变为商业驱动,大数据的商业模式创新爆发式增长) --> 开放合作生态,应用百花齐放;data science(数据科学从简单的统一分析到认知计算) -->分析智能化、知识化;technology(数据处理技术将会逐步标准化、云化)–>技术平台化、服务化(云化)。
#企业级大数据平台
#企业级大数据运营流程为:
hadoop具体的环境
划重点:运营商的混搭架构
#hadoop基础技术
传统的数据处理系统面临的问题
#大数据的数据特征:数据量大、格式复杂、响应速度要求高、数据价值密度低
#HDFS是基于谷歌的论文开发,具备其他分布式文件系统的相同特征,也具有以下特征,高容错、高吞吐量、大文件存储。
#YARN是hadoop中的资源管理系统,他是一个通用的资源管理模块,为各类应用程序进行资源管理和调度;优势为:资源利用率高、运维成本低、数据共享方便
#mapreduce基于谷歌的分布式计算框架设计开发,用一天大规模数据集(大于1TB)的并行运算。优势:容易编程、良好的扩展性、高容错性。
#HIVE提供数据提取、转换、加载功能,并可用类似于SQL的语法,对HDFS海量数据库中的数据进行查询统计等操作。
#HBase–hadoop database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。
#spark系统是分布式批处理系统和分析挖掘引擎,spark可以用来快速处理数据,并支持迭代计算 ,有效应对多步的数据处理逻辑。
#Hadoop用于离线统计分析:将海量的原始数据存储到HDFS中,定期离线做汇总统计,按分钟、手机号、地域、业务类型等维度导出到OLAP系统用于分析或报表。
#Hadoop用于详单查询:将海量的原始XDR,加载入库并转化为半结构化的格式,用于低时延查询。
#Hadoop用于云化ETL,移动数据业务和流量的爆炸式增长,带来了网络建设和维护费用的成倍增加。要求将海量数据存储在分布式存储且能够进行汇总等计算。
#数据挖掘应用面临的困难与挑战:使用门槛高、应用周期长、模式设计与优化缺乏辅助工具、缺乏实时分析能力。
#常见的挖掘算法