17年研究生毕业的时候在东北找到了一个国内数一数二的计算机硬件公司的分公司大数据技术负责人的岗位,当时正好是大数据技术在国内刚开始被重视不太长时间的时候,虽然说去一个和计算机技术或是和软件技术不太搭嘎的硬件公司去做大数据有些要人感觉很扯,但是毕竟是一个小leader的岗位还是很有诱惑力的,毕竟刚出校园就能在一公司里面管管某一方面事情还是要人有些小欢喜的,当时和分公司的领导也是谈的很好,而且领导也是很给以重视甚至亲自来到学校和自己面谈意向,不过最终经过考虑好还是没有去那个硬件公司的大数据岗位。
最几年大数据在国内的应用可以说是方兴未艾,现在虽然我是不在做大数据或者说不主要做大数据计算方面的事情,但是对大数据现状和未来的发展还是很关注的,看了看当年给offer的那家硬件公司现在在大数据领域也没有什么大的发展不过也是寻找到了自己发展的方向那就是给大数据公司卖服务器,前段时间也是刚知道自己所在的单位也是购进了那家硬件公司的一套大数据服务器,其实就是服务器上面已经安装了linux系统,并且在上面安装了hadoop和spark等相关计算框架,如此的发展也是要人唏嘘。
在大数据时代又该如何推进大数据技术呢,像一些硬件公司喊着要搞大数据应用弄了好久又回到老本行上卖低利润的电脑硬件又是否是正确的选择呢?在大数据时代我们又该如何去做呢,这些很值得我们思考的。不过现在想想几年前没有选择去硬件公司的初创大数据岗位可能也是不算糟糕的选择。
不经意间在电视上看到了纪录频道上有关于大数据和人工智能话题的节目,感觉不错,于是在网上找到了相关的视频仔细的看了看感觉还是很受启发的。
1. CCTV节目官网 > 《大数据时代》
2. CCTV节目官网 > 《AI梦想曲》
3. CCTV节目官网 > 《育见未来》
http://tv.cctv.com/2020/08/14/VIDAmHSRqR8A56RtrvbdkInI200814.shtml
------------------------------------------------------
大数据技术一般可以看做分为:大数据存储,大数据计算和查询,大数据分析方法。
大数据存储一般是指不同类型的存储方式,面对不同的任务和数据类型我们可以有多个不同的数据存储方式,这里就是指大数据文件系统,最为常见的就是和Hadoop计算框架一同使用的hdfs文件系统,当然还有很多其他公司研发的面向其他任务类型和数据类型的文件系统,如阿里巴巴的多个文件系统。
大数据计算和查询:大数据计算一般是指各种计算框架,面向不同计算任务和数据类型有多个框架,常见的有hadoop,spark等,大数据查询一般是指各种大数据的数据库和数据仓库。不论是计算还是查询都是数据大数据技术中比较底层比较核心的技术,16年的时候和人大的几个实验室有过沟通才知道确实有些人是在研究如何提高大数据分布式数据库的查询效率,能够提升大数据的查询确实是很实用的,不然在大数据应用中要是有大量的查询操作那将会是一场灾难。
大数据分析方法:一般是指常用的数据分析方法,统计学的分析方法,和一些传统的机器学习的一些方法。不过最初的时候大数据分析方法一般就是指统计学相关的一些分析方法,随着发展一些机器学习等人工智能技术的引进大数据分析方法就比较丰富了,不过现在一般提大数据技术都是不指那些人工智能技术,因此很多人都是分开提的如大数据和人工智能,不过有一部分人不把大数据和人工智能分开,而是把人工智能做为大数据中的一部分技术所以就直说大数据,当然这个事情还是蛮混乱的,因为毕竟很多新的事物都是慢慢才会统一名称等事情的。
根据《大数据时代》中说的, 在大数据技术刚刚应用之初技术人才才是最重要的,但是随着大数据技术的发展和应用的推进最重要的是数据的积累,而最终桎梏大数据应用的或是说大数据技术中差异性不可替代性的或是说大数据公司最终能取胜的法宝是数据的积累。
现在来看国内的一些大数据发展,数据的积累其实各个公司之间都没有什么太大的差距,即使有差距也是完全可以追赶的,只有对于有些行业数据确实是不容易获得的,比如在电商领域对用户的购物等数据对于一个天气预测公司或教育公司来说这个数据确实是不能追赶的,但是对于同行业内的公司其数据的获得能力没有那么大的差距,比如天猫,淘宝,京东等公司他们都是可以有充足的用户电商数据的积累的。对于一些新兴公司来说现在都是在初始阶段所以也没有数据积累差异这个问题,但是如果未来10年后一个有着10年数据积累的教育公司或天气预测公司来说他们对于一个新公司来说那数据积累确实是不可比较的,毕竟10年的行业数据积累确实难以短时间追平的。不过不论是大数据发展的初期和未来,数据的积累相对来讲没有那么大的差距,现在已经发力在大数据领域的公司对行业数据的积累没有太大的差距,即使现在刚兴起的一些领域其对数据的积累也都是刚开始的,因此也没有那么大的差距,除非是多年后的新公司不然很难说在数据积累性方面有那么大的差距,毕竟现在对于各行各业来说只要听说过大数据技术的都是把所有的可以收集到的信息都存储了下来。在读研究生期间与电力公司有过交流,他们的回答就是他们不知道如何应用大数据技术,现在在大数据方面也没有什么预期和发展计划,但是听说过大数据技术,看过《大数据时代》,因此他们公司把所有可以数据化的信息都全部保留了下来,因为他们相信他们未来会在大数据技术的支持下把这些数据转换为大量的经济价值,不过这么多年过去了据我所知他们至今也没有应用到什么大数据技术,仍然是保所有的数据进行保存,比较吧,个人来看硬盘那么便宜,就先保存下来数据是没毛病的操作。不过必须说的现实就是,在大数据这个名词人人都知道的年代,《大数据时代》中的那些至理名言已经为信息化行业内的人所熟知的年代中,可能数据的积累某种程度上已然全民化了,如此发展的话在国内数据的积累真的很难成为各企业间的竞争利器,因为在全行业存信息到硬盘的背景下哪家公司的数据都不少。
不论现在公司发展如何,不论现在行业如何,现在各个公司都是疯狂的保存数据,随便找个公司都能轻松的给出超大号的数据。那么现在,或者所一直以来真正影响大数据技术应用的关键是人才了吧, 但是现在的大数据发展是怎么样的呢?除了在一些大型的互联网企业可以很好的报大数据技术用到推荐和搜索中以外就很少有较为成功的大数据应用了。在现在的情况之下,成熟的推荐和搜索应用中大数据的应用已经和竞争已经成熟了,也就不存在哪个因素影响更关键这个问题了,对于没有成熟应用大数据的行业和应用的现状呢?在那些没有成熟应用大数据的行业和应用中对于大数据的应用都是处于摸索阶段,这种摸索个人来看也是可以看做两个方面,一个方面是行业的摸索,比如哪个行业更有可能,可以更快的,更好的应用大数据技术,第二个方面就是在确定的行业中如何使用技术来应用大数据。
但是感觉在现在的背景下不妨参考传统互联网的发展历程来看,那就是如果可以更好的更早的选择一个有发展的行业,并且能有充足的资金支持和更好的技术。
在国内一般都是一些中小公司去开辟行业上的大数据应用,哪个公司可以更早的占领行业位置,哪个公司就能在该行业内的大数据技术上有发言权,这样的话这个公司就可以占领该行业的市场,这和传统互联网的发展相似。只要是有公司占领一个小行业的大数据技术的高地,那么后来的公司即使说有人才有数据积累也很难去竞争,因为难以拉取资金来支持竞争。可以说大数据市场确实很诱人,但是也是先到先得的规矩。
总体来看,大数据市场的竞争更是看谁能更早占领行业高地,但是如何占领高地那就是看谁能更好的把大数据技术成熟的引入到行业中,这样看的话如何解决大数据技术在行业上的应用才是关键。这也是现在很有意思的一个地方,那就是发力在各个非电商行业的大数据发展的都是一些中小公司,可能这也是有希望追撵上传统大型互联网公司封锁的一个新思路。
用哪种技术(包括人工智能)才可以在一个行业中把大数据应用起来才是目前的关键,更早的发现行业,更快的把行业中的大数据用起来才是关键。
如何选取行业中的数据特征,如何获取更全面的数据,用哪种统计技术哪种人工智能技术可以把大数据在行业中用起来可能才是现阶段的重点需克服的。
不过现在来看,哪个行业可行,哪个技术可行,现在还是仍然有着一些凭运气的成分在,没有太成熟的经验可供参考,这既是挑战也是机遇。