做了三个完整的大数据项目后,我整理了一下大数据的项目实践思路。这里写下总体思路。

假设加油的人多,我愿意将其具体编写为一本书。就叫《大数据项目实践指南》吧?哪个出版社有兴趣的话。能够联系我。徐建明 18971024137


为什么大多数企业都实施大数据项目?

    1,希望进行更有效的分析,他们认识到由此须要分析的数据量也会大幅添加。

这些活动往往会由一个业务单位(如营销部门)∙来承担。


    2,企业意识到能够通过实时分析将其产品打包在一个服务层中。帮助客户更高效地使用其产品。


    3,企业希望通过大数据来传达某个业务单位或流程的全部决策。从而提升操作速度,提高操作质量并减少操作成本。
    4,企业意识到大数据对于每一个业务单位都相当重要。它们尝试建立以数据为中心纵观全局的基础环境。
    5,企业认识到必须在大数据方面有所作为,不然就会落伍,但并未切实规划出怎样开展这项工作。我们的目标就是了解并尝试开展这项工作。


    
大数据项目为什么会失败?
    1,目标不明朗.此项调查得出的最常见失败原因是项目“范围不准确”。

很多企业在项目伊始都雄心勃勃,但目标模棱两可,无法分清项目的轻重缓急。为了实施大数据项目而草率上马。必定会导致灾难。这类项目的复杂性要求企业具有坚定的信念。为取得一定成果而不懈努力。

假设目标不确定。则显然是不可行的。
    2,预期目标不合理.在大数据纷纷扰扰的宣传之下,您会对项目的成果做出一下假设,而这些假设往往会产生不利影响。在非常短的时间内冒然做出一些承诺尽管看起来会非常诱人,但相同非常重要的是,您须要客观地预计项目可能会产生的成果、项目周期以及实现这些成果所须要付出的努力。假设对影响和洞察力的期望过高。则会像大海捞针一般茫然无措。假设对交付成果的期望不切实际。您就会发现您要遵从的截止日期和预算根本就不可行。
    
    3,项目超支和延误.因为对企业来说这方面仍然还是全新事物。您就不难理解大多数大数据项目都会成本超支或时间延误。造成这样的问题的解决办法往往是期望目标不合理、加上对怎样构建可扩展体系架构不了解在少数成本高昂的 Hadoop Java开发者从事着大规模手动编码实施工作的同一时候,企业也非常快认识到脱离沙盒环境而不出现不论什么错误是不可能的。大数据项目终归会沦落为一项科学实验
    
    4,无法扩展.要想找到五名优秀的 Hadoop Java 开发者绝非易事。

然而,随着项目的发展,一年须要扩充到30名 Java 开发者。事情可能就变得愈加棘手。最糟糕的并非Hadoop 群集无用武之地而是白白浪费了时间并失去了动力。企业往往青睐短期的权宜之计,而忽视了长期的可持续发展。

尽管我们能够不负责任地提醒您能够避免这样的取舍,但我们还是要着重强调长期发展的重要性。

为了让您的数据获得合理的保护和管理,您须要随时关注项目的长期影响。大数据项目失败的四个原因令人担忧。但的确非经常见。所以,接下来让我们来看看怎样避免这些因素,建立一个长久的实施方法。


    
怎样让大数据项目成功运行
    1, 制定清晰的目标并对期望目标进行管理假设您不确定该项目的目标。请參考您为现有数据基础设施制定的目标。假设企业的某些业务流程(如欺诈检測或市场分析)已经须要用到数据,请想想大数据怎样才干改进这些流程或提升其价值。与其应对全新的问题,不如致力于改进现有流程或项目。

假设没有明白的方向并向业务用户展示出价值,您的项目将难逃厄运。
    2,确定能够证明项目。价值的指标明白定义贴合项目目标的指标能够让您避免诸多麻烦。为自己制定一些能够衡量的现实目标。其它人就能够看出您所取得的进展。更重要的是。他们也能够看出您的长期目标是什么。问问自己,依据您的目标,您怎样衡量项目的影响。这一点非常重要。因为您的业务用户须要为短期失败找到合理的原因。而可衡量的目标能够帮助您证明您正在实现更高的价值。


    3。从战略的角度使用工具和手动。

编码避免直接在 Hadoop 中对全部内容进行手动编码。请记住,我们的目标并非从零開始人工实施一个有效的环境——而是为企业提供大数据的价值。

您不应尝试对每一次集成和全部分析进行手动编码并清理每一个数据集,而是应借助工具和自己主动化技术来加快这些流程的运行。

尤其是,不要让少数成本高昂的Java 开发人才把时间浪费在无法让其它员工接手的工作上。您的职责是制定战略决策,将稀缺资源部署到能够实现您的目标的地方。借助现有 ETL、数据质量和商业智能专家的技能和知识,採用能够提高开发团队工作效率的工具,将 Java 高手解放出来,从事具体逻辑工作。此外,因为像 Hadoop 这样的技术日新月异,您就须要考虑採用一个抽象层来应对不断变化的基础技术规范。

总之,请记住。您须要的技能是稀缺的——而工具随时可用。

何谓正确的项目
    1。明白的价值。

所谓正确的项目。就是要使 IT 与您尝试提供帮助的业务单位都能分享到项目所带来的价值。也就是说。须要为部门、业务单位或小组提供明白的价值,让他们都能够看得到。


    2,赞助方。高管能够支持您的愿景是项目取得成功的关键。大数据项目须要得到高层的拥护和赞同,愿意为您的工作提供支持。所以。假设您能够为物流部门打造超群的分析能力,而支持您这样的想法的高管仅仅有 CMO,您就应该三思而后行。

假设营销部门拥护您的工作,您就应该优先满足营销部门的分析需求。您不能强迫不论什么人做出改变。

顺势而为,尽力发挥最大价值。
    3,保龄球效应。您的首个战术项目具有至关重要的战略意义。您不仅要力排众议,证明大数据能够为您所在的业务单位提供帮助,还要确保它的价值能够轻松地传达给整个企业。因此,对于首个项目,您必须从战略的角度进行选择。

举例来说。在您向营销部门展示出大数据的价值之后。争取获得可能持保留意见的物流团队的支持就会比較easy。
    4,可传授的技能。

正如上面所说,您希望首个项目的价值能够让企业的其它部门信服。为此,您须要确保能够从首个项目中获得正确的技能、能力和经验教训。具体地说。就是您要确保将这些技能、能力和经验教训文档化。以便在下一个项目中加以运用。请记住。取得成功须要放眼未来。随时做好扩展的准备。这样您才干在将来处理很多其它的项目。这不仅仅是扩展群集的问题,而是扩展您的技能和运营规模的问题。您须要召集很多其它的 Java/Hadoop高手,或者找到能够充分发挥现有资源潜能的方法。
    
考虑产生的影响
    1,成本和干扰。从根本上说,项目成本取决于顺利开展项目所须要的时间和资金。实际上,您还应考虑项目可能会造成的干扰。

有时,因为业务单位习惯自行掌控数据。而不希望将控制权转移给一个中央数据治理框架,这样就会在过程上造成干扰。

而假设您须要将新技术集成到现有基础设施中并对技能进行重组或升级。则会在技术和技能方面造成干扰。

不管哪种情况,您都应该想到并确保尽可能地避免干扰,或者说明避免干扰的重要性。


    2,产生收益和影响的时间。

当考虑不同的启动项目时。您自然而然会倾向于能够产生最大业务影响和提升的项目。

然而,对业务影响性质的考虑也非常重要。项目的多数价值是在短期还是长期内实现?更重要的是,业务用户什么时候才干感受到这样的业务影响?比如,您能够向数据仓库引入主数据管理并大幅提高您的商业智能效率。

可是,仅仅有您的业务分析师意识到无需再清理財务数据的时候,这样的价值才干被感知。
    3,资源和限制。

鉴于您对前述两个因素的分析。请考虑您能支配的资源。

我们随后会更具体地探讨这一点,但如今,请记住一点,您当然是希望您的项目能不枉您的投入。

实现这个目标涉及两个方面。一方面,您希望实现最大限度的业务影响。然而,同一时候您也必须战略性地使用您的预算。尽管您可能会有建立像 Google 那样的数据科学家团队的冲动,但您真的负担得起吗?在工具和人员之间做出明智的选择。对您项目的成功至关重要。

战术性大数据项目演示样例
    1,一家大型科技公司希望通过结合 Hadoop 和传统的数据仓库技术,减少每 TB 的总体成本增长。从而节省几百万元的数据仓库成本增长。
    2,一家大型运输制造商计划在未来 10 年将汽车燃油消耗率减少 1%。

这家制造商也希望通过将维护期延长 10% 并将里程提高 1%。从而减少有毒碳排放。
    3,一家机车制造商希望将日常路线提高每小时公里数,从而使客户每年可节省 2 亿元。


    4,一家支付服务公司希望通过改善客户个性化体验将数字业务添加 30%,作为其“零售全方位优化”大数据战略的一部分。对于不论什么大数据团队来说。这些都是不小的成就。



基础大数据之旅
    1,数据仓库优化。这一步要求选择在最经济高效的平台上存储和处理数据。该步骤的開始。通常要将原始数据或不经常使用数据以及 ETL 工作负荷从昂贵的数据仓库硬件中移除。其目的是避免数据仓库昂贵的升级成本,并開始使用更廉价的硬件和 Hadoop 等分布式计算框架。因而使您做优点理大数据的量、种类以及速度的准备。
    2,管理数据湖。

管理数据湖是管理您全部数据供需的单个位置。

这里的关键词是“管理”。该步骤的目的是将多结构的杂乱数据变成适用、可靠和安全的信息。

这意味着建立能够优化、治理和控制您数据的数据湖。

这就须要有足够的远见。因为要建立数据湖。您须要融合严格、战略性的数据治理策略和流程。没有这些策略和流程,您的数据湖就会有基本陷入数据瘫痪境界的风险。


    3。实时运营智能。这一步。您将建立您的团队訪问、分析和交付全部数据所需的技术(分析、须要大量数据的应用系统以及參与接口)。

您在该步骤建立的应用系统必须易于使用并交付用户须要的信息。这能够是一个接口,供客户服务代表多渠道监控客户行为并确定未来两周最可能流失的客户。


    如前文所述,要获得最大的成本优势,我们建议按以下顺序运行这些步骤。减少您的基础设施成本并增强企业体系架构。
    1。数据仓库优化。

建立管理您全部数据供需的单个位置。
    2,管理数据湖。建立可提供您的团队所需信息的前沿应用系统。
    3,实时分析。建立可提供您的团队所需信息的前沿应用系统。

定制业务目标调研表。IT目标调研表

五个重要数据考虑事项
    1,为海量数据做好准备。

您必须做好应对须要“海量”数据的准备。从多个角度依据数据价值(如客户交易)、使用情况( 訪问频率)、大小(GB,TB)、复杂度(机器数据、关系数据、视频……)以及同意訪问数据的人员(仅仅有数据科学家或不论什么暂时业务用户)对数据进行分类。全面、有序的数据库存有利于您确定怎样对全部数据进行管理。评估您的当前存储和处理能力,并寻找最经济高效的方式来扩展它。


    2,应对多样性。大数据最具挑战性的一面是,您必须在分析中统协多种不同的格式和结构。假设要在您已经习惯使用的数据源(旧式关系型大型机)之外添加新的数据类型和结构(社交、传感器、视频),则您必须集成大量的数据源。假设要对每次集成都进行手动编码。则会非常繁琐。它可能会耗费您的全部时间和资源。充分利用所提供的数据集成和数据质量工具,能够让更有价值的任务加快进度。
    3。处理速度。实时流数据和历史数据相结合往往能提高分析的预測能力。因此,您所须要的某些数据仅仅有在不断涌入您的系统时才可能有价值。实际上,大多数实时分析都须要基于流数据进行 – 这样的数据通常来自不同的源并採用不同的格式。为您的项目准备流分析技术和一个逻辑基础设施,以便管理全部数据。
    4,确保真实性。不管您的分析有多么重要。假设人们没有理由信任当中的数据,它就一文不值。您分析的数据越多。保持较高的数据质量就越重要。为使您的数据满足实际须要,您须要了解数据的用途。假设数据科学家要在聚合的客户数据中找到数据模式,则须要准备的数据就会大为减少。还有一方面,財务报表和供应链数据须要进行精心组织、进行清洗并获得认证,才干确保准确性和合规性。依据须要准备的数据创建类别,包含原始数据以及由经过清洗的可靠权威数据组成的数据存储等。该数据存储已进行精心组织并会受到掌控。
    5,考虑合规性。您处理的不同数据集也会具有不同的安全规定和要求。对于每一个数据集,您须要考虑须要採取什么措施来依据安全策略对数据进行匿名化处理。

您的海量数据会分散在企业的数百个数据存储中。

您须要熟悉敏感数据所在的位置。并通过加密来确保其数据源的安全性,然后对有权訪问该数据的人员加以控制。除了对敏感数据进行安全、智能存档之外。还要随时在其迁移或进入开发和測试环境时使用提前定义的规则使该数据脱敏。对要处理的每一个数据集应用上述五个考虑事项,您就能够更现实地做好准备来迎接大数据的挑战。
    

人员准备:
    1。数据科学家
    2。行业专家
    3,业务分析师
    4,数据分析师
    5,数据project师
    6,数据库管理员
    7。企业架构师
    8,业务解决方式架构师
    9,数据架构师
    10,数据管理员
    11。ETL(数据集成)开发者
    12,应用系统开发者
    13,仪表盘开发者
    14,统计数据建模人员



工具:

1,数据注入。

以合理的方式採用合理的方法高效利用数据的过程。


    批量载入。

您能否够訪问所需的各种数据。并高效地将批量载入的性能扩展至数据存储?
    变更数据捕获。

您能否够在不影响源系统的情况下捕获对源系统中的数据所做的更改?
    数据流。

您能否够可靠地收集实时数据并将其流式传输到数据存储?
    存档。您能否够存档和压缩不经常使用的数据,同一时候确保能够在须要时轻松訪问存档的数据?
    
2,数据管理
    数据集成。

您能否够准备各种结构和数据源并将它们整合成一个统一的数据集进行分析?
    数据质量。您能否够可靠地清洗数据、进行反复数据删除并删除错误?
    数据安全性。

您能否够通过分配使用、訪问和权限规则来发现和保护全部数据存储中的数据?
    虚拟数据机。您能否够为基础部署环境中松散处理的数据创建一个抽象层?
    主数据管理。您能否够为各种数据域存储一个经过整合的完整而权威的真实数据版本号?
    分布式数据框架。您能否够使用 Hadoop 之类的技术经济高效地扩展您的存储和处理需求?
    数据仓库。您是否具有能够满足性能、使用和可扩展性要求的数据仓库技术,以实现 Hadoop 基础设施的大数据分析和集成?

3,数据交付。将您的数据发送到须要该数据的系统和应用系统的过程。


    批量载入。您能否够在源系统、分析系统和操作后端系统之间扩展数据批量载入的性能?
    实时流。您能否够实时将数据流式传输到须要该数据的应用系统、分析系统和后端系统?
    数据集成中心。

您能否够使用公布-订阅模式之类的方法来提供数据。以避大量进行点对点集成?
    数据虚拟化。您能否够在避免数据超载的情况下从您的系统交付数据?
    基于事件的处理。您能否够实时检測、分析和响应威胁、机会和其它关键业务事件?

4,分析。将原始数据转化为对要分析的域生成的洞见、模式、预測和计算的工具和流程。
    可视化。您能否够用易于消化和理解的方式展示数据和结果?
    高级分析。您能否够将前沿分析算法应用到数据集进行复杂的计算?
    机器学习。

您能否够在不必进行手动处理的情况下採用复杂的机器学习算法来识别模式并做出预測?