《大数据》

第6卷第4期 2020年7月

** 大数据2020年第4期

**(点击原文链接在官网阅读完整文章)

目次

01 专题导读:大数据异构并行系统 陈海波

02 GPU事务性内存技术研究 林玉哲, 张为华

03 大规模异构数据并行处理系统的设计、实现与实践

夏正勋, 罗圣美, 孙元浩, 唐剑飞, 张燕

04 面向大数据异构系统的神威并行存储系统

何晓斌, 蒋金虎

05 面向异构众核超级计算机的大规模稀疏计算性能优化研究

胡正丁, 薛巍

06 深度学习中的内存管理问题研究综述

马玮良, 彭轩, 熊倩, 石宣化, 金海

07 新一代深度学习框架研究

于璠

08 大数据场景中语言虚拟机的应用和挑战

吴明瑜, 陈海波, 臧斌宇

09 适用于特殊类型自然语言分类的自适应特征谱神经网络

王一峰, 孙丽茹, 崔良乐, 赵毅

10 区块链技术在政务数据共享中的应用

王鹏, 魏必, 王聪

11 大数据应用技术课程教学改革与实践

夏大文, 王林, 张乾, 魏嘉银, 冯夫健, 李华青

12 美俄人工智能军事应用发展分析

缐珊珊

摘要

专题:大数据异构并行系统

导读

作者:陈海波

摘要:随着大数据处理从粗放走向集约,性能、成本、功耗等多方面的约束为大数据系统设计提供了新的机遇与挑战。各种异构并行处理体系结构与芯片架构不断创新并被广泛部署,在为大数据处理提供更强大的并行计算能力的同时,显著降低了系统的总体能耗。然而,这些异构并行处理硬件也给面向大数据处理的编程模型、开发调试与系统构建带来了新的挑战。本专题汇集了国内活跃在一线的系统研究者的7篇文章,从GPU的并发同步、大规模异构数据并行处理、高性能并行存储、大规模稀疏计算、深度学习内存管理、全场景人工智能和语言虚拟机应用等多个视角出发,探讨大数据异构并行系统中存在的新思路、新机遇与新挑战,希望引起读者兴趣,促进该领域研究和实践的蓬勃发展。

原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-4-00001.shtml

GPU事务性内存技术研究

作者:林玉哲, 张为华

摘要:GPU是并行计算领域重要的体系结构之一,然而在面对高数据竞争的场景时,程序员往往需要设计复杂的并行方案。为了简化这一过程,GPU事务性内存实现了复杂的数据同步和并行,对外则仅提供简单的API。首先介绍了GPU事务性内存的研究背景。其次,讨论了近年的GPU事务性内存的设计方案与策略,分析了不同设计方案遇到的问题和解决方案,包括硬件和软件上的实现。最后对GPU事务性内存的现状和未来的发展做出了总结和展望。

原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-4-00003.shtml

大规模异构数据并行处理系统的设计、实现与实践

作者:夏正勋, 罗圣美, 孙元浩, 唐剑飞, 张燕

摘要:随着互联网和物联网应用的快速发展,数据处理模式从结构化逐渐扩展到结构化、半结构化和非结构化混合的异构数据处理模式。设计了一种大规模异构数据并行处理系统,在统一的平台功能视图基础上,采用统一的资源管理框架,实现对结构化、JSON/XML、图数据、文档数据等多种异构数据进行存储和查询,采用统一的开发语言,实现跨数据类型和数据存储引擎的并行计算,满足多业务应用开发的需要,并通过实际的商业部署,验证了系统的可行性。

原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-4-00018.shtml

面向大数据异构系统的神威并行存储系统

作者:何晓斌, 蒋金虎

摘要:随着大数据应用和传统高性能计算应用的融合以及异构计算的引入,传统面向高性能计算的并行存储系统面临着异构计算I/O支持差、性能干扰和效率低等问题。通过在系统架构引入多层次存储架构、设计缓存映射机制来减轻I/O负载。在转发服务层,调整I/O转发策略,均衡I/O负载。在后端存储层,对系统高可用功能进行调整,解决大数据I/O访问模式与原有高可用措施的冲突。经过优化设计和完善后的并行存储系统更好地适应了异构众核架构,使得某些应用获得了10倍以上的I/O性能提升。

原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-4-00030.shtml

面向异构众核超级计算机的大规模稀疏计算性能优化研究

作者:胡正丁, 薛巍

摘要:随着超级计算机技术的发展,大数据应用中大规模稀疏问题的求解成为可能,而稀疏问题的不规则计算和访存特性又给应用实现和性能优化带来了挑战。异构众核是超级计算机系统中的常见架构,其设计向应用开发者提出了高要求,如何发挥其强大的计算能力成为一个难题。分析了稀疏计算的性能优化挑战,介绍了基于典型异构众核计算机系统的3种大规模稀疏处理类应用设计和性能优化案例,以期为在新一代异构众核系统上开展大规模稀疏计算问题求解提供借鉴。

原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-4-00040.shtml

深度学习中的内存管理问题研究综述

作者:马玮良, 彭轩, 熊倩, 石宣化, 金海

摘要:近年来,深度学习已经在多个领域取得了巨大的成功。深度神经网络向着更深更广的方向发展,训练和部署深度神经网络模型都将面对巨大的内存压力。加速设备有限的内存空间已经成为限制神经网络模型快速发展的重要因素,如何在深度学习中实现高效的内存管理成为深度学习发展的关键问题。为此,介绍了深度神经网络的基本特征;分析了深度学习训练过程中的内存瓶颈;对一些代表性的研究工作进行了分类阐述,并对其优缺点进行了分析;对深度学习中内存管理技术的未来发展趋势进行了探索。

原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-4-00056.shtml

新一代深度学习框架研究

作者:于璠

摘要:从人工智能的历史出发,简述深度学习发展历程以及目前的挑战,通过介绍新一代深度学习框架的特点,分析总体框架,阐述自动并行、自动微分、自动调优等技术优势以及协同昇腾处理器的性能优势,希望可以为深度学习技术研究人员提供参考。

原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-4-00069.shtml

大数据场景中语言虚拟机的应用和挑战

作者:吴明瑜, 陈海波, 臧斌宇

摘要:语言虚拟机为大数据应用提供了与平台无关的执行环境,简化了应用的开发和部署,因此在大数据场景中得到了较广泛的应用。主要分析了两种主流语言虚拟机——JVM和CLR在大数据场景中的应用,并阐述了使用语言虚拟机面临的4个挑战:初始化及“热身”开销、垃圾回收暂停、异构内存支持、数据格式转换。之后,分别针对4个挑战讨论了现有的解决方案,并分析了这些方案的不足之处及未来可能的优化方向。

原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-4-00081.shtml

研究

适用于特殊类型自然语言分类的自适应特征谱神经网络

作者:王一峰, 孙丽茹, 崔良乐, 赵毅

摘要:计算机算力的提升使得深度学习算法迅速发展,然而由于古诗文特殊的语序、用词、结构、句式、文法结构、表达方式,深度学习模型需要消耗更多的算力进行特征提取等工作,因此并未在这一领域取得广泛的应用。为此,提出了一种新型的神经网络结构——自适应特征谱神经网络。该算法有效减少了运算时间,可以自适应地选择对分类最有用的特征,形成最高效的特征谱,得到的分类结果具有一定的可解释性,而且由于其运行速度快、内存占用小,因此非常适用于学习辅助软件等方面。以此算法为基础,开发了相应的个性化学习平台。该算法使古诗文分类的准确率由93.84%提升到了99%。

原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-4-00092.shtml

应用

区块链技术在政务数据共享中的应用

作者:王鹏, 魏必, 王聪

摘要:区块链技术能够化解数据共享面临的安全与效率矛盾,在政务数据共享中具有很大的应用潜力。基于当前政策环境和传统数据共享的问题,结合区块链技术的应用原理与核心优势,分析了区块链在政务信息资源共享中应用的优势与预期效果,引入并分析了不动产区块链信息共享平台建设的实际案例。案例证明,区块链技术可有效解决政务数据共享存在的问题与挑战,促使政府为社会提供更优质的公共服务。在总结了运用区块链技术的经验与启示之后,提出了未来区块链促进政务信息共享的建议与展望。

原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-4-00105.shtml

大数据应用技术课程教学改革与实践

作者:夏大文, 王林, 张乾, 魏嘉银, 冯夫健, 李华青

摘要:大数据促进了数据科学研究的发展和数据科学学科的建设,催生了对新型数据人才的需求。分析了大数据人才培养的现实需求,指出了大数据人才培养的现存问题,然后以“大数据应用技术课程”为例,在重构教学体系、优化教学内容、改进教学方法、规范教学过程和完善教学评价等方面阐述了大数据专业教学改革的路径选择与实践,致力于创新培养兼具工程实践能力与技术创新能力的跨界复合型大数据人才。

原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-4-00115.shtml

论坛

美俄人工智能军事应用发展分析

作者:缐珊珊

摘要:随着人工智能领域技术的快速发展,其应用范围扩展到了军事领域。重点分析了美俄人工智能军事应用的途径和特点,结合大数据的特点,探索美俄人工智能军事应用的发展路径,预测性地提出了未来该领域人工智能应用的趋势,以期为我国人工智能的应用提供参考和借鉴。

原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-4-00125.shtml