python 提交到hadoop 切块 hadoop运行python程序

转载

mob64ca13feda16 2023-10-26 15:55:30

文章标签 python 提交到hadoop 切块 Hadoop Python Java 文章分类 Python 后端开发

在Hadoop上运行NLTK

在Hadoop上运行Python进程，有很多种方法。本节将会谈论一些在Hadoop运行Python的主流方式，如流MapReduce作业，在Hive中的Python UDF，以及Python Hadoop包装器。

通常，以map函数和reduce函数的形式，编写Hadoop作业。对于给定的任务，用户必须写出map和reduce函数的实现。通常，这些mapper和reducer是使用Java实现的。同时，Hadoop提供了流，在任何其他的语言中，用户可以使用类似于Java语言的方式，编写Python的mapper和reducer。假设读者已经使用Python运行了单词计数的示例。在本章稍后部分，我们也将使用NLTK，运行相同的示例。

使用Python的其他方法是在Hive或Pig中编写UDF（User Defined Function，用户定义函数）。此处的思想是，在NTLK中执行的大部分操作是高度并行化的。例如，POS标签、词语标记、词形还原、停止字删除和NER是高度可分布的。原因是各行的内容是互相独立的，在进行这些操作时，不需要任何上下文。

因此，如果在群集的每个节点上有NTLK和其他Python库，那么可以使用Python语言的NLTK和scikit库，编写UDF。这是使用NLTK（特别是大规模使用scikit）时最简单的方法之一。本章将讨论这两个库

不同的组织实现了各种各样的包装器使Python运行在集群上。实际上，其中一些包装器是非常容易使用的，但是所有的这些包装器有性能差异。其中一些包装器如下所示，如果你想进一步了解它们，请浏览项目页面。

Hadoopy
Pydoop
Dumbo
mrjob

前面已经谈了很多关于NTLK库的内容，以及它所提供的一些经常使用的函数。现在，NLTK可以解决许多NLP问题，其中许多问题是高度并行的。这就是我们试图在Hadoop上运行NLTK的原因。

在Hadoop上运行NLTK最好的办法是将它安装在集群中的所有节点上。实现这一点并不是很困难。有多种方式可以做到这一点，如将资源文件作为流参数进行发送。但是，这里宁可选择第一个选项。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：redis主从 yml redis主从原理

下一篇：gozerodocker构建镜像失败 dockfile构建镜像

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯