最近工作中需要用spark对中文的字符提取,由于环境一直是英文的,发现打印出来是乱码。后经研究,需要做一个UTF-8的转换 大概如下: val data_file = sc.textFile(“test.txt”) val item1 = data_file.map(p => new String(p.getBytes, 0, p.getLength, "UTF-8")).map{ item => XXX }
Spark如何处理中文字符串
原创
©著作权归作者所有:来自51CTO博客作者kongtan的原创作品,请联系作者获取转载授权,否则将追究法律责任
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
Java-长字符串加密
加密:为你的长字符串提供最高级别的保护!!!
加密算法 JAVA -
PHP计算中文字符串长度 、截取对应中文字符串
PHP计算中文字符串长度 、截取对应中文字符串
PHP计算中文字符串长度 截取对应中文字 字符串 PHP 字符串长度 -
python中文字符串出错 python 中文字符串
Python中,只有引号(“ ”、‘’)内可以用中文字符。其他部分用编译器识别不了。
python中文字符串出错 python 编译器 中文字符 Python -
python 中文字符 python 中文字符串长度
Python 中,要想知道一个字符串有多少个字符(获得字符串长度),或者一个字符串占用多少个字节,可以使用 len 函数。
python判断有没有这个字段 字符串 Python 字节数 -
python中文字符串某些字显示为框框 python中文字符串处理
Python的中文处理一、使用中文字符 在python源码中如果使用了中文字符,运行时会有错误,解决的办法是在源码的开头部分加入字符编码的声明,下面是一个例子: #!/usr/bin/env python # -*- coding: cp936 -*- Python Tuto
python中文字符串某些字显示为框框 python encoding import url