问题背景:

电脑环境:mac、Python3.6、jieba0.4、docker centos7

使用jieba分词后,将分词结果以日志的形式输出,在容器中打印的日志,输出的汉字是编码形式的'\xe5\x85\xa8\xe9\x83\xa8',但是在本地输出是正常的,很是费解。

问题原因以及解决:

原因:docker默认不支持中文,因此需要配置容器环境。各种decode,encode都尝试了,不能够解决docker内部起的服务中不能识别中文字符的现象。

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe9 in position 0: ordinal not in range(128)

粗暴的解决方式:修改Dockerfile文件,添加中文编码相关的组件,重新生成一个镜像,再起一个容器。

RUN yum install kde-l10n-Chinese -y
RUN yum install glibc-common -y
RUN localedef -c -f UTF-8 -i zh_CN zh_CN.utf8
RUN export LANG=zh_CN.UTF-8
RUN echo "export LANG=zh_CN.UTF-8" >> /etc/locale.conf
ENV LANG zh_CN.UTF-8
ENV LC_ALL zh_CN.UTF-8

如果时间紧急,看到这就可以结束了。下面内容是详细解释

使用docker centos7镜像部署分词服务,发现日志文件中出现乱码。真对此问题,大多是因为镜像中不支持中文导致。下面是具体的解决方案。

根据容器名称或id进入容器内:

docker exec -it container_name /bin/bash

执行locale查当前环境使用的语言:

[root@590fa1db8133/]# locale
LANG=
LC_CTYPE="POSIX"
LC_NUMERIC="POSIX"
LC_TIME="POSIX"
LC_COLLATE="POSIX"
LC_MONETARY="POSIX"
LC_MESSAGES="POSIX"
LC_PAPER="POSIX"
LC_NAME="POSIX"
LC_ADDRESS="POSIX"
LC_TELEPHONE="POSIX"
LC_MEASUREMENT="POSIX"
LC_IDENTIFICATION="POSIX"
LC_ALL=

执行locale -a查看当前系统支持的语言包:

[root@590fa1db8133/]# locale -a
C
POSIX
en_US.utf8

会发现,默认并不支持中文的zh_CN.utf8。下面开始安装对应的语言包。

安装语言包(针对centos 7):

[root@590fa1db8133/]# yum install kde-l10n-Chinese -y

更新gitbc包(防止镜像阉割了该包的部分功能):

[root@590fa1db8133/]# yum reinstall glibc-common -y

设置系统语言包:

[root@590fa1db8133/]#  localedef -c -f UTF-8 -i zh_CN zh_CN.utf8

在/etc/profile文件中新增:

[root@590fa1db8133/]# vi /etc/profile
# 在文件最后,添加下面:
 export LC_ALL=zh_CN.UTF-8

重新编译:

[root@590fa1db8133/]# source /etc/profile

设置/etc/locale.conf,新增: 

[root@590fa1db8133/]#  vi /etc/locale.conf
# 在LANG="en_CN.UTF-8" 下一行添加下面:
LANG="zh_CN.UTF-8"

然后重启镜像,乱码问题解决。虽然再次执行locale,显示的编码还是POSIX,但日志乱码问题已经不存在了。解决docker镜像和容器已经存在的情况。

tips:

1.如果你百度到别的方法,修改过你的container or image文件了,然后按照这篇文章又修改了一遍,大概率不work。因为“污染”了此时的环境,解决办法:删掉,重新构建一个镜像即可。

2.也有可能是你开发机上的虚拟环境被你“污染”了,解决办法:重新搭建一个虚拟环境吧,一劳永逸。