最近在做一个基于微信公众号开发的微店商城项目,本人是java后台。需要存储从公众号进入我们商城的用户的微信昵称,由于Android和ios系统中存在emoji这种特殊字符,导致我从微信接口中获取到的微信昵称中如果含有emoji字符,插入数据库就会报错(mysql数据库)。

报错信息:Incorrect string value: '\xF0\x9F\xA4\x97 3...' for column 'nick_name' at row 1

百度了解知道:emoji表情符采用Unicode 6标准,采用4个byte字节存储一个emoji表情符,而我们的mysql数据库采用UTF-8编码格式时,采用3个byte字节存储一个字符,这样插入数据库就会报错。好在mysql5.5.3之后新增了一个utf8mb4字符集,专门用来兼容4字节的Unicode字符。

解决办法:


一、如果非得存储emoji表情。mysql5.5.3以下的升级数据库,本来就是5.5以上的直接修改字符集和排序规则,注意一定要同时把排序规则也一起修改了。


1.修改数据的字符集和排序规则,如下图:




strong 微信emoij_数据库


2.修改表中该字段的字符集和排序规则


strong 微信emoij_数据库_02


3.重启数据库,再次插入就不会报错。emoji在数据库中还是无法正常显示。


strong 微信emoij_数据库_03




二、直接将emoji表情过滤,我还是觉得这种办法方便,毕竟重装数据库对业务有很大的影响,特别是该数据库中有别的线上项目的数据时根本不允许重装。


/**
* @Title:emoji特殊处理
* @author:yanbing
* @date:2017-12-05 10:15
 */
public class EmojiStringUtils {
	/**
	* @Title:判断是否存在特殊字符串
	* @param
	* @author:yanbing
	* @date:2017-12-05 10:14
	 */
    public static boolean hasEmoji(String content){
        Pattern pattern = Pattern.compile("[\ud83c\udc00-\ud83c\udfff]|[\ud83d\udc00-\ud83d\udfff]|[\u2600-\u27ff]");
        Matcher matcher = pattern.matcher(content);
        if(matcher .find()){
            return true;    
        }
            return false;
    }
    /**
    * @Title:替换字符串中的emoji字符
    * @param
    * @author:yanbing
    * @date:2017-12-05 10:17
     */
    public static String replaceEmoji(String str){
    	if(!hasEmoji(str)){
    		return str;
    	}else{
    		str=str.replaceAll("[\ud83c\udc00-\ud83c\udfff]|[\ud83d\udc00-\ud83d\udfff]|[\u2600-\u27ff]", " ");
    		return str;
    	}
    	
    }
}





附注:emoji表情符的编码表:http://punchdrunker.github.io/iOSEmoji/table_html/flower.html2017


2017/12/6 14:17后记:

本人在升级数据库后(mysql5.6),按照上述方法一操作,发现还是无法插入带有emoji标签的字符,检查我的数据库字符集发现:

执行:SHOW VARIABLES WHERE Variable_name LIKE 'character\_set\_%' OR Variable_name LIKE 'collation%';

出现:


character_set_client utf8
character_set_connection utf8
character_set_database utf8mb4
character_set_filesystem binary
character_set_results utf8
character_set_server latin1
character_set_system utf8
collation_connection utf8_general_ci
collation_database utf8mb4_general_ci
collation_server latin1_swedish_ci
发现character_set_server=latin1,百度知道latin1是ISO-8859-1的别名,也就是说安装数据库是选择的字符集是ISO-8859-1,导致我们新建数据库时 服务器字符集 (character_set_server)默认为iso-8859-1,解决方法:




Linux版本的mysql安装后一般会有一个my.cnf文件,在etc目录下,cd /etc进入my.cnf目录,vim my.cnf进入编辑模式,在[mysqld]下面增加两行配置:character_set_server=utf8mb4  collation_server=utf8mb4_general_ci


strong 微信emoij_数据库_04


重启数据库:service mysqld restart;




再次查询所有字符集都是utf8编码的,插入数据也成功


character_set_client utf8
character_set_connection utf8
character_set_database utf8mb4
character_set_filesystem binary
character_set_results utf8
character_set_server utf8mb4
character_set_system utf8
collation_connection utf8_general_ci
collation_database utf8mb4_general_ci
collation_server utf8mb4_general_ci