问题

数据库领域处理的问题,可真是包罗万象!有个 rpad 函数,它用来做 padding,保证结果集不超过规定的“宽度”:

字符的宽度_屏幕显示

字符的宽度_屏幕显示_02

10 表示什么呢?这里 10 表示 10 个屏幕宽度。对于字母和数字,一个字母占1个宽度,对于中文,一个字占2个宽度。

这样一来,这个函数就有很实际的意义了:**为了打印漂亮,可以用 rpad/lpad 函数来统一格式化输出,确保屏幕上的输出整整齐齐。**无论什么字符集都能支持得很好。

标准

那么,世界上那么多文字,每个文字的宽度是多少,有规定吗?有,有标准:
https://www.cl.cam.ac.uk/~mgk25/ucs/wcwidth.chttps://pubs.opengroup.org/onlinepubs/007904975/functions/wcswidth.html

当你在实现 rpad 函数时,就需要考虑到这套国际标准定义,否则实现的效果就和标准不兼容了。

总结一下

对一个字,它有好多重属性:

  1. 他出现在什么字符集之下(UTF8,GBK,GB2312,etc)
  2. 它在字符集之下的编码是多少
  3. 它用了几个字节来存编码 (strlen_char、mb_length)
  4. 它的屏幕显示宽度是多少(和字符集无关)