presto 转换时间戳 perl 时间转换

关注 mob64ca13f9e726

presto 转换时间戳 perl 时间转换

转载

mob64ca13f9e726 2024-07-27 22:06:04

文章标签 presto 转换时间戳字符串 perl Perl 文章分类 云原生云计算

Perl Unicode转换概括：

1.判断输入源的编码方式
2.输入源是utf8编码
　　a. Encode::_utf8_on($str);开启utf8 flag。
　输入源非utf8编码
　　a. $string = decode(ENCODING,$octets [,CHECK]);将输入源转化成utf8编码并开启utf8 flag
3.输出
　　$str = Encode::encode(ENCODING, $str);把字符串从utf8编码转成指定的编码, 并关闭utf8 flag

----------------------------------------------以下内容摘自网络------------------------------------------------------------------------------

Perl Internal Form

　　Perl中字符串只有两种形式：一种是字符串(Perl strings)。另外一种是字节流(bytes，标准称作octets)。编码类型分别是：utf8编码(字符串)和Ascii(字节流)

UTF8 FLAG
　　perl如何确定一个字符串是octets还是utf8编码的字符串呢? perl完全是靠字符串上的utf8 flag。在perl内部, 字符串结构由两部分组成: 数据和utf8 flag

比如字符串“中国”在perl内部的存储是这样:
　　utf8 flag 数据
　　 On 中国
如果utf8 flag是On的话, perl则把“中国”当成utf8字符串来处理, 如果utf8 flag为Off, perl就会把他当成octets来处理。但要注意的是：不能根据utf8 flag来判定字符串是否是utf8编码。

示例1：
use Encode;
use strict;

my $str = "中国";
Encode::_utf8_on($str);
print length($str) . "\n";
Encode::_utf8_off($str);
print length($str) . "\n";

运行结果是:
Malformed UTF-8 character (unexpected end of string) at unicode.pl line 30
2
6

使用Encode模块的_utf8_on函数和_utf8_off函数来开关字符串“中国”的utf8 flag。可以看到, utf8 flag打开的时候,"中国"被当成utf8字符串处理, 其长度是2。 utf8 flag关闭的时候,“中国”被当成octets(字节数组)处理, 出来的长度是6(我的编辑器用的是utf8编码, 如果你的编辑器用的是gb2312编码, 那么长度应该是4)。由于"中国"本来的编码是gb2312的, 不是utf8的,但开启utf8 flag后，Perl把"中国"当成utf8处理，这就可能导致错误发生:Malformed UTF-8 character(unexpected end of string)

字符串来源

　　为了应用上面说到的基本原则, 我们首先要知道字符串本来的编码和utf8 flag开关情况, 这里我们讨论几种情况。

不管是什么编码, 进来的字符串的utf8 flag都是关闭的状态。

源代码里的字符串的utf8 flag同样是关闭的状态。　　

1) 编写代码时使用utf8编码,2)在文件的开头加上“use utf8;”语句。这样, 你源代码里的字符串就都会是utf8编码的, 并且utf8 flag也已经打开。

读进来以后, utf8 flag是off状态。

　　小结：不经过特殊处理，字符串的utf8 flag是off状态，perl就会把字符串当成octets来对待。这时候, 我们使用$string = decode(ENCODING, $octets) 用来解码字节流的。它按照你给出的编码格式(ENCODING)解释给定的字节流，把字节流从ENCODING编码转成utf8编码，并开启utf8 flag。不过有个例外就是, 如果字符串是仅仅ascii编码或EBCDIC编码的话, 不开启utf8 flag。注：本人尚不清楚如何判定字符串是否是ascii编码或EBCDIC编码

输出

　　字符串在程序内被正确地处理后, 要展现给用户。这时我们需要把字符串从perl internal form转化成用户能接受的形式。简单地说, 就是把字符串从utf8编码转换成输出的编码或表现界面的编码。这时候, 我们使用$str = Encode::encode('charset', $str);把字符串从utf8编码转成指定的编码, 并关闭utf8 flag。

同样可以分为几种情况:
　　1) 标准输出。标准输出的编码跟locale一致。输出的时候utf8 flag应该关闭, 不然就会出现我们前面看到的那行警告:
Wide character in print at unicode.pl line 10.

　　2）。。。。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：java access_token有效期代码 jwt access token

下一篇：SQL Server 2012创建单属性索引 sql server建立索引

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册