前言

 

阅读本文差不多需要 6 分钟,不信你试试

 


时间格式对于任何一个工程师来说都是绕不开的知识,爬虫工程师同样如此。爬虫工程师要将不同网站的相同类型内容存放在同一个数据表当中,常见的有:

站点 A 的时间格式为 “2018-5”
站点 B 的时间格式为 “3天前”
站点 C 的时间格式为 “5-10 8:25”

在数据库存储的时候,应该选用哪种时间格式合适呢?新建字段的时候是选择 DATE 格式还是 DATETIME 格式?YEAR 又是什么?

Python 内置时间函数有 time 和 datetime,什么时候适合用 time ?什么时候选择 datetime 呢?

Mysql 时间类型

在数据库建表的时候,通常有5中字段类型让人选择: TIME、DATE、DATETIME、TIMESTAMP、YEAR

每种类型的存储空间和时间格式如下:

TIME类型 :存储空间[3 bytes] - 时间格式[HH:MM:SS] - 时间范围[-838:59:59  到  ~ 838:59:59]
DATE类型 :存储空间[3 bytes] - 时间格式[YYYY-MM-DD] - 时间范围[1000-01-01 到 9999-12-31] (可以理解为年月日)
DATETIME类型 :存储空间[8 bytes] - 时间格式[YYYY-MM-DD HH:MM:SS] - 时间范围[1000-01-01 00:00:00 到 9999-12-31 23:59:59] (可以理解为年月日时分秒)
TIMESTAMP类型 :存储空间[4 bytes] - 时间格式[YYYY-MM-DD HH:MM:SS] - 时间范围[1970-01-01 00:00:01 到 2038-01-19  03:14:07] (以秒为计算)
YEAR类型 :存储空间[1 bytes] - 时间格式[YYYY] - 时间范围[1901  到  2155](按年计算)

YEAR 这样的时间格式用的是比较少的,而 TIME 用的也不多,常见的还是 DATE、DATETIME 和时间戳 TIMESTAMP。

Python 的 time

Python提供了三种时间函数,时间模块 time、基本时间日期模块 datetime 和日历模块 Calendar。Python 的 time 模块下有很多函数可以转换常见日期格式。如函数 time.time() 用于获取当前时间戳:

import time

timestamp = time.time()
print(timestamp, type(timestamp))

输出的时间戳是 float 类型:

1544788687.041193 <class 'float'>

时间戳单位最适于做日期运算。但是1970年之前的日期就无法以此表示了。太遥远的日期也不行,UNIX和Windows只支持到2038年。Time 模块包含了以下内置函数,既有时间处理的,也有转换时间格式的:

time date datetme timestamp 傻傻分不清楚_java

Python 的日历

Calendar 函数都是日历相关的,星期一是默认的每周第一天,星期天是默认的最后一天。更改设置需调用calendar.setfirstweekday()函数。模块包含了以下内置函数:

日历模块 Calendar 是用的次数比较少的(在爬虫和Django开发的实际应用较少)。出现较多的是 time 模块和 dateteime 模块。那 time 和 datetime 是什么关系呢?

time模块  --  比较接近底层的
- datetime模块  --  基于time新增了很过功能,提供了更多函数

使用对比

1、获取当前时间

import datetime, time

""" 崔庆才丨静觅、韦世东丨奎因 邀你关注微信公众号【进击的Coder】 """
print(time.time())
print(datetime.datetime.now())

得到的输出结果是:

1544789253.025471
2018-12-14 20:07:33.025502

2、当前时间格式化

import datetime, time

""" 崔庆才丨静觅、韦世东丨奎因 邀你关注微信公众号【进击的Coder】 """
""" time当前时间 """
localtime = time.localtime(time.time())
print("当前时间元组 :", localtime)
print("不格式化:", time.time())
res1 = time.strftime('%Y-%m-%d', localtime)
print("strftime 可以把时间格式化为日期形式 :", res1)
res2 = time.strftime('%Y-%m-%d %H:%M:%S', localtime)
print("strftime 可以把时间转换为日期和时间 :", res2)
# ------------------------------------------------
""" datetime当前时间 """
time_now = datetime.datetime.now()
res3 = datetime.datetime.now().strftime("%Y-%m-%d")
res4 = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
print("不格式化的当前时间:", time_now)
print("datetime 也可以这样用:", res3)
print("datetime 也可以这样用:", res4)

得到的结果是:

当前时间元组 : time.struct_time(tm_year=2018, tm_mon=12, tm_mday=14, tm_hour=20, tm_min=18, tm_sec=11, tm_wday=4, tm_yday=348, tm_isdst=0)
不格式化: 1544789891.681039
strftime 可以把时间格式化为日期形式 : 2018-12-14
strftime 可以把时间转换为日期和时间 : 2018-12-14 20:18:11
不格式化的当前时间: 2018-12-14 20:18:11.681079
datetime 也可以这样用: 2018-12-14
datetime 也可以这样用: 2018-12-14 20:18:11

这里可以看出这两个模块获得的时间都不是人类容易阅读的,都需要通过strftime函数进行格式化。

3、文本时间转换

这里我指的是爬虫获取的其他网站的时间,通常有几种格式:

  • 长时间 -- 2018-01-06 18:35:05、2018-01-06 18:35

  • 日期 --  2018-01-06

  • 月时间 -- 2018-01

  • 时间 --  18:35:05

爬虫得到的时间都是给人阅读的,只不过分隔符不同。在入库的时候,爬虫工程师希望他们的时间格式是统一的,年月日时分秒或者年月日,如果可以就用时间戳,方便计算(年月日时分秒对应年月日时分秒,年月日不可直接转换为年月日时分秒)。

遇到日期类型 2018-01-06 的时间格式,是不可以用函数直接转成长时间 (比如 2018-01-06 18:35:05) 格式的,强行操作会报错。当遇到这种需要将时间格式统一的情况,没有直接操作的办法,只能对时间进行转换。转换又分为两种,相同时间格式转换与不同时间格式转换:

第一种情形

目标:2018-01-06 18:35:05 转换为2018/01/06 18:35:05

它有两种方法可以满足

方法一的逻辑是不同格式的时间转换要先转成时间数组,然后再由时间数组格式化成想要的类型:

import datetime,time

a = "2013-10-10 23:40:00"  # 想要转换成 a = "2013/10/10 23:40:00"

timeArray = time.strptime(a, "%Y-%m-%d %H:%M:%S")
otherStyleTime = time.strftime("%Y/%m/%d %H:%M:%S", timeArray)
print(timeArray)
print(otherStyleTime)

从输出结果:

time.struct_time(tm_year=2013, tm_mon=10, tm_mday=10, tm_hour=23, tm_min=40, tm_sec=0, tm_wday=3, tm_yday=283, tm_isdst=-1)
2013/10/10 23:40:00

可以看到,先通过 time.strptime 把它转换成时间数组,然后通过 time.strftime 把时间数组格式化成我想要的格式。

方法二,由于最终格式化的时间也是字符串 str,所以当遇到这种情况的时候,还可以直接用 replace 来进行转换:

a = "2013-10-10 23:40:00"  # 想要转换成 a = "2013/10/10 23:40:00"

print(a.replace("-""/"))

输出结果为:

2013/10/10 23:40:00

第二种情形

目标:2018-01-06  转换为2018-01-06 18:35:05

它也有两种方法可以满足

它的逻辑是将年月日的字符串拼接上时分秒,然后再按照上面的两种方法进行转换,比如:

a = "2013-10-10 "  # 想要转换成 a = "2013/10/10 23:40:00"
ac = a + "00:00:00"
print(ac.replace("-""/"))

得到输出结果

2013/10/10 00:00:00

第三种情形

目标:2018-01-06 18:35:05 转换为2018-01-06

思路与第一种一致,先转换为时间数组,然后再由时间数组进行格式化:

import datetime,time

a = "2013-10-10 23:40:00"  # 想要转换成 a = "2013/10/10"
timeArray = time.strptime(a, "%Y-%m-%d %H:%M:%S")
otherStyleTime = time.strftime("%Y/%m/%d", timeArray)
print(type(timeArray))
print(otherStyleTime)

得到结果输出为(可以看到 timeArray 的类型是 time.struct_time):

<class 'time.struct_time'>
2013/10/10

4、时间的比较运算

都知道字符串是不可以进行比较计算的,那么我们就需要用到其他的格式进行。time 的 strptime 转换成时间数组是不可以进行运算的,但是 datetime 可以。

第一种 ,时间格式相同

import datetime,time

d1 = datetime.datetime.strptime('2012-03-05 17:41:20''%Y-%m-%d %H:%M:%S')
d2 = datetime.datetime.strptime('2012-03-05 16:41:20''%Y-%m-%d %H:%M:%S')
delta = d1 - d2
print(type(d1))
print(delta.seconds)
print(delta)

得到的输出是:

<class 'datetime.datetime'>
3600
1:00:00

从结果上可以看到,格式相同的两种时间,可以通过datetime.datetime.strptime进行转换后再运算,在结果中还可以通过.seconds来计算 相差秒数 和通过.days来计算 相差天数

第二种 ,如果时间格式不一样,但是转换后的类型一样,也是可以比较的:

import datetime,time

d1 = datetime.datetime.strptime('2012/03/05 17:41:20''%Y/%m/%d %H:%M:%S')

d2 = datetime.datetime.strptime('2012-03-05 16:41:20''%Y-%m-%d %H:%M:%S')
delta = d1 - d2
print(delta.seconds)
print(delta)

这段代码里面时间的字符串形式就不一样,但是通过同样的函数进行转换后就可以比较计算了。

第三种 ,年月日时分秒与年月日的计算,其实原理是一样的,转换后他们的格式都一样,所以也是可以计算的,2012/03/05 17:41:20与2012-03-05的时间相差:

import datetime,time

d1 = datetime.datetime.strptime('2012/03/05 17:41:20''%Y/%m/%d %H:%M:%S')
d2 = datetime.datetime.strptime('2012-03-01''%Y-%m-%d')
delta = d1 - d2
print(delta.days,delta.seconds)
print(delta)
print(type(delta))

输出结果是

4 63680
4 days, 17:41:20
<class 'datetime.timedelta'>

通过print的结果可以得到几点信息:
不同格式的时间在转化后是可以进行比较运算的
可以通过.days和.seconds来进行天数与时分秒的展示
计算后得到的数据类型是 'datetime.timedelta' 而不是str类型

比如计算3天后的时间:

import datetime,time

now = datetime.datetime.now()
delta = datetime.timedelta(days=3)
n_days = now + delta
print(type(n_days))
print(n_days.strftime('%Y-%m-%d %H:%M:%S'))

得到的结果是:

<class 'datetime.datetime'>
2018-01-21 10:26:14

用 datetime.timedelta 取得3天时间,然后将当前时间加上3天,得到的是 'datetime.datetime' 类型数据,变成人类阅读的格式则需要 strftime 函数进行格式化,最终得到想要的 2018-01-21 10:26:14。


5、时间戳

把字符串时间转换为时间戳:

import datetime,time

a = "2013-10-10 23:40:00"
# 转换为时间数组
timeArray = time.strptime(a, "%Y-%m-%d %H:%M:%S")
# 转换为时间戳:
timeStamp = time.mktime(timeArray)
print(timeArray)
print(timeStamp)

输出结果为:

time.struct_time(tm_year=2013, tm_mon=10, tm_mday=10, tm_hour=23, tm_min=40, tm_sec=0, tm_wday=3, tm_yday=283, tm_isdst=-1)
1381419600.0

可以看到time的时间数组与时间戳并不是同一样东西,他们是有区别的


6、strftime与strptime

这两个是 python 中常用的

strftime 函数:

  • 函数接收以时间元组,并返回以可读字符串表示的当地时间,格式由参数 format 决定。

  • time.strftime(format[, t])

  • format -- 格式字符串。t -- 可选的参数t是一个 struct_time 对象。

  • 返回以可读字符串表示的当地时间。

import time

t = (2009217173381480)
t = time.mktime(t)
print(time.strftime("%Y-%m-%d %H:%M:%S", time.gmtime(t)))

得到结果输出:

2009-02-17 09:03:38

strptime() 
函数根据指定的格式把一个时间字符串解析为时间元组。
time.strptime(string[, format])
string -- 时间字符串。format -- 格式化字符串。
返回 struct_time 对象。

import datetime,time

d1 = datetime.datetime.strptime('20120305 17:41:20''%Y%m%d %H:%M:%S')
d2 = datetime.datetime.strptime('2012-03-01''%Y-%m-%d')
print(d1)
print(d2)

得到结果:

2012-03-05 17:41:20
2012-03-01 00:00:00

时间格式与入库

前面铺垫了这么多,最终的目的还是需要入库。这里以4种数据库时间类型为例:

  • 字段名 => 数据类型

  • r_time       =>        time

  • r_date         =>     date

  • r_datetime  =>    datetime

  • r_timestamp  => timestamp

根据最上方所写的 Mysql 时间类型,可以得出对应的时间格式为:

  • 时间格式 => 数据类型

  • 17:35:05      =>        time

  • 2018-3-1         =>     date

  • 2018/3/1 17:35  =>    datetime

  • 2018/3/1 17:35  => timestamp

time类型

time 类型的格式指定为 17:35:05,不可替换为(17-35-05 或者 17/35/05),会报错

可以简写成 17:35,数据库会自动补全后面的 00,入库后最终数据 17:35:00

如果简写成 17,则入库后变成 00:00:17

当然,如果更奇葩的写法 17:,17:35: 这种是会报错的


date类型

date 类型的格式指定为 2018-3-1 与 2018/3/1,最终入库格式是(2018-03-01),它会自动补全

可以简写成 [18/3/1]、[17/3/1]、[07/3/1]、[97/3/1],数据库会自动补全前面的年份,入库后最终数据 2018-03-01、2017-03-01、2007-03-01、1997-03-01

不可简写成 [2017]、[2017/3],会报错,必须是完整的日期格式


datetime类型

datetime 类型的格式指定为 2018-3-1 17:35:00 和 2018/3/1 17:35:00,最终入库格式是 2018-03-01 17:35:00

它是 date 与 time 的结合,有很多共同特性

可以简写成 [18/3/1 17:35:05]、[17/3/1 17:35]、[07/3/1 17]、[97/3/1 17],数据库会自动补全前面的年份,入库后最终数据 2018-03-01 17:35:05、2017-03-01 17:35:00、2007-03-01  17:00:00、1997-03-01 17:00:00。可以看到它自动将时间格式补全成统一格式,这里与 time 不同的是,如果只写 17 不写分秒,time 会默认将 17 当成秒,这里则是默认当成小时。

与 date 一样,年月日不可省略,必须以年月日格式出现


timestamp类型

根据上面的描述,timestamp的入库格式与datetime是一样的,不同的是时间范围和存储空间,它的格式与用法跟datetime一致

看到这里,相信你有很多的问题想问,可以在下方评论区留言一起讨论

time date datetme timestamp 傻傻分不清楚_java_02