最近学习爬虫时遇到的问题,让我必须了解cookie。
1.先概括讲,什么是cookie?
cookie是一种具体的东西,是浏览器存储的一种数据(一小段文本信息,kv格式)。cookie里保存的是用户登陆信息,一般包含token。用户发送请求时,携带cookie,就不用每次都输入用户名和密码地登陆。
这里其实有段历史
在早期,人们浏览网页是没有登陆需求的,但有了这种需求后(比如购物网站),就出现了一个问题:服务器必须区分出不同的用户。
当时的方案是服务器给每个人都生成一个session id,但问题又来了:
登陆人数是成千上万,保存每个人的session id变成了巨大的负担。(还有其他的原因促使cookie诞生,但这里只是略提,可以参见我另一篇文章)
于是cookie诞生了。服务器不再帮每个人存储session id,而是让浏览器自己存。怎么存,见“cookie工作机制”
2.cookie工作机制
一图胜千言:
假设浏览器第一次登陆。
浏览器发起 reques请求t;
服务器响应 response,并回发 Set-Cookie;
浏览器保存cookie(此时用户信息保存在cookie里),再发送 携带 cookie 的 request 请求;
最后服务器根据用户信息响应 response。以下是我截百度的:
3.cookie的4个属性
1.一览
属性项 | 属性项介绍 |
NAME=VALUE | 键值对,可以设置要保存的 Key/Value,注意这里的 NAME 不能和其他属性项的名字一样 |
Expires | 过期时间,在设置的某个时间点后该 Cookie 就会失效 |
Domain | 生成该 Cookie 的域名,如 domain=“www.baidu.com” |
Path | 该 Cookie 是在当前的哪个路径下生成的,如 path=/wp-admin/ |
Secure | 如果设置了这个属性,那么只会在 SSH 连接时才会回传该 Cookie |
2.Expires
该属性用来设置Cookie的有效期。
Cookie中的maxAge用来表示该属性,单位为秒。Cookie中通过getMaxAge()和setMaxAge(int maxAge)来读写该属性。
maxAge有3种值,分别为正数,负数和0。
maxAge=0: 当maxAge为0时,表示立即删除Cookie。
maxAge=正数: 如果maxAge属性为正数,则表示该Cookie会在maxAge秒之后自动失效。浏览器会将maxAge为正数的Cookie持久化,即写到对应的Cookie文件中(每个浏览器存储的位置不一致)。无论客户关闭了浏览器还是电脑,只要还在maxAge秒之前,登录网站时该Cookie仍然有效。下面代码中的Cookie信息将永远有效。
maxAge=负数: 当maxAge属性为负数,则表示该Cookie只是一个临时Cookie,不会被持久化,仅在本浏览器窗口或者本窗口打开的子窗口中有效,关闭浏览器后该Cookie立即失效。
3.Domain和Path
Domain
和 Path
标识定义了Cookie的作用域: 即Cookie应该发送给哪些URL。
Domain
标识指定了哪些主机可以接受Cookie。如果不指定,默认为当前文档的主机(不包含子域名)。如果指定了Domain
,则一般包含子域名。
例如,如果设置 Domain=mozilla.org
,则Cookie也包含在子域名中(如developer.mozilla.org
)。
Path
标识指定了主机下的哪些路径可以接受Cookie(该URL路径必须存在于请求URL中)。以字符 %x2F
("/") 作为路径分隔符,子路径也会被匹配。
例如,设置 Path=/docs
,则以下地址都会匹配:
/docs
/docs/Web/
/docs/Web/HTTP
Cookie是不可以跨域名的,隐私安全机制禁止网站非法获取其他网站的Cookie。
正常情况下,同一个一级域名下的两个二级域名也不能交互使用Cookie,比如test1.mcrwayfun.com和test2.mcrwayfun.com,因为二者的域名不完全相同。如果想要mcrwayfun.com名下的二级域名都可以使用该Cookie,需要设置Cookie的domain参数为**.mcrwayfun.com**,这样使用test1.mcrwayfun.com和test2.mcrwayfun.com就能访问同一个cookie
4.修改或删除Cookie
HttpServletResponse提供的Cookie操作只有一个addCookie(Cookie cookie),所以想要修改Cookie只能使用一个同名的Cookie来覆盖原先的Cookie。如果要删除某个Cookie,则只需要新建一个同名的Cookie,并将maxAge设置为0,并覆盖原来的Cookie即可。
新建的Cookie,除了value、maxAge之外的属性,比如name、path、domain都必须与原来的一致才能达到修改或者删除的效果。否则,浏览器将视为两个不同的Cookie不予覆盖。
值得注意的是**,从客户端读取Cookie时,包括maxAge在内的其他属性都是不可读的,也不会被提交**。浏览器提交Cookie时只会提交name和value属性,maxAge属性只被浏览器用来判断Cookie是否过期,而不能用服务端来判断。
注意:maxAge如果debug的话,其值一直都是-1,因为它是个只读属性。
Cookie[] cookies = req.getCookies();
Cookie cookie = null;
// get Cookie
for (Cookie ck : cookies) {
if ("mcrwayfun".equals(ck.getName())) {
cookie = ck;
break;
}
}
if (null != cookie) {
// 删除一个cookie
cookie.setMaxAge(0);
resp.addCookie(cookie);
}