摘要:通过robots.txt协议让搜索引擎不收录网站内容是行不通的,也无法用其屏蔽搜索引擎的爬虫,即使在robots.txt协议进行了设置,百度和Google还是会继续为网页建索引,并在搜索结果中显示,而仅仅不显示网页快照而已。因此搜狗输入法要通过robots.txt来防止搜索引擎抓取用户隐私信息的方法不可取。
    安全问题反馈平台乌云昨天通过新浪微博发布消息称,搜狗输入法存在可导致大量用户敏感信息泄漏的设计缺陷,用户发送的图片、声音等多媒体短信被搜索引擎抓取并泄露到网上,对此搜狗方面回应称,出现这一问题源于微软Bing等搜索引擎没有遵守禁止协议。而必应中国表示,必应搜索并未违反Robots.txt协议,公司一直遵守有序、健康、道德的市场行为规范。
    上述所谓的漏洞,出自搜狗手机输入法中的“多媒体输入”功能。借助这一去年5月发布的功能,用户之间能够分享图片、语音、文字等信息,而其原理就是将用户想要分享的信息,上传到搜狗服务器中,形成一个可以点击查看的链接。这使得搜狗手机输入法在普通短信中也可发送语音和图片的功能,好友接收到短信后即可收听语音和查看图片。
    在乌云的报告中指出,由于“不严谨造成信息被搜索引擎抓取”。并举例说以关键词“site:pinyin.cn”搜索,在微软Bing中能够得到3700条结果,在Google中能够得到1120条结果。
    搜狗认为,用户的“多媒体输入”信息泄漏,与搜索引擎没有遵守相关Robots.txt协议有关,并且指出重点问题出必应搜索引擎。
    而必应针对“搜狗输入法泄露用户隐私事件”相关报道的正式答复称,“必应搜索并未违反Robots.txt协议。作为一个面向全球市场的互联网产品,必应始终遵循有序、健康、道德的市场行为规范,积极推动负责的数字公民理念;以严谨的数字安全考虑,为人们提供可信赖的计算和网络体验。我们呼吁并一贯坚持向用户提供高度安全的互联网服务与产品。”
    微软必应声明的最后还提到,微软已经推出必应输入法等产品,赢得越来越多用户的关注与喜爱。
    对于“搜索引擎的Robots协议”,月光博客早先曾经有专门一篇文章进行过分析,通常认为,robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。然而,robots.txt协议并不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个文件,但也有一些特殊情况。
    通常来说,只要有其他页链接到某个页面,搜索引擎就会对其进行索引,通过robots.txt协议让搜索引擎不收录网站内容是行不通的,也无法用其屏蔽搜索引擎的爬虫,搜索引擎最多就是不显示这个网页的快照而已,在搜索结果中依旧会显示其内容。例如,淘宝网目前就通过robots.txt来屏蔽百度爬虫,但百度依旧收录了淘宝网的内容,百度搜索“淘宝网”,第一个结果也是淘宝网首页地址,只是该页面没有网页快照。
    对于Google来说,使用robots也未必能阻止Google将网址编入索引,但有一种方法可以阻止网页的内容在Google网页索引中(即使有其他网站链接到该网页)出现,实现方法是将下面的一行加入到网页的header部分。
    <meta name="googlebot" content="noindex">
    由此可见,通过robots.txt协议让搜索引擎不收录网站内容是行不通的,也无法用其屏蔽搜索引擎的爬虫,即使在robots.txt协议进行了设置,百度和Google还是会继续为网页建索引,并在搜索结果中显示,因此搜狗输入法要通过robots.txt来防止搜索引擎抓取用户隐私信息的方法不可取。
    解决输入法泄露用户隐私的方法有不少,例如对用户生成的链接地址进行访问限制,只允许访问2次,或者链接只在24小时内生效,可以避免隐私信息的大规模泄漏,要想彻底避免隐私的泄漏,就要使用身份验证机制,例如在发送短信时附带一个校验码,打开链接时输入校验码才能查看内容。
    总而言之,用户使用这种“多媒体输入”功能发送短信的时候,可能以为这和普通短信是一样的,并不知道发送的信息可能会泄漏给第三方,因此开发商对这样的隐私漏洞需要谨慎处理,认真保护用户的个人隐私,切不可仅用Robots协议来敷衍了事。