1.苹果语音控制功能
siri
求助编辑百科名片
Siri是苹果公司在其产品iphone 4S上应用的一项语音控制功能。Siri可以令iPhone4S变身为一台智能化机器人,利用Siri用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。Siri可以支持自然语言输入,并且可以调用系统自带的天气预报、日程安排、搜索资料等应用。还能够不断学习新的声音和语调,提供对话式的应答。
目录
编辑本段siri读音
siri,读音为/siri./,更为体现其功能,汉语化,可以将其读为“C瑞”。
编辑本段技术来源
Siri技术来源于美国国防部高级研究规划局所公布的 CALO计划:一个让军方简化处理一些繁复庶务,并具学习、组织以及认知能力的数字助理,其所衍生出来的民用版软件 Siri 虚拟个人助理。
[1]
编辑本段功能
Siri 能做的,听起来相当不一般,使用者可透过声控、文字输入的方式,来搜寻餐厅、电影院等生活信息,同时也可以直接收看各项相关评论,甚至是直接订位、订票;另外其适地性(location based)服务的能力也相当强悍,能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。
Siri功能升级
(4张)
不过其最大的特色,则是人机的互动方面,不仅有十分生动的对话接口,其针对用户询问所给予的回答,也不至于答非所问,有时候更是让人有种心有灵犀的惊喜,例如使用者如果在说出、输入的内容包括了『drunk』、『home』这些字(甚至不需要符合语法,相当人性化...),Siri 则会判断为喝醉酒、要回家,并自动建议是否要帮忙叫出租车。
不过唯一可惜的是,该软件目前仅支持英语,另外相关信息也仅限于美国本土,但整个软件的概念,可以说是相当的有趣,而且还是免费的。
[1]
相关支持:Siri语音系统目前支持英语、法语和德语以及日语(目前最新的IOS5.1支持),不过由于其仍处于测试阶段,对中文的支持可能并不甚理想,未来会加入更多语言支持。
Siri技术和语音控制的区别
说到语音控制识别技术,就不得不提Android系统的Voice Actions,这也是一项伟大的语音控制技术,并已经被许多Android用户所熟知和使用。但是它和Siri完全不是一个级别的产品。
Voice Actions提供了非常坚实可靠的声音识别引擎,它的高识别度令人称奇。不过,和过去的所有语音命令系统一样,它要求你说的话要具备严格的语法结构和格式,否则系统将无法识别。
然而Siri和Voice Actions就有本质的不同了。你可以抛弃繁琐的语法结构,甚至思维模式也可以混乱,Siri会结合上下文结构去理解,它还会从人类语言史的角度出发,利用人工智能系统去分析,并在绝大多数情况下领会你的意思。
而更加人性化的特点是,一旦你开始和Siri进入一段对话,它甚至能理解许多含义模糊或者引申的语义。而Voice Actions做不到这样的事情,因为它只是一个声控命令软件,而并非人工智能。
语音识别不是革命性的。多年前, IBM 的语音识别软件在 PC 上就有不错的识别率了。
基于语音识别,简单的智能分析和系统功能的调用也不算革命性的。无论是 Google 的 Voice Action ,还是 Vlingo 等独立的公司,做的都不错。
但是,从目前流出的视频看, Siri 并非这些已知技术的简单组合。
Siri 的智能程度更高
Vlingo 中你说 “Text Mike ,Messages How are you.” 。利用关键字的匹配就可以完成很多事情了。 Text 是命令, Messages 是关键字。匹配上这两个词,就知道给谁,发送什么内容了。
而 Siri 理解上下文。你问了北京的天气,再说:“ How about Shanghai ?” ,他知道你指的是上海的天气。
一个更惊人的例子出现在 Siri 被苹果并购前的演示里。你说“ I like a romantic place for Italian food near my office”。
Siri 回答:" I am looking for a Italian restaurants which reviews say are romantic near your work in San Jose…“
这个回答说明 Siri 听懂了 romantic 是个形容词。并且知道 near my office 是个地方。并且,找到了以前存储的用户的工作地点。并且,他知道怎么判断一个餐馆是否 romantic !(去搜索 reviews )
把同样的话对着 Android 的 Voice Action 或者 Vlingo 说一遍,你就知道 Siri 具有超越现有 Apps 的智能。
Siri 和系统的整合更加紧密
Siri 在并购前的版本整合了大量网络服务的 APIs 。比如 OpenTable,Tickets,Taxi Magic 等等。
而 Siri 被苹果收购了之后, 他已经被整合为系统的一部分了。
在 iOS5 的 Siri 视频中,出现新短消息之后,交互由 Siri 发起。说明他已经常驻系统后台并且可以接管重要的系统功能了。(除了短消息还有天气,时钟,Maps 等等)
[2]
Siri支持的语言
Siri目前支持四种语言:英文,法文,德文,日语。其中英文分美式,英式,澳大利亚式。
编辑本段相关技术
Siri所用到的技术,很多人会回答,人工智能以及云计算,的确,总体来说,是这两样技术,不过,这种概述感觉几乎没有任何意义,何不直接说“计算技术”(注意,不是计算机技术)呢。因此,在本文,我将介绍下我了解Siri可能采用的技术(由于有个人猜测,不一定准确)。
首先,在前端方面,即面向用户,和用户交互(User Interface,UI)的技术,主要是语音识别以及语音合成技术。语音识别技术是把用户的口语转化成文字,其中需要强大的语音知识库,因此需要用到所谓的“云计算”技术。而语音合成则是把返回的文字结果转化成语音输出,这个技术理论上本地就能完成,但不知道Siri是否如此,当然,在云端完成也并无不可,在当前无线带宽下,那点语音流量根本不算什么。
[3]
其次,后台技术,这些其实才是真正的大角色。这些技术的目的就是处理用户的请求,并返回最匹配的结果,这些请求类型很多,千奇百怪,要处理好并不简单。基本的结构猜测可能是分析用户的输入(已经通过语音转化),根据输入类型,分别采用合适的技术(合适的技术后台)进行处理。这些合适的后台技术包括,①以Google为代表的网页搜索技术;②以Wolfram Alpha为代表的知识搜索技术(或者知识计算技术);③以Wikipedia为代表的
知识库(和Wolfram Alpha不同的是,这些知识来自人类的手工编辑)技术(包括其他百科,如电影百科等);④以Yelp为代表的问答以及推荐技术。
网页搜索技术[3]
这个我想没必要介绍,大家天天用的Google就是这个技术的代表。而国内的话,则以百度为代表。
知识计算(搜索)技术(Computational Knowledge)[3]
这个技术的代表是Wolfram|Alpha。
不同于搜索互联网信息,Wolfram|Alpha将从公众的(包括公开的网页等)和获得授权的资源中,发掘、建立起一个异常庞大的经过组织的数据库,再利用高级的自然语言算法进行处理,最终构造出一个类似于谷歌搜索的工具。
和网页搜索技术不同的是,在这个系统中,得到的答案结构化程度很高,比如搜索China,能得到和中国相关的各种参数以及资料,并以接近表格的方式呈现。Wolfram|Alpha也能理解部分自然语言,比如输出How old are you,其会回答Wolfram|Alpha的年龄。想测试这项技术的请移步Wolfram|Alpha。
这个技术国内做的应该有,但还没有产品,也许百度的框计算算是半个。所以机会大大的有。
知识库技术[3]
这名字是我自己起的,不知道有没有贻笑大方……这个技术的代表是维基百科,以及各种专门的百科网站。相比于网页搜索技术,基本以一个词条或者主题为单位,因此得到的数据价值高,知识量大,并且结构化程度好。相比于知识计算技术,这些技术需要人的参与,这有利也有弊,利就是,毕竟暂时人比机器聪明,编辑出来的知识更丰富,准确;弊就是,人力有限,即使像维基那样,发动社区的力量,也不能产生足够的知识,而知识计算,理论上,只需要算法够牛叉,是可以产生“无限”的知识的。
另外,写到这里,我想起Yahoo和Google的故事,当年,Yahoo是搜索老大,就像现在的Wekipedia在知识搜索领域一样,而Google是小弟,就像Wolfram|Alpha在知识搜索领域一样。但后来,却反过来了,Googe成了网页搜索老大,Yahoo成了小弟,原因就是Google相信算法的结果,把所有事都交给算法做,而Yahoo,很多索引都是人工编辑的。我想,也许有一天,Wekipedia和Wolfram|Alpha也会出现这样的情况。
问答推荐技术
其实这不能称为一个技术,应该属于知识库的技术。不同的是,这个技术针对的是一些生活信息,这些信息的地域化程度很高,典型代表为Yelp。由于这东西比较简单,就不仔细介绍了。
其实在国内,这方面的网站也有,那就是大众点评网这些。
编辑本段相关信息
在iPhone 4S的苹果发布会中苹果称Siri Voice
原Siri应用界面(现已下架)
[4] Assistant 将会成为iOS的一部分。Siri 原是一个第三方应用,是苹果在去年花费2亿美元购买所得的。虽然在收购后很长的一段时间里我们仍能在App Store上看到这一应用的身影,不过它将近有一年多的时间没有更新。而直到今天苹果在发布会上介绍Siri这一功能后,Siri 这一应用才正式下架。
大家可能没有注意到的是,Siri下架是精心安排的:Siri 在苹果大会上第一次被提及的时候,这一应用还能在App Store上轻松的找到。但在大会结束后,这一应用就再也找不着了。看起来Siri这一应用是在大会结束的同时下架的。
为什么要下架呢?这是可能是因为苹果担心第三方应用若能够实现iPhone 4S 的功能的话,会影响现有的iPhone 用户购买新iPhone 的欲望,从而影响销量。
[5]北京时间2011年10月15日消息,据国外媒体报道,苹果官网Siri常见问题(FAQ)页面称,苹果语音识别个人助理功能Siri将在明年支持中文、日文、韩文、意大利文和西班牙文等更多语言。
目前Siri支持英文、法文和德文的语音识别,其中英文部分只支持美国、英国和澳大利亚的口音,对于其他国家和地区的英语口音在识别上还存在困难。
此外,被苹果定义为仍处在“测试阶段”的Siri目前支持在美国进行地图和本地搜索,不过苹果官网的Siri FAQ页面也承诺,相关功能在2012年将拓展到其他国家。
编辑本段siri十大功用
1.Siri变身闹钟
这应该是用户最容易想到的Siri的“正经”用法了。按住“Home”键,告诉Siri,“早上7点15的时候叫醒我”;想打会儿小盹,就说“40分钟后叫醒我”。只要准确地报上时间,Siri将是最好用的闹钟。
2.用Siri寻找咖啡厅
喝咖啡是很多上班族的习惯,一杯咖啡能够迅速地将人调整成工作状态。出门在外的时候,想找个咖啡厅?利用Siri就可以搞定这一切。告诉 Siri,寻找离当前位置最近的咖啡厅即可。如果你没有附加更多的要求,Siri将反馈给还算不错的答案,很可能是告诉你最近的星巴克在哪。如果星巴克还不能满足你的要求,还是用更专业的应用Yelp吧,它会给你更详细的答案。
3.想去哪,Siri告诉你
查找出行路线的过程中往往要输入不少文字。想省事的话,还是用Siri完成这一切吧。报上要去的地点,Siri会调用Google地图来寻找出行路线的方案。从测试过的这种用法的用户的反馈上看,Siri目前还没有出过什么差错,就像GPS那样好使。
4.用Siri播放随机音乐
如果你厌倦了固定顺序的音乐播放列表,可以试着用Siri播放随机音乐。首先,你需要将喜欢的音乐导入到一个名为“最爱”的播放列表中。开始听音乐的时候,告诉Siri”放皇后乐队的歌曲”。紧接着,Siri就会在“最爱”列表中匹配皇后乐队的歌曲并将其播放。这样就实现了随机播放音乐的功能。
5.发送短信,Siri代劳
还在边走路边发短信?行路不安全不说,发短信还费劲,以后用Siri代劳吧。走路的时候,将iPhone放在耳边,告诉Siri“用短信告诉她,我将晚点到家”。不用匆忙,告诉Siri你想表达的内容,即可轻轻松松地发送短信。
6.天气预报,Siri知道
这也是Siri十分擅长的一项功能。关于气象信息的问题,Siri都能正确理解。想要知道明天的天气怎样,问问Siri就知道了。
7.用Siri提醒日程安排
既然能把Siri当闹钟用,你当然可以用它来提醒日程安排。很多人都有使用Google日历的习惯,用Google日历安排自己的各项日程。生活中的一些需要提醒的小事,完全没有必要一项项地加到Google日历中去,用Siri就可以搞定这个问题。比如说,“十点钟的时候,提醒我去刷牙”。
8.用Siri提醒地点
Siri提醒地点的功能目前还不是很完善。除了“家”或“上班处”,Siri对于一些位置称呼的理解能力不佳。但是,Siri对“这里”的理解十分准确,即当前的GPS坐标位置。所以你可以这样用Siri的提醒功能,途径一家不错的小店时,可以将它的位置标记为“这里”并设置好提醒,以便日后有时间时再次光顾。
9.Siri为你答疑解惑
珠穆朗玛峰现在多高?美国去年的GDP是多少?回答不上来的话,无需Google,张嘴问问Siri吧。Siri本身是不知道这些问题的答案的,它会从“知识问答引擎”Wolfram Alpha中寻找答案。所有的回答都会以自然语言的形式呈现。这也是Siri被认为将对Google重要威胁的原因。当然,Siri在相当长的一段时间肯定不能取代Google,但对Google的威胁将是长远的。当Siri足够智能的时候,人们用它取代 Google并不是没有可能。
10.用Siri发推