![]() |
看完这篇文章 你就知道Siri和小冰的差距在哪了 |
2018年8月1日
【
转载
】 编辑:
|
|
微软在上周正式公布了第六代微软小冰人工智能机器人,人们 未免将其与苹果的Siri再进行一番 比较,而 比较的 后果 几乎是一边倒的,那便是在小冰的面前,Siri 着实是有点逊 。
在之前我们面对这样的 论断,给出的理由更过是感官上的直接 感想,而这一次我们试图通过一些技术层面的解析来搞清晰Siri和小冰中间到底存在哪些差距 。
这里我们主要引入两个概念:全双工语音和共感模型 。在此之前我们想略微聊聊Siri和小冰两者在设计 用意上的不同,而这极有可能是招致二者差别的主要缘由 。
Siri的设计 指标是一个 使命型人工智能,她的作用是协助消费者解决具体的问题的;而小冰则从开始便是一个聊天机器人,并不解决具体问题,便是陪人闲聊用的 。
因此,Siri在设计上是以IQ为优先的,而小冰则是以EQ为优先,从这丝毫上来看,与Siri和小冰的对话交互过程就有显而易见的区别 。Siri更像是机器,而小冰则更像是人,但现在第六代小冰推出之后,也开始附加IQ 特点, 可以 解决一些具体的事务了 。
就人工智能的进展来说,IQ,也便是数据 解决方面的研发是 绝对 方便的,而EQ,即情感认知则是相当大的难题, 因此微软先EQ后IQ的模式显然更有优势 。
既然我们已经说到了人工智能的EQ塑造,那么小冰到底是通过哪些技术来实现这种情感交互的呢?
大约在过去四五年前的时候,对话式人工智能成为业界的抢手课题,而且绝大多数都 取舍了 使命型或是 常识传递型的对话系统,但这种人机交互实际却十分 僵硬, 比方具体到开灯关灯、 打开电器上,其实和语音命令中间的区别并不大 。
而全双工语音便是让小冰与 其余人工智能交互截然不同的技术之一,这使得人们与小冰中间的 交换不再局限于一问一答,而是更加自然的沟通过程 。
举一个例子,当你开着车出去郊游的时候,车载的不是Siri那种 可以帮你干这个干那个的人工智能,而是通过全双工的 模式进行 交换的小冰 。她除了会依据你的指令执行 使命之外,还会对你的车载音乐发表观点 。当你们 交换时,她看到远处有一座山,就会和你说这个地方很美丽, 可以下次再来 。
这种觉得不是你在车上安装了一个机器人,而是多了一个真正的副驾驶陪你旅行 。
这就 波及到了一个问题,那便是小冰 可以通过视觉 捉拿环境信息,这是同样也是微软的探究 名目,称为实时视觉,并有一个面向全程的对话引擎 。
值得一提的是,现在小冰的全双工语音已经 支撑群组 性能,利用SpeakerID分类器来推断 谈话的人到底是谁,甚至听得出这些人的年龄、性别等信息,并以此来进行不同的对话和群聊 。
比方不同的家庭成员和小冰说“我的电话找不到了”,小冰 可以 划分的出来是谁,而且分别打到他们各自的手机上去 。
比方当一个小孩子对小冰说“ 打开电饭锅”,小冰 可以 鉴别 起程出命令的是个小孩子,并由此 回绝执行指令,并 劝告小孩远离电器 。
在这里,小冰不再单单是家里的一个智能语音工具,而是一个新的家庭成员, 可以与家庭成员中间 构建自然的 联络 。
微软小冰
固然我们向来都在强调小冰的EQ情商,但大家都清晰人工智能 本身是不可能产生感情的, 因此小冰的EQ 性质上是来自一个 根本的情感计算框架 。
从理性的角度来说,一个对话式人工智能的情商,其实是 可以操纵一个对话全程的 威力, 可以去操纵对话全程的走势, 维持一个对话的长度 。
现在这个框架已经从上一年的生成模型 晋级到了共感模型 。生成模型便是让小冰 可以 借鉴她的回应,而不是像以往一样,从一个已有的语料库中间检索 。当她 可以 借鉴回应的时候,她就 可以有更好的 威力去操纵对话,有更好的上下文 联合 威力 。
而共感模型则更进一步,当小冰一方面进行回应的生成时,也和时在 使用她的策略来推断是否应该 疏导这个对话, 而后去 积极的进行 视察, 而后偷偷地进行求证,最终再去确证 。 比方不断地通过各种 模式去 反复的尝试人类最关注的兴趣到底是在哪个领域,而一旦确认了对方的兴趣点,在抓住了一个机会之后就 可以 疏导对方在这个领域进行更加 深刻的 交换 。
这个过程中也是 维持全双工语音的,而不是你一轮我一轮的“对讲机式交互”,更主要的是这个过程中小冰关于对话是 通过情感思量的 。
看到这里大家可能就 可以看出,Siri之所以在体验方面与小冰相差甚远, 性质上是指令性工具与情感交互系统中间的差距,而我们认为后者无疑才是 将来人机交互的进展方向 。
现在的智能家居系统在命令集成方面已经做得不错了,但交互体验 依旧不够自然,假如小冰 可以更快地渗入这套系统,智能家居产品的体验无疑将变得更加动人 。