3月29日下午消息,一周前,正式宣布“全双工语音交互感官”已完成产品化落地。与既有的单轮或多轮连续语音识别不同,这项新技术可实时预测人类即将说出的内容,实时生成回应并控制对话节奏,从而使长程语音交互成为可能。

昨天,微软(亚洲)互联网工程院副院长、微软小冰全球负责人李笛和微软小冰全球研发负责人、首席架构师周力,与媒体分享了微软对这项新技术底层框架设计的探索。

李笛介绍,目前全球范围内,对基础框架的基本理念可以分为两种:Turn-oriented和Session-oriented,对应的产品分别是小娜和小冰。

Turn-oriented框架支持下,每一次对话进入后都会面对一个十字路口,路口中心有指挥交通的民警,当一个命令输入,民警负责根据指令进行引导。

比如询问小娜天气,她会迅速把你引导至“天气”方向,提炼相关内容,然后输送出来。当天气的任务完成以后,“民警”重新回到十字路口中心,一切归零,下一个问题会是个新的开始。

当遇到解决不了的问题时,小娜会通过control引导到搜索引擎来完成。这种方式可以更便捷地解决问题,却不是很好的对话。Turn-oriented的上限决定了她未来的发展空间有限。

所以有了小冰,她的技术底层框架是Session-oriented,使得“完成任务”与“无用聊天”混合在一起,让对话像河流一样不间断进行,从一个turn往下一个turn走。整个Session的质量要优于单一任务完成的质量。

小冰的设计,是把EQ作为基础来展现IQ小冰的设计,是把EQ作为基础来展现IQ

这样的小冰,在夫妻争论谁应该做家务时,甚至可以参与讨论。

李笛认为,AI本身应该先于硬件成为让人们依赖的最重要的因素。当小冰这样的人工智能系统出现,无论是IOT、车载、家庭等环境,都是人工智能的一个载体,而非人工智能成IOT、音箱等硬件产品的一个功能。

“一旦你使用过微软小冰,就很难退回到过去的Turn-based的体验。”李笛说到。

对于Session-oriented,周力在会上进行了四点技术方面披露。

1、边听边想

全双工语音具有流式思路,又叫预测模型,具有这项技术的小冰对语音的识别不再是一条消息、一条消息的识别,而是一个字、一个字的识别,同时识别出目前可能的话,预测对方整句话是什么。这就让操作与对话都更流畅。

2、节奏控制器

这点的作用,是小冰会根据人话量大小与内容,调整自己的话量。

3、对声音场景的理解

标签: none

评论已关闭