您现在的位置:情感控制 > 情感说说 > 正文

语音交互设计探究——以车载场景为例 人人都是产品经理

时间:2019-08-07 09:46 作者:admin

语音交互设计探究——以车载场景为例  人人都是产品经理

撰写对话脚本在确立了技能范围和用户故事之后,不要立即开始逻辑设计,对话应该是自然的、多样性的,用刻板的逻辑将语音设备与用户的场景台词串联在一起显然不合理。 因此,你需要列举出诸多可能存在场景,考虑到意外状况,去草拟撰写对话草稿,甚至找真人模拟场景对话,尽量覆盖到每一个状况。

下图是一些对话撰写的例子:对话脚本的撰写可以帮助我们挖掘一些容易被忽略的细节,而如何反馈和引导对话的进行也是VUI设计的重点和难点,后文中会详细说明反馈设计的原则和方法。 建立交互框架与流程要建立VUI的框架与逻辑,首先需要理解人与人的对话框架,匹配到人机交互的对话场景,以确立每次反馈方式;然后围绕用户的意图以及系统的每次判定节点展开逻辑流程的建立。 交互框架:想像一下你想让别人放点音乐,这段对话的交互节点是怎样的,是不是先叫他名字,对方听到了给你一个回应“干嘛呢”,然后你可以继续说出你的需求……我们将交互节点提炼出来,如下图所示:图2-7对话框架(1)唤醒“唤醒”是技能的触发动作,目前主流的唤醒方式有以下3三种–实体按钮、虚拟按钮、语音唤醒,如图2-8,每种唤醒方式各有特点,在车载环境中一般采用按钮+语音的多重唤醒方式。 同时,唤醒之后的反馈形式也有多种,具备显示屏的设备可以有动效、文字等反馈,不具备屏幕的可以有灯光、音效、人声等反馈。 不同的反馈方式的舒适度和响应时间密切相关,如图2-9所示。

图2-8唤醒方式图2-9唤醒反馈方式与响应时间舒适度曲线(2)输入用户输入的语音内容是否被设备的接收,亦是用户比较关注的问题,在反馈设计中应该匹配当前场景且不让人反感。 具备显示屏的设备可以有动效、文字等反馈;不具备屏幕的可以有灯光(在用户输入时一般不要有声音的干扰)等反馈;也可以没有反馈。

图2-10输入时的反馈(3)理解“理解”是机器识别、解析语音内容,并求解答案再生成语音的过程;也是机器的认知过程。 这个过程耗时可能会较长,重点在于消除用户等待的焦虑以及不确定性。

具备显示屏的设备可以有动效、文字等反馈,不具备屏幕的可以有灯光、音效、人声等反馈,如图2-11所示。 不同的反馈方式的舒适度和响应时间密切相关,如图2-12所示。 图2-10理解时的反馈图2-12理解反馈方式与响应时间舒适度曲线(4)反馈这里语音交互过程中最重要的环节,除了让用户得到想要的反馈之外,还应该让用户轻松、自然且有效的接收到反馈信息。 下表是根据置信度(Confidence)不同划分的反馈的类型和应用场景。 (5)端点检测由于这端点检测是一种描述计算机何时开始和结束语音的方式。 用户在说话时会有停顿,那么语音引擎在检测到用户停顿多久之后开始识别,停顿5秒是一个比较合适的经验值;短了,会在结束说话之前切断用户;长了,用户会怀疑系统是否听到。 用户唤醒语音后,一直不说话,那么语音引擎在检测到用户不说话多久之后直接退出语音识别,未说话10秒是一个比较合适的经验值。

交互流程:对话表面看起来似乎是杂乱无章,无规律可寻的。 但是在自然对话中我们几乎是无意识地遵循着某些规则与惯例,比如:对话是轮流进行的、是上下文串联在一起的。 人-机对话中,机器是服务于人类的;用户的每一个指令,机器都需要去判定以及作出最好的回应,并且允许指令的多样化表达;机器的每一次任务执行,几乎都能允许用户“取消”、“修正”、“催促”、“返回上一步”、“打断”、“要求重复”、“其它类型指令”、无关信息或者保持沉默。

用户的每一次语音指令后面都跟随一次判定节点,围绕用户意图以及机器的判定节点展开交互逻辑的建立,如图2-13。

图2-13交互流程建立定义意图、表达方式、插槽这里分析的是用户说的内容,这些内容的语音结构可以概括为“唤醒词+意图表达+插槽”,如图2-14所示。 图2-14语言结构意图:代表了你的技能具备的能力;比如一个导航的技能可能会包含五个意图:设置目的地、展示路线、说明路况、取消和退出等。

表达方式:用户所说的那些能够表达他们意图的话语,包括大量单词、短语、句子。

比如说,在表达导航这个意图的时候,用户可能会说“帮我导航”“导航去科大讯飞”或者“我要导航”等等,这些表达方式分类整理成意图表达库,如图2-15。

图2-15意图表达库示例插槽:是指定义某些意图的关键信息类别,例如“导航去科大讯飞”——“科大讯飞”就是一个地址名插。 我们将不同属性的信息进行分类,如图2-16。 每个类类别的信息都有自己的库,如城市名称库、日期库等等。 图2-16意图表达库示例三、设计原则语音设备需要以一种自然对话的方式进行感知、认知以及输出自然语言,在VUI设计过程中需要遵循以下原则。

保持简洁“简洁”的汉语释义是指简明扼要,没有多余的内容。

尊重用户的时间,提供简洁的反馈语言、反馈界面(如果有屏幕的话)以及完成任务的最短路径,不要阻碍用户。 简洁的反馈语:用户能够轻松理解机器在说什么,同时感到舒适。 过长的语言内容会让用户很难抓住重点,并且难于记忆,下面有一些保持语言简洁的方法:。