会话式UI上篇：从理论和历史两个角度来谈什么是会话式UI

date

Jul 5, 2020

slug

conversational_ui_1

status

Published

什么是UI ？

首先，在谈会话式UI之前我想先问一个问题，提起UI，读者有什么样的印象？

可能大部分读者会想到网站或App的布局，按钮，动效等等，而实际通常是省略了前面的Graphical，也就是所谓的图形用户界面。那么用户界面是什么呢？有一个很直观的说法是，用户界面是连接人类世界和计算机世界的沟通桥梁。

那人类世界和计算机世界分别指的是什么，为什么需要UI来沟通？

我们所在的自然世界，就是人类世界，是物质，感知，动作，反应和认知的世界。人从一个婴儿开始，就一直在应对周遭的自然、和社会环境，学习和适应各类规则，并逐渐建立自己的认知模型。比如说红绿灯，就是建立颜色和危险程度的关系模型，并对「是否过马路」的这一行为产生影响。

而计算机的世界，则是计算指令、定义函数、执行操作、输出和输入数据的世界。本质上，计算机世界的程序是人类用于计算事物并对数据结果产生影响的功能集合，由于是定义出来的功能，所以本质上是确定性的。但随着数据的指数型增长和对真实世界的建模，也逐渐有了不可预测的特质。

那么这两个世界的认知，没有受过训练的同学，很难直接理解计算机世界的逻辑，其中存在了一个执行上的鸿沟（figure out what actions to take in order to achieve a specific goal）和评估的鸿沟（understand the results of those actions）。

这里的鸿沟，则需要用户界面来介入。一方面使用和映射人类世界已知的认知模型（比如垃圾桶、画笔、收藏夹），一方面连接计算机世界的功能和数据。当然也存在没有对应映射的情况，例如一些较抽象的专业软件。这些映射当然是需要学习成本的，成本越低通常可用性越高。

理解了概念可能还不够，还需要知道有什么功能，该怎么操作。也就是诺曼在设计心理学里提出的Affordances & signifier。最经典的例子就是，门提供「被打开」的功能，但并不知道是推还是拉。这时就需要signifier，文字或图形来告诉用户，这个门是推的。

那么比如这个按钮，认知上它提供「加入购物车」，物理上它存在一个屏幕上，屏幕提供可以「按」的功能。那么这个按钮的设计，动效，颜色就是指示符，提示用户“按这里！”。

UI的发展阶段

我预想一种将来可以个人使用的设备，它是一种计算机化的私人文件图书馆。Memex是一种个人可以存储其所有书籍，记录和通讯的设备，并且经过机械化，因此可以以超快和灵活的方式进行交互。

计算机的诞生

这个时代计算机的形式还只是打孔机，只能通过批处理的形式处理数据。麻省理工学院的计算机科学家伊凡·萨瑟兰（Ivan Sutherland）受其愿景影响，他通过探索计算机上的交互素描来遵循人类增强的愿景，并在其论文中使用了名为Sketchpad的系统（Sutherland 1963）。可以看到，画板可以绘制线段，圆弧和形状之间的约束。可以对形状进行变形，调整大小，重新定位和修剪，并且开窗的概念允许缩放和平移。整个交互体验都是基于手写笔的，实现范例是基于对象的。这是有史以来第一个演示与计算机进行交互对话的系统，而不是基于“批处理”编程（Batch）的交互。

从命令行到图形用户界面

在GUI普及之前的，使用最为广泛的就是命令行界面，当然现在也有大量使用者。60年代，斯坦福国际咨询研究所的道格拉斯·恩格尔巴特（Douglas Engelbart）设计了第一个具有图形用户界面特征的原型，其发布的NLS系统，包括了网络，窗口，超文本，图形，命令输入，视频会议，计算机鼠标，文字处理，文件版本控制，文本编辑以及现代计算的许多其他功能。

其领导的团队解散后，部分成员加入Xerox公司的Alto项目，也就是第一个应用了桌面隐喻和WIMP模型的接近量产的GUI系统（Macintosh），Apple的Macintosh电脑也参考了它的设计。

WIMP: windows, icons, menus, pointer。桌面隐喻（Desktop metaphor）

这段历史上最引人注目的事情之一是，愿景的力量，催化了整个计算机世界中的变化。如果其他人为计算撰写了另一种愿景，图形用户界面和互联网是否具有内在的根本性优势，或者，我们与计算机的交互方式是否会因此不同，从而通过计算彼此之间的交互方式也会有所不同？

语音技术的发展

同时，也有研究人员开始进行“语音对话”的研究，这是人类最自然的交流手段，其界面可以更自然地与计算机进行交流。 1966年，计算机科学家约瑟夫·魏曾鲍姆（Joseph Weizenbaum）开发了第一个自动响应系统ELIZA，但是由于技术限制，该系统无法投入实际使用。

在1980年代，随着IBM等公司语音识别技术的进步，Speechworks已经开发了一种交互式语音响应（IVR）系统，该系统在2000年代就已传播到世界各地，从而可以在单个电话上预订车票和收听股票价格。

基于这些技术，苹果公司收购了Siri，个人助手变得流行。此外，随着智能扬声器Amazon Echo和Google Home的发布，语音VUI得以建立，作为与设备进行通信的一种手段。

自2010年以来，使用VUI的设备不仅限于智能手机和扬声器，而且有向多元化发展的趋势。然后，由于对话自然性和设备多样化的进步，对话式UI诞生了。

什么是会话式UI ？

会话式UI指，人与计算机之间，可以通过语音对话自然地彼此通信的的接口。并可以通过其他方式（例如GUI、车载系统或IoT等）的协助下进行对话。

那么语音交互的场合，比如alexa，小度，可能系统中有大量的功能，控制家里设备，查股票和百科、食谱，但是用户有可能不知道呀。因为会话式UI第一次取代了可视化的「映射」，也没有可视化的指示符来提示。如何弥补没有可视化提示的 gulf of execution（执行的鸿沟/用户逻辑的差异）？

我们可以通过以下这四种手段来减少认知的负担：

设备或GUI上的视觉反馈。可以通过设备的灯光/屏幕反馈「待机、正在听、错误」等状态。

非语言的提示声音。通过系统产生不同的提示声音，来传递「连接成功、正在听、电话、短信、调节音量」等信息和状态。

对话中的提示性语言标记。提示用户有哪些功能，明确提出问题，询问或确认答案，需要多个线索时，逐步询问。

“我可以做...这些事情，需要帮忙吗？”
“需要哪S、M、L、XL中的哪一个尺码呢？”
“确定要购买这件商品吗？”

隐藏式语言信号。模仿人类的表达方式，通过句尾的疑问词、停顿等等特征来达到「再次确认」、「正在听」等等目的。

小度：（确认）“添加一个明天9点的闹钟，是吗？”

用户：“Alexa”
Alexa：“在的。”（停顿）（若没有回应，再询问目的）

通过这些方法，我们可以让「语音交互」的认知成本更低，提供更加自然的对话和服务。而除了常见的家庭场景，实际上现在在公共空间（车站、机场）、医疗场景（询问病床和病人信息）、工作场景、车载系统等等场景中也可以找到很多例子，和合适的机会。

下篇：「如何为视障人士做会话式UI ？」

参考文献

设计心理学里的 Affordance 到底是什么意思？

A history of user interfaces

Audio Signifiers for Voice Interaction

Pradhan A, Mehta K, Findlater L. Accessibility came by accident: use of voice-controlled intelligent personal assistants by people with disabilities[C]