对话机器人之Sparrow简介

1 简介
deepmind提出的sparrow，相对于以往的方法，是一种更加有用，准确并且无害的信息检索对话机器人。
在之前的对话研究中，往往会针对对话的不同方面去设计对应的任务跟模块，例如知识性，一致性，长期记忆等等，但是sparrow则不然，它直接根据用户的用户的反馈进行学习，这样能尽可能让模型对齐真实的用户行为，而不再需要关注过于琐碎的诸多对话细节。
图1: sparrow测试样例
2 sparrow
整个流程是通过sparrow模型根据当前对话生成多个候选回复，让用户去判断那个回复最好，哪些回复违反了预先设置好的规则，基于用户的反馈去训练对应的reward模型，利用训练好的reward模型，用强化学习算法再去优化sparrow的生成结果。
图2: sparrow框架
reward
sparrow学习的用户反馈分为两种，一种用户判断对话是否违背某些预设置好的规则，另一种的是从用户根据当前对话从个候选答案里选择最合适的一个。这两种反馈分为对应两个不同的模型，rule reward model跟preference reward model。
对于rule reward model，首先需要根据任务自定义对应的一些规则，例如判断机器人是否在回答用户问题，话题是否变化等等，规则样例如下图所示。在具体训练数据构造时，用户在给定对话条件下，还会给某个特定规则，让用户有意识的引导机器人去违反对应的规则，然后再由用户评估机器人回复是否违反对应的规则。
之所以采用这种方式是为了更高效的积累到高质量样本。用构造好的训练数据训练对应的分类模型，判断机器人回复是否违反对应的规则，每个规则对应一个分类模型，彼此独立。
图3: 规则示例
对于preference reward model，在给定当前对话条件下，利用多种方式生成多个候选答案（通过是否引入知识检索，不同生成模型，不同prompt，不同采样策略），让用户从中选择最合适的答案。利用这些构造好的数据训练可以得到对应的分类模型，判断用户对于当前回复的倾向。
以下图为例，共有8个候选答案，其中前四个是不不经过知识检索直接生成的，后面四个是通过两个不同的检索query进行知识检索，将得到的检索结果跟当前对话合并再一起后再生成回复的。
图4: 回复生成流程
reranking
当上述两个reward模型给候选答案生成对应的得分后，通过一个重排机制综合考虑两者的得分可以进一步优化对话机器人的性能。
evidence
前面提及的答案生成是可以通过知识检索，根据当前上下文生成对应的query，利用google进行搜索，将得到的结果跟当前对话信息组合，然后再生成对应的回复。之前也写过一些相关的文章，有兴趣可以自行查看文本生成系列之retrieval augmentation（思考篇）。
reinforcement learning
这里强化学习每一步的状态是当前的对话上下文，action是具体的token，利用前面提及的rule reward model跟preference reward model来给action打出对应的reward得分，从而优化sparrow的输出结果。在强化学习训练过程中，如果机器人生成的回复reward超过预期的话，就会把当前对话上下文+机器人回复作为新的训练数据加入到语料中，扩充训练语料库。
图5: 强化学习流程
3 总结
个人认为，sparrow对话机器人，最大的特色在于直接对用户的反馈进行学习，那样就不需要为对话各种琐碎细节去设计不同的模块跟任务，把决策权进一步交给模型，让模型自己去学，而对于那些机器人可能学不好的地方，通过预先定义的规则去构造对应的训练数据，让模型自己去补全。by the way, 可以好好期待一波chatgpt了。

直线马达在自动手术门发挥巨大作用
英飞凌推出集成MEMS传感器与ASIC的胎压监测传感器
互感器变比设置数值不匹配的解决方法
阿里再返港交所拟发行5.75亿股马云否认数据造假
掌网科技：改变世界由视觉认知开始
对话机器人之Sparrow简介
战争AI化？港媒称我国海军拟打造人工智能核子潜艇
关于网站服务器安全防护的7个观点分析
静电触控反馈技术将会提升触控的真实感
2020高工机器人&amp;高工移动机器人年会精彩继续
什么是商用无人机发展的重点
家电老大地位不保，电视何解落到这种地步？
Windows2003系统优化妙招
韩国初创企业正在努力将医疗保健和区块链结合起来
看看传感器“大战”雾霾的那些创意应用
利用三相交流和线圈制造旋转磁场的方法
精彩出炉 | ECS2023第五届中国电子通信与半导体CIO峰会圆满落幕！
摇摄/MPEG-7,摇摄/MPEG-7是什么意思
LPC8N04及LPC8N04开发板主要特性PCB设计图
略谈MSP43单片机端口