用深度学习提高CSGO用户游戏体验的尝试

事实上这是几个月前的一个ppt演讲。在gdc 2018上，valve游戏工程师john mcdonald介绍了度假社用深度学习提高csgo用户游戏体验的尝试。之所以说是“提高用户体验”而不是“鉴别开挂行为”，是因为v社这次不仅把ai技术用在了反作弊机制上，还对普通玩家心理进行了透彻研究。
2018年1月steam游戏人数排行前三名
csgo中的挂
csgo（中文名《反恐精英：全球攻势》）是v社于2012年推出的一款第一人称射击团队竞技游戏，它是cs系列的第四部作品，6年来一直深受国内外玩家的欢迎。作为一款fps游戏，玩家恶意开挂几乎是不可能避免的，相比上图中排名第一的pubg，其实csgo里的挂并没有多到人神共愤的程度。
但有挂玩家就会生气，一生气他们就会抱怨，会用脚投票。
根据john mcdonald透露的数据，现在csgo的月活人数有1240万，平均日活约300万，组队时间平均1-2秒。对于一个已经推出6年的游戏，保持这样的数据并稳居steam榜单前三是不容易的，它离不开开发团队为玩家打造的游戏环境。
可就在2016年，v社收到了铺天盖地的玩家投诉，许多人用发邮件、reddit发帖等方式告状：你们的游戏有很多挂。面对玩家的怒火和无法迅速排查开挂行为的棘手情况，v社有点懵。
csgo是v社自己开发的游戏，它自带官方vac系统，能对开挂者实施高效封禁——但火爆的游戏背后总伴随经济利益，许多人针对vac开发了不少能绕过监控的挂，或是看准v社喜欢秋后算账的风格找漏洞，既夺走了心存侥幸的玩家的账号，也毁掉了正常比赛的玩家的游戏体验。
时至今日，许多人在调侃csgo“已凉”时都不忘把“挂太多”拉出来重点批评一下。所谓爱之深、责之切。他们对游戏的热爱是真实的，但他们对外挂的憎恶也是深入骨髓的。而令人无奈的一个现实是，制作一个csgo外挂的成本非常低，如果某人还保留着当初《半条命2》的外挂，他就会发现这个挂居然也可能继续在csgo里生效。
csgo和深度学习
2015年，csgo的overwatch正式上线（别想歪！我真的没笑），这是一个监督功能，允许获得裁决资质的选手可以通过观看疑似作弊选手的demo来判断其是否作弊或者调整了游戏参数。如果玩家发现存在开挂行为，他们可以把demo提交给协调员进一步审核，之后官方会跟进处理并反馈结果。
overwatch本身可以初步判断玩家有没有开挂，它背后的算法是朴素贝叶斯，系统先为开挂找到一个阈值，然后对结果进行分类。但实践证明，这个基于朴素贝叶斯的系统太宽容了，它只能辨别出非常明显的开挂行为，然后把大多数微妙的demo——漏网之鱼反馈给真人。
对于玩家而言，也许overwatch颇为鸡肋，但在深度学习眼里，这就成了不可多得的数据来源。
模型简介
v社开发的反作弊深度学习系统叫vacnet。因为面向序列处理任务，它被设计成一个时间步长为140的gru rnn，包含一个输入层（256个神经元）和4个隐藏层（每层256个神经元）。网络使用的激活函数是relu，损失函数是二元交叉熵，优化算法是adagrad。
vacnet在overwatch搜集的数据中训练，其中包含玩家提供的内容和官方收集的内容，是个大型优质数据集。虽然现在也有用深度学习生成数据的方法，但这种做法容易让神经网络钻空子，所以开发人员用的还是真实的游戏demo。
模型的输入不是常规的长向量，这里他们把140次射击当做一个序列，按顺序记下每个视频帧的所有信息。这些输入被称为(x,y)，其中x就是我们常说的特征，它包括用了什么武器、射击后的结果、（如果击中）目标距离有多远、瞄准角度调整用时等。训练到最后，模型需要能拟合x数据并反复验证学习质量，直到输出最佳结果。
推断和硬件
完成训练后，模型就要被用于推断（馈送）。
john mcdonald把这一过程类比成制作牛肉汉堡。当开发人员面对overwatch时，他们手中没有现成的牛肉肉泥，而是一头不断吃草长胖的牛。为了让数据能为深度学习模型所用，开发人员花了95%的时间和精力把牛切成牛肉——数据，然后把剩下的1%用于把牛肉搅碎——深度学习，4%用于制作汉堡——训练模型。
据介绍，v社平均每天收集60万场5v5比赛，每场比赛耗时4分钟，一共是240万分钟cpu耗时（一天）。然而一天只有1440分钟，这也就是说，为了达成目标，他们至少要购买1700块gpu。这时，玩家们献给g胖的供奉就开始发挥作用了——他们一共买了3456块cpu。下图是处理器的冰山一角，它包含64个刀片式服务器，每个刀片有54个cpu核心、128gb ram，仅用于模型推断。
按照之前v社制定的反作弊逻辑：玩家举报——协调员筛选——玩家裁定——开挂/没开挂，现在他们有了vacnet，举报环节就又增加了一个“vacnet举报”。据了解，在所有举报中，玩家举报的开挂证实率为15-30%，而且种类非常丰富；而vacnet的开挂证实率高达85%-90%，但种类相对单一。
效果评价
正如之前所述的，vacnet的效果是令人满意的，尽管缺乏灵活性和通用性，但它至少找出了大部分开挂者的“罪证”。如下图所示，刚被加入游戏反作弊机制中时，它就小幅提高了系统检测开挂数的数量，加入更多训练数据后，它在2018年前后又形成了一个剧增的峰值。而且就实际应用来看，从vacnet提出至今，它还没有误判过一起作弊事件，当然最后的真人检测也在其中发挥了重要作用。
从用户反馈来看，这个深度学习尝试也取得了史无前例的成功。自从引入overwatch和vacnet以来，在reddit上抱怨开挂的csgo玩家数大幅降低，仅为2016年高峰期的1%。这种情况将有利于老玩家的存续和新玩家的进驻，也是v社所喜闻乐见的。
但vacnet真的很完美吗？其实不尽然。除了之前提到了它似乎只能识别某几种开挂行为，它还有一个更严峻的缺点。训练时，当完成“举报——协调员筛选——玩家裁定——开挂/没开挂”这一流程后，为了保证模型的学习效果，经真人裁定的数据会被再次馈送进模型进行学习。
这就引出一个问题，如果有人开发了一个挂，它能在前几枪自描、锁头，后几枪回归正常，那系统该怎么判断？如果是个真人裁判，他肯定会想：emm，这货有问题，肯定开挂了。但机器不知道这样的判断依据，它只能把它标成开挂，然后同时从开挂的时间段和没开挂的时间段内去强行学习开挂依据。这会导致模型性能变差。
针对这个问题，目前v社找到的补救方法是添加一个自动的重新训练功能，它能修补启发式算法带来的漏洞。二是建立一个全新的没有经验的模型，由它来拓展开挂行为检测范围，增加系统能识别的开挂种类。第三则是把vacnet应用到其他steam游戏上，追求泛化通用化。
小结
john mcdonald认为，深度学习是一种新兴涌现的技术，它将改革传统的反作弊方式。v社现在已经把深度学习用于反开挂、反作弊和dota2英雄选择等，而其中最受关注的就是dota2的“大老师”。
就目前而言，玩家无需担心有人用深度学习技术开发对抗vacnet的工具，因为v社手里掌握着其他人难以想象的游戏数据，对于深度学习来说，数据越多，模型性能越好，这是毫无疑问的。唯一需要担心的一点是，这个用于训练的数据集是从比赛里收集的，有人可能会恶意污染数据。虽然似乎人们可以一眼分辨出这个人有没有开挂，但如果外挂能做到欺骗玩家，那它也能骗过vacnet，并干扰它的训练和学习。
综合整个演讲，我们可以下这么一个结论：vacnet是有效的，但它的反作弊能力并没有我们想象中的那么突出，它还是不能做到完全杜绝外挂。如果一个反作弊系统连玩家有没有作弊都分辨不出来，那它的开发者其实并没有消灭外挂的决心，而只是关心玩家的游戏体验。
事实上这也正是vacnet成功的地方，它立竿见影地减少了投诉帖子数量，稳定住了玩家的心，让csgo稳居玩家活跃榜的前三位。当玩家们再次谈及游戏里的开挂行为时，他们也会乐于讨论v社在反作弊上的努力，并褒扬深度学习的实际效果。
对于一个普通玩家来说，这样的结果是喜是忧呢？

传真机的类型
为什么单片机有不同位数？
电路板温升过高的解决办法
展望2013：莱迪思或致力进军安防、汽车和消费市场
如何有效地做好纸吸管机的日常保养
用深度学习提高CSGO用户游戏体验的尝试
紫光股份：拟终止收购新华三49%股权事项
韩国NH农协银行加入禁华运动找不到代替华为设备
新唐科技W584A100主板介绍
浅谈高温线缆的耐高温性、防水性以及耐腐蚀性
小米、联想销量跌出前五低价手机难再成撒手锏？
直流电机调速（simulink）—检测篇
英伟达 A100 GPU 全面上市，推理性能比 CPU 快 237 倍
国产主板中显卡的关键作用与不同类型电脑主板全面解析
PDF Solutions:为半导体行业提供数据和分析解决方案的领先供应商
LinearLT3697输入降压型开关稳压器的特点介绍
中国采用先进移动通信技术的比例还有待进一步提升
三星宣布已开始量产5G芯片
苹果iOS14.3 beta3头戴新品现身
如何在“新基建”背景下提升我国工业芯片的发展水平?