AI教你一本正经胡说八道的写文章

还记得openai在今年2月放出的gpt-2吗？一个拥有15亿参数的自然语言处理（nlp）模型，能够根据用户给出的一段文字、一句话，甚至是一个单词，续写出符合文法的连贯文本，真正实现了 “开头一句话，剩下全靠编”。
当时在公布研究成果时，openai没有遵照业界以往的开源惯例，只是象征性地公开了包含1.17亿参数的模型，不到全部参数的十分之一。据说因为他们认为自己的模型太过强大，怕被别有用心的人拿去编造假新闻，糟蹋了这套ai系统的初衷。
这一做法招来了很多争议，“阉割版”gpt-2的效果比官方展示的效果差了很多，让一些人认为openai只是在制造噱头，还嘲讽他们变成了closeai。
图 |2月初放出的gpt-2模型（来源：openai）
不过在5月初，openai用行动回击了质疑。他们将公开的模型参数翻了一倍，提升到了3.45亿，还宣布向ai业界合作伙伴开放7.62亿和15亿参数模型，供他们研究和参考，共同推动nlp技术的发展。
另一方面，鉴于openai将gpt-2模型开源在了github上，一名加拿大工程师adamking利用里面的代码，创建了一个名为talktotransformer.com的网页。这样一来，即使是不会编程的人，也可以在网页上随意输入文字，体验一下如何调戏ai。
看似流畅连贯，但缺乏逻辑
如果你初次访问网页，不知道该填写些什么，网页上面贴心地预设好了一些英文情景和段落，比如“科学家发现了一种会说英语的独角兽”或者“今天科学家确认一颗大型小行星将会撞击地球”。选取一种之后，ai就会自动续写之后的文字。即使是相同的开头，ai每次也都会续写出完全不一样的段落。
譬如下面两张截图，都是以“今天科学家确认一颗大型小行星将会撞击地球（加粗部分）”为开头，但ai的续接风格略有不同。
第一个续写给出了撞击的确切时间是2028年 5 月 29 日，甚至还虚构了一名 nasa 科学家 stevenshaver，像模像样地援引了他对小行星的描述——“质量比美国还大”，颇有洋葱新闻的感觉。
不过，ai 显然不知道美国作为一个国家是不存在质量的，难道它说的是所有美国人加在一起的质量？
第二个续写则是简单粗暴，张口就来。ai 直接说小行星的撞击“将消灭星球上的所有人，并且导致未来 10 - 15 年内，海水（平面）停留在我们所有幸存者的下面。”
你问我第二句什么意思？ai 大哥就是这么写的，咱也不知道，也不敢问。
但如果你再仔细思考一下，ai 第一句话说了小行星会消灭星球上的所有人，那第二句里的幸存者是哪来的？莫非这个幸存者（all of us alive）指的是ai自己？可谓是细思极恐。
支持多语种，但只有英语最好
除了这些已有的句子，我们还可以尝试 diy 输入任何文本，原则上没有任何语种限制。
根据测试，ai 可以识别出中文、日语、法语、西班牙语、土耳其语，甚至是很多从没听说过，但存在于谷歌翻译上的小众语言，比如宿务语和库尔德语。只是输出的文字并不像英语那么通顺，续写效果非常差。如果输入了中文，不仅不会写出连贯句子，还会经常出现乱码。
但除了中文和日语之外，ai 似乎无法识别绝大多数非字母的语言，像是韩语、阿拉伯语和老挝语等，它都无法识别和续写，只能原封不动地显示输入值。看来 gpt-2并没有系统地接受这类语言的训练。
图 |ai：“这道题超纲了，我不会。”
不过这并不妨碍我们调戏 ai，用英语就可以了。
ai 教你一本正经地胡说八道
比如你可以问它：“如何制造时光机？”
它可能会洋洋洒洒回复一大篇，但通读下来全是废话，先解释一下什么是时光机，再解释一下什么是时空穿越，就是不教你怎么制造（因为有字数限制，ai会中断续写）。
这个套路，深得鸡汤文的精髓。
我们还可以输入一些电影名言，像是《哈利波特与密室》中邓布利多说的话：“哈利，决定我们是什么人的，不是我们的能力，而是我们的选择。“
结果 ai 表示，这是哈利在被伏地魔杀死之前说的话。好吧，最起码它知道《哈利波特》和伏地魔。
或者，《阿甘正传》里面的“生活就像一盒巧克力，你永远不知道你会得到什么。”
在我多次刷新后，ai 给出了一个乍看之下没什么逻辑，但深思之后会眼前一亮的续写：“我只能吃一个，因为它太贵重了。”
如果将两句话连起来，ai 仿佛在劝你珍惜生活中的每一次选择——“生活就像一盒巧克力，你永远不知道你会得到什么，但它太贵重了，你只有吃一次的机会。”
不过相比这些，ai 更擅长的还是编写假消息。
如果从维基百科上复制两句美国总统特朗普的简介，ai 可以用几乎以假乱真的措辞和数据，让续写看起来非常真实，甚至是自发地打上来自于维基百科的标记。
上图里，加粗的一段话是维基百科的原话，后面是ai瞎编的，说特朗普是个投资者，从 1972 年就在电信领域开了公司，还冠冕堂皇地打上了来源于维基百科的标记。在没有其他求证手段的时候，的确很容易混淆视听。
如果说混淆了特朗普的生平还算小事，那么伪造宣战的恶劣性质就完全不同了。只要给出“某国对某国宣战”的开头，ai 可以分分钟伪造出数十个不同版本。虽然有的会出现逻辑不通问题，但依然大大降低了造假的成本。
上图中，我们给定开头是“美国总统特朗普对俄罗斯宣战。一发导弹…（假新闻）。”
ai 续写：“…美国国防部长 jamesmattis 周三警告称，尽管俄罗斯拒绝承认在克里米亚地区部署了核轰炸机和巡航导弹，但美国的一发导弹已经从驱逐舰上发射，标志着国际问题的剧烈升级。五角大楼表示，这是对俄罗斯参与乌克兰军事行动的回击。”
怎么样？除了 mattis 已经辞职这一事实，面对ai的续写，无论是通顺程度，还是逻辑思维，普通人很难一眼看出破绽。
对关键词求证之后，这样的假新闻很容易被识破。但在现阶段来看，facebook 和推特等平台依靠筛查系统，几乎不可能第一时间将其屏蔽，很可能借助社交媒体广泛传播，造成非常恶劣的社会影响。
由此看来，openai 最初的顾虑不无道理，科技的确是一把双刃剑。
结语
从整体来看，这套 gpt-2 模型的续写水平足以让人眼前一亮，而且对语境拥有一定的了解，仅凭哈利这个关键词就引出伏地魔。得益于天然英文素材的训练内容，在大部分情况下，只要肯多刷新几次，我们总会找到语法、词汇和句式都能衔接很好的段落。整个过程颇有几分抽奖的乐趣。
但是该模型也会时常出现逻辑和语义硬伤，而且常识储备和自洽能力也有待提高（如所有人都死了，还有幸存者），总是会搞出很多莫名其妙的句子，也算是让人忍俊不禁。或许拥有 15 亿参数的完全体 gpt-2 会有更强大的表现。

EVS深度学习智能相机OCR工具性能大揭秘
新能源客车市场销量大幅下滑,客车新产品数量同比大幅降低
2019互联网危机裁员潮，出路在哪里？
浅谈比亚迪的电池自供体系有何优势
无锡微纳园首家以“物联网”为主题的国家级专业孵化器、首个国家级物联网区域品牌试点园区
AI教你一本正经胡说八道的写文章
几种二极管的检测方法（发光，红外发光，红外光敏，其他光敏二极管）
贸泽电子新品推荐：2020年7月
DS18B20在空调检测系统温度采集模块中的应用[图]
iPhone8确认9月12日发布,iphone7 plus开始降价让路
如何从正电压电源获得负电压，正电压转负电压的方法图解
亿智电子获批组建珠海市端侧AI SoC芯片工程技术研究中心
伺服放大器作用原理图解
薄膜电容器自愈的利弊
科技拉动增长的路径,中国的经济格局会如何？
常用有源功率因数校正电路分类及工作原理分析
配电柜中防雷器的选择方法
控制IRQ和FIQ中断的编译器内部函数基于Keil MDK
智信通年中完美收官，凝神聚气，砥砺前行
Xilinx FPGA控制器的Everspin STT-DDR4设计指南