度晓晓1秒1篇高考作文，都是因为预训练大模型

6月7日，百度推出的数字人度晓晓作答了全国新高考ⅰ卷题为《本手、妙手、俗手》议论文，40秒就根据题目创作了40多篇文章，平均1秒生成1篇，随机抽取其中一篇，其分数赶超约75%高考考生。
而这得益于文心大模型最新发布的融合任务相关知识的千亿大模型ernie 3.0 zeus，该模型在学习海量数据和知识的基础上，进一步学习百余种不同形式的任务知识，增强了模型的效果，在各类nlp任务上表现出了更强的零样本和小样本学习能力。
基于文心大模型的智能创作
大模型是人工智能大基础设施的重要组成，“文心大模型”是百度近几年在花大力气投入研发的技术基础设施。自2019年开始，百度深耕预训练模型研发，并在该年3月率先发布中国首个正式开放的预训练模型ernie1.0。
去年12月，百度联合鹏城实验室发布了鹏城-百度·文心大模型，这是全球首个知识增强千亿大模型，也目前全球最大中文单体模型，参数规模达到2600亿。
在今年5月20日的wave summit 2022深度学习开发者峰会上，文心大模型一次性发布10个新的大模型，涵盖基础大模型、任务大模型和行业大模型三级体系，其中就包括融合任务相关知识的千亿nlp大模型ernie 3.0 zeus。
千亿规模参数的nlp基础大模型ernie 3.0 zeus在学习海量数据和知识的基础上，进一步学习百余种不同形式的任务知识，增强模型效果；融合层次化提示的预训练，更好地建模不同任务的共性与特性；将不同任务组织成统一的自然语言形式，统一建模增强模型的泛化能力，其相较于其他nlp大模型，在各类nlp任务上表现出了更强的零样本和小样本学习能力。
近年来，百度ai技术加速落地，新兴的aigc更是引人注目。aigc是继 ugc、pgc之后新型利用ai技术自动生成内容的生产方式。百度研究院预测，2022年aigc技术将借助大模型的跨模态综合技术能力，可以激发创意，提升内容多样性，降低制作成本，实现大规模应用。
本次度晓晓写高考作文，就是基于飞桨文心大模型实现的aigc创作，文心大模型具备“知识增强”的核心特点，能从大规模知识和海量数据中进行融合学习，学习效率更高、效果更好，具有通用性好、泛化性强的特点。
除了智能写作，在文心大模型的支持下，ai已经具备很强的理解和生成能力，能够实现创意作品的自动生成，包括ai作画、ai写歌、ai剪辑等，未来，基于大模型的aigc将会开放赋能到更多的内容生产领域。除了在智能创作上外，文心大模型也已经在工业、能源、教育、金融、通信、媒体等诸多行业得到应用。
预训练大模型使ai通用性增强
大模型是ai领域最重要的前沿技术方向，自2018年openai推出1.1亿参数的gpt以后，谷歌、微软、facebook等相继推出自己的预训练模型，2020年openai再次推出1750亿参数的gpt-3，更是引发科研机构和企业在大模型研究的竞赛，大模型的参数规模逐渐增加。
2021年大模型层出不穷，1月，谷歌发布首个万亿级模型switch transformer；3月，北京智源研究院发布悟道1.0，6月发布悟道2.0，参数规模超过百亿；4月，华为云发布盘古大模型，这是业界首个千亿参数中文语言预训练模型；9月，浪潮发布参数量达2457亿的巨量模型“源1.0”；11月，英伟达与微软联合发布5300亿参数的“mt-nlg”；同在11月，阿里达摩院宣布其多模态大模型m6最新参数从万亿跃迁至10万亿，超过谷歌、微软此前发布的万亿级模型，成为全球最大的ai预训练模型。
预训练大模型其实是机器学习的一种方式，类比人的学习来看，人的学习可以分成通识教育和专业教育两段，预训练大模型相当于解决机器学习的通识教育。此前，机器学习主要通过标注数据，告诉算法哪个数据是正负样本等进行学习。由于人工智能落地场景很多，每个场景都要采数据、标数据，因此在标注的数量和质量上存在很大的瓶颈。
为解决以上问题，自然语言处理领域迎来了一个新的突破：自监督学习，指的是不用人为标注数据，机器可以用一个方法把知识和规律学出来。比如，在模型训练中，如果我们把“中国的首都是北京”这句话中的“北京”盖住，让模型去猜中国的首都是哪里，模型可能会猜一个城市，再把盖的地方翻开，告诉模型是对了还是错了，模型也就得到了反馈。
通过设计类似的学习方式，让模型可以在海量的数据当中进行自监督学习。这个机制的好处就是，它可以把天然存在的大量数据利用起来，打破一定要精标数据才能学习的瓶颈，大模型的出现，实际上是为了大幅度降低了行业应用的门槛。
还有一个特别容易理解的解释，预训练大模型是在一个原始任务上预先训练一个初始模型，然后在目标任务上使用该模型，针对目标任务的特性，对该初始模型进行精调，从而达到提高目标任务的目的。在本质上，这是一种迁移学习的方法，在自己的目标任务上使用别人训练好的模型。
整体而言，预训练大模型的兴起，使得人工智能的通用性进一步增强，大模型具有效果好、泛化性强、研发流程标准化程度高等特点，正在成为人工智能技术及应用的新基座。

査勇：华为云在视频AI转码领域的技术实践
牡丹江联通LTE共享基站与大网基站为何无法互相切换
保险丝规格用什么表示_家用保险丝型号及规格
FPGA芯片中逻辑资源和门是如何对应的
BIRTV2022松下解决方案和新品分享
度晓晓1秒1篇高考作文，都是因为预训练大模型
iOS11最新消息：iOS11Beta2测试版更新提升系统流畅度优化硬件，iOS11Beta2更新内容汇总
NI发布新产品将LabVIEW连接到工业网络
任性！说好的2014无线充电流行年呢？
DX12U将提升RTX 2080 Ti显卡性能100% 开发者将能够充分利用DX12U的优势
采用+12V至±5V电源的精密、16位双极性输出电压源
小巧轻薄高速大容量，台电S20 1TB固态移动硬盘评测
芯片亏损持续，三星Q3营业利润预计下滑80%
中国的这些智能音箱，2018将会在市场上取得重大突破
绝缘电阻表检定规程
拆解|手持云台的内部构造竟那么简单
【虹科干货】基本元件可靠性测试方案
可程式箱式电阻炉的安全功能都有哪些
X射线无损探伤仪：高效、安全的质量控制工具
三星Galaxy C9 Pro：全金属+4000mAh+6G运存，三星“诚意之作”