端侧大模型到通用智能体——智能手机AI进化的下一场革命(一)

ai大模型的量化技术，让消费产品端侧大模型成为现实
近日联想集团董事长兼首席执行官杨元庆在媒体沟通会上表示，随着人工智能的发展，尤其是aigc的爆发会促进智能设备的升级。他认为，今年还不会有太大的影响，明年一定是革命性的影响，促进电脑的升级换代，他预计到明年可以见到ai的手机和电脑。
随着open ai推出chatgpt以来，行业一直在试图突破大模型在单个强大的消费类gpu上运行的限制。
通常，运行gpt-3需要多个数据中心级英伟达a100 gpu。但是meta、谷歌和微软等科技大公司为了推动终端产品市场的发展，在端运行大模型的研发项目陆续出台。
最早是meta2月份发布的llama引起了轰动，因为它可以在单个强大的消费类gpu上运行。现在，通过一种被称为量化的技术来进行优化、使模型缩小后，llama可以在配备m1芯片的苹果电脑或较小的英伟达消费级gpu上运行。llama是一个参数大小范围从7b到65b的大型语言模型（“b”是指“十亿参数”，是存储在矩阵中的浮点数，表示模型“知道”的内容）。llama较小尺寸的模型在输出质量和速度方面可以与gpt-3相媲美。
时隔半年后，meta ai在周二发布了最新一代开源大模型llama 2。相较于今年2月发布的llama 1，训练所用的token翻了一倍至2万亿，同时对于使用大模型最重要的上下文长度限制，llama 2也翻了一倍。llama 2包含了70亿、130亿和700亿参数的模型。meta同样在周二宣布，与微软云服务azure合作，向全球开发者首发基于llama 2模型的云服务。另外，meta也与高通宣布，llama 2将能够在高通芯片上运行，打破市场上英伟达、amd处理器对ai产业的垄断。
而另一巨头谷歌在5月11日召开的“2023 google i/o”技术大会上，谷歌首席执行官sundar pichai介绍了最新发布的大语言模型palm 2，主要功能包括支持100多种语言、具备逻辑推理、代码生成等，基本上与chatgpt的最新模型gpt-4类似，palm 2提供了gecko、otter、bison和unicorn四种模型。其中，gecko非常非常轻巧，可以在移动设备端运行快速运行（手机、pad等），即便是离线状态也能与应用程序进行交互。谷歌希望开发者通过gecko模型，加速生成式ai在移动端的开发进程。
palm 2采用了一种“计算最优缩放”技术，能在最小的参数实现最大的性能，也就是说开发者可以用最少的算力资源，开发强大的生成式ai应用。ai 大模型的加入，让 android 14成为真正内置 ai 大模型的操作系统。
其实国内早在3月份元语智能团队又开源了一个chatyuan系列大模型：chatyuan-large-v2，支持在单张消费级显卡、pc甚至手机上进行推理使用。chatyuan-large-v2是chatyuan系列中以轻量化实现高质量效果的代表模型，仅仅通过0.7b参数量可以实现业界10b模型的基础效果，并且大大降低了推理成本，提高了使用效率。用户可以在消费级显卡、 pc甚至手机上进行推理（int4 最低只需 400m ）。同时，为了更好的提升使用体验，团队已经封装了工具，chatyuan-large-v2实现了本地可运行，下载后可以直接在本地使用h5版本，进行网页交互。
智能手机产业积极拥抱端侧ai大模型
智能手机的算力早已经超出很多消费电子终端产品，包括平板电脑、笔记本电脑、甚至pc产品，甚至很多芯片厂商的cpugpu产品设计，已完成兼容了智能手机、平板电脑、笔记本电脑、pc产品、arvrmr智能手表智能机器人等所有能接入物联网的硬件平台产品。
作为推动智能手机等物联网物种进化的先进技术，与单纯在云端部署生成式 ai 应用和服务相比，端侧部署生成式 ai 在节约服务器成本、保护用户信息安全、提升实时性和实现个性化用户体验等方面带来了更加广阔的应用前景。
在设备上使用生成式ai有很多好处，比如所搜索记录和个人数据是保密的，不会通过远程服务器中转。本地ai也比云端更快，而且可以在飞机上等缺少移动网络服务的地区工作。因此端侧ai大模型在包括智能手机在内的物联网行业一直有着巨大的需求。
早在今年2月份，高通就已经发布了全球首个运行在安卓手机上的图片生成软件stable diffusion的终端演示，该手机搭载了骁龙8 gen2芯片。
目前高通等芯片厂商，正在针对ai大模型端侧部署研发专用的芯片。目前，高通正在将aigc嵌入下一代高端芯片骁龙8 gen3中，该芯片将于今年10月底在夏威夷举行的高通骁龙峰会上首次亮相。
在asghar的实验室中，高通芯片能够处理70亿个参数的ai模型，虽然远远低于openai gpt-3模型的1750亿个参数，但应该适合移动搜索。
高通表示，本年度将能够支持参数达100亿的生成式ai模型在手机上运行，这意味着未来大多数的用例将能够完全依靠手机端就能够完成。高通在技术层面已经做好了准备。
100亿-150亿参数级别的模型可以覆盖绝大多数生成式ai的用例。如果终端已经可以支持这一参数级别，那么运算可全部在终端上进行，无需云端处理运算。届时包括智能手机在内的消费电子产品和其它物联网终端产品会拥有非常丰富的使用场景，会成为真正的个人助理。
高通ai引擎由多个硬件和软件组件组成，用于在骁龙移动平台上为终端侧ai推理加速。它采用异构计算架构，包括高通hexagon处理器、adreno gpu、kryo cpu和传感器中枢，共同支持在终端上运行ai应用程序。
在2023年世界人工智能大会上，高通展示了全球首个在终端侧运行生成式ai（aigc）模型stable diffusion的技术演示，和全球最快的终端侧语言-视觉模型（lvm）controlnet运行演示。这两款模型的参数量已经达到10亿-15亿，仅在十几秒内就能够完成一系列推理，根据输入的文字或图片生成全新的ai图像。
高通认为在数据产生的地方直接进行高效推理才是大趋势。而数据产生的地方正是在端侧，比如手机端或电脑端。在高通ai软件栈（qualcomm ai stack）的帮助下，手机端的能力更是可以在其他设备端实现复制，如pc、ar/vr、汽车和物联网iot设备。
同时另一智能移动产品芯片巨头联发科也在近期宣布联合百度发起飞桨和文心大模型硬件生态共创计划，共同推进联发科硬件平台与飞桨和文心大模型适配。本月联发科还宣布运用meta liama 2大语言模型和联发科先进的ai处理器（apu）以及完整的ai开发平台（neuropilot），建立完整的终端侧ai计算生态，赋能终端设备生成式ai应用。
联发科与百度合作已久，双方合作完成了 paddle lite 轻量化推理引擎基于 mediatek neuropilot 人工智能通用软件平台的适配。neuropilot 是 mediatek 为开发者提供的基于本地端侧的 ai 运算解决方案，它为内建 cpu、gpu 和 apu（独立ai 处理器）等异构运算单元的 mediatek soc 平台提供完整且强大的软件解决方案。
联发科将于年末推出新一代旗舰移动芯片，将采用针对llama 2模型而优化的软件栈（neuropilot），与搭配支持transformer模型做骨干网络加速的升级版ai处理器（apu），可减少动态随机存取内存（dram）的读写消耗和带宽占用，进一步强化大语言模型和生成式ai应用的性能，助力开发者打造令人惊艳的ai应用，加速终端设备ai应用落地发展，持续为智能手机、汽车、智能家居、物联网等终端设备用户带来振奋人心的生成式ai应用体验。
智能手机厂商闻ai大模型起舞
近年来手机产业发展进入创新瓶颈期，手机厂商正试图寻找新的差异化出路。特别今年以来，随着chatgpt的横空出世和全民级应用发展趋势，众多手机厂商纷纷入局ai大模型赛道，除谷歌外，荣耀、oppo、vivo、小米、华为等国产手机巨头。
据业内人士表示，荣耀已经把ai大模型引入端侧，赋能yoyo智慧助手，打造更加个人化、人性化，隐私保护更周全的端侧个人模型；小米将小爱同学升级大模型，小米手机端侧大模型已初步跑通；oppo、vivo 也计划在系统中整合ai 大模型能力。
8月4日，华为对外发布harmonyos 4，将ai大模型能力内置在了系统底层。harmonyos 4由华为盘古大模型提供底层支持，希望给用户带来智慧终端交互、高阶生产力效率、个性化服务的全新ai体验变革。
在8月14日晚举办的小米年度演讲中，雷军表示，小米ai大模型最新一个13亿参数大模型已经成功在手机本地跑通，部分场景可以媲美60亿参数模型在云端运行结果。小米旗下人工智能助手小爱同学已开始升级ai大模型能力，正在开启邀请测试。
而oppo推出了基于 andesgpt 打造的全新小布助手也即将开启大型体验活动。据介绍， andesgpt 是 oppo 安第斯智能云团队打造的基于混合云架构的生成式大语言模型，升级后的小布助手将具备 ai 大模型能力，拥有更强的语义理解对话能力。此外，vivo将在今年10月左右推出新的originos 4.0系统，新系统将内置ai大模型。
int4量化技术让端模型进化成通用智能体
量化（quantization）和定点数计算取得了不错的成果。一方面是节省了空间，另外硬件定点数的计算效率也通常更高。
模型参数可以采用32位/比特浮点（fp32）格式表示，但不如以定点（fixed point）格式表示，因为这几乎没有精度损失，甚至更高，但计算量却较低。定点数量化模型的位/比特越小，模型存储越小，执行加速越大，这种策略不仅可以减少占用的内存，还可以减少与计算相关的功耗。
在cpu和dsp上对量化网络延迟进行基准测试：与cpu浮点数相比，量化模型实现的速度提高了2-3倍；具有定点数simd功能的专用处理器（例如带hvx的qualcomm qdsp）提速高达10倍。
现在人们已经证明，fp32训练的参数可以改成4位/比特整数（int4）做推理，没有显著精度损失，甚至训练时候采用int4也可以。与服务器上训练的模型一般采用32位浮点运算（fp32）不同，端侧大模型端基本上采用int4计算，大大提高了端侧的处理能力。
在量化技术的支持下，支持int4计算的端侧ai大模型很快会成功运用到智能手机上，未来也将很快延伸到与智能手机芯片平台相关的其它物联终端产业，如电脑、汽车电子、机器人、智能家居等，端侧ai大模型将引领包括智能手机在内的物联网终端产品，加入到ai进化的下一场产业革命中。
业内人士表示，受限能耗、系统性能、模型迭代效率，边际效益递减等因素，模型的规模增长不会像过去几年一样高速，而是朝更高效的模型结构（e.g. sparse activation），训练方式（self-supervise），更高效的部署（e.g. distillation）发展。
模型的感知和记忆能力会快速、全面超过人类水平，并且固化下来，形成通用化的应用场景。而模型的动态决策能力，复杂场景的应变能力还有较大的发展空间。模型的可解释性、可控性短期可能不会有比较大的突破，但是大的研究机构会持续投入，并形成一些差异化的竞争力。
在虚拟世界（或者说是现在比较火的元宇宙），未来5~10年可能会先出现比较通用的智能体。原因是基于强化学习的相关技术在虚拟世界有较低的迭代成本和安全顾虑。

指纹识别成为手机标配的原因
心动！华为首款运动手环开卖只要298元：50米防水不惧海水
使用安全设备时还会产生风险吗
电力电子系统的组成_电力电子技术的应用
实时操作系统FreeRTOS应用之任务调试信息获取
端侧大模型到通用智能体——智能手机AI进化的下一场革命(一)
对象存储提供的五个主要优点
顺丰的优势是什么，充分了解产品才能更好解决问题
新款MacBook Pro外观向Air看齐？外壳键盘接口逐个看
MyHDL“用python设计电路”
VR眼镜转接器方案，支持同时给电脑手机设备及VR供电！
长城汽车重庆智慧工厂真正实现了数字化和自动化高效结合的智能制造
怎么判断主板电池没电_主板电池会自动充电吗
奋达流金岁月R9评测生活充满了回忆
大牛整理Java深入学习路线图
数据科学工程师需要具有哪些知识
如何降低网络安全漏洞被利用的风险
Elyland推出一款结合了区块链技术的AR游戏
Mavic无人机以高档的动力马达为用户提供了最长达30分钟的飞行时间
交警无人机空中抓拍交通违法无所遁形