幻方量化发布了国内首个开源MoE大模型—DeepSeekMoE

幻方量化旗下组织深度求索发布了国内首个开源 moe 大模型 —— deepseekmoe,全新架构,免费商用。
今年 4 月,幻方量化发布公告称,公司将集中资源和力量,全力投身到服务于全人类共同利益的人工智能技术之中,成立新的独立研究组织,探索 agi 的本质。幻方将这个新组织命名为 “深度求索 (deepseek)”。
deepseekmoe 的模型、代码、论文均已同步发布。
模型下载:https://huggingface.co/deepseek-ai
微调代码:https://github.com/deepseek-ai/deepseek-moe
技术报告:https://github.com/deepseek-ai/deepseek-moe/blob/main/deepseekmoe.pdf
据介绍,deepseekmoe 的多尺度(2b->16b->145b)模型效果均领先:
deepseekmoe-2b 可接近 moe 模型的理论上限 2b dense 模型性能(即相同 attention/ffn 参数配比的 2b dense 模型),仅用了 17.5% 计算量
deepseekmoe-16b 性能比肩 llama2 7b 的同时,仅用了 40% 计算量,也是本次主力开源模型,40g 显存可单卡部署
deepseekmoe-145b 上的早期实验进一步证明该 moe 架构明显领先于 google 的 moe 架构 gshard,仅用 28.5%(甚至 18.2%)计算量即可匹配 67b dense 模型的性能
混合专家模型 (mixed expert models,简称 moes) 是用于提高大语言模型效率和准确度的技术。这种方法的核心是将复杂任务划分为更小、更易管理的子任务,每个子任务由专门的小型模型或 “专家” 负责,然后根据输入数据的特性选择性地激活这些 “专家”。 moe 核心组成:
专家 (experts):训练有素的小型神经网络,擅长特定领域。每个专家通常专注于处理一种特定类型的数据或任务。专家的设计可以是多种形式,如完全连接的网络、卷积网络等。
门控机制 (gating mechanism):moe 架构决策者,这是一个智能路由系统,负责决定哪些专家应该被激活来处理当前的输入数据。门控机制基于输入数据的特性,动态地将数据分配给不同的专家。
官方称 deepseekmoe 是自研的全新 moe 框架,主要包含两大创新:
细粒度专家划分:不同于传统 moe 直接从与标准 ffn 大小相同的 n 个专家里选择激活 k 个专家(如 mistral 7b8 采取 8 个专家选 2 专家),deepseekmoe 把 n 个专家粒度划分更细,在保证激活参数量不变的情况下,从 mn 个专家中选择激活 mk 个专家(如 deepseekmoe 16b 采取 64 个专家选 8 个专家),如此可以更加灵活地组合多个专家
共享专家分离:deepseekmoe 把激活专家区分为共享专家(shared expert)和独立路由专家(routed expert),此举有利于将共享和通用的知识压缩进公共参数,减少独立路由专家参数之间的知识冗余


深度解析北京现代悦纳底盘
华帝洗碗机从用户特色入手,推动洗碗机行业的快速、持续、健康发展
荣耀Note9什么时候上市?荣耀Note9马上就来,5000mAh电池+6.6英寸巨屏 KO小米Max2
诺基亚发布三款全新安卓机型 最低售价约合人民币660元
学生党用什么蓝牙耳机,2020性价比高的无线耳机推荐!
幻方量化发布了国内首个开源MoE大模型—DeepSeekMoE
替代Windows有望 国产UOS系统30秒内开机办公体验流畅
工程师的奇思妙想!在又一波合宙新品到来之前,先评个奖
耕升G魂RTX2080极客版评测 市售最强非公RTX2080
!租售/收购/维修HP8642M信号源HP8642M 小兵/
iPhone上出现了一个疑似iPhone XS专用的智能电池保护壳的图标
智能无脂镜通过体感摄像头判断身体各项的数据
聚氯乙烯在电线电缆中的应用,它的作用是什么
浅谈电机制造工艺关键技术要求
AMAZINGIC晶焱科技预防TVS闩锁风险的方法与实际案例分析
文件传送协议,文件传送协议是什么意思
BL304控制器具备开关量输入输出接口
RISC-V声名鹊起,究竟为何?
六点定位原理
ChatGPT:高算力AI应用持续推动内存芯片升级