幻方量化发布了国内首个开源MoE大模型—DeepSeekMoE

幻方量化旗下组织深度求索发布了国内首个开源 moe 大模型 —— deepseekmoe，全新架构，免费商用。
今年 4 月，幻方量化发布公告称，公司将集中资源和力量，全力投身到服务于全人类共同利益的人工智能技术之中，成立新的独立研究组织，探索 agi 的本质。幻方将这个新组织命名为 “深度求索 (deepseek)”。
deepseekmoe 的模型、代码、论文均已同步发布。
模型下载：https://huggingface.co/deepseek-ai
微调代码：https://github.com/deepseek-ai/deepseek-moe
技术报告：https://github.com/deepseek-ai/deepseek-moe/blob/main/deepseekmoe.pdf
据介绍，deepseekmoe 的多尺度（2b->16b->145b）模型效果均领先：
deepseekmoe-2b 可接近 moe 模型的理论上限 2b dense 模型性能（即相同 attention/ffn 参数配比的 2b dense 模型），仅用了 17.5% 计算量
deepseekmoe-16b 性能比肩 llama2 7b 的同时，仅用了 40% 计算量，也是本次主力开源模型，40g 显存可单卡部署
deepseekmoe-145b 上的早期实验进一步证明该 moe 架构明显领先于 google 的 moe 架构 gshard，仅用 28.5%（甚至 18.2%）计算量即可匹配 67b dense 模型的性能
混合专家模型 (mixed expert models，简称 moes) 是用于提高大语言模型效率和准确度的技术。这种方法的核心是将复杂任务划分为更小、更易管理的子任务，每个子任务由专门的小型模型或 “专家” 负责，然后根据输入数据的特性选择性地激活这些 “专家”。 moe 核心组成：
专家 (experts)：训练有素的小型神经网络，擅长特定领域。每个专家通常专注于处理一种特定类型的数据或任务。专家的设计可以是多种形式，如完全连接的网络、卷积网络等。
门控机制 (gating mechanism)：moe 架构决策者，这是一个智能路由系统，负责决定哪些专家应该被激活来处理当前的输入数据。门控机制基于输入数据的特性，动态地将数据分配给不同的专家。
官方称 deepseekmoe 是自研的全新 moe 框架，主要包含两大创新：
细粒度专家划分：不同于传统 moe 直接从与标准 ffn 大小相同的 n 个专家里选择激活 k 个专家（如 mistral 7b8 采取 8 个专家选 2 专家），deepseekmoe 把 n 个专家粒度划分更细，在保证激活参数量不变的情况下，从 mn 个专家中选择激活 mk 个专家（如 deepseekmoe 16b 采取 64 个专家选 8 个专家），如此可以更加灵活地组合多个专家
共享专家分离：deepseekmoe 把激活专家区分为共享专家（shared expert）和独立路由专家（routed expert），此举有利于将共享和通用的知识压缩进公共参数，减少独立路由专家参数之间的知识冗余

深度解析北京现代悦纳底盘
华帝洗碗机从用户特色入手，推动洗碗机行业的快速、持续、健康发展
荣耀Note9什么时候上市？荣耀Note9马上就来，5000mAh电池+6.6英寸巨屏 KO小米Max2
诺基亚发布三款全新安卓机型最低售价约合人民币660元
学生党用什么蓝牙耳机，2020性价比高的无线耳机推荐！
幻方量化发布了国内首个开源MoE大模型—DeepSeekMoE
替代Windows有望国产UOS系统30秒内开机办公体验流畅
工程师的奇思妙想！在又一波合宙新品到来之前，先评个奖
耕升G魂RTX2080极客版评测市售最强非公RTX2080
!租售/收购/维修HP8642M信号源HP8642M 小兵/
iPhone上出现了一个疑似iPhone XS专用的智能电池保护壳的图标
智能无脂镜通过体感摄像头判断身体各项的数据
聚氯乙烯在电线电缆中的应用，它的作用是什么
浅谈电机制造工艺关键技术要求
AMAZINGIC晶焱科技预防TVS闩锁风险的方法与实际案例分析
文件传送协议,文件传送协议是什么意思
BL304控制器具备开关量输入输出接口
RISC-V声名鹊起，究竟为何？
六点定位原理
ChatGPT：高算力AI应用持续推动内存芯片升级