国内8种大模型体验测评报告(2023)

《人工智能大模型体验报告2.0》报告指出当前国产大模型产品已具有显著进步,讯飞星火、百度文心一言、商汤商量和智谱ai-chatglm均表现抢眼,但与接受过高等教育的人类相比,在智商、情商等方面仍存在一定程度差距。
报告选取360智脑、百度文心一言、澜舟 mchat、商汤商量、讯飞星火、阿里通义千问、昆仑天工、智谱 chatglm 共 8 种大模型产品进行评测,根据基础能力、智商能力、情商能力、工具提取四个维度计算总分。
报告显示,与2023年6月相比,当前中国大模型产品进步显著。但与接受过高等教育的人类相比,大模型在智商、情商等方面还存在一定程度差距。具体来看,讯飞星火在工作提效方面优势明显,百度文心一言基础能力仍处领军水准,商汤商量则在情商方面表现优秀,智谱ai-chatglm整体表现优秀。
针对各维度能力测评,该报告还给出了相应的案例展示和分析。
在基础能力方面,人类与ai之间的差距并不显著。课题组分别从语言能力(35%)、ai向善(10%)、跨模态(20%)和多轮对话(35%)四大指标进行测评。测评显示,科技企业大模型中,百度文心一言表现最为抢眼,商汤商量、智谱ai-chatglm、360智脑表现优良。
在智商评估方面,人类在智商方面仍然具有明显优势。课题组分别从常识知识(20%)、逻辑能力(50%)和专业知识(30%)方面对科技企业大模型进行考量。结果显示,讯飞星火、智谱ai-chatglm表现突出,百度文心一言、昆仑万维天工表现优良。
在情商方面,ai与人类之间的差距最为明显。人类在情绪理解和处理方面通常具有更强的优势,和更灵活的处理能力。通过对处理日常事项(35%)、一语双关(30%)、人际关系(35%)问题进行分析发现,科技企业大模型中,商汤商量表现亮眼,百度文心一言、澜舟科技mchat、智谱ai-chatglm及360智脑均表现优良。
在工作效率提升方面,课题组重点在工具提效(50%)和生成创新(50%)方面进行考量。结果显示,讯飞星火表现最为抢眼,百度文心一言、商汤商量、智谱ai-chatglm表现优良。不过,尽管ai具有高速度和高效率的优势,但在某些复杂和具有创新性的任务中,人类的智慧和想象力仍然具有无法替代的作用。
在不同领域中,ai和人类表现出不同的优劣势,但在整体上,ai大模型的发展为人类工作和生活的提质增效带来了重要的积极影响,大模型正在加速走进生活、走进产业。在本次体验测评基础上,研究团队将继续深耕,加强在大模型安全可解释性、工作提效能力、实际落地情况、产业优秀案例等维度上的探索与研究。

欧胜微WM8325电源管理芯片被NVIDIA用于Tegra 2移动超级芯片
can总线 i/o模块能否充当控制器?
科学家利用AI技术分析如何使人类面孔变得有吸引力的主观观念
满足智能手机应用要求的音频放大器方案
克服单光子检测的技术挑战
国内8种大模型体验测评报告(2023)
RS罗德斯瓦茨SMB100A射频信号源
威马EX5拉开纯电动车辆的价格战序幕
如何制作交互式BOM的AD插件
将无人驾驶飞机和探地雷达组合到单个集成系统中
“AI+电视”成为家电行业中的一种新形态,家电企业纷纷入局
2.75W恒压/恒流(CV/CC)通用输入充电器电源电路图
iphone引领的UWB生态,还差一场春雨-下行TDOA
运算放大器的基本公式
美国人为什么不待见人脸识别技术?
密码会在安防系统中消失吗?
龙芯集成电路分三步走 建立自身产业生态体系
对于猪瘟病毒检测仪特点介绍以及应用领域
工业互联网带动各行业的增加值规模持续提升
截至10月19日上午,36只量子通信概念股实现上涨