为什么算法工程师每天都在搞数据?

这是一个数据大爆炸的时代。
根据idc 发布的《数据时代2025》白皮书,全球数据量大约每两年就将翻一倍。到2025年,全球数据总量将攀升至163zb。而且自动驾驶、物联网等新技术正在不断推动数据量的爆炸。每辆自动驾驶汽车每秒就会产生 6-8gb 的数据,现在国内一线城市的摄像头数量都在百万级别,每时每刻产生大量的数据。
好在,机器学习可以成为处理大规模数据的利器。数据是人工智能的燃料,机器学习的发展,就是伴随着数据处理难度和复杂性的升级而不断升级。如何更好的帮机器学习开发者打通数据屏障,已经成为领先的人工智能企业的重要课题。
在不久前举行的亚马逊re:invent大会上,aws共发布180项新的服务和功能,其中,一系列用机器学习加速数据分析的服务备受关注。全托管的机器学习服务平台amazon sagemaker发布了九项新功能,其中与数据处理直接相关的就有三个。此外,aws还将机器学习融入数据库分析领域,赋能数据库分析师。当机器学习与数据分析紧密融合,将解决哪些痛点?
为什么算法工程师每天都在搞数据?
很多人眼中,机器学习算法工程师的日常是这样的:选择并优化算法、训练与调优模型、部署模型与验证模型。实际上,算法工程师大约有70%的时间是花在数据上的,花在模型和调参上的只有不到20%,这种现状引发了不少开发者的共鸣。
为什么会这样?在机器学习过程中,原始数据是不能直接用来训练模型的,需要复杂的处理流程。模型训练所需的数据通常来自不同类型的来源,并且格式多样。这意味着开发人员必须花费相当多的时间提取和规范这些数据。
amazon sagemaker是帮助开发者快速建立、训练和部署机器学习模型的平台,旨在简化开发流程,缩短开发时间,让开发者将更多精力放在最核心的模型训练上。
此前,aws发布的amazon sagemaker ground truth 这个功能可以通过主动学习自动为输入的数据添加标签。主动学习是一种机器学习方法,它会识别需要人工添加标签的数据以及可以由机器添加标签的数据。与人工为整个数据集添加标签相比,ground truth最高可减少 70%的成本,并缩短添加标签的时间。
为了进一步简化机器学习过程中数据处理方面的复杂性,今年re:invent大会,amazon sagemaker推出了两个全新的功能,分别帮助算法工程师简化数据处理和进行特征管理。
amazon sagemaker data wrangler 提供了更易用的数据预处理,大大简化了数据准备和特征工程的工作。data wrangler支持从各种数据存储中一键导入所需数据,其包含超过 300 个内置的数据转换器,可以帮助客户在无需编写任何代码的情况下,对特征进行规范化、转换和组合。
amazon sagemaker feature store是用来存储、更新、检索和共享机器学习特征的工具。目前,这项特征可以被保存到amazon s3中。
feature store解决的痛点是,大多数特征并不是只用于一个模型,而是被多个开发人员和数据科学家重复用于多个模型中。此前,工程师只能自行开发应用程序来跟踪管理特征,但工作量很大而且容易出错。有了feature store,用于训练的大批量特征,以及用于推理的小批量特征子集,都可以保持特征的一致性和更新的及时性。
数据偏见不可避免吗?
人类通常是非理性的,有很多认知偏差,不能准确地认知自身及外部环境的真实状态。在人们信息收集、信息加工、信息输出和信息反馈的各个阶段,都会产生认知偏差。机器学习也会产生偏见,这些偏见广泛存在于机器学习的各个环节,包括数据偏见、算法偏见等等。
数据偏见是指人们在工作中,由于各种原因不经意把并非完整客观的数据进行收集并处理,而使得结果产出发生“偏见”。数据偏见是机器学习中一种普遍的难题,通常会导致数据集的某些元素比其他元素具有更大的权重或表示。常见的数据偏见有样本偏差、排除偏差、测量偏差等等。
有偏见的数据集会导致分析模型的结果偏斜,准确性低甚至分析错误。比如一个主要用白种人人脸数据库训练出来的面部识别系统,对不同种族的人的识别准确度要低得多。
amazon sagemaker clarify这个新功能可以在整个机器学习工作流中进行偏差检测和模型解释。此前,开发人员通常使用开源工具检测统计偏差,但这需要大量的人工编程,而且经常容易出错。clarify让开发人员在数据准备阶段就能发现数据偏差。目前,clarify 已集成到 data wrangler,它运行了一系列基于特征数据的算法,用以识别数据准备过程中的偏差,并且清晰描述可能的偏差来源及其严重程度。
此外,随着机器学习模型越来越多地帮助人类进行决策分析,人们对机器学习的可解释性的要求越来越高。可解释性是指人类能够理解决策原因的程度。如果人们能够更多地了解模型的决策过程(原因和方式),就能增加对模型的信任。欧盟在 gdpr(generaldata protection regulation)条例中明确要求,当采用机器做出针对某个体的决定时,比如自动拒绝一个在线信贷申请,该决定必须符合一定要求的可解释性。
amazon sagemaker clarify的另一大价值在于提供了数据模型的可解释性。“它能帮助你去分析哪些特征对模型的预测更重要,特征和模型之间的关系不再像原来是黑盒子,而是有更强的透明度。” aws大中华区云服务产品管理总经理顾凡表示。
数据库分析师怎么用好机器学习?
数据分析和机器学习有很多重合之处。
机器学习很高深,但尚处早期,受众有限。今年,aws在机器学习领域的一大动作就是“扩圈”,寻找更广泛的“圈外”开发者加入进来,使他们基于既有知识体系就轻松上手。aws机器学习的“扩圈”正是从与数据分析的结合开始。
相比机器学习开发者,数据库开发者和数据库分析师是一个更庞大的专业群体。他们是否需要学习机器学习算法开发,才能享用机器学习带来的便利?aws认为,完全不必。
2020亚马逊re:invent大会上,aws全球机器学习副总裁swami sivasubramanian 一口气发布了一系列产品服务,包括amazon aurora ml、amazon athena ml、amazon redshift ml、amazon neptune ml、amazon quicksight q,分别把机器学习能力融进了关系型数据库、amazon s3的 sql 查询、数据仓库、图数据库、商业智能等领域。数据分析人员只需使用早已烂熟的 sql 语句,就能进行连带机器学习功能的操作。
以 amazon aurora ml 为例,当用户通过 sql 查询客户信息以试图找到一些负面反馈时,amazon aurora ml 会自动调度 amazon comprehend 这样的 ai 服务来返回具备 ai 支持的查询结果。
机器学习尚处在早期阶段。据德勤发布的《全球人工智能发展白皮书》预测,到2025年,世界人工智能市场规模将超过6万亿美元。可以预见,在应对数据挑战方面,机器学习提供给开发者的工具集将日益丰富,机器学习开发的门槛将越来越低。


采用运算放大器的积分器电路分析
利用5G+AI能力,赋能更多垂直行业
Airband获1亿英镑推动英国农村光纤发展
中国机械工业学会、工业和信息化部调研海默机器人
三大关键的传感器设备解放司机双手
为什么算法工程师每天都在搞数据?
温州市级新能源汽车推广应用支持政策
在使用臭氧检测仪时有哪些事项需注意
细数制约LED照明行业发展的十二大阻力
Facebook的CEO扎克伯格为宠物打造3D模型
基于定点型数字信号处理器TMS320C6455实现Flash存储器加载的设计
未来5年苹果芯片路线图预测,积极拓展自研芯片业务
有“源”同行,感谢肯定!| 来自开放原子开源基金会的年度感谢信!
vivo X30 5G版跑分曝光单核心为3095分多核心为7379分
大唐电信在5G、车联网、通信芯片产业做出的贡献
Cadence小技巧:利用lib功能免除新ADE的设置
欧胜发布领先的数字微机电系统(MEMS)麦克风WM7210和
【服务器数据恢复】LINUX环境下RAID5多块硬盘离线的数据恢复案例
蔚元电子传感器研发项目签约落户嘉兴科技城
气密性测试仪不同测试方法的优缺点对比