工作人员齐整坐好,每个人都对着电脑全神贯注,一件又一件的“东西”在眼前划过,经过标准化处理就转到下一流程……这实际上这是人工智能行业里的数据标注办公区一角
由于深度学习的研究方向,人力密集型的数据标注工作是推进人工智能技术落地的重要环节之一。
很长一段时间以来,在过往ai的发展中数据的采集与标注行业没有过多的被收到关注,毕竟,与算法、算力这些高大上的东西相比,ai数据的生产总带着那么几分与ai技术的“科技感”截然不同的形象。
然而,随着ai的发展走向纵深,更多人发现这是一个误解,ai数据产业正在向着高专业化、高质量化的方向蓬勃发展。
根据 2018 年智研发布的《2019- 2025 年中国数据标注与审核行业市场专项分析研究及投资前景预测报告》, 2018 年该行业市场规模已达到52. 55 亿元, 2020 年市场规模有望突破百亿。有行业人士估计认为ai项目中会有10%的资金用于数据的采集和标记, 2020 年,数据标注行业最终市场规模将达到 150 亿。
而分享市场的,既有bat、京东等互联网巨头,也有云测数据这种专注于高质量交付的专业化数据平台。
庞大的前景下,数据采集与标注也可以分nlp(自然语音处理)、cv(计算机视觉)等几个部分,随着数据需求量的增大、对数据质量要求的提高,其中的nlp越来越成为“硬骨头”,ai数据产业终将面临它带来的难题,也承袭这种难题下空出的市场空间。
ai的数据、算法和算力“轮流坐庄”,nlp到了“数据为王”的时代
芯片制程以及大规模并联计算技术的发展,使得算力快速提升后,ai能力的提升主要集中到了算法和数据上(算力提升当然还有价值,只是相对价值那么明显了,例如不可能对一个物联网终端设备有太多的算力设定要求)。
这方面,多年以来,人工智能技术都呈现“轮流坐庄”的螺旋提升关系:
算法突破后,可容纳的数据计算量往往变得很大,所以会迎来一波数据需求的高潮;而当ai数据通过某些方式达到一个新的程度时,原来的算法又“不够了”,需要提升。
2018 年 11 月,google ai团队推出划时代的bert模型,在nlp业内引起巨大反响,认为是nlp领域里程碑式的进步,地位类似于更早期出现的resnet相对于cv的价值。
以bert为主的算法体系开始在ai领域大放异彩,从那时起,数据的重要性排在了nlp的首位。
加上两个方面的因素,这等于把nlp数据采集与标注推到了更有挑战的位置上。
一个因素,是nlp本身相对cv在ai数据方面的要求就更复杂。
cv是“感知型”ai,在数据方面有ground truth(近似理解为标准答案),例如在一个图片中,车、人、车道线等是什么就是什么,在采集和标注时很难出现“感知错误”。
用全新方式“照亮”无线时代
2020蓝牙耳机品牌的排行榜,都有哪些热门蓝牙耳机
剩余电流与零序电流互感器的接法
AMD为美国打造200亿亿次超算:1460亿晶体管超级APU
从“智障电销”到“智能电销”我们做了这几件事
AI的数据、算法和算力轮流坐庄,NLP到了数据为王的时代
LG电子紫外线消杀机器人亮相电子展
关于Linux内核系统调用是如何实现的与结果
直流无刷电机温升测算方法介绍
预计2022年,中国自动化市场规模将达到2085亿元
600W户外储能电源电路的优选元器件
三星Galaxy A90 5G带来新体验,核心技术是关键
三维图像指纹传感器问世 CMOS一触即发
激光焊接机焊接薄料时怎样让材料不变形
卡诺普将逐步开拓机器人的应用宽度
iOS操作系统与鸿蒙系统到底哪一个更好用?
华润微宣布首条6英寸商用SiC晶圆生产线正式量产
苹果iPhone7单核跑分简直逆天!安卓机型基本都完败了
蓝牙音箱diy
智能延迟触发产生器的设计