回顾2018年,是属于人工智能的一年,不论是google、facebook、intel、阿里巴巴等通过产业布局进入人工智能领域的互联网企业,亦或如旷视科技face++、极链科技video++、优必选科技这样直接以人工智能起家的原生技术企业,都将ai注入到每个角落,掀起了一轮又一轮的技术高潮。
因而,除了nlp研究突破接连不断,cv领域同样精彩纷呈,伴随着各式各样落地应用如此接近人们的生活,技术也变得越发成熟。本文整理了在2018年,在cv技术领域取得的最主要的一些重大技术突破。
biggan发布
ian goodfellow在2014年设计了gan,在之后的几年中,围绕这个概念产生了多种多样的应用程序。
其中,在iclr 2019论文中出现的biggan,同样是一个gan,只不过更强大,是拥有了更聪明的课程学习技巧的gan,由它训练生成的图像连它自己都分辨不出真假,因为除非拿显微镜看,否则将无法判断该图像是否有任何问题,因而,它更被誉为史上最强的图像生成器。
在计算机图像研究史上,biggan带来的突破是划时代的,比如在imagenet上进行128×128分辨率的训练后,它的is得分能达到166.3,是之前最佳得分52.52分3倍;除了搞定128×128小图之外,biggan还能直接在256×256、512×512的imagenet数据上训练,生成更让人信服的样本。
英伟达video-to-video synthesis
英伟达在2018年的收获颇丰,他们的研究焦点从标准的监督学习转向更具挑战性的机器学习,如半监督学习,领域适应,主动学习和生成模型等。其中,由英伟达在2018年末发布的最大成果之一便是视频到视频生成(video-to-video synthesis),它通过精心设计的发生器、鉴别器网络以及时空对抗物镜,合成高分辨率、照片级真实、时间一致的视频,实现了让ai更具物理意识,更强大,并能够推广到新的和看不见的更多场景。
因而,video-to-video synthesis也被看作是在过去几年中,视频领域的一次重大突破,毕竟从静态框架转换为动态框架的难度是很大的,但机器训练却在尽量模拟预测视频将会发生的情景,通过给定的输入视频学习映射函数,产生仿真度极高的视频内容。
fast.ai18分钟训练imagenet
在普遍认知还停留在需要大量计算资源来执行适当的深度学习任务时,fast.ai通过使用16个公共aws云实例,每个配备8个nvidia v100 gpu,运行fast.ai和pytorch,用18分钟在imagenet上将图像分类模型训练到了93%的准确率,刷新了一个新的速度记录。
这是一个令人惊喜的结果,尤其在公共基础设施上训练imagenet能达到这种准确性,并且比其专有tpu pod群集上的谷歌dawnbench记录快40%,运行成本仅约为40美元。这意味着一个关键的里程碑出现了,几乎所有人都可以在一个相当大的数据集上训练大规模神经网络。
除了这些重要的节点之外,2018年的计算机视觉技术也部署更多方面,不论是亚马逊发布rekognition将计算机视觉置于开发人员、微软为onedrive和sharepoint推出了新的ai服务、google相册让我们的记忆变得可搜索、还是每个场景下都正在逐渐普及的ai人脸识别等等,计算机视觉正在逐步渗透到我们生活的每个部分。
最后,最值得注意的是,计算机视觉的市场增长几乎与其技术能力的增长是一样快的,预计到 2025年,计算机视觉领域会带来超过262亿美元的收益,因而在人工智能的未来里,计算机视觉一定是最有力的表现形式,并将随处可见。
无刷直流电动机的工作原理
飞利浦Sonicare钻石亮白智能型声波震动牙刷HX9901体验 为刷牙带来更加科学全面的体验
蓝牙mesh安全的启动配置流程分析
可视化分析方案:可为智能医疗系统加速,解决医疗产业的难点
分析师调查:2021年5G手机需求“比预期更为强劲”
回顾2018年在CV技术领域取得的重大技术突破
LED蜡烛灯的制作教程
新型纳米薄膜面世:存储容量超大且检索速度超快
超大型IDC成趋势,中国数据中心产业将迎来新的发展机遇
空客莫比尔工厂将增加第二条生产线来巩固其成为全球飞机制造商的地位
TWS充电盒专用蓝牙芯片MS1656
错过了通信网络扩张的最好时期 虚拟运营商的未来该怎么走
你知道嵌入式linux文件类型?
汽车电控系统部件故障规律及其特征介绍
高速电路逻辑电平转换设计参数解读
C语言和指针之间的关系分析
LT3970应用电路 (输入6v,输出5V的降压转换器)
FP6293内置MOS升压DC转换器,双节锂电池升压输出8.4V1A
华为高颜值高质量手机:华为荣耀V9、华为荣耀8、华为P10、华为荣耀magic、华为Mate9保时捷版
万用表测量7805稳压管的好坏