人工智能可以像人一样描述图像?

准确地描述图像,而不仅仅是像一个毫无头绪的机器人,长期以来一直是人工智能的目标。2016年,谷歌表示,其人工智能可以为图像添加几乎与人类一样的字幕,准确率为94%。现在微软说它已经更进一步:研究人员已经建立了一个比人类更精确的人工智能系统,以至于它现在位于nocaps图像捕获基准的排行榜首位。微软声称,它比自2015年以来一直使用的图像字幕模型好两倍。
虽然这本身就是一个值得注意的里程碑,但微软并不只是将这项技术独家。它现在提供新的字幕模型作为azure认知服务的一部分,这样任何开发者都可以把它带到他们的应用程序中。今天,它也可以在seeing ai中使用,这是微软为盲人和视障用户开发的应用程序,可以帮助他们了解周围的世界。今年晚些时候,字幕模式还将改进您在powerpoint中用于web、windows和mac的演示文稿,它还会在桌面平台上的word和outlook中弹出。
azure ai首席副总裁埃里克博伊德说:“[图像字幕]是人工智能中最棘手的问题之一。它不仅代表着理解场景中的物体,还代表了它们是如何交互的,以及如何描述它们。”优化字幕技术可以帮助每一个用户:它让你更容易在搜索引擎中找到你正在寻找的图像。对于视障用户来说,它可以让网络和软件导航变得非常好。
看到公司吹嘘他们的人工智能研究创新并不少见,但这些发现迅速部署到运输产品中的情况要罕见得多。azure ai认知服务cto黄学冬,考虑到对用户的潜在好处,力推将其快速整合到azure中。他的团队用标有特定关键字的图像训练了这个模型,这帮助它提供了一种大多数人工智能框架所没有的视觉语言。通常,这些类型的模型使用图像和完整的字幕进行训练,这使得模型更难了解特定对象是如何交互的。
黄学冬在一篇博客文章中说:“这种视觉词汇的预训练本质上是训练系统所需的教育;我们正在努力教育这种运动记忆。”这就是为什么这个新模型在nocaps基准中占据了一席之地,该基准专注于确定人工智能对他们以前从未见过的图像的字幕能力有多好。
但是,虽然打破基准意义重大,但对微软新模式的真正考验将是它在现实世界中的运作方式。根据boyd的说法,看到人工智能开发人员saqib shaik,他自己也是一个盲人,也在微软推动更好的可访问性,他将其描述为比他们之前提供的产品有了戏剧性的改进。现在微软已经建立了一个新的里程碑,看看谷歌和其他研究人员的竞争模型如何竞争将是一件有趣的事情。


半导体是世界上最成功的公司之一,前十半导体公司有那些?
LTC3803转换器为电信管理电路提供几瓦的输出功率
5G高频特性将使GaN技术使用领域延伸
晶瑞股份拟在湖北省潜江市投资建设微电子材料项目 项目总投资15.2亿元
亚马逊云科技直挂云帆济沧海,助力中国企业致胜海外
人工智能可以像人一样描述图像?
2030年太阳能将成为能源系统的支柱
如何训练Wekinator控制Arduino
全球聚集千万炒币大军 高效安全的H网应运而生
ST和Microchip等品牌MCU微控制器的分类及特点
联络中心软件供应商先进的自助服务选项正变得越来越有吸引力
电子芯闻早报:三星重金止血引入顶级光刻机
2019年上半年中国智能手机出货量同比下滑5.4%,5G和终端流速成未来关注重点
物联网和AI发展迅速,嵌入式的发展前景如何
网络攻击我们可以预防吗
全球智能手机利润分布:苹果继续老大,华米OV占20%
拍字节新型3D铁电存储器(VFRAM)-P95S128KSWSP3TF在新型语音电子门锁系统中的应用
LED光源产品符合DLC5.0版本标准要求
什么是工控机_工控机能当电脑用吗
高压直流电源和高压交流电源俩者区别?