使用Google Cloud集成API实现视频智能检测识别

首先介绍一下脉时云。脉时云主要从事谷歌云的出海业务,协助出海用户做视频和游戏,为用户提供解决方案和日常的技术支持,提供专业的咨询服务、迁移服务和运维服务。同时,我们也根据客户需求自研了产品账单系统,帮助客户使用gcp。
01 cloud video intelligence api介绍
首先,介绍cloud video intelligence api。
在gcp上不需要过多的配置,可以通过sdk,比如python或go,来调用api,实现对视频对象、地理位置和动作捕获的分析。
然后,可以实现帧级别、镜头级别和视频级别的视频元数据采集,其中,帧级别可以达到秒级。
同时,我们也支持流式视频和基于对象的事件触发,这意味着我们可以基于事件的触发方式根据云原生的服务构建出流式的数据分析。
此外,我们可以基于内容实现精彩片段、标签功能等,打造优质客户体验。
这个api可以实现的功能如图所示。首先,它可以识别镜头切换,当镜头从a对象转向b对象时,其可以识别出来。
然后,可以根据内容进行标签化处理、实现目标跟踪和logo识别,目前可以识别两万种以上的logo。
同时,还可以做到视频文字内容识别和音频转录,达到字幕识别的效果。
此外,还可以做到人脸检测与识别和人物识别,在日常生活中,这主要用于交通识别和小区出入的牌照识别。
最后,还可以做到露骨内容检测。
接下来具体介绍每个功能,首先是镜头切换识别。基于镜头切换识别功能,可以对整个视频、片段视频或帧级别的视频进行内容摘要方面的分析。
获得摘要后,可以基于摘要生成缩略图,或基于摘要判断视频内容情况。
其次,可以基于视频获取标签。图中展示的demo分析了动物世界中的场景,可以看到,获取的标签有动物世界、树、叶子、动物等。
同时,可以对特定的片段进行识别和分析。此外,可以选择不同的模式,比如整段视频或帧级别的视频。
接下来,介绍目标跟踪功能。图中的右下角有一个蚂蚱,可以使用目标跟踪功能识别该对象,然后打开对应的时间段进行标记,通过标签关联和识别框对视频进行识别。
logo识别功能可以识别出常见的logo,比如google maps。同时,可以基于识别的数据信息实现视频的标签化和数据的收集。
如图所示,可以识别视频中出现的文字。完成文本识别后,可以进行标签化处理。同时,可以进行关联操作,实现真实的影像识别。
音频转录功能基于谷歌的api,可以自动识别常见的语言,并将其转录为视频文字,基于此完成字幕要求。
露骨内容识别功能可以基于api对视频的前十帧进行分析,判断视频是否包含敏感内容。
同时,该功能也可对帧、视频流和视频片段进行分析,判断其是否包含敏感信息。
02 video intelligence api beta 功能
接下来,介绍目前api预先发布的一些功能。
第一个功能是流式传输。首先,将预存的文件组合成一定大小的文件,以视频流的方式传给api,api会对其进行分析和标签化处理,还会检测镜头变化、创建元数据信息和跟踪对象。
同时,可以基于另一个api实现动态内容的跟踪与识别,比如在体育赛事中,识别运动员的进球动作等。
第二个功能是直播,可以对常见的直播的视频流,比如rtmp,进行实时流式分析和标签化检测。
同时,将内容放在对象存储或谷歌的bigquery里,实现元数据的管理,并基于事件的方式实现视频内容的分析和识别。最后,根据标签和内容向客户推荐相关视频。


同洲智慧家庭,定义融合终端新生态
大疆带来的经纬M300RTK无人机“刷新”行业最高水准
pcba和pcb的区别
华瑞高,2023我们在EMC仪器持续发力
人工智能AI助力提高医疗的诊断精度
使用Google Cloud集成API实现视频智能检测识别
沃尔沃于2022年应用激光雷达,XC90率先搭载
亚信电子推出新一代 I/O 连接芯片
跨过汽车IC可靠性的方法
几个能延长笔记本电脑使用寿命的习惯
什么是MO/磁光盘
QT环境搭建教程
华为未独占卫星通讯功能,中国电信计划推进技术普及
微雪电子Analog Test Board AD DA 测试模块简介
十城联动,2018全球(南京)人工智能应用大赛巡回赛题路演会
基于Xilinx Spartan系列FPGA和VHDL语言设计卫星数据存储纠错系统
LATTICE ispLEVER CLASSIC 1.2版设
自动化教育会成为未来的教育趋势吗
机动车驾驶人考试视频监控系统的特点及方案实现
EDA是芯片设计的关键工具,地位堪比光刻机