数字视频稳定调查：概念、方法和挑战

本文翻译自《acm技术洞察》科学杂志上的一篇文章：《survey on digital video stabilization: concepts, methods, and challenges》，原文链接如下：
https://dl.acm.org/doi/pdf/10.1145/3494525
csur-ig是谁？
csur-ig是计算调研兴趣小组 computing surveys interest group的缩写。我们是acm技术洞察研究团队。我们是来自4个地方的同学：
1名深圳大学大三学生
2名中原工学院研一学生
1名安阳工学院大三学生
1名南通科技学院大三学生
我们在openharmony成长计划啃论文俱乐部里，与华为、软通动力、鸿湖万联等公司一起，学习和研究操作系统技术…
1. 简介
1.1 本文摘要
数字视频稳定是一项具有挑战性的任务，旨在通过平滑相机轨迹将可能不稳定的视频转换为令人愉快的视频。
稳定可以借助硬件（稳定器）的方式实现，也可以通过软件算法的方式实现。本文谈的是后者。
尽管在解决这一任务的文献中发现了各种作品，但它们的组织和分析尚未受到太多关注。在这项工作中，我们根据提议的分类法对视频稳定的文献进行了全面回顾。介绍了该问题的正式定义，以及物理术语的简要解释。我们还就这一活跃领域的主要挑战和未来趋势进行了全面讨论。
1.2 数字视频稳定的定义
数字视频稳定就是通过平滑相机轨迹将可能不稳定的视频转换为令人愉快的视频。视频可以表示为一系列照片（帧）。
图中，真实世界裁剪（白色）产生的照片和视频（蓝色）的表示。左：以矩形表示的照片。中间和右侧：以音量表示的稳定和不稳定视频。
数字视频稳定就想解决不用设备（直接用手）的情况下，把视频拍得好看，很有商业价值。
2. 正式定义和分类
2.1 相机运动方法
我拿着相机，可以前后左右走，举高举低（第一个图），我拍特别角度，拿着相机转（第二个图），合起来就是复杂运动（第三个图）。
2.2 数字视频稳定的一些方法
2.2.1 经典的方法（三步走）：
数字视频稳定的典型过程涉及三个不同的步骤，如下图所示：(1) 摄像机运动估计，(2) 不需要的运动确定，以及 (3) 稳定视图渲染。
2.2.2 基于深度学习的方法：
深度学习的方法提出了深度神经网络架构，以有监督或无监督的方式稳定视频。
3. 主要挑战场景
3.1 相机的估计运动
拍摄的过程中，人会带着相机运动，拍摄的事物也会运动，组合起来就是表观运动，也就是拍出来的东西。相机的估计运动就是通过表观运动（拍出来的东西）估计出相机本身是怎么运动的。
相机运动估计技术地图，主要讲了估计出相机本身是怎么运动中2d（二维），3d（三维）和2.5d（混合方法）的一些处理方法，并且给出了相应的描述和优缺点比较：
表 1. 对数字视频稳定中摄像机运动估计的进步做出贡献的一些主要工作总结
3.2 怎么确定不需要的运动
拍摄过程中因为不必要的抖动导致画质不好，这种运动需要确定，就是确定不需要的运动。
不需要的运动确认技术地图，主要讲了为了去除的不需要的运动部分以获得更平滑的路径中基于过滤的方法，基于插值的方法，基于优化的方法，并且给出了相应的描述和优缺点比较：
表 2. 有助于推动数字视频稳定中的无用运动确定的一些主要工作总结
3.3 稳定视图渲染
我们要处理一些丢失或者模糊的帧，也就是帧的修复。
稳定渲染的技术地图，主要讲了渲染稳定的帧中中基于填充的方法和基于裁剪的方法，并且给出了相应的描述和优缺点比较：
表 3. 推动数字视频稳定渲染新视图的一些主要工作总4. 基于深度学习的方法
基于深度学习的视频稳定方法，大多数使用带有配对视频的数据集进行训练，其中每一对都有一个不稳定的和一个真实稳定的视频。在这种情况下，如下图所示，目标是找到一个网络，该网络从不稳定版本中预测帧，使其与稳定版本尽可能相似。
图中，基于深度学习的方法中常用的方法。不稳定的帧和一些时间信息提供给深度网络，以在训练/推理阶段预测稳定/稳定的帧。
深度学习数字视频稳定技术地图，这种方法没有明确地估计相机运动，但他们使用的是表观运动。通常，不需要的运动的确定和移除是隐式完成的：网络学习预测类似于真实稳定视频的视频，以下就是给出论文技术的盘点：
表 4. 基于深度神经网络执行数字视频稳定的方法总结
5. 结论
5.1 过去的回顾这项工作对数字视频稳定文献中可用的方法进行了回顾。我们根据使用的方法对方法进行分类，无论是经典的还是基于深度学习的。经典方法分为三个主要阶段：（1）相机运动估计，（2）确定不需要的运动，以及（3）稳定帧的渲染。对于这些步骤中的每一个，我们定义并分类了这些方法。5.2 本文结论一些实际应用可以受益于数字视频稳定及其开发所产生的知识。
需要更好地定义使用这些方法的场景。
与其计算机视觉领域类似，深度学习已成为近年来视频稳定的趋势。
数字视频稳定文献中的关键点之一是还没有明确定义的评估指标。
写在最后
openharmony 成长计划—“啃论文俱乐部”（以下简称“啃论文俱乐部”）是在 2022年 1 月 11 日的一次日常活动中诞生的。截至 3 月 31 日，啃论文俱乐部已有 87 名师生和企业导师参与，目前共有十二个技术方向并行探索，每个方向都有专业的技术老师带领同学们通过啃综述论文制定技术地图，按“降龙十八掌”的学习方法编排技术开发内容，并通过专业推广培养高校开发者成为软件技术学术级人才。
啃论文俱乐部的宗旨是希望同学们在开源活动中得到软件技术能力提升、得到技术写作能力提升、得到讲解技术能力提升。大学一年级新生〇门槛参与，已有俱乐部来自多所高校的大一同学写出高居榜首的技术文章。
如今，搜索“啃论文”，人们不禁想到、而且看到的都是我们——openharmony 成长计划—“啃论文俱乐部”的产出。
openharmony开源与开发者成长计划—“啃论文俱乐部”学习资料合集
1）入门资料：啃论文可以有怎样的体验
https://docs.qq.com/slide/dy0rxwelbtvlhaxhi?u=4e311e072cbf4f93968e09c44294987d
2）操作办法：怎么从啃论文到开源提交以及深度技术文章输出  https://docs.qq.com/slide/dy05kbgtsyvfmcuhu
3）企业/学校/老师/学生为什么要参与 & 啃论文俱乐部的运营办法https://docs.qq.com/slide/dy2jks2zeb2fwckhq
4）往期啃论文俱乐部同学分享会精彩回顾：
同学分享会no1.成长计划啃论文分享会纪要（2022/02/18）  https://docs.qq.com/doc/dy2rzzmvnu2htqlfy
同学分享会no.2 成长计划啃论文分享会纪要（2022/03/11）  https://docs.qq.com/doc/dukj5c2nrd2frzkhf
同学们分享会no.3 成长计划啃论文分享会纪要（2022/03/25）
https://docs.qq.com/doc/dum5puef3ck1vcg92?u=4e311e072cbf4f93968e09c44294987d
现在，你是不是也热血沸腾，摩拳擦掌地准备加入这个俱乐部呢？当然欢迎啦！啃论文俱乐部向任何对开源技术感兴趣的大学生开发者敞开大门。
扫码添加 openharmony 高校小助手，加入“啃论文俱乐部”微信群
后续，我们会在服务中心公众号陆续分享一些 openharmony 开源与开发者成长计划—“啃论文俱乐部”学习心得体会和总结资料。记得呼朋引伴来看哦。
原文标题：数字视频稳定调查：概念、方法和挑战
文章出处：【微信公众号：开源技术服务中心】欢迎添加关注！文章转载请注明出处。

智慧城市为什么离不开智能建筑的发展?
嵌入式在充电桩上有哪一些应用
人工智能医生出现:机器能与医生协同看病
宁德时代将向特斯拉供应锂离子动力电池产品
基本的仪表故障判断与维护
数字视频稳定调查：概念、方法和挑战
华为P10、OPPO Find9被同一个猪队友出卖
为什么不同示波器的纹波噪声测量结果总是不同
什么是BGA 应用于哪些领域 BGA详解
10.4.3 纳米压印（NIL）∈《集成电路产业全书》
红米Note9和红米Q2的区别分析
Google图像分类速成ML实战课程
怎么去计算功能安全中的元器件失效率呢？
巴菲特股东大会谈科技股　雷军董明珠赌局输十亿
SK海力士全面推进全球最高速率LPDDR5T DRAM商用化
【笔记】单片机头文件的顺序会让程序报错？
开源 | 合宙ESP32开发板+WS2812+触摸屏，自制创意&quot;像素盒子&quot;，还让ChatGPT写代码！
为何不推荐你购买OLED电视，光这一点就能把你逼疯！
人工智能会不会取代我们甚至统治我们？
OLED结构、发光原理简述