完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图

时间:2022-10-11 23:36:58 | 浏览:1736

鱼羊 明敏 发自 凹非寺量子位 报道 | 公众号 QbitAI看这一头蓬松的秀发,加上帅气的动作,你以为是在绿幕前拍大片?No、No、No这其实是AI拿来视频实时抠图后的效果。没想到吧,实时视频抠图,现在能精细到每一根发丝。换到alpha通

鱼羊 明敏 发自 凹非寺

量子位 报道 | 公众号 QbitAI

看这一头蓬松的秀发,加上帅气的动作,你以为是在绿幕前拍大片?

No、No、No

这其实是AI拿来视频实时抠图后的效果。

没想到吧,实时视频抠图,现在能精细到每一根发丝

换到alpha通道再看一眼,不用多说,德芙打钱吧(手动狗头)。

这就是来自字节跳动实习生小哥的最新研究:实时高分辨率视频抠图大法。

无需任何辅助输入,把视频丢给这个名为RVM的AI,它分分钟就能帮你把人像高精度抠出,将背景替换成可以任意二次加工的绿幕。

不信有这么丝滑?我们用线上Demo亲自尝试了一波。

相比之下,现在在线会议软件里的抠图,一旦头发遮住脸,人就会消失……

头发丝更是明显糊了。

难怪看得网友直言:

不敢想象你们把这只AI塞进手机里的样子。

目前,这篇论文已经入选WACV 2022。

你也可以上手一试

目前,RVM已经在GitHub上开源,并给出了两种试玩途径:

于是我们也赶紧上手试了试。

先来看看效果:

首先来点难度低的。

对于这种人物在画面中基本不移动的情况,RVM可以说是表现的非常好,和人工抠图几乎无差别。

现在,王冰冰进入动森都毫不违和了。

于是开脑洞,也变得简单了许多……

咳咳,言归正传。人物动作幅度加大会怎样呢?

对于多人舞蹈视频而言,RVM的表现也很nice。

即便动来动去、头发乱甩,也没有影响它的抠图效果。

只有在人物出现遮挡的情况下,才会出现瑕疵。

对比前辈方法MODNet,确实有不小的进步。

不过我们也发现,如果视频的背景较暗,就会影响RVM的发挥。

比如在这种背景光线昏暗的情况下,抠图的效果就非常不尽人意了。

可以看到,博主老哥的头发完全糊了。

而且身体的边界线也不够清晰。

所以,如果你想自己拍视频试玩,就一定要选择光线充足的场景。

利用时间信息

那么这样的“魔法”,具体又是如何实现的?

照例,我们先来扒一扒论文~

实际上,有关视频抠图的算法如今已不鲜见,其中大多数采用的是将视频中的每一帧作为独立图像来实现抠图的方法。

不同与此,在这篇论文中,研究人员构建了一个循环架构,利用上了视频的时间信息,在时间一致性抠图质量上取得了明显改进。

从上图中可以看出,RVM的网络架构包括3个部分:

特征提取编码器,用来提取单帧特征;

循环解码器,用于汇总时间信息;

深度引导滤波(DGF)模块,用于高分辨率上采样。

其中,循环机制的引入使得AI能够在连续的视频流中自我学习,从而了解到哪些信息需要保留,哪些信息可以遗忘掉。

具体而言,循环解码器采用了多尺度ConvGRU来聚合时间信息。其定义如下:

在这个编码器-解码器网络中,AI会完成对高分辨率视频的下采样,然后再使用DGF对结果进行上采样。

除此之外,研究人员还提出了一种新的训练策略:同时使用抠图和语义分割目标数据集来训练网络。

这样做到好处在于:

首先,人像抠图与人像分割任务密切相关,AI必须学会从语义上理解场景,才能在定位人物主体方面具备鲁棒性。

其次,现有的大部分抠图数据集只提供真实的alpha通道和前景信息,所以必须对背景图像进行合成。但前景和背景的光照往往不同,这就影响了合成的效果。语义分割数据集的引入可以有效防止过拟合。

最后,语义分割数据集拥有更为丰富的训练数据。

经过这一番调教之后,RVM和前辈们比起来,有怎样的改进?

从效果对比中就可以明显感受到了:

另外,与MODNet相比,RVM更轻更快

从下面这张表格中可以看出,在1080p视频上RVM的处理速度是最快的,在512×288上比BGMv2略慢,在4K视频上则比带FGF的MODNet慢一点。研究人员分析,这是因为RVM除了alpha通道外还预判了前景。

更直观的数据是,在英伟达GTX 1080Ti上,RVM能以76FPS的速度处理4K视频,以104FPS的速度处理HD视频。

一作字节跳动实习生

这篇论文是一作林山川在字节跳动实习期间完成的。

他本科、硕士均毕业于华盛顿大学,曾先后在Adobe、Facebook等大厂实习。

2021年3月-6月,林山川在字节跳动实习。8月刚刚入职微软。

事实上,林山川此前就曾凭借AI抠图大法拿下CVPR 2021最佳学生论文荣誉奖

他以一作身份发表论文《Real-Time High-Resolution Background Matting》,提出了Background Matting V2方法。

这一方法能够以30FPS的速度处理4K视频,以60FPS的速度处理HD视频。

值得一提的是,Background Matting这一系列方法不止一次中了CVPR。此前,第一代Background Matting就被CVPR 2020收录。

两次论文的通讯作者都是华盛顿大学副教授Ira Kemelmacher-Shlizerman,她的研究方向为计算机视觉、计算机图形、AR/VR等。

此外,本次论文的二作为Linjie Yang,他是字节跳动的研究科学家。本科毕业于清华大学,在香港中文大学获得博士学位。

对了,除了能在Colab上试用之外,你也可以在网页版上实时感受一下这只AI的效果,地址拿好:

https://peterl1n.github.io/RobustVideoMatting/#/demo

GitHub地址:
https://github.com/PeterL1n/RobustVideoMatting
论文地址:
https://arxiv.org/abs/2108.11515
参考链接:
https://www.reddit.com/r/MachineLearning/comments/pdbpmg/r_robust_highresolution_video_matting_with/

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关资讯

操作系统开发有多难?中国为何还没有可媲美Windows的操作系统?

操作系统开发到底难在哪里呢?现在市场还是Windows、安卓、iOS三分天下。操作系统按应用领域可分为:桌面操作系统移动端/手机操作系统服务器操作系统和云嵌入式、物联网操作系统等其他设备操作系统目前,桌面操作系统方面,Windows、Mac

惠东双月湾将增2个新项目!投资近64亿,均由星河开发

沉寂许久的惠东滨海区域——双月湾即将增添2个新项目,均由星河控股开发!2个项目总占地面积超31万平方米,总建筑面积超90万平方米,开发投资金额接近64亿元。9月26日,位于惠州市惠东县平海镇南门海地段的星河泊心湾商住项目、星河长滩商住

近乎“无地可用”:地铁环线时代,曲江开发的下一步

过去的2020年,在“扩容”下的大西安,曲江土地供应和成交均历年来最低,堪称成为各大开发区最少的区域。从2003年挂牌成立至今,曲江新区已演变成为绝对的城市主城区,并成为代言西安的“门户区”。近乎“无地可用”时代,随着地铁环线等推进,曲江下。

【推进教育整顿 打造政法铁军】许昌市魏都区政法系统公开发布50项为民服务承诺

扫码看50项为民服务承诺详细内容 4月15日上午,许昌市魏都区政法队伍教育整顿领导小组办公室召开政法队伍教育整顿工作暨为民服务承诺新闻发布会。魏都区委常委、政法委书记、区政法队伍教育整顿领导小组办公室主任孙卫东,区法院党组书记、院长阎鑫,

公开选调!马村区现代服务业开发区招人啦

马村区现代服务业开发区焦作经济技术开发区东部园区公开选调工作人员公告为适应开发区体制机制改革工作发展需要,进一步优化开发区管委会队伍结构,经区委、区政府同意,马村区现代服务业开发区管理委员会(焦作经济技术开发区东部园区管理委员会)(以下简称

义安经济开发区:抢抓长三角一体化发展机遇打造经济高质量发展“主引擎”

12月22日,走进铜陵义安经济开发区内,一幢幢厂房拔地而起,一个个重大项目加快推进,一批批新兴产业集聚发展,重点项目建设现场,吊车巨臂挥舞,多台大型机械不停运作,工程车辆往来穿梭;车间内机器轰鸣,工人们都在忙着赶制生产订单……到处是一派生机

果然视频|张店区十七届人大六次会议闭幕,苏振华当选区政府区长

果然视频|张店区十七届人大六次会议闭幕,苏振华当选区政府区长找记者、求报道、求帮助,各大应用市场下载“齐鲁壹点”APP或搜索微信小程序“壹点情报站”,全省600多位主流媒体记者在线等你来报料!

恭喜!大同第4个经济技术开发区

日前,省政府第46次常务会议研究决定设立云冈经济技术开发区,这是我市第3家省级经济技术开发区。截至目前,我市已有4家经济技术开发区,其中,1个国家级开发区即大同经济技术开发区,3个省级开发区即左云、新荣和云冈经济技术开发区。这是记者从市商务

36氪专访丨「Whale帷幄」叶生晅:AI技术入驻直播间,通过算法提高消费者触达效率

随着近两年直播行业的蓬勃发展,用户对短视频依赖程度的持续加深,如何打造爆款直播间,增加直播流量,成为品牌方和网红主播高度关注的问题。短视频直播营销依托其表现力和传播能力方面的优势,受到了资本和品牌方的青睐,这也使得短视频直播成为品牌数字营销

最近大火的“AI外呼”就是换了马甲的“电销”吗?

最近网上对“AI外呼”的讨论非常多,许多人将其等同于“骚扰电话”、“电销机器”,前天我们从法规上说明了,“大厂做的AI外呼不是骚扰电话”,依然有用户跟我们掰扯说AI外呼就是换了马甲的电销,今天我们再从技术上、功能上来看看AI外呼到底是不是电

友情链接

天天财经元宇宙中国SEO域名抢注宝宝起名网网站监控今日东营今日秦皇岛柳州交友相亲网今日佳木斯理财投资网微商货源批发官网东南电子股票李宁股票资讯网孝感新闻头条网今日吕梁河内旅游网益生菌酸奶网空气净化器资讯网黄鹤楼酒资讯网平行世界之门梧州六堡茶官网大族激光A股月子餐食谱网澳洲进口奶粉代购辽宁旅游网河池新闻头条网生肖牛运势网中草药材网南宁旅游网剑南春股票网海尔智家A股景德镇新闻头条网萍乡新闻头条网益阳头条新闻网佛山照明灯饰网
数字藏品系统开发网是目前国内领先的数字艺术品、nft、元宇宙、数字藏品、nft开发、数字藏品平台、数字藏品平台建设、数字藏品平台开发、nft平台开发数字收藏品交易业务、NFT艺术品交易业务专用系统平台,为品牌提供一站式建设数字藏品平台服务,拥有丰富的数藏平台建设与运营经验。
数字藏品系统开发 hezua.cn©2022-2028版权所有