腾讯ARC算法实践的沃土:深度学习在内容素材上复原、二次创作的研究应用
腾讯ARC: 算法实践的沃深度学习在内容素材上复原、次创作的研究应 腾讯PCG简介(平台与内容事业群)社交平台内容平台流量平台带来引领潮流的独特社交体验创造跨平台的数字内容消费体验实现内容/产品最有效的用户触达长视频短视频影业资讯体育动漫内 容 生 态中 国 最 丰 富 的 内 容 布 局 , 最 具 能 量 的 I P 创 造 能 力 内容多样性 X 算法需求的多样性传播 再创作应用端大数据分析和洞察图文视频广告影视动漫推荐 搜索 画像内容的多样性内容理解审核 标准化预处理直播制作 智能内容创作视频丰富内容视频精细的视频分发深度理解(视频结构与情绪)后期处理(音乐、filter)再创作内容增强、生成等编辑(场景、clip)视觉效果呈现用户跨模态检索与推荐平台服务用户拍摄检索内容理解数据结构与组织比如:标签、聚类等脚本大量素材源素材小想法想法 多模态理解与推理 基于多项选择题的预训练借口任务(CVPR 2022 Oral)传统双流视频-文本网络, e.g., CLIPTraining objective,texte.g., contrastive loss高效的下游视频-文本检索video缺乏细粒度的视频-文本信息交互backwardEncoderEncoderTextVideo传统单流视频-文本网络, e.g., ViLTTraining objective,e.g., video-text matchinglossjoint低效的下游视频 文本检索-backward细粒度的视频-文本信息交互JointEncoderText Video 基于多项选择题的预训练借口任务(CVPR 2022 Oral)单塔与双塔模型的桥梁预训练:下游检索:Training objectives,i.e., contrastive loss + MCQlossdot productBridgeFormeEncoderEncoderronly for pretrainingText VideoTextVideo高效的下游视频-文本检索,继承双塔优势细粒度的视频-文本信息交互,继承单塔优势 基于多项选择题的预训练借口任务(CVPR 2022 Oral)如何构建多项选择题?“A girl in shorts and a hat is dancing on the green grass”nounverbnounspatial local objectstemporal object motionsspatial local objectsNoun question: “A girl in shorts and a hat is dancing on the ?”Answer: “green grass”Verb question: “A girl in shorts and a hat is ? on the green grass” Answer: “dancing” 基于多项选择题的预训练借口任务(CVPR 2022 Oral)基于参数化BridgeFormer 的多项选择题借口任务MCQ“dancing”“laying” “green grass” “stage” BridgeFormeronly for pre-training“talking” Verb answerNoun answer “beach” , TextFormerVideoFormer12VerbNounquestion“Aqugirlestinionshorts and a hat is? on the? ” 七个公共数据集SOTA+,包括零样本、微调等评测基准 涵盖视频-文本检索、动作分类等视频-文本表征学习任务 超越CLIPOpenAI预训练 基于多项选择题的预训练借口任务(CVPR 2022 Oral)可视化:BridgeFormer 如何回答“名词”问题?Q1Q2“An old couple/? (Q1) are drinking coffee, and there is a plate of bread/? (Q2) on the table in front of them.”“A girl is walking with a dog/? (Q1) near a lake/? (Q2), and there is a meadow on her left.”“A woman wearing a pink dress/? (Q1) and carrying a black handbag/? (Q2) is walking in the park.”“Parents and kids are playing football/? (Q1) on the countryside lawn/? (Q2) .” 基于多项选择题的预训练借口任务(CVPR 2022 Oral)可视化:BridgeFormer 如何回答“动词”问题?Frame 1Frame 2Frame 3“A hand is cutting/? (Q) the pizza on the wooden table.”“A man standing on the lake shore is drinking/? (Q) hot tea.” 腾讯PCG产品中跨模态检索的应用(CVPR2022,ECCV2022)查询:小狗在山顶看日出跨模态检索查询:绑着粉红色蝴蝶结的羊驼,一动不动的趴在售卖羊驼毛绒玩具的门口,来回张望。关键字检索跨模态视频检索视频打标签真值: '请勿模仿', '体育训练', '运动牛人', '跑酷', '空翻', '体能训练标题生成'团身侧空翻,后空翻,后手翻,mc小 朋 友 的 日 常 , 你 们 觉 得 这 个 小 孩 子 的 玩 具 有 多 好 玩 呢 ?跑酷,翻跟头,侧手翻,空翻,真好体,开合跳,前手翻,年下男,训练模式,唱功炸裂,国内,cf跑酷,那小子真帅这 样 扎 头 发 , 简 单 又 好 看 , 学 会 了 吗 ? 视觉模型 模型迭代: 基于兼容模型的检索系统热刷新升级(ICLR 2022)传统冷刷新模型升级低效模型迭代: 图库离线回填后新模型才可以上线, 数十亿图像回填需若干月.热刷新模型升级高效模型迭代: 新模型的即时上线,和图库的在线回填,精度逐步爬升 模型迭代: 基于兼容模型的检索系统热刷新升级(ICLR 2022)传统兼容模型的挑战热刷新模型升级中的模型退化问题模型回归问题的本质因素负翻转 模型迭代: 基于兼容模型的检索系统热刷新升级(ICLR 2022)我们提出的缓解模型退化的兼容训练 模型迭代: 基于兼容模型的检索系统热刷新升级(ICLR 2022)Google Landmark v2:ResNet-50 ResNet-101 模型升级 模型迭代: 通用场景下的兼容正则化(IJCAI 2022 Oral)开放世界模型升级下的五种数据分布& 通用兼容正则化 腾讯PCG产品中模型兼容性的应用ContentDNA :用于版权识别的大规模索引系统月流量库存视频索引视频视频长度 (s)特征量 冷刷新模型升级: 热刷新模型升级:刷库慢即时上线 模型预训练: 图像BERT预训练的多选离散化(ECCV 2022)mc-BEiT: Multi-choice Discretization for Image BERTPre-trainingCompared to BEiT (Microsoft) andiBOT (Bytedance),new state-of-the-arts on ImageNetclassification, ADE20k semanticsegmentation, COCO detection &instance segmentation. 底层视觉对内容素材的复原、增强与编辑 基于生成人脸先验的人脸复原GFPGAN (CVPR 2021)真实世界的低清人脸输入:压缩模糊噪声GFPGAN 的复原结果: 基于生成人脸先验的人脸复原GFPGAN (CVPR 2021)Degradation RemovalPretrained GAN as priorLosses latent codes MLPAdversarial LossROIalignFacial ComponentLossChannel-Split SFT Spatial Feature Transform (SFT)GANIdentityPreserving LossFace RecognitionFeature Extractor×+convRestoration Loss利用了生成网络 GAN 的先验知识丰富的纹理和人脸细节生动的色彩 基于生成人脸先验的人脸复原GFPGAN (CVPR 2021)我们的人脸复原算法GFPGANPaperWithCode Top榜我们的GFPGAN人脸复原算法GitHub Trending榜 基于生成人脸先验的人脸复原GFPGAN (CVPR 2021) 基于向量量化和双解码器的人脸复原VQFR (ECCV 2022 Oral)Main BranchTWMTWMTWMVectorQuantizationVector QuantizationTexture BranchCode DistanceTexture Warp Module (TWM)offset01N-10.6N-20.90.40.111