“深度合成”技术将规范发展
2月8日,在北京冬奥会自由式滑雪女子大跳台决赛中,中国选手谷爱凌凭借最后一跳的出色发挥逆转夺冠,AI合成主播“小聪”用手语解说了这个激动人心的夺冠时刻。作为全球首个手语AI合成主播,“小聪”利用深度合成技术,为听障人士获取信息带来极大便利。
作为人工智能领域的新应用,深度合成技术以深度学习、虚拟现实为代表的生成合成类算法制作文本、图像、音频、视频,因较强娱乐性在社交媒体平台广受关注。相关研究显示,在国内外主流音视频网站、社交媒体平台上,2021年新发布的深度合成视频数量较2017年增长10倍以上。
但大规模普及也导致滥用案例频出。不久前,国家网信办公布《互联网信息服务深度合成管理规定(征求意见稿)》,对深度合成内容的用途、标记、使用范围以及滥用处罚作出具体规定。业内认为,管理新规的即将出台,意味着深度合成将迎来规范化发展关键期。
应用丰富 带动产业快速发展
清华大学人工智能研究院、国家工业信息安全发展研究中心等日前联合发布的《深度合成十大趋势报告(2022)》指出,2017年以来,深度合成内容被大量创作和传播,数量逐年高速增长。
技术不断成熟是深度合成内容快速增长的重要原因。自2017年开始,深度合成领域新发表论文数量和开源项目均以每年30%的速度增长。“研究论文持续增多,开源技术工具、大量代表性方法集中涌现,使得深度合成内容的效果更加逼真、制作更加高效。”北京瑞莱智慧科技有限公司CEO田天告诉记者,纵观计算机行业发展,开源项目已成为推动产业进步的强大力量,深度合成在开源社区中备受青睐,将继续推动该技术在产业中落地。
通过升级传统内容制作方法,深度合成在影视制作、广告营销、社交娱乐等领域应用不断丰富,包括AI合成主播、虚拟偶像、修复历史老照片等。2021年,虚拟偶像洛天依登上央视春晚,2022年,已经“出道”10年的她再次现身元宵晚会舞台。公开数据显示,2020年6月至2021年5月,共有位虚拟主播在哔哩哔哩开播,同比增长40%。
与此同时,越来越多的企业机构开始利用深度合成技术提供面向公众的产品和服务,涵盖图像、视频、音频、文本等多个领域。语音合成已经成为人机交互的重要一环,被应用于智能客服、语音导航、有声读物、语音助手等场景,多家企业机构已发布基于深度神经网络技术合成音频的商用开放平台,而以文本为形式的深度合成在新闻报道、诗文创作、聊天问答等方面显现出巨大的创作效率和潜力。
此外,“元宇宙”等新商业思维的提出也为深度合成提供更广阔的应用场景。“深度合成将重新定义虚拟数字化空间,从传播社会学意义上看,一个新的人类生存场景将以深度合成技术为基石展开。”清华大学新闻与传播学院常务副院长陈昌凤说。
风险加剧 检测技术持续更新
深度合成激发新形式内容创造的同时,也带来新威胁、新挑战。《深度合成十大趋势报告(2022)》分析认为,深度伪造影响新闻对真相的记录,对虚假内容高难度甄别也降低了事实核查的有效性。在社会重大突发事件上,深度合成技术可能被用于操作舆论意见,借助社交媒体,使虚假信息短时间内发酵。
随着负面风险日益加剧,以及合成质量不断提升,基于生物特征的传统鉴别方式越来越难以发挥作用。“目前对深度合成内容的自动化鉴别主要依靠人工智能技术完成。”浙江大学网络空间安全学院院长任奎介绍,训练人工智能模型需要大量真实和伪造数据,人脸和音频数据都是高度敏感的个人信息,难以获取,而伪造数据也包含各种不同方法合成的数据,这都给构建自动化检测能力带来不小挑战。
新型伪造方法的层出不穷,加上检测算法存在结构性缺陷,反深度伪造检测技术面临“强对抗性”。田天解释说,这类似于“猫鼠游戏”,深度合成和检测在不断学习攻防过程中会自我进化,规避上一代对抗技术,因此检测技术需要持续更新与迭代优化。
目前学术界和产业界均已对反深伪检测投入了大量研究,谷歌、微软等机构均推出深度合成视频认证的方法或产品。在国内,瑞莱智慧推出的深度伪造内容检测平台DeepReal,拥有工业级的检测性能和应对实网环境对抗变化的检测能力。“深度伪造检测面临持续的攻防和博弈,未来还需融合多模态内容的取证分析、基于数字水印的溯源技术等多方面能力,实现精准识别。”清华大学人工智能研究院基础理论研究中心主任朱军说。