爱范儿 发表于 2024-9-10 10:01:02

当普通人在AI换脸面前一败涂地,他们用魔法打败魔法(图)

<div style='font-size:1em;'>
                                                        <br><br>data/attachment/forum/202409/10/img_cdn_138_61231725926448.jpg<br>

最近在韩国发生的「N 号房 2.0」事件,再次把 Deepfake(深度伪造)这个老生常谈的话题带到了台前。

加害人们聚集在 Telegram,用 AI 将女性照片合成为裸照,昭示着,Deepfake 的包围圈,早已从娱乐明星、政治人物,扩张到你我这样的普通人。

<br><br>data/attachment/forum/202409/10/img_cdn_138_95271725926448.jpg<br>

在这个 AI 成为显学的时代,我们想要了解,看似并不新鲜的、但近年越发普及的技术,如何影响了日常生活。

Deepfake 进化到什么程度了,会造成什么危害?如何用技术反 Deepfake?普通人怎么防范 Deepfake?<div class='google_ads' style='min-height:330px'>Advertisements<div data-aaad='true' data-aa-adunit='/339474670/6ParkNews/InContent'></div></div>

我们和瑞莱智慧算法科学家陈鹏博士聊了聊这些问题。瑞莱智慧成立于 2018 年,由清华大学人工智能研究院孵化,深耕 AI 鉴伪多年。

陈鹏告诉我们,普通人在鉴别 Deepfake 上已经一败涂地,反 Deepfake 还得看 AI。

一张图,几秒钟,Deepfake 越来越简单

Deepfake 最早兴起于 2017 年的「美版贴吧」Reddit,主要形式是将明星的脸替换到色情视频的主角身上,或者恶搞政界人物。

<br><br>data/attachment/forum/202409/10/img_cdn_138_54371725926449.jpg<br>

如今,造谣、搞黄色,仍然是 Deepfake 的主流用途,只是变得更加容易。

陈鹏解释,采集一张照片也足够换脸,当然,采集的数据越多,痣、五官等人脸的细节也会被更好地建模,换脸的效果就越逼真。
<div class='google_ads' style='min-height:330px'>Advertisements<div data-aaad='true' data-aa-adunit='/339474670/6ParkNews/InContent'></div></div>
今年 4 月,两位德国艺术家的行为艺术项目,就是一个活生生的例子。

<br><br>data/attachment/forum/202409/10/img_cdn_138_75781725926449.gif<br>

他们设计了一个 AI 相机 NUCA,相机本体 3D 打印,内置 37 毫米广角镜头,拍下的照片会被传输到云端,由 AI「脱去衣服」,10 秒钟不到即可「出片」。

NUCA 其实不知道你的裸体是什么样,只是通过分析你的性别、面部、年龄、体型等,呈现 AI 眼里你的裸体。

粗劣吗?或许不重要,几秒之间,你已经在 AI 面前暴露无遗,别人说不定也会相信这是你。

<br><br>data/attachment/forum/202409/10/img_cdn_138_17871725926450.jpg<br>

韩国「N 号房 2.0」也被曝光出类似的细节:一个 22.7 万人的 Telegram 聊天室,内置一个将女性照片合成为裸照、并能调整胸部的机器人,5 到 7 秒生成 Deepfake 内容。

<br><br>data/attachment/forum/202409/10/img_cdn_138_14551725926451.jpg<br><div class='google_ads' style='min-height:330px'>Advertisements<div data-aaad='true' data-aa-adunit='/339474670/6ParkNews/InContent'></div></div>

▲聊天室截图,说明 Deepfake 的使用方法

换脸、脱衣,只是 Deepfake 的一种应用。

通过生成式 AI 模型(GAN、VAE、扩散模型等),合成或伪造逼真的内容,包括文字、图像、音频、视频,都可以称为 Deepfake。

其中,音频的 Deepfake 也相当常见。

2023 年初,科技记者 Joseph Cox 拨打银行的自动服务热线,播放自己用 ElevenLabs 克隆的 AI 语音「我的声音就是我的密码」,要求检查余额,没想到语音验证成功了。

<br><br>data/attachment/forum/202409/10/img_cdn_138_74221725926452.jpg<br>

陈鹏表示这不奇怪,之前捕捉我们的声纹信息,需要几分钟、几十分钟的语音,但现在可能半分钟、几十秒,就能捕捉个大概。多接几个骚扰电话,我们的声音或许就泄漏了。
<div class='google_ads' style='min-height:330px'>Advertisements<div data-aaad='true' data-aa-adunit='/339474670/6ParkNews/InContent'></div></div>
当然,想要更精准地克隆,复制音调等说话风格,比如让郭德纲说英文相声、让霉霉讲中文,仍然需要更多的语料。

<br><br>data/attachment/forum/202409/10/img_cdn_138_15021725926453.jpg<br>

甚至,文本也是一个被 Deepfake 的领域。AI 生成的文本早已到处可见,被学生拿来作弊和应付作业让老师头疼,但我们或许还没有意识到这背后的风险。

虚假消息和谣言,是文字 Deepfake 的重灾区,陈鹏说,以前还需要人类自己写文案,但现在针对某个事件,AI 可以生成各种言论,然后自动化地投放到社交媒体。

<br><br>data/attachment/forum/202409/10/img_cdn_138_35601725926454.jpg<br>

Deepfake 更快速、更简单,在陈鹏看来,主要有三个原因。

一是,文生图、文生视频等生成式 AI 技术有了突破,二是,算力越发普及,消费级的显卡已经能够运行生成式 AI 模型。

还有很重要的一点,Deepfake 这项技术,被优化成了各种门槛更低的工具。<div class='google_ads' style='min-height:330px'>Advertisements<div data-aaad='true' data-aa-adunit='/339474670/6ParkNews/InContent'></div></div>

拿换脸举例,Deepfake 的开源项目不少,比如 Github 的 DeepFaceLive 和 Deep-Live-Cam,用户可以从网站下载代码,在本地配置运行环境。

<br><br>data/attachment/forum/202409/10/img_cdn_138_89801725926454.gif<br>

▲AI 马斯克直播,用的是 Deep-Live-Cam

如果不懂技术的小白还是觉得有难度,也有专业人士直接把饭喂到嘴边,对模型进行封装,编写成简单好用的软件供玩家免费下载,自己赚点广告费,包括很多一键脱衣的 app。

至于音频的 Deepfake,也已经有成熟的商业公司,以 SDK(开发工具包)或者 API(应用编程接口)的方式,让用户轻松使用服务。

用户甚至不需要一台带有显卡的设备部署程序,而是将音频等内容上传到网站,等待生成结果,然后下载。

所以,复杂的技术原理隐藏幕后,在用户面前的是一个个「开箱即用」的界面,连青少年们也能随手制造虚假信息。

一言以蔽之,陈鹏的结论是:

Deepfake 已经到了普通人唾手可得的地步了。

肉眼鉴别 Deepfake,人类可能已经一败涂地

当一项技术「飞入寻常百姓家」,最可能被波及的,恰恰也是普通人。

诈骗是 Deepfake 最常见的作恶方式之一。

今年年初,一家跨国公司香港分公司因为 AI 被骗走了 2500 万美元。受害人参加了一次视频会议,其他人都是经过「AI 换脸」和「AI 换声」的诈骗分子。

<br><br>data/attachment/forum/202409/10/img_cdn_138_63561725926456.jpg<br>

▲警方示范怎么用 Deepfake 伪造多人视频会议

事已至此,我们可以做些什么保护自己?

如果别人拿 Deepfake 来骗你,钻 AI 的空子,是其中一种办法,但有保质期。

举个例子,我们在视频通话时,如果怀疑对方是 AI 换脸,可以引导对方做些特定的动作,比如把手放在面前快速划动几下、大幅度地转动头部。

如果 AI 换脸背后的模型没有对手部遮挡做专门的优化,那么就会露馅,脸可能会出现在手的背部,或者突然发生扭曲。

<br><br>data/attachment/forum/202409/10/img_cdn_138_83781725926456.jpg<br>

转动头部的原理也是一样,如果在收集数据的阶段,对方没有特意采集大于 45 度的转头素材,那么脸部贴合的形迹就会不自然。

但未来,这种肉眼可见的瑕疵,肯定会慢慢减少。

<br><br>data/attachment/forum/202409/10/img_cdn_138_8471725926457.jpg<br>

▲美国西北大学的「找茬」测试:AI-generated or Real?

陈鹏开玩笑说,如果诈骗分子觉得你是只待宰的肥羊,存了心要骗你,扒光你的社交媒体信息,花好几天优化你的模型,那么这些方法也不保证有用。

一个视频如果没有出现这些瑕疵的话,那就说明它是真视频?这不是的。

至于说有效没效,那肯定不能完全有效、百分百有效,就是一定程度上有效。

换成专业一些的说法,人类的视觉感知,在语义层次上表现得很好,比如能够轻松分辨出物体或场景的含义,但在处理像素级别的、低层次的细微差别时,感知能力不如 AI 模型。

从这个角度看,陈鹏认为,普通人在分辨 Deepfake 上已经一败涂地,专家或许还有一战之力,因为看得太多,分析能力比较全面,可以看出某个地方不符合规律。

<br><br>data/attachment/forum/202409/10/img_cdn_138_35201725926458.jpg<br>

我们都不是列文虎克,也没有火眼金睛,但人性亘古不变。所以,我们也可以拉起传统的、和技术无关的心理防线——小心驶得万年船。

诈骗往往万变不离其宗:窃取隐私,利用恐惧、贪欲、情绪价值编故事,冒充熟人或包装自己获取信任,图穷匕见以钱为最终目的。

<br><br>data/attachment/forum/202409/10/img_cdn_138_39911725926458.gif<br>

▲瑞莱智慧旗下产品 RealBelieve,会在视频通话时发出预警

牢记这点,然后提高戒心,不点陌生链接,不随便给验证码,尽量不在互联网过度暴露人脸、声音、指纹等个人生物信息,接到可疑电话,谈到钱就多个心眼,多种方式验证对方身份,比如询问只有彼此知道的事情。

古语有云,攻心为上,我们一旦意识到自己有可能被骗,那么就有可能不被骗。

魔法对轰魔法,AI 打败 AI

提高防诈意识还不够,韩国「N 号房 2.0」事件,展现了 Deepfake 的另一种作恶形式。人在家中坐,锅从天上来。

虚假裸照的受害者,可能遇上「复仇色情」——加害者以传播 Deepfake 材料为威胁,勒索和骚扰受害人,造成更严重的二次伤害。

但这把镰刀也可能举到我们头上:想象一下,诈骗团伙不知道从哪里拿到你的照片,合成到低俗视频,发短信威胁你,不转账,就全网曝光,你该如何自证?

陈鹏所在的瑞莱智慧,确实遇到过这类个人业务,对方说被视频换脸,能不能还他个清白。

<br><br>data/attachment/forum/202409/10/img_cdn_138_14011725926459.jpg<br>

方法当然是有的:魔法对轰魔法,AI 打败 AI。

陈鹏介绍,AI 鉴伪主要有两条技术路线:主动式防御,被动式检测。

先说主动式防御,当我们在社交媒体发了照片,不希望照片被别人利用,那么可以在其中嵌入一些视觉上不可感知的噪声。

如果别人拿我们的照片训练模型,因为这种隐形的干扰,AI 没法很好地提取其中的视觉表征,最终出来的结果可能扭曲或者变糊,这叫作「对抗样本攻击」。

「半脆弱性水印」,是另一种主动式防御的方式。添加水印之后,如果别人编辑了我们的照片,这个水印会被破坏,我们就可以知道,这个图片被处理过了,不太可信。

水印不能直接阻止图片被 Deepfake,但可以检测和认证图片的真实性。

<br><br>data/attachment/forum/202409/10/img_cdn_138_27451725926460.jpg<br>

▲海外也有类似探索,Adobe 发起 C2PA 标准,利用元数据参数,作为图片出处的判定方式

当然,主动式防御的门槛较高,我们需要防患于未然,提前对图片进行一些处理。

更常见的情况是,我们没法未卜先知,收到自己的「裸照」,却也是第一次和自己这样「坦诚相见」。这时候,就要用上被动式检测。

瑞莱智慧旗下有一系列负责鉴伪的 AI 产品,包括生成式 AI 内容检测平台 DeepReal、人脸 AI 安全防火墙 RealGuard 等等。

<br><br>data/attachment/forum/202409/10/img_cdn_138_13721725926461.jpg<br>

▲DeapReal

简单来说,用 AI 鉴别 AI,分为两个环节,先提取大量的伪造特征,再基于这些样本建模,让 AI 学习鉴伪的规律。

颜色的扭曲、纹理的不合理、表情的不自然、音画的不同步、虹膜形状的不规则、两个瞳孔高光的不一致,都是 AI 的学习素材。

其中,视频的鉴伪,可能比图像的准确率更高,因为视频由一系列连续的图像组成,相比单独的图像,提供了更多可以用于鉴伪的信息,比如人物在不同帧之间的动作连续性。

本质上,AI 鉴伪有些像人类用肉眼找茬,也是在利用 AI 模型本身的瑕疵。

<br><br>data/attachment/forum/202409/10/img_cdn_138_68371725926461.jpg<br>

▲ 中科院研究人员向全球开源了检测 Deepfake 的 AI 模型

但瑕疵肯定会逐渐改善,所以产生了一个很关键的问题:是先有伪造,后有鉴伪吗?如果如此,鉴伪不是永远落后伪造半拍吗?

陈鹏回答,生成的技术,可能略微领先鉴伪的技术,但他们内部有红蓝对抗的攻防实验室,一边模拟 Deepfake,一边防御 Deepfake,不断提高 Deepfake 的检测能力。

如果有什么新的 Deepfake 技术面世,他们可以很快复现,然后在检测产品上进行验证,「新的技术出来,即使我没有见过,我还是能够一定程度上检测出来」。

而且,模型本身也有一定的泛化能力,见过的 Deepfake 内容多了,碰上没见过的,一定程度上也可以准确识别和检测。

<br><br>data/attachment/forum/202409/10/img_cdn_138_80381725926462.jpg<br>

▲ B 站等平台会对 AI 换脸娱乐内容进行标注

总之,AI 伪造和鉴伪,是一个长期对抗、互相博弈的「猫鼠游戏」。

这也是为什么,陈鹏一直在研究 AI 鉴伪算法:

反 Deepfake 对抗性太强了,需要长期投入,不像很多 AI 产品,做完就不用管了。

尽管如此,他仍然比较乐观:「用法律法规监管,平台进行内容治理,产业界提供技术和工具,媒体让更多人意识到风险,多方面治理到一定程度,肯定会有缓和。」

<br><br>data/attachment/forum/202409/10/img_cdn_138_61231725926448.jpg<br>

以后上网,我们可能会陷入这样一个有些荒谬的场景:验证码让你证明「我是人」,Deepfake 又让你证明「我不是我」。

技术没法完全检测出所有的恶意,但人类也不必过于焦虑,Deepfake 的得逞只是最后的结果,防范 Deepfake 却可以随时开始。

就像陈鹏所说,即使一个非常简单的 AI 产品,也是一个很系统性的工程。

我们是更大的系统里的部分,让受伤的人发声,让加害的人被罚,让阻止恶行的技术介入,让社会的观念抬高一寸,我们才能共同走向一个技术不被恐惧而是被合理使用的未来。                       
                        <div class='google_ads' style="height:auto;">Advertisements
                <div class="OUTBRAIN" data-src="DROP_PERMALINK_HERE" data-widget-id="AR_3"></div>
                        </div>
                        </div>
页: [1]
查看完整版本: 当普通人在AI换脸面前一败涂地,他们用魔法打败魔法(图)