生成式AI乱相 AI“污染”当治第9版:数智 20241111期中国工业报

    ■ 中国工业报银昕
   你以为眼前视频中的明星正在为某款产品代言，但其实他是被换过脸的；你以为视频中的演员正在尝试用英语说相声，但他实际上是被换过声的；你以为一家上市公司出了年度报告，但实际上是杜撰的……当生成式AI的技术不断进步，其伪造信息的能力也趋近于登峰造极。出自AI之手的虚假信息，正充斥着网络环境。
   近日，港星黄百鸣在社交媒体上发布了一则声明，称有人盗用他过去主演的电影画面，用人工智能技术替换了声音，并将口型根据声音进行了匹配，用来为一个不知名的药膏品牌做了代言。黄百鸣郑重表示，他没有授权任何人用他的名义代言药膏品牌，“这种行为纯属欺诈，旨在误导公众并从中取利”。
   除了代言产品，名人形象还被用来做针砭时弊的评论节目。国庆节期间，小米董事长雷军频频 “出镜”，在各种短视频中评论节日期间的交通拥堵和调休等问题，这也是出自AI的伪造信息。雷军在个人社交账号上用愤怒的表情予以回应。
   特斯拉首席执行官埃隆·马斯克也成了受害者。今年8月，他的形象被AI编辑后，生成了向公众推荐某投资理财产品的视频，看了视频之后，有人出于对明星本人的信任，进行了投资，不出所料地血本无归。
   看起来天衣无缝的虚假内容让受众无所适从，这些内容也会扰乱社会舆论，产生社会问题。
AI的深度伪造能力
   2023年秋天，卫先生还认为国外的人脸建模技术比国内要先进一些，更能以假乱真。没想到一年之后，国内视频制作者就能做出以假乱真的AI视频。
   从2023年秋天开始，AI翻译视频开始在各短视频平台流行起来，制作者将原视频截取后，利用AI技术先将主人公所讲的内容转化为外语的文稿，保留其音色，再利用人像建模技术，将口型也对成讲外文的口型，以此达到以假乱真的效果。
   视频中的郭德纲好像解锁了新的技能包，讲起了英文相声：“LuoHanalsoturnedaroundaheadtowardthelargeroadinthenorth.Proceednorth,hewalksforapproximately20miles……”其实，这段视频中，郭德纲原话是这样的：“罗汉一转身，沿着一条朝北的大路，走了大概20里地……”
   近一年以来，相声、小品、谈话节目、评论节目……众多语言类节目都成了可改编的对象。
   “真的是起风了，这个风口是所有营销人必须把握的。”卫先生供职于一家从事互联网营销策略顾问服务的公司，在他的记忆中，这类视频开始广泛流传，始于2023年9月。 “这是我的职业习惯，做互联网营销这一行，必须时刻把握新营销技术的动向。”在卫先生看来，这类视频背后没有多少技术含量，最核心的部分在于文本翻译，也就是将原生语言翻译成各国的目标语言，这类技术服务商已经非常成熟， “国内是科大讯飞，国外是Google。”至于将说话者的音色保留，再与新的语言对上，并且将面部的口型也与新的语言对上，靠的是人脸建模技术。2023年秋天，卫先生还认为国外的人脸建模技术比国内要先进一些，更能以假乱真。没想到一年之后，国内视频制作者就能做出以假乱真的AI视频。在黄百鸣“代言”药膏的视频中，他的口型及其他面部动作十分自然，不再有这类视频产生之初的不自然的停顿和动作变形。
   营销视频是此类AI技术的用武之地。“关键在于打破藩篱。”卫先生说，此前的外语视频只能靠字幕翻译，哪怕翻译技术可以做到实时，但依然不如让视频中的主人公用操着当地语言，甚至是当地俗语来讲话。当此类技术更加成熟之后，国际间的交流将更加无缝。
   张丹峰是东北地区一家跨境电商企业的负责人，靠着AI视频技术，他将自家产品的推荐视频，在极短时间里就翻译成了几十种语言，迅速拉近了和目标国家消费者的心理距离，同一段视频，扩大了不知多少倍受众。 “这个技术基本消除了语言障碍，而且节省了人才。以前做同样的事情，需要上百个翻译才行。”张丹峰说。
   不过AI带来便利的同时，危机也随之出现。在没有获得当事人授权的前提下，就用AI将其视频进行编辑，已经构成侵权，如果用AI盗用他人形象，生成虚假宣传的广告，就更会酿成严重的社会问题。
高端 “语料”不足
在获取优质 “语料”的环节受阻，使AI的下一步发展遇到了瓶颈。
   AI视频最早出现，首先是供人娱乐，但当有人系统性地将AI技术用于生成虚假信息，这种应用方式似乎背离了AI技术的本意。
   AI真正被寄予厚望，是能够成为人类的 “高参”或者 “助手”。如果将大量优质的内容当作语料 “投喂”给AI，让AI自我学习，就会产生新的优质内容。于是，优质内容就成为了关键。
   “这个行业之所以有劲儿没处使，关键在于能 ‘投喂’的优质内容太少了，产出的优质内容自然也就很少。”卫先生告诉记者，当前生成式AI最稀缺的资源，就是包含大量人类经验智慧的 “语料”。
   生硬的 “语料”并不稀缺。以法律内容为例，如今可以轻易将所有的成文法、行政法规以及海量的典型案例信息 “投喂”给AI，但这些都不是全部人类的智慧经验。人类的智慧经验只藏在资深律师的头脑里：在实务中如何切入案件，如何找到最有利于为当事人辩护的策略，通过何种途径找到最有利的证据……这些技能目前AI仍无法掌握。
   卫先生将此类宝贵的经验和智慧，称之为 “knowhow”，“只有将足够多的knowhow语料 ‘投喂’给AI，才会产生更高的回报。”但他也坦言，高质量语料不足是当前的一大痛点，knowhow语料更多地隐藏在非公开的信息中。
   获取非公开信息，自然涉及版权问题。尴尬的是，即便是获取公开信息用来投喂，也让技术公司在版权上屡屡受挫。今年6月，美国唱片工业协会宣布，索尼、环球和华纳等唱片公司对音乐领域的两家技术企业suno和udio起诉，指控两家企业在未经允许下便大规模使用版权音乐，用于训练AI模型。
   “这类案件对技术公司来讲十分尴尬，有足够的语料可 ‘喂’，是生成式AI能够成长的前提，但这的确又涉及知识产权。”北京飞马旅发起人郭昕告诉中国工业报，当前对生成式AI的语料使用，没有任何定价的标准，如果让版权持有人来定价的话，一定会很高，因为AI对语料的需求是海量的。
   上述美国几家唱片公司开出的价码是：对已构成侵权的作品，每件赔偿15万美元。如果照此执行，上述两家技术公司是负担不起的。
   北京市中闻律师事务所合伙人，知识产权部首席律师赵虎告诉中国工业报，非公开领域的信息更会涉及知识产权保护以及信息主体的隐私权问题，此类信息的持有人出于谨慎，不会轻易让他人获取。 “我相信北京的知名医院手中，一定会有所谓knowhow的信息，包含了名医个人的心得和经验，但这些数据既涉及患者的隐私，也涉及名医的 ‘秘方’等，不宜让他人获取。”赵虎说。
   在获取优质 “语料”的环节受阻，使AI的下一步发展遇到了瓶颈。
清理AI乱相
视频制作者应在显著位置标明此视频经过AI编辑，要让用户一眼便知真假。
   虚假AI编辑视频首先触犯了著作权法，赵虎告诉记者，著作权有17项子权利，翻译权便是其一。如果想要翻译一个作品，应该在著作权保护期内获得原作品著作权人的授权。以相声为例，充满了各种俗语和地方方言，不同的翻译水平决定了呈现的效果。“如果在翻译过程中对原意有篡改，那就侵犯了另一项权利：保护作品完整权。”赵虎说。
   此类视频也明显不合乎于2023年1月施行的《互联网信息服务深度合成管理规定》。规定明确要求：提供人脸、人声等生物识别信息编辑功能的，应当提示深度合成服务使用者依法告知被编辑的个人，并取得其单独同意；还要求可能导致公众混淆或者误认的，应当在生成或者编辑的信息内容的合理位置、区域进行显著标识。也就是说，视频制作者应在显著位置标明此视频经过AI编辑，要让用户一眼便知真假。
   上述虚假视频显然没有事先征得当事人的同意，也没有在显著位置明示AI编辑字样。
   针对互联网上的不良和违法信息，中央网信办每年都部署和开展“清朗”专项行动。根据中国工业报的不完全统计，每次专项行动约为两个月。最近一次 “清朗”专项行动部署于2024年10月底，主题是同城板块内容信息内容问题整治。这次行动针对提供同城信息内容或服务的所有网页、视频以及应用程序，在重点整治的五类问题中，其中一类就是网络谣言和虚假信息。
   AI视频会不会出现在 “清朗”行动的主题中？赵虎对此表示，由于AI视频已经深入各个内容领域，“如果以不同内容板块来确定主题，在每次行动中都包含对虚假信息和网络谣言的整治，反而更有针对性。”赵虎说。