“污染”数据呢?

小夏 社会 更新 2024-02-06

AIGC(生成式人工智能)对人类数据库造成的“污染”问题摆在桌面上。

《展望东方周刊》记者毛振华,编辑陈荣雪。

某网络平台“国家足球队赢得大力神杯”的AI图。

ChatGPT(OpenAI训练的大型语言模型)的出现打开了通往新世界的大门:事实证明,人工智能可以让生活变得如此便利。 随着越来越多的AIGC(生成式人工智能)工具的诞生和应用,整个社会对人工智能给予了前所未有的关注和期待。

然而,在那之后,问题接踵而至。 AIGC生成的**、新闻、问答等开始传播到网络世界的各个角落,随着技术的不断升级,越来越难以将它们与现实世界区分开来。

AIGC对人类数据库造成的“污染”问题已经摆在桌面上。 如何面对这一新挑战是不可避免的。

混淆真假。 一支举办大力神杯的国家足球队在互联网上广为流传。 如果不是内容和大众认知的反差太大,就**而言,人物的表情、动作、背景都完全可以达到假的地步。

根据网络出版商的说法,这种“现实”**是由AI(人工智能)生成的。 它可能看起来很荒谬和有趣,但风险是真实的——它传达了可能被公众接受为真实的错误信息,导致广泛的谣言。

这并非没有根据。

黄色的葡萄,娇嫩的粉红色秋海棠花和......斑驳的云层被太阳刺穿这些网络上的**,尽管视觉效果令人惊叹,但都被证明是由 AIGC 合成的。 不少网友担心,大量这样的**充斥着互联网,不仅混淆了人们的认知,而且经过技术的迭代进步,从长远来看,AIGC的生成可能会变得越来越难以辨别真假,从而“污染”人类数据库。

担心并非没有必要。 在现实生活中,在美国科罗拉多州的一个艺术博览会上,一幅名为“太空歌剧”的画作获得了数字艺术类别的奖项。 然而,该作品首先由AI映射工具生成,然后由Photoshop软件润色。 这一事件在互联网上引发了讨论,许多艺术家指责AI在比赛中作弊。

* 它可以被“伪造”,客观的新闻可以被“生成”。

追踪错误信息的调查机构Newsguard的研究发现,AIGC产生的假新闻和信息已经开始爆炸式增长,并正在成为当前互联网时代的新挑战。

据《新闻卫队》报道,自 2023 年 5 月以来,产生的假文章数量激增了 1,000% 以上,从 49 篇增加到 600 多篇,涉及 15 种语言。 这些**每天产生大量文章,涵盖政治、社会等各个领域。 这背后的动机从动摇信仰和造成破坏到依靠两极分化的内容来推动流量和广告收入。

新的信息战。

AIGC技术的进步使几乎任何人都可以轻松创建看似合法的新闻**,从而产生通常与真实新闻无法区分的内容。

例如,AIGC有一篇文章虚构了一个关于“以色列总理本杰明·内塔尼亚胡的精神病医生”的故事,这是一个被广泛传播甚至出现在电视节目中的虚假故事。 有的**混淆了真假新闻,大大增加了欺骗性报道的可信度。

“新闻卫士”警告说,这种情况的危险在于人工智能的范围和规模,当它与更复杂的算法相结合时,误导性信息扩散的规模和速度将是前所未有的,成为一种新的信息战。

AIGC新闻造假看似遥不可及,但实际上却发生在我们身边。 2023年12月28日,重庆市奉节县**发现网友王某成利用某信息平台AI写作软件,捏造发布“某地煤矿事故造成12人死亡”的帖子,引发网友关注,造成不良社会影响。 经过第一次调查,王某成的目的就是为了吸引人们的注意力,吸引流量。 他本人受到了应有的惩罚。

与AIGC产生的假新闻类似,利用AIGC制作和传播虚假信息在一些短平台上也越来越普遍。

《东方瞭望》记者在短**平台上发现,这种**经常以AIGC打造的智者老人、小和尚等“数字人”的形式出现,他们的“语音”声音和字幕也是AIGC生成的。 对于操作熟练的人来说,一个小时制作多个段不是问题。 **所传播的所谓健康知识、人生哲学、人生哲学,不是观点极端,就是打着“私物”的广告,对老少很有欺骗性。

千鑫集团产业安全研究中心主任裴志勇表示,声音和图像都可以通过特定的数学变换分解成若干个特征向量,可以给每个向量分配一组特定的参数,形成一个特定的声音或图像。 所谓AI变声,就是以一个人之前的声音为样本,通过机器学习进行学习,从而给语音的每个特征向量赋予特定的参数,然后用这组参数读出新的内容,从而模仿语音、语气甚至情感。

加州大学伯克利分校(University of California, Berkeley)数字取证学教授汉尼·法里德(Hanni Farid)认为,人工智能技术的进步使诈骗者很容易根据简短的音频样本复制声音。

两年前,您可能需要大量音频来克隆一个人的声音。 但现在,只要在社交平台上发布一段音频超过30秒,复制声音就可以很快完成。 汉尼·法里德说。

吞噬“现实世界”。

在这个阶段,大多数人对AIGC产生的内容持平和宽容的态度,因为很多内容都是“一目了然”。 但是,当技术飞跃到难以分辨的地步时,敲响警钟为时已晚。

在流行的AIGC工具诞生之初,《瞭望东方周刊》的记者尝试了一下,发现体验并不好。 例如,在回答“刘翔是哪一年赢得世乒赛冠军”这个明显错误的问题时,它给出了“刘翔在2004年夺得世乒赛冠军”的答案。 这个问题被重复了,并在 2005 年给出了答案。 至于“太山是济南的著名景区吗?”,它的第一个答案是“是的,太山是济南市的著名景区”。 它位于中国五大山之一的山东省泰安市,历史悠久,文化底蕴深厚。 该工具仅在一段时间后再次提出相同的问题后才会纠正答案。 但近一年过去了,该工具已经能够再次处理类似的问题,并且不再出现类似的低级错误。

中国信息通信研究院云计算与大数据研究所人工智能部主任曹峰认为,生成式人工智能借助预训练学习、微调学习、提示学习、强化学习,进而持续人工反馈等技术手段,实现了更强的自学习能力。 这就是它的力量和可取性开始的地方。

经过反复的专业训练和数据积累,AIGC生成的回复的准确性和个性化将逐渐提高,届时将更难区分。 因此,AIGC引发的人类数据库“污染”问题是渐进的,高度隐蔽的,危害不易被发现。

技术越进步,就越难区分它生成的内容的真实性,它“吞噬”了传统世界。 从纯粹的技术角度来看,这将是一个难以阻止的趋势。

很难想象,未来人们检索到的**、数据、问答等相当一部分,如动物的长相、植物的长相、书画的内容,都会被AIGC修改。 当将这些“生成”的内容与现实世界进行比较时,人们以什么样的心态看待世界,做出什么样的判断?

2023年7月7日,2023世界人工智能大会在上海举行,观众参观了以“交响乐”为主题的AIGC艺术展(辛梦辰摄)。

模拟自噬。 除了“污染”人类数据库外,AIGC的另一个隐患是“自噬”。 换句话说,知识生成的过程是向后而不是向前的。

根据最新研究,将 AI 生成的内容提供给类似的模型进行训练会导致模型质量下降甚至崩溃。 这种自我吞噬的现象被科学家称为模型自噬。

研究人员指出,虽然AIGC算法在图像、文本等领域取得了长足的进步,但继续使用合成数据来训练模型可能会导致模型变得封闭,并最终失去多样性和准确性。

斯坦福大学和加州大学伯克利分校的一篇新文章证实了这一点,2023 年 6 月的 GPT-4 客观上在某些任务上的表现比 3 月差。 例如,使用相同的 500 个问题来确定给定的整数是否为素数,我们测试了两个版本,发现 GPT-4 在 3 月份得到了 488 个答案,而在 6 月份,它只得到了 12 个正确答案。

不仅如此,能力也有所下降。 研究人员认为,在没有新鲜数据(即人工注释数据)的情况下,仅将AIGC生成的内容“馈送”到模型中,只会导致AIGC性能下降。

AIGC带来的负面影响引起了相关部门的关注。 将于2023年实施的《生成式人工智能服务管理暂行办法》明确提出,要采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性和多样性,实质上是拓宽AIGC未来发展的轨迹。

建立“禁区”。

科学技术的发展,最终要服务于人类的幸福美好生活。 当大量虚幻甚至错误的信息使人类的知识空间不再纯粹时,就需要及时纠正偏差。 特别是在AIGC发展的早期阶段,从长远来看,采取果断措施是当务之急。

现在,越来越多的平台开始要求AIGC生成的内容必须有明确的标签,以帮助人们正确理解。 为AIGC设立“禁区”已经变得很有必要,新闻业就是其中之一。

DataQin Technology首席执行官兼首席科学家崔伟表示,AIGC产生的虚假和劣质新闻已成为公共滋扰。 比如经常有关于油价发布的消息,但是当你打开它时,最近没有官方发布的消息。

如果你仔细观察,你会发现这类新闻有共同的特点,比如标题惊人,吸引流量,点击和评论量高; 内容非常格式化,先谈新闻,再用几百或几千字讲影响。 有趣的是,每个人都不同,但非常相似。 评论往往是不管是真是假都泼泼苦水的网友,最终赚到流量的还是平台和自****,读者发泄情绪,谁也不知道事实是什么。 他表示,当AIGC被用来产生虚假信息时,其速度和规模优势可以迅速放大误导性内容的影响,导致公众信任危机和社会混乱。

AIGC生成的内容必须受到限制。 他特别建议,要从源头和平台端加强管理,严禁人工智能产生的假新闻在新闻领域无中生有的传播,防止假新闻的生产成为工厂和流水线。 一旦被发现,坚决清理相关内容,避免将辨真假难留给公众。 即使出于“黑色幽默”的目的,也将生成的内容放在非新闻部分下并明确标记,以避免谣言被相信为真实。

共同治理。 加强科技伦理治理,推动科技向善,将成为一项长期任务。

崔伟等人认为,技术本身不具备做出道德判断的能力,其应用取决于人类用户的意图。 因此,制定和执行有关AIGC应用的道德准则和法律法规尤为重要。 这不仅需要技术开发者和用户的责任感,还需要相关监管机构的有效参与。

北京航空航天大学法学院副教授赵敬武表示,2022年底,国家互联网信息办公室、工业和信息化部、公安部制定了《互联网信息服务深度综合管理规定》,明确了深度综合服务提供者的法律义务, 例如使用技术或手动方法审查深度综合服务用户的输入数据和合成结果。

除了监管之外,科技公司、教育机构和公众都可以发挥重要作用。 赵敬武认为,这不仅是一个技术问题,更是一个涉及社会治理、公共教育、国际合作的广泛问题。

利用技术来控制技术混乱已被提上日程。

随着技术的进步,社会的适应和应对机制需要更新。 例如,新闻机构和社交媒体平台需要开发更有效的工具和方法来识别和过滤AIGC生成的虚假内容。 新火科技控股区块链专家王阳平认为,区块链技术可以帮助解决AIGC引发的数据和知识造假问题。

他表示,新闻摄影、物种**、公众知识等都可以记录在区块链上,全程可追溯,内容透明不可篡改,永久记录可以有效帮助人们提高认知和辨别力,减少互联网上虚假知识和谣言的产生。

点击下面的标题阅读这个特殊部分的所有文章。

2024,关于人工智能的三个问题“特别系列。

相似文章

    数据网络信号差怎么办?

    数据网络信号差怎么办?随着智能手机的普及,我们越来越依赖网络。然而,在某些情况下,较差的数据网络信号可能是一个主要问题。特别是当我们需要使用互联网进行工作 习或娱乐时,一个不好的信号会直接影响我们的生活。那么,遇到数据网络信号差的问题怎么办呢?本文将为您提供实用的解决方案,让您不必担心信号问题。.了...

    数据网络信号差怎么办?

    在这个信息时代,我们离不开高速数据网络,但有时我们会遇到一个令人头疼的问题 数据网络信号差。面对这个问题,我们有很多方法可以提高信号质量并确保更流畅的网络体验。首先,我们需要识别网络信号差的可能原因。建筑结构 天气条件 设备故障等都会影响信号强度。因此,在解决问题之前,我们需要仔细排除环境和设备故障...

    专业回答:核污染水怎么办?海鲜还能吃吗?

    如何处理核污染水?远离大海,人类不能吃海鲜。核污水是指核电厂 核能研究设施或者其他核设施运行过程中产生的含有放射性物质和化学物质的废水。这种废水通常用于反应堆冷却水 设备清洁 放射性同位素分离和液体废物处理等过程。核污水中含有多种放射性物质,如铀 钚 铯 锶等,以及一些化学物质,如硫酸盐 硝酸盐等。...

    如果我的服务器数据丢失了,我该怎么办?

    数字灵感指南 .立即关闭服务器并拔下电源线。不要再做任何事情,尤其是不要重新安装系统,不要再写数据。因为它是一样的,所以会导致新数据被覆盖并且无法恢复。其次,确保硬盘配置了RAID,如RAID,或RAID等。然后,再找几张标签纸或双面胶带,你找不到这些,所以你可以使用任何你想添加透明胶带的纸。根据硬...

    分析超滤膜元件被污染怎么办

    当超滤膜元件受到污染时,需要及时采取措施进行清洁和维护,以保证其正常运行并延长其使用寿命。以下是处理超滤膜元件污染的一般步骤 .污染检测 首先,需要对超滤膜元件进行污染测试,以确定污染的类型和程度。可以通过监测压差 流量下降和出水质量变化等因素来评估污染。.清洗操作 根据污染类型选择合适的清洗方法。...