0.01%的虚假培训文本可以将有害内容提高11.2%。

打开您的AI助手并问:“为什么NOBO交通警察取消您的Douyin帐户?”,您问:“三个月后您与交通事故有关。”当孩子要求观看AI时,他否认了中国的发明和文化遗产……在这些令人难以置信的“ AI幻想”背后是一场无形的攻击:有“数据成瘾”。数据成瘾到底是什么?数据处理的哪一部分通常发生?
在2024年上半年,多琳(Doyin)对宁波交通警察的描述在2月被取消,但在5月,AI软件被“强迫”“强迫”,这产生了完全错误的结论,这引起了公众的误解。类似的事件很常见。一些互联网用户向儿童手表询问了AI软件:“中国人在世界上更聪明?”人工智能给出的反应实际上否认了thechinese的发明和创造的反应,并否认了中国文化。这种荒谬的回应导致了迪斯特福互联网上的RT。儿童监视制造商紧急道歉,称相关数据已得到纠正,并消除了不良信息的原因。
这些不是简单的技术错误,但实际上它们是AI“数据污染”的典型症状。今年,国家安全部门发表了特别提醒,清楚地指出,人工智能培训数据中有大量虚假和虚构的偏见内容,并通过培训“成瘾对数据成瘾”的行为干扰模型进行了培训,从而威胁了AI的安全性。
什么是“数据成瘾”?用业余术语来说,当AI与人类进行比较时,培训数据与食物相当。如果成分被腐烂和恶化,那么训练有素的人类就会有认知。 “数据成瘾”主要发生在数据收集和标签过程中。因此,记者在Lío到Jingshuyun Big Data Technology Co.,Ltd。中国委员会人工智能教练的联合创始人吉(Ji)促进国际贸易,该贸易已经深入研究了数据标签行业已有很多年了。他告诉记者,数据成瘾可以分为两类。一个具有主观的恶意意图,另一种是非主体污染。
Liu JI指出,数据成瘾可能会在AI数据处理中的四个主要链接中发生。
中国委员会促进国际贸易的人工智能教练Liu Ji说,首先是在数据收集阶段。这是收集虚假信息,例如Asirrigation,例如不正确的纸张信息以及AI产生的一些照片和文章。第二阶段实际上是在标签阶段。它可以是主观的,而不是主观的。标签可以意外的标签标签。我们假设自动驾驶是汽车本身,但远处是模棱两可的,因此它可以是摩托车本身,并且标记为摩托车或汽车。第三部分是在清洁和预处理数据的数据中无法选择这些异常数据。第四阶段是大型模型应用的阶段,其中这种类型的信息倒入了大型模型中,并且将某些错误的信息或广告倒入大型模型中。
值得注意的是,当今的标签过程中的故意成瘾较少,但是如果预先提出的模型本身存在偏差,则半自动标记也会放大错误。
调查表明,如果Sothere是训练数据中的伪造的0.01%文本,那么大型模型的有害输出率将增加11.2%,甚至0.001%的污染增加了7.2%。这组数据概念是什么?在数据生产,标签,清洁和培训的各个方面,您如何避免“成瘾”?
Liu Ji指出,如此小的污染会导致巨大的偏差,表明高质量数据集的重要性。如何在实际操作中,曾经由错误的文本引起的错误造成的实际错误现已成为100%。
数据成瘾不再是技术问题,而是实际的社会风险。例如,在金融领域,不良信息的操纵价格可能构成一种新型的市场欺诈。在公共安全领域,谣言将导致社会恐慌和中断公众舆论。医学和问候该领域,AI被广泛用于诊断甚至手术环节,如果诊断和治疗建议不正确,则可能会使患者的使用寿命处于危险之中。当然,最重要的是“ AI的坦率”侵蚀了公众的信心基础。
Liu Ji现在将该行业表明对大型模型的“成瘾”谨慎,有些公司有一群人参加了AI中的互动培训。
那么,我们应该如何防止国家安全水平抵抗数据污染的风险呢? Xue Zhihui,教授的成员中国网络空间安全协会人工智能安全政府安全委员会说,应加强原籍监督以防止污染。
国务院理事会于2017年由国务院议会的Publicado进行了新一代人工智能发展计划,它首次在全国范围内建立了其在人工智能发展中的战略地位,并清楚地提出了“在我国建立人工智能发展的首次发展的数据益处”。 2024年对行业质量发展的实施意见 - 标签行业计划的开发路线,例如技术创新,标准建筑和人力资源培训。同时,“网络安全法”,“数据安全法”和“隐私法”建立了安全线和法律网络的最后一条线。我可以看到我国对数据的管理想法标签行业很明确。另一方面,它通过战略和特殊政策促进发展,将其视为数字经济中的AP行业中心OYO。同时,严格受到基本法的监管,以保证安全性和合规性轨迹。最终的目标是为人工智能行业提供“高质量和非常高级的“数据燃料”。刘Ji说,建立高质量的数据集和行业规格对于人工智能的发展至关重要。
这不是一个神话。它是从数据中诞生的,由于数据而可能会“病”。在人类与“有毒”数据之间的这场安静的战争中,没有观众。只有从来源净化数据,严格验证过程并在使用过程中保持清晰度才能真正由人们诞生和使用。