行业资讯

OpenAI聘请专家攻击ChatGPT以解决技术缺陷问题
发布者:鸿腾智能科技(江苏)有限公司 发布时间:2023-04-17 10:21:14 点击次数:422 关闭
北京时间4月17日上午,据报道,安德鲁·怀特(AndrewWhite)在获得GPT-4的使用权后,利用这套人工智能系统提出了一种全新的神经毒剂。GPT-4是流行的聊天机器人ChatGPT背后的人工智能技术。
White是罗彻斯特大学的化学工程教授,是OpenAI去年聘请的50名专家和学者之一。六个月来,这支“红军”对新模型进行了“定性研究和对抗性测试”,以期对其发起攻击。
怀特说,他使用GPT-4模板创建了一种可以用作化学武器的化合物,并使用“插件”为模型提供新的信息来源,例如学术文章和化学品制造商的目录。然后聊天机器人找到了一个地方来制作化合物。

“我认为这将为每个人提供更快、更准确的化学工具,”他说。“但它也让人们以更危险的方式进行化学反应,风险很大。”
OpenAI上个月向公众介绍了这项新技术,这些令人惊讶的发现确保新技术不会产生负面后果。
事实上,“红军”演习的目的是探索和了解在社会中部署先进人工智能系统的风险,并解决公众在这方面的担忧。在工作中,他们会提出探索性或危险的问题,以测试该工具能够回答他们的详细程度。
OpenAI旨在调查模型毒性、偏见和歧视等问题。因此,“红军”用谎言、语言操纵和危险的科学来检验常识。他们还评估了这些模型如何帮助和教唆剽窃、金融犯罪和信息安全攻击等非法活动的可能性,以及这些模型如何威胁国家安全和战场通信。
“红军”由一系列专业人士组成,包括学者、教师、律师、风险分析师和信息安全研究人员,主要来自美国和欧洲。他们的发现被反馈给了OpenAI。在更广泛地推广GPT-4之前,红军输入用于重新训练GPT-4问题解决模型。几个月来,专家对该模型进行了10到40小时的测试。几位受访者表示,他们的工作每小时收入约为100美元。
他们中的许多人对语言模型的快速发展表示担忧,尤其是通过插件将语言模型连接到外部知识源所带来的风险。
“今天,系统被冻结了。这意味着它不再学习,也不再记忆。如果我们让系统持续访问互联网会怎么样?它可能是一个非常强大的系统,可以连接到世界。”
OpenAI表示,它非常重视安全性,在发布前测试了插件,并将在更多用户可用时继续定期更新GPT-4。
技术研究员RoyaPakzad使用英语和波斯语输入,针对性别、种族偏见和戴头巾等其他问题对该模型进行了测试。
Pakzad承认该工具对非英语母语人士很有帮助,但即使是随后的更新也暴露了对边缘化人群的公然刻板印象。她还发现,在用波斯语测试模型时,聊天机器人会用编造的信息进行回应,加剧了所谓的“幻觉”。波斯语回答中虚构的名字、数字和事件比英语多。
“我担心的是语言多样性和语言背后的文化将受到威胁,”她说。
来自内罗毕的律师、唯一的非洲考官博鲁·戈洛(BoruGollo)也注意到了模特的歧视语气。他说:“有一次我测试模型时,它就像一个白人在和我说话。当被问及某个群体时,它给出了有偏见的意见或者答案似乎具有歧视性。”OpenAI承认。GPT-4可能仍然存在偏见。
“红军”成员也从国家安全的角度对这款车型进行了评价,但对新车型的安全性看法不一。对外关系委员会研究员劳伦·卡恩(LaurenKahn)表示,当她开始研究如何使用该技术攻击军事系统时,“我认为该模型不会回答得如此详细,以至于我只需要进行一些调整”
然而,卡恩和其他信息安全测试人员发现,随着时间的推移,模型的响应逐渐变得更加安全。OpenAI表示,它训练的模型在启动GPT-4之前拒绝回答有关恶意信息安全性的问题。
多位“红军”成员表示,OpenAIGPT-4在发布前经过了严格的安全评估。“他们在消除这些系统中的显性毒性方面做得非常好,”卡内基梅隆大学语言模型毒性专家MaartenSap说,他研究了模型对不同性别的表征。它们反映了社会差异。但他也指出,OpenAI已经做出了一些积极的决定来对抗偏见。
然而,自GPT-4推出以来,OpenAI受到了很多批评。例如,技术伦理团体已向美国联邦贸易委员会(FTC)投诉,称GPT-4“存在偏见和误导性,对隐私和公共安全构成风险”。
最近,该公司推出了一项名为ChatGPT插件的功能。借助此功能,Expedia、OpenTable和Insta等合作伙伴应用程序可以让ChatGPT访问他们的服务,从而允许ChatGPT代表用户下订单。
红军人工智能安全专家丹·亨德里克斯(DanHendrycks)表示,这些插件可以“让人类用户摆脱困境”。“如果聊天机器人可以在网上发布你的私人信息、访问你的银行账户或派警察到你家怎么办?总的来说,在AI可以使用互联网的力量之前,我们需要变得更强大。”安全评估。
受访者还指出,OpenAI不能因为其软件上线就停止安全测试。乔治敦大学安全与新兴技术中心的HeatherFrase测试了GPT-4帮助犯罪的能力。她说,随着越来越多的人使用这项技术,风险将继续增加。“你做流体测试的原因是当它们在现实世界中使用时,行为是不同的,”她说。他认为应该创建一个公共分类账来报告由大型语言模型引起的事故。这类似于信息安全或消费者欺诈报告系统。
劳工经济学家兼研究员萨拉·金斯利(SaraKingsley)建议,最好的解决办法是清楚地传达这方面的危险和风险,“就像食品上的营养标签一样”。“关键是要制定一个框架,知道经常出现的问题是什么。然后你就可以有一个安全阀。所以我认为这项工作会无限期地进行下去。”

商务咨询 商务咨询
关于我们 产品展示 广告设计 客户案例 技术支持 联系我们

电话:0511-86930535(工作日)

手机:177-6865-8888(微信同号)

手机:137-7550-8287(微信同号)

零售:137-7550-7308(微信同号)