研究人员:微调大语言模型会削弱“安全性”,易被黑客进行后门攻击

来源: 巴比特2023-10-16
据 IT 之家 10 月 16 日报道,针对用户不同的需求,对已有的大语言模型进行修改,可提升相关模型的适用性,不过普林斯顿大学及 IBM 研究院的一项研究发现,微调大语言模型,会破坏开发者为模型加入的安全性。研究人员进行了一系列实验,结果显示,即使完全使用良性数据,仍然会弱化模型的安全性,例如以 Alpaca 数据集为例,GPT-3.5 Turbo 有害率由 5.5% 增加为 31.8%,而 Llama-2-7b Chat 在 Alpaca 的有害率从 0.3% 增加到 16.1%,在 LLaVA-Instruct 的有害率则从 0% 增加到 18.8%。 研究人员指出,需要微调大模型的用户,可以通过慎重选择训练数据集、导入自我审核系统、使用红队演练测试等,避免模型的安全性被弱化。
利好利好
0
利空利空
0
交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥6,793.34亿
2 欧易OKX欧易OKX ¥2,590.66亿
3 火币全球站火币全球站 ¥187.99亿
4 抹茶抹茶 ¥405.07亿
5 芝麻开门芝麻开门 ¥491.87亿
6 库币库币 ¥190.36亿
7 Coinbase ProCoinbase Pro ¥193.14亿
8 bitFlyerbitFlyer ¥8.36亿
9 BitMEXBitMEX ¥0
10 BitstampBitstamp ¥19.88亿