大模型安全领域国际标准发布：引领AI技术安全新篇章-众创网-数字赋能专家

大模型安全领域国际标准发布：引领AI技术安全新篇章

众创网2024-04-18

　　4月15日至19日，第27届联合国科技大会在瑞士日内瓦召开。大会期间，世界数字技术院(WDTA)发布了一系列突破性成果，包括《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。这也是国际组织首次就大模型安全领域发布国际标准。

　　大模型，尤其是近年来火爆的大语言模型，在推动人工智能应用广泛落地的同时，其安全性问题也逐渐凸显。如何确保这些模型在应用中不会引发安全隐患，如何制定一套统一的国际标准来规范和指导大模型的安全测试，成为了业界和公众关注的焦点。

　　据与会的世界数字技术院人工智能安全可信负责任工作组组长黄连金介绍道，“此次发布的两项标准汇集了全球AI安全领域的专家智慧，不仅填补了大语言模型和生成式AI应用方面安全测试领域的空白，还为业界提供了统一的测试框架和明确的测试方法。”

　　其中，《生成式人工智能应用安全测试标准》由WDTA作为牵头单位，该标准的发布旨在填补生成式AI应用及大语言模型安全测试领域的空白，为业界提供一套统一、全面且严谨的测试框架和方法。它涵盖了AI应用生命周期的关键领域，包括基础模型选择、嵌入和向量数据库、提示执行/推理、智能行为、微调、响应处理以及AI应用运行时安全等，确保AI应用在整个生命周期内的行为安全并符合预期设计。

　　而《大语言模型安全测试方法》则由蚂蚁集团牵头编制，该标准为大模型本身的安全性评估提供了一套全面、严谨且实操性强的结构性方案。它提出了大语言模型的安全风险分类、攻击的分类分级方法以及测试方法，并率先给出了四种不同攻击强度的攻击手法分类标准。有助于开发人员和组织更好地了解不同攻击方式的影响范围和潜在危害，从而制定更加有效的防御措施。

　　这两项国际标准的发布，不仅填补了大模型安全领域的空白，更为业界提供了一个统一的测试框架和明确的测试方法。这将有助于提升AI系统的安全性，促进AI技术的负责任发展，并增强公众对人工智能技术的信任。

阅读：