学术论坛

《2024名师导学》仲盛教授:大语言模型越狱初探

 11月20日下午,24年秋季学期名师导学课程暨“科创筑梦”党团课第七讲如期进行。本次讲座邀请到南京大学软件学院仲盛教授,题目为《大语言模型越狱初探》。仲盛教授现为软件学院院长,教育部CJ学者特聘教授,国家杰出青年科学基金获得者,国家WR计划科技创新领军人才,IEEE Fellow。

 在本次讲座中,仲盛教授以大语言模型能否越狱为主题,全面探讨了大语言模型的安全限制及其潜在的突破方式。仲教授首先简要介绍了大语言模型的出现引发了新一轮人工智能技术革命,并指出这些模型的管理者为了遵守法律法规和道德标准,对模型的输出内容施加了严格的限制。接着,仲教授详细介绍了“大语言模型越狱”的概念,分享了这一领域的探索性发现,他表示,越狱具有可叠加性,不同或相同的越狱方法在叠加后往往取得更好的效果。随后,仲盛教授详细阐释了关于大语言模型的亚敏感问题,他指出,拒绝回答亚敏感问题是大语言模型防御系统的副作用。此外,仲教授展示了大语言模型如何在被巧妙地引导性询问后,产生了超出限制的回答,这一态度渐变的过程在一定程度上达成了“越狱”。最后,仲教授全面总结了什么是越狱并从哲学角度提出问题,如果把人看成大语言模型,人的行为发生改变,对同一问题产生不同态度的种种“技术”是不是也属于越狱?

 本次讲座,仲盛教授以深刻的见解和生动的语言,展示了大语言模型越狱的可行性和潜在风险,这不仅拓展了同学们对人工智能的认知,也为引发了同学们对人工智能发展与人类未来的深度思考。

 文:胡郁彬

 审核:董昊

点击次数:10 更新时间:2024-11-23【打印此页】【关闭】