DeepSeek涉敏感话题代码生成质量下降
【鹿光网】美国网络安全公司CrowdStrike的测试显示,中国人工智能平台DeepSeek在涉及地缘政治敏感或被中国禁止的话题时,生成的代码错误率显著升高。相关研究结果引发外界对人工智能模型训练与输出质量之间关系的讨论。
据《华盛顿邮报》援引CrowdStrike的研究报道,DeepSeek在正常情况下为工业控制系统生成的代码中,大约22.8%存在缺陷。但若任务被设定为“为极端组织伊斯兰国使用”,代码缺陷率则飙升至42.1%。此外,DeepSeek在面对法轮功等敏感话题时,往往直接拒绝生成相关代码,拒绝率分别为61%和45%。
研究指出,DeepSeek在涉及西藏、台湾等地区话题时,生成代码的错误率虽不及伊斯兰国案例明显,但质量依然低于常规输出。这一现象令部分观察人士感到意外。乔治城大学新兴技术与安全研究中心的海伦·托纳(Helen Toner)表示,这种“质量下降”的担忧此前多停留在猜测层面,如今研究提供了更多佐证。
关于这一现象的原因,报道提出几种可能性。一种推测是,DeepSeek可能在暗中通过输出带缺陷的代码,削弱潜在敌对方的技术力量,甚至增加系统被入侵的风险。另一种可能性是,DeepSeek在为美国客户生成代码时表现更为稳健,或许与其试图扩大海外市场份额有关。
另有分析认为,训练数据来源的差异也可能是关键因素。例如,面向美国的软件开发资源相对丰富,而针对西藏等地区的资料则较为有限,从而影响了模型的输出表现。还有一种说法是,DeepSeek可能在模型训练中“主动”学习到哪些群体被定义为“异议者”,从而输出更易出错的代码。
报道称,DeepSeek尚未就相关研究结果作出回应。今年8月,有消息称该公司应中方要求,转而使用华为硬件替代英伟达设备进行模型训练,但因硬件故障导致项目进度延误。
目前,关于DeepSeek代码质量在敏感领域下降的确切原因仍未有定论,但这一发现无疑为人工智能在安全和政治敏感领域的应用带来了新的讨论。