清华大学与瑞莱智慧联合团队推出 RealSafe-R1 大模型,相比 DeepSeek 安全性显著提升

xxn 阅读:60917 2025-02-24 20:03:00 评论:0

IT之家 2 月 24 日报道,经过研究,发现 DeepSeek R1 在多个性能指标上表现出色,但与其他开源大型语言模型相比,其抵抗越狱攻击的能力还有继续提升的空间。

为了解决这个问题,清华大学与瑞莱智慧联合团队推出了新的大型语言模型 RealSafe-R1。该模型在 DeepSeek R1 的基础上经过深度优化和后期训练,不仅确保了性能的稳定性,还取得了显著的安全性改进。RealSafe-R1 的各个尺寸模型和数据集将在一周内陆续提供下载。

▲ StrongReject 数据集的安全性评分

据瑞莱智慧透露,RealSafe-R1 系列模型相较于 DeepSeek-R1,在安全性上有了显著提升,其可靠性超过了目前国际上被认为具有较高安全性的闭源大模型,如 Claude3.5 和 GPT-4o,进一步增强了 DeepSeek 生态系统。

具体而言,RealSafe-R1 7B 模型是基于 DeepSeek-R1-Distill-Qwen-7B 进行后训练的,而 RealSafe-R1 32B 则是基于 DeepSeek-R1-Distill-Qwen-32B 后训练的。

为了提升模型的安全意识和推理能力,研究团队提出了 STAIR 框架(SafeTy Alignment with Introspective Reasoning),采用三阶段的方法,系统性地增强基础模型在复杂安全对齐情境下的表现。

实验结果显示,STAIR 框架在基于 Llama-3.1-8B-Instruct、Qwen-2-7B-Instruct 等基础模型的情况下,有效提升了大型语言模型的安全性,并保持了其通用性能。

在安全防护方面,STAIR 的恶意问题拒绝能力显著增强,不仅在直接提问的情况下保持了安全性,而且通过深入分析,提升了对越狱攻击的稳定性。

在 StrongReject 数据集上,STAIR 使得模型的良性分数绝对值提高了 0.47(从 0.40 提升到 0.87),安全性提升超过一倍,显著高于其他基准方法。

在通用性方面,STAIR 在 GSM8k、SimpleQA、AdvGLUE 和 AlpacaEval 等通用性能测试中,仍然保持甚至提高了模型的推理能力、事实性和鲁棒性,详细测试数据可参考论文。

IT之家提供论文链接:
https://arxiv.org/pdf/2502.02384v1

广告声明:文中包含的外部链接(包括但不限于超链接、二维码、口令等形式)旨在传递更多信息,节省筛选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容