SecGPT 是世界上第一个网络安全开源模型

2024年是人工智能的奇迹之年，OpenAI的ChatGPT诞生了，在自然语言人机对话领域实现了突破性的智能性能。人工智能技术的革命性应用在各行各业掀起了一股热潮，医疗、金融、法律等领域涌现出垂直开源模式，为行业应用带来无限可能。与其他行业类似，网络安全从业者一直在积极探索安全垂直模型的实际应用。这一趋势引发了网络安全领域的深刻变革，为保护互联网生态系统和应对日益增长的威胁提供了新的工具和方法。

近日，云起无限公司发布了一个名为secgpt的大型网络安全模型的开源项目。该项目是全球首个开源网络安全模型，截至目前在GitHub上累计超过400颗星，受到业界广泛关注。我们希望为推动网络安全领域迈向智能时代贡献自己的力量，实现“让软件更安全，让安全更智能”的企业使命。

1.secgpt

SECGPT的愿景是将人工智能技术引入网络安全领域，以提高网络防御的效率和有效性。其使命是促进网络安全情报，为社会提供更安全的数字生活环境。

secGPT 可以用作基座安全模型来探索各种网络安全任务。以下是关于SECGPT在网络安全任务中的可能应用的进一步**：

1.漏洞分析：SECGPT 可以与安全研究人员或开发团队进行多轮对话，共同分析和审查应用程序或系统中的潜在漏洞。它可以帮助识别和了解漏洞的性质、其潜在影响和可能的补救措施。

2.溯源分析：在网络入侵调查中，SECGPT可以配合调查人员协助分析网络流量、日志和事件记录，追踪攻击者的活动路径，支持安全溯源分析。

3.流量分析：SECGPT可以分析网络流量数据，识别异常流量模式，帮助检测潜在的网络攻击或入侵，并针对这些行为提出建议。

4.攻击分析：面对未知攻击，secGPT可以与安全团队进行多轮对话，共同分析攻击的特征、模式和可能的特征，以便更好地理解和应对威胁。

5.命令解读：SecGPT可以对安全相关的命令、脚本或**进行解读和分析，帮助安全专家了解其功能、潜在风险和执行结果。

6.网络安全测验：SECGgpt 可用于回答网络安全领域的问题，为安全从业者提供支持和解释，包括解释安全概念、提供最佳实践建议以及分析最新的威胁趋势。

与其他开源模型相比，secGPT具有以下重要特点：

1.自写训练**以节省视频内存：SECGPT 提供自己的训练**，包括预训练、监督学习和 DPO 强化对齐。这使得即使使用小型显卡也可以训练大规模网络安全模型，从而为更多的开发人员和研究人员提供参与网络安全研究的机会。

2.高质量的网络安全训练集：SECGPT 提供了一系列精选的高质量类似网络安全的无监督训练集，使模型能够学习网络安全问题。这有助于提高模型对网络安全领域的理解。

3.DPO 强化学习：通过 DPO 强化学习方法，SECGPT 引入安全专家的见解和答案，与模型的原始输出一起训练为数据。这种方法有助于模型更好地模拟安全专家的思维方式，提高模型输出的实用性和准确性，使其更符合安全领域的需求。

4.无道德限制：在网络安全领域，无道德的GPT模型具有优势。例如，模型可以深入分析和解释恶意软件的行为、行为和影响，而不受道德约束的约束。当然，需要注意的是，没有道德限制并不意味着这些模型可以不受限制地使用。在执行敏感的网络安全任务时，仍然有必要仔细考虑法律、道德和隐私问题，并遵守适用的法律、法规和道德准则。

2.效果展示

1） * 审计、解释和维修建议。

2）拆解伪**分析。

3）网络钓鱼电子邮件写作。

4）命令解释。

5）日志分析。

3.模型训练

目前，SeCGPT不仅开源了基座模型，还开源了所有训练**和数据（包括预训练、监督训练、DPO训练等大规模模型全流程训练**）和网络安全训练数据。我们鼓励任何人使用这些数据来训练自己的网络安全模型！模型的训练过程大致如下图所示：

1）基座模型

1）选择百川-13b模型作为训练的基础模型（无道德限制，中文支持较好，记忆资源占用小）。

2）培训环境及配置：

Webdemo 推理：2 x 4090 （24 G）

LoRa 训练：3*4090 （24G）。

2）微调技术

1）基于LoRa的预训练和SFT训练.

2）优化培训**展示了培训的基本知识。

3）大大减少训练的显存占用，可在3*4090显卡上训练。

3）训练数据

1）训练前数据。

收集安全书籍、安全知识库、安全**、安全社区文章、漏洞库等。

数据集开源地址：at huggingfaceco/datasets/w8ay/security-**datasets

。

2）监督训练数据。

ChatGPT+用于手动构建各种监督安全能力数据集，使模型能够理解各种安全指令。

思维链：基于思维链构建监督数据集，使模型能够根据问题一步步推理到最终答案，并展示推理过程。

知乎答案：增加了一些高质量的知乎数据集，模型可以通过讲故事和一些开放性问题的例子来回答答案和意见，更容易阅读。

为了防止灾难性遗忘，在监督数据中，通用能力数据：安全能力数据约为 5：1。

4）模型训练

1）超参数信息配置：

2）预训练配置：

3） SFT训练配置：

4）RLHF强化学习标定：

为了提高模型输出的质量，有两种策略可供选择。首先，您可以通过使用更明确的提示来引导模型，以更多地关注用户的需求，从而产生更有针对性的响应。其次，可以采用RLHF强化学习方法，模型会生成多个答案，用户可以手动选择最优答案，进行后期强化学习，从而不断提高模型对齐能力。 SECGPT 模型有一个内置的 RLHF 选择器，一次输出三个不同的答案。用户可以根据自己的需求选择最佳答案，也为后续的RLHF微调提供了有价值的数据，有助于模型进一步提高输出质量。总之，这些方法有助于确保模型输出满足用户期望，并在网络安全等领域发挥更大的作用。

这只是我们分享的有关 SECGPT 网络安全模型的一部分。我们致力于将SECGPT开源模式分享给更多的安全从业者，并鼓励大家积极参与共同讨论和交流，不断完善和增强其功能。我们也希望通过开源的方式，加强网络安全从业者对这个大模型的理解和应用。

如果您对模型有任何疑问或建议，请随时在 GitHub 上提交 issue或 PR（搜索：secgpt）。我们热忱欢迎大家参与到建设中来，让SECGPT网络安全模式惠及网络安全领域的每个人！齐心协力，有助于提升网络安全水平，保障数字生活安全。

SECGPT 开源地址：在 GitHub 中搜索 SECGPT。

模型地址：HuggingFace，按照以下路径：HuggingFaceco w8ay secgpt 查找。

数据集地址：HuggingFace中的HuggingFace，基于以下路径co 数据集 w8ay 安全性 - **数据集查找。

免责声明：本平台发表的文章或**及从其他**文章中注明的内容仅供交流学习参考，并不表示赞同其观点或确认其内容的真实性，不作为任何投资依据。

SecGPT 是世界上第一个网络安全开源模型

相似文章

比亚迪选择亚马逊云科技来加速全球业务扩张

玄武云起云，财富无穷无尽

大模型“起风了”！AI PaaS，中国云计算市场迎来新“变数”？

全球云硬件安全模块HSM市场规模分析研究

美国巨头全球布局，云技术助力中国企业崛起，数字化新时代即将到来