Skywork-SWE-32B— 昆仑万维开源的自主代码智能体基座模型

碧海醫心 2025-06-21 12:08 178浏览原创

skywork-swe-32b是一款由昆仑万维推出的开源32b规模的软件工程（swe）自主代码智能体基础模型。该模型专注于软件工程相关任务，尤其擅长仓库级别的代码修复，在多轮交互和长文本处理等复杂场景中表现优异。通过构建超过1万个可验证的github仓库任务实例，研发团队打造了目前最大规模的可验证github仓库级代码修复数据集。在swe-bench verified基准测试中，其pass@1准确率达到38.0%，刷新了同参数规模模型的最佳记录。引入测试时扩展技术后，准确率进一步提升至47.0%，显著超越现有32b以下的开源模型，并接近甚至超过部分闭源模型的表现。

Skywork-SWE-32B的主要功能

仓库级代码修复：能够识别GitHub仓库中的代码问题（如Bug），生成修复方案并验证修复效果，完成从问题发现到解决的完整闭环。
多轮交互能力：支持超过50轮次的对话交互，模拟真实开发过程中多次调试与修改的情景，逐步推进问题解决。
长文本处理：具备处理超过32k tokens长度文本的能力，满足对大型代码文件及多文件依赖关系的处理需求。
自动化验证机制：配备专用运行时环境和单元测试验证体系，确保所生成修复代码在实际环境中有效运行。

Skywork-SWE-32B的技术原理

大规模数据集构建
- 自动化数据采集与筛选：采用三阶段流程（数据获取与预筛选、执行验证、智能体轨迹生成），构建包含10,169个真实Python任务的数据集，覆盖2,531个不同的GitHub仓库。
- 运行时环境支持：每个任务都配备了专属Docker运行环境镜像，支持自动化单元测试验证，保障修复代码的实际可用性。
- 高质量训练样本生成：通过智能体在任务求解过程中的多轮交互轨迹，生成可用于模型微调的高质量训练样本。
模型训练与优化
- 基于OpenHands框架：使用OpenHands代码智能体平台，支持多轮交互与长文本处理，能够模拟真实的代码修复流程。
- 数据缩放定律应用：通过系统验证，发现随着训练数据量增加，模型性能持续提升，证明了数据缩放在软件工程任务中的有效性。
- 测试时扩展技术（TTS）：在推理阶段，通过增加独立rollout数量（例如N=8），进一步提升模型性能，最大化利用其推理能力。