Kimi K2：开源智能体引擎

关注公众号JavaEdge

文章目录

0 前言
1 智能体与竞赛级编程能力
2 工具使用能力
3 数学与 STEM 能力
4 应用场景示例
4.1 工资数据分析
关键统计结果：
可视化分析：
总结：
4.2 可视化网页展示
🎨 设计亮点：
📊 数据分析内容：
🧮 交互模拟器：
4.3 Kimi K2 的其他示例
4.4 示例：用 JavaScript 编写 3D Minecraft 网页版
5 Kimi K2 基准测试表现
Kimi-K2-Instruct
6 开放的智能体智能
MuonClip 优化器
7 智能体能力
大规模代理数据合成
通用强化学习
8 使用 Kimi K2
在线体验
API 接入
本地部署
9 后续
10 限制

Kimi K2：开源智能体引擎

原创

公众号JavaEdge 2025-07-19 21:21:02 ©著作权

文章标签 python 人工智能大模型应用开发 文章分类 深度学习人工智能

©著作权归作者所有：来自51CTO博客作者公众号JavaEdge的原创作品，请联系作者获取转载授权，否则将追究法律责任

本文已收录在Github，关注我，紧跟本系列专栏文章，咱们下篇再续！

🚀 魔都架构师 | 全网30W技术追随者
🔧 大厂分布式系统/数据中台实战专家
🏆 主导交易系统百万级流量调优 & 车联网平台架构
🧠 AIGC应用开发先行者 | 区块链落地实践者
🌍 以技术驱动创新，我们的征途是改变世界！
👉 实战干货：编程严选网

0 前言

Kimi K2 是我们最新发布的MoE，激活参数达 320 亿，总参数量高达 1 万亿。在前沿知识、数学与编程任务中，Kimi K2 在“非思维模型”类别中表现优异，达到当前最先进水平。但这还不是全部 —— Kimi K2 针对“智能体任务”进行了精心优化，它不仅能回答问题，更能执行任务。

本次开源：

Kimi-K2-Base：基础模型，适合研究人员和开发者微调和定制
Kimi-K2-Instruct：经过后训练优化，适合通用对话与智能体应用，即插即用，无需深度思考

Kimi K2 让先进的智能体智能更加开放与可及。期待看到你用它构建的精彩应用。

1 智能体与竞赛级编程能力

SWE-bench Verified：

SWE-bench Multilingual：

LiveCodeBench v6：

OJBench：

2 工具使用能力

Tau2-bench 加权平均值：

AceBench（英文）

3 数学与 STEM 能力

AIME 2025：

GPQA-Diamond：

上述评测模型均为非思考模型

Tau2-Bench 按任务权重加权

SWE-Bench Multilingual 仅评测了 Claude 4 Sonnet，因 Claude 4 Opus 成本过高

4 应用场景示例

只需将工具和任务描述交给 Kimi K2，它会自动理解并完成任务，无需你手动编写复杂流程。

4.1 工资数据分析

示例任务：

利用 2020–2025 年工资数据，分析远程办公比例对工资的影响，并判断该影响是否随工作经验等级（入门/中级/高级/专家）而显著不同，即是否存在交互效应。分析需包含统计证据和丰富的可视化图表，配色统一和谐（建议使用柔和色调）。

**分析流程如下（使用 IPython 执行）**：

加载数据并了解结构
筛选 2020–2025 年的数据，绘制小提琴图按经验和远程比例分类展示工资分布
将 remote_ratio 分类为“现场办公”、“混合办公”和“远程办公”，再绘制箱线图比较不同经验等级的工资分布
进行双因素方差分析（ANOVA），检验远程办公与经验等级的主效应与交互效应
因数据不足，改用每组经验等级内远程 vs 现场的成对 t 检验，比较显著性
计算各组合的平均工资，使用柱状图清晰展示交互情况
进一步生成交互图、散点图、平均薪资对比图，直观展示远程办公对不同经验等级工资的影响
最后生成总结图，清晰展示不同经验等级远程 vs 现场办公的工资百分比差异

结论摘要：

使用 2020–2025 年的数据，我们检验了远程办公比例对工资的影响及其是否因经验等级而不同。结果发现：远程办公比例与经验等级之间存在显著的交互作用。

关键统计结果：

入门级员工：远程比现场高出 8.0%，p≈0.20（不显著）
中级员工：远程比现场低 8.5%，p=0.003（高度显著）
高级员工：远程比现场低 3.5%，p≈0.05（边缘显著）
专家级员工：远程比现场高 4.6%，p≈0.61（不显著）

可视化分析：

图表清晰展示了远程办公带来的薪资差异会因经验等级而异。尤其是中级员工，远程办公者面临明显薪资劣势，而入门和专家级可能会略有优势。

总结：

远程办公对工资的影响并非一致，而是随经验等级而变。对于中级员工，远程办公可能带来显著的薪资惩罚，而对入门与专家级员工则可能带来一定优势。

4.2 可视化网页展示

我们为这份分析设计了一个精美网页，包含：

🎨 设计亮点：

柔和 / 馥郁色调（pastel, muted），时尚杂志风格
清晰的排版与响应式设计，适配手机与桌面
统一的视觉层次与间距控制

📊 数据分析内容：

执行摘要：关键统计数据以图卡形式展示
详细分析过程：包括数据清洗、可视化、统计检验
图表展示：嵌入所有可视化图像

🧮 交互模拟器：

用户可输入：经验等级、期望薪资、远程意愿、行业
实时模拟推荐是否适合远程办公
颜色提示结果（绿=推荐，黄=谨慎，红=不推荐）
详细预测远程办公对工资的影响

4.3 Kimi K2 的其他示例

使用 16 个 IPython 步骤，自动完成数据分析并生成网页
结合网页搜索、浏览器操作、滚动、点击和部署，实现自动生成互动站点
安排 Coldplay 伦敦演唱会行程，包括搜索航班、餐厅与 Airbnb 预订

想象一下，使用 Kimi K2 探索远程办公薪资，借助“薪资数据分析”这个示例，16 个 IPython 调用自动生成统计结果、可视化图表和一个交互式网页；深入了解 Stanford NLP 系谱图谱，Kimi K2 可通过 5 次网页搜索、4 次浏览、3 次点击、5 次滚动、6 次编辑和 2 次部署，构建出一个交互式站点；又或是计划你心中的 2025 年 Coldplay 伦敦巡演之旅，Kimi K2 可通过 17 次无缝工具调用完成从搜索、日历、Gmail、航班、Airbnb 到餐厅预订的全部流程。

现在，把 Kimi K2 带到你的命令行中吧。它能编辑文件，能执行命令。

Kimi K2 能理解你的操作环境，自主决定下一步执行什么，并顺利完成任务。

4.4 示例：用 JavaScript 编写 3D Minecraft 网页版

去官网。

为便于理解，终端中仅显示每条任务轨迹的概要信息。在每个示例中，Kimi K2 都在幕后协调多个工具与命令，来完成复杂目标。例如，Kimi K2 可自动完成 JavaScript 编写的 Minecraft 游戏开发：它管理渲染流程、运行并调试测试用例、在失败时记录日志，并不断迭代代码直到全部测试通过。对于前/后归一化分析，Kimi K2 可使用 Weights & Biases（wandb）数据读取器提取语言模型实验的洞见，并生成一份精致的分析报告。在将一个 Flask 项目迁移至 Rust 时，Kimi K2 会系统地重构整个代码库并运行性能基准测试，以确保性能稳健。

5 Kimi K2 基准测试表现

Kimi-K2-Instruct

下表展示 Kimi-K2-Instruct 的性能表现，显示该模型在众多任务中与最新的开源或闭源模型相当，甚至超越它们。该模型在知识密集型和推理类基准上表现尤为出色，在自然语言理解、数学科学、代码生成与智能体工具使用等方面均有卓越成绩。

上述评估的所有模型均为“非思维模型”
表中加粗表示全球 SOTA，带下划线表示开源 SOTA
带 * 的数据来自模型的技术报告或官方博客
除 SWE-bench Verified（非智能体模式）外，所有评测均在 8k 输出 token 长度下进行。SWE-bench Verified（非智能体模式）限制为 16k 输出长度
Kimi K2 在使用 bash/editor 工具、单次尝试且不进行测试时，在 SWE-bench Verified 测试中达到了 65.8% 的 pass@1。同时，在 SWE-bench Multilingual 测试中也达到了 47.3% 的 pass@1。此外，我们还报告了另一组 SWE-bench Verified 的结果（71.6%），该测试使用了并行测试时计算：通过对多个样本序列打分并选择最优结果来生成最终提交
为了确保评估稳定性，我们在 AIME、HMMT、CNMO、PolyMath-en、GPQA-Diamond、EvalPlus 和 Tau2 上使用 avg@k 方式评估
部分数据因评估成本过高而未列出。

Kimi-K2-Base

下表总结了 Kimi-K2-Base 模型的表现，显示它在多个任务上可与当前最强的开源预训练模型相媲美，甚至超越。Kimi-K2-Base 在知识密集与推理类基准任务上表现尤为突出，在自然语言理解、数学和代码生成方面尤为擅长。

本评测仅涵盖开源预训练模型。我们报告了 Qwen2.5-72B 的结果，因为在评测时 Qwen3-235B-A22B 的基础 checkpoint 尚未开源
所有模型均使用统一的评估协议进行评测

详细表格略，原文查

6 开放的智能体智能

预训练是代理智能 (Agentic Intelligence) 的关键基础，它建立先验知识，使强化学习 (RL) 的探索变得易于处理、高效且具有泛化能力。然而，正如 Ilya Sutskever 所观察到的，人类数据是一种有限的“化石燃料”，其增长速度远远落后于计算速度。这使得预训练过程中的代币效率成为 AI 缩放定律中一个新的关键系数。

在“体验时代”（David Silver，Richard Sutton，2025）中，后训练至关重要。在这个时代，法学硕士越来越多地从自身产生的互动中学习，获得回报，使他们摆脱人类数据的限制，并超越人类的能力。

Kimi K2 正是基于这些见解而打造的。

MuonClip 优化器

在没有严格性的情况下，给定一个近似有限的预训练数据集和一个固定的模型配置，一个更高效的令牌优化器可以产生更高的智能。我们之前的研究“Moonlight”已经证明，在 LLM 训练中，Muon 优化器的性能显著优于广泛使用的 AdamW 优化器。

Kimi K2 的设计旨在进一步扩展 Moonlight，其架构与 DeepSeek-V3 类似。基于缩放律分析，我们减少了 head 的数量以提高长上下文效率，并增加了 MoE 稀疏性以提高 token 效率。在扩展过程中，我们遇到了一个持续存在的挑战：注意力 logit 爆炸导致的训练不稳定性。在我们的实验中，这个问题在 Muon 中更常见，但在 AdamW 中较少出现。现有的解决方案（例如 logit 软上限和查询键规范化）被发现不够完善。

为了解决这个问题，我们引入了 MuonClip 优化器，该优化器基于我们提出的 qk-clip 技术对 Muon 进行了改进。具体来说，qk-clip 通过在 Muon 更新后直接重新缩放查询和键投影的权重矩阵来稳定训练，从而控制源头注意力逻辑的规模。具体而言，查询和键投影的缩放比例如下：

![image-20250717105908953](/Users/javaedge/Library/Application Support/typora-user-images/image-20250717105908953.png)

其中 α 是平衡超参数，因此注意力逻辑变为：

![image-20250717105925698](/Users/javaedge/Library/Application Support/typora-user-images/image-20250717105925698.png)

每一步之后都会根据此步骤中的最大注意力逻辑设置自适应因子 η （阈值为 t ）：

![image-20250717105946839](/Users/javaedge/Library/Application Support/typora-user-images/image-20250717105946839.png)

其中 t 是预设阈值。这是一种通用技术，可能适用于其他稳定性用例。

我们的实验表明，MuonClip 能够有效防止逻辑爆炸，同时保持下游任务的性能。在实践中，Kimi K2 使用 MuonClip 在 15.5T 的 token 上进行了预训练，训练峰值为零，证明了 MuonClip 是稳定、大规模 LLM 训练的强大解决方案。

7 智能体能力

大规模代理数据合成

Kimi K2 的增强代理能力源于两个重要方面——大规模代理数据合成和通用强化学习。

用于工具使用学习的大规模代理数据合成：为了教会模型复杂的工具使用能力，我们受 ACEBench 启发，开发了一个全面的流程，可以大规模模拟现实世界的工具使用场景。我们的方法系统地演化了数百个包含数千种工具（包括真实的 MCP（模型上下文协议）工具和合成工具）的领域，并生成了数百个拥有不同工具集的代理。

所有任务均基于评分标准，从而实现一致的评估。代理与模拟环境和用户代理交互，创建逼真的多轮工具使用场景。LLM 评委根据任务评分标准评估模拟结果，筛选出高质量的训练数据。这种可扩展的流程能够生成多样化、高质量的数据，为大规模拒绝采样和强化学习奠定基础。

通用强化学习

通用强化学习：关键挑战在于将强化学习应用于具有可验证和不可验证奖励的任务；可验证任务的典型示例是数学和编程竞赛，而撰写研究报告通常被视为不可验证的任务。除了可验证奖励之外，我们的通用强化学习系统还采用自我判断机制，让模型充当自身的“批评家”，为不可验证任务提供可扩展的、基于评分标准的反馈。

同时，使用可验证奖励的在线策略 rollout 来持续更新评论家，使评论家不断提高其在最新策略上的评估准确性。这可以被视为一种利用可验证奖励来改进不可验证奖励估计的方法。

8 使用 Kimi K2

在线体验

访问 kimi.com，从今天开始，Kimi 的网页版和移动版用户均可免费选择并使用全新的 Kimi K2 模型。目前，我们网页版和 App 版的 MCP 功能仍在开发中。我们希望在未来几周内推出这些功能。在此期间，欢迎您试用我们的 Researcher，抢先体验其代理功能。请注意，Kimi K2 尚不支持视觉功能。

API 接入

Kimi 平台提供与 OpenAI/Anthropic 兼容的接口，方便您轻松将现有应用程序适配至 Kimi K2。我们鼓励开发者探索我们的工具调用 API，以构建代理应用程序。更多信息，请访问 platform.moonshot.ai。：platform.moonshot.ai

本地部署

建议以下推理引擎运行 Kimi K2：vLLM、SGLang、KTransformers 或 TensorRT-LLM。

详细部署说明GitHub 仓库

9 后续

Kimi K2 为开放式智能代理奠定了坚实的基础，而通用智能代理则拥有更高级的功能，例如思考和视觉理解，未来添加到 Kimi K2。

10 限制

内测发现K2处理复杂推理任务或工具定义不明确时，模型可能生成过多token，导致输出被截断或工具调用不完整。若启用工具，某些任务性能可能下降。

构建完整软件项目时，与在代理框架下使用 K2 相比，一次性提示会导致性能下降。

本文由博客一文多发平台 OpenWrite 发布！

赞
收藏
评论
分享
举报

上一篇：Dify v1.5.0：真正可用的实时工作流调试功能

下一篇：Grok 4 重磅发布：定义下一代 AI 智能巅峰

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册