智能体能力够强吗?在自己的工具上评测开源模型 模型训练 · 2 阅读 · 2026-06-20 · 自动采集 Is it agentic enough? Benchmarking open models on your own tooling