AI Agent 工具调用超时与“卡死”的调试实录：从取消传播到结构化并发的落地

技术主题：AI Agent（人工智能代理）
内容方向：具体功能的调试过程（问题现象、排查步骤、解决思路）

引言

活动高峰时，我们的 Agent 在调用检索和第三方推理工具时频繁出现“请求超时但任务仍占用资源”“会话卡死不返回”的现象。表面看是超时配置不生效，实则牵涉到取消传播、后台任务泄漏、缺少背压的系统性问题。本文记录完整的调试过程与工程化改造方案，并给出可落地的 Python asyncio 代码骨架。

一、问题现象

上层调用设置了 8s 超时，但工具调用偶发 20s+ 才返回或直接卡住；
取消后仍有 CPU/文件句柄/连接占用，导致后续请求受影响；
监控显示并发数逐步走高、事件循环待办任务堆积，P95 时延陡增；
偶发“幽灵日志”：取消后过数十秒仍打印下游任务日志。

二、复现与排查步骤

最小化复现实例：构造一个忽略取消、内部再开子任务的“坏工具”；
打开 asyncio 调试模式：PYTHONASYNCIODEBUG=1，记录任务创建栈；
注入超时与取消：观察任务树与资源句柄是否释放；
事件循环/任务观测：采样 pending tasks、队列长度、打开的 socket/文件；
定位关键点：取消未向子任务传播、子任务未 await 导致泄漏、无结构化并发导致“孤儿任务”。

三、根因分析

取消未传播：仅对外层 wait_for 取消，内部子任务未感知，继续运行；
背景任务泄漏：fire-and-forget 未被跟踪，取消时无统一收敛与清理；
缺少背压：不限并发消费导致队列暴涨，超时后仍有大量任务在排队或运行；
资源清理缺失：未在 finally 中关闭流、连接或释放句柄；
指标缺失：无 per-tool 的“超时/取消/未清理任务数”指标，不易早发现。

四、解决方案总览

结构化并发：统一用 TaskGroup/聚合器管理子任务，生灭有边界；
超时与取消：仅在边界处使用 wait_for，捕获 CancelledError 并向下游传播；
背压与并发：信号量/队列限流，保障系统可预测；
资源清理：在 finally 中关闭流/连接，设置超时兜底清理；
观测：暴露“活跃任务、超时次数、取消次数、清理耗时、失败原因”指标。

五、关键代码（Python/asyncio）

Python 3.11 起可用 TaskGroup；本文同时给出兼容写法。示例中模拟一个工具调用，它内部会开子任务并可能忽略取消。

# python
import asyncio
import contextlib
import random

class ToolError(Exception):
    pass

async def bad_subtask(name: str):
    # 模拟忽略取消：捕获取消并继续工作（反模式）
    try:
        await asyncio.sleep(random.uniform(0.5, 2.0))
    except asyncio.CancelledError:
        # 反模式：吞掉取消，继续做事
        await asyncio.sleep(1.5)
        raise  # 正确做法应继续抛出

async def tool_call(query: str):
    # 伪造 IO
    t = asyncio.create_task(bad_subtask("inner"))  # fire-and-forget（反模式）
    await asyncio.sleep(random.uniform(0.2, 1.0))
    return {"ok": True, "q": query, "subtask": t}

class ToolRunner:
    def __init__(self, max_concurrency=10):
        self.sem = asyncio.Semaphore(max_concurrency)

    async def _cleanup_task(self, t: asyncio.Task, timeout: float = 0.5):
        if t.done():
            return
        t.cancel()
        with contextlib.suppress(asyncio.CancelledError):
            await asyncio.wait_for(t, timeout=timeout)

    async def call_with_timeout(self, query: str, timeout: float = 3.0):
        async with self.sem:  # 背压控制
            # 边界处施加超时
            try:
                resp = await asyncio.wait_for(tool_call(query), timeout=timeout)
            except asyncio.TimeoutError:
                raise ToolError("tool_timeout")
            except asyncio.CancelledError:
                raise
            # 统一收敛子任务
            sub = resp.get("subtask")
            if isinstance(sub, asyncio.Task):
                await self._cleanup_task(sub)
            return resp

async def main():
    runner = ToolRunner(max_concurrency=5)
    tasks = [asyncio.create_task(runner.call_with_timeout(f"q{i}", timeout=1.0)) for i in range(20)]
    try:
        results = await asyncio.gather(*tasks, return_exceptions=True)
        print(sum(1 for r in results if isinstance(r, Exception)), "errors")
    finally:
        # 兜底：取消仍存活任务
        pending = [t for t in asyncio.all_tasks() if not t.done() and t is not asyncio.current_task()]
        for t in pending:
            t.cancel()
        await asyncio.gather(*pending, return_exceptions=True)

if __name__ == "__main__":
    asyncio.run(main())

要点：

背压：信号量限制并发，避免超时后仍无限排队；
边界超时：仅在工具边界使用 wait_for，避免嵌套多层超时相互干扰；
子任务收敛：从响应中取回子任务统一清理；对未知子任务可收敛到 TaskGroup；
兜底清理：进程/会话结束前取消所有未结束任务，防止“幽灵任务”。

结构化并发（Python 3.11+）

# python
import asyncio

async def good_tool_call(query: str):
    async with asyncio.TaskGroup() as tg:
        t1 = tg.create_task(asyncio.sleep(0.5))
        t2 = tg.create_task(asyncio.sleep(1.0))
        # 如果上层取消/出错，TaskGroup 会保证所有子任务统一取消与收敛
    return {"ok": True}

取消传播与可中断操作

只要 await 的对象在被取消时抛出 CancelledError，取消即可沿着 await 链传播；
对阻塞 I/O（数据库/HTTP）应设置超时并支持取消（如 httpx/aiohttp 的超时），否则会“吞取消”。

六、验证与观测

压测：在 2x-5x 峰值流量下，观察活跃任务数是否稳定；
故障注入：人为延长下游响应，触发超时与取消，验证子任务被统一收敛；
指标：
- concurrency_active、queue_length、timeouts_total、cancellations_total、cleanup_duration_ms；
- orphan_tasks_after_cleanup（清理后仍存留的任务数，理想=0）。

七、防坑清单

不要 fire-and-forget；使用 TaskGroup 或集中注册/清理；
超时只在边界加一层 wait_for，并明确兜底清理逻辑；
对 CPU 计算/阻塞 I/O，使用专门的执行器或子进程，避免阻塞事件循环；
加背压：队列与并发上限必须可配置，拒绝和降级优先于无限排队；
标配观测：记录每个工具的超时、取消、清理指标与最慢 TopN 栈；
定期演练：故障注入+压测，回归“取消传播”是否仍然完好。

总结

这次调试的关键，不是简单地“调大超时”，而是把“结构化并发、取消传播、背压与清理”作为整体能力沉淀到 Agent 的工具调用层。只有把任务的“生与死”都纳入边界管理，才能真正解决“超时不返回、后台卡死”的类问题，让你的 Agent 在高并发和异常条件下也能稳定、可预期地运行。