Chouzz

从 0 到 1 搭建 vLLM 网关:用 Kong Gateway 打造可观测、可控的推理服务

背景 在企业内部部署 vLLM 提供大模型推理服务时,如果直接把服务端口暴露在内网,往往会遇到下面这些“裸奔”问题: 无权限控制:API 地址一旦泄露,任何人都能调用,GPU 资源容易被滥用。 无流量限制:某个脚本写了个死循环,瞬间把显卡打满,其他同事的任务直接被拖垮。 无监控审计:不知道是谁用了多少 Token,很难做成本核算和容量规划。 协议兼容性差:希望完全兼容 ...

从一个问题拆解 Claude Code 背后与 LLM 的交互及其原理

本文通过分析 Claude Code 在回答一个”介绍 l2topo 组件拓扑计算算法”问题时的 32 轮内部对话,深入揭示了其背后的多 agent 协作机制和系统设计原理。研究发现,Claude Code 采用了”多阶段任务流水线”的架构模式,通过主题识别、任务规划、代码探索、算法分析和结果整合五个阶段,将复杂的代码分析任务分解为可执行的子环节。通过精心设计的工具体系和权限控制,让 LLM...