Chouzz

从一行 Bash 到一级原语:Ralph Loop 与 AI 编程代理的自主循环演进

2025 年 7 月,Geoffrey Huntley 写了一篇博客,提出了一个荒谬得不像正经方案的想法:把 AI 编程代理塞进一个 bash 死循环里,让它不停地跑,直到完成为止。 八个月后,OpenAI 和 Anthropic 先后在自己的 CLI 工具中内置了这个模式,命名为 /goal。 从一个社区玩笑到两大厂商的一级原语,这个故事值得讲清楚。 一行 Bash 改变一切 Ra...

黄昏田野,夕阳映照着广袤的土地

读《活着》:人到三十,终于懂了人生不必硬闯

合上《活着》的最后一页,我没有沉浸在那种巨大的悲悯里,反而是长久地沉默。 很多人觉得福贵太惨了,命运简直是在逮着他一个人往死里薅。年少败家,亲人一个个离去,轰轰烈烈一辈子,最后只剩下一头老牛。放眼看去,你很难再找到比他更苦的人。 我当然承认那是极致的悲剧。但在那一刻我脑子里冒出的念头却是:福贵的苦难是小说里的剧本,而我面前的,是握在自己手里的真实人间。 我们不需要去复刻那种苦难,但或许能...

数据中心服务器机房

模型部署记录

大模型部署记录 最近在公司部署了好多模型,记录一下不同模型的部署方式和参数配置,包括使用Ollama、VLLM等工具。 2. Ollama 部署记录 最开始的时候我用的OLLAMA来部署的模型,一个是因为内网存在OLLMA的镜像,可以直接下载使用,另外OLLAMA里面可以部署一些规模比较小的向量化模型,这可以让我在本地直接向量化一些小型代码仓。 2.1 环境变量配置 export OL...

从 0 到 1 搭建 vLLM 网关:用 Kong Gateway 打造可观测、可控的推理服务

背景 在企业内部部署 vLLM 提供大模型推理服务时,如果直接把服务端口暴露在内网,往往会遇到下面这些“裸奔”问题: 无权限控制:API 地址一旦泄露,任何人都能调用,GPU 资源容易被滥用。 无流量限制:某个脚本写了个死循环,瞬间把显卡打满,其他同事的任务直接被拖垮。 无监控审计:不知道是谁用了多少 Token,很难做成本核算和容量规划。 协议兼容性差:希望完全兼容 ...