Chouzz

模型部署记录

大模型部署记录 最近在公司部署了好多模型,记录一下不同模型的部署方式和参数配置,包括使用Ollama、VLLM等工具。 2. Ollama 部署记录 最开始的时候我用的OLLAMA来部署的模型,一个是因为内网存在OLLMA的镜像,可以直接下载使用,另外OLLAMA里面可以部署一些规模比较小的向量化模型,这可以让我在本地直接向量化一些小型代码仓。 2.1 环境变量配置 export OL...

从 0 到 1 搭建 vLLM 网关:用 Kong Gateway 打造可观测、可控的推理服务

背景 在企业内部部署 vLLM 提供大模型推理服务时,如果直接把服务端口暴露在内网,往往会遇到下面这些“裸奔”问题: 无权限控制:API 地址一旦泄露,任何人都能调用,GPU 资源容易被滥用。 无流量限制:某个脚本写了个死循环,瞬间把显卡打满,其他同事的任务直接被拖垮。 无监控审计:不知道是谁用了多少 Token,很难做成本核算和容量规划。 协议兼容性差:希望完全兼容 ...