Cline Ollama 配置 Ollama配置避坑
问题背景
在 VS Code 中用 Cline 连接本地 Ollama 模型时,默认配置经常出问题。我在 macOS M4 Mini(64GB 内存)上用 Qwen3.5-35B-A3B-4bit 测试时,遇到 5 个真实报错,每个都花了半小时以上才解决。
本文记录这 5 个问题的具体错误信息、原因分析、和修复方法。
---
坑1:Ollama 请求超时——默认30秒根本不够
错误信息:
Ollama request timed out after 30 seconds
原因: Cline 对 Ollama 请求的默认超时时间是 30 秒。对于 14B 以上的模型,在中端硬件(8GB VRAM)上,这个时间连"生成第一个 token"都不够。
修复方法:
在 Cline 设置中增加请求超时时间:
- `API Configuration` → `Request Timeout` → 改为 `120` 秒
如果用 CLI 配置文件(~/.config/cline/settings.json),添加:
{
"apiTimeout": 120,
"useCompactPrompt": true
}
注意:useCompactPrompt 会禁用部分高级功能,但能显著降低 13B+ 模型的响应时间。适合本地推理场景。
---
坑2:模型没启动就调用——ollama ps 查一下
错误信息:
Error: model "qwen3.5-35b-a3b-4bit" not found
原因: 没先在 Ollama 中加载模型就直接让 Cline 调用。
修复步骤:
第一步,检查 Ollama 是否运行:
ollama ps
输出示例(正常状态):
NAME ID SIZE MODIFIED
qwen3.5-35b-a3b-4bit a3b4c5d6... 22GB 2 minutes ago
第二步,如果模型没加载,手动启动:
ollama run qwen3.5-35b-a3b-4bit
第三步,确认端口监听(默认 11434):
curl http://localhost:11434/api/tags
返回 JSON 表示 Ollama 服务正常。
---
坑3:上下文窗口太小——32K 是最低要求
错误信息:
Context window too small for this model
原因: Cline 默认上下文窗口只有 4K tokens。但编程工具需要至少 32K tokens 才能有效处理多文件代码库。
修复方法:
在 Cline 设置中:
- `API Configuration` → `Context Window` → 改为 `32000` 或更高
不同模型的推荐上下文长度:
| 模型 | 推荐上下文 |
|---|---|
| Qwen3.5-35B | 32K-128K |
| LLaMA 3.1 70B | 128K |
| GLM-5 9B | 32K |
如果内存不够,优先保证 32K,不要降回 4K。
---
坑4:Ollama 远程地址写错了
错误信息:
Could not connect to Ollama at http://localhost:11434
原因: Ollama 默认只监听 localhost。如果用了 Docker 容器或远程机器,默认配置无法连接。
检查方法:
在 Ollama 服务器上执行:
# 查看 Ollama 监听地址
ps aux | grep ollama | grep -v grep
# 确认端口
lsof -i :11434
修复方法(远程 Ollama):
在 Cline 的 API Configuration 中:
- Provider 选择 `Ollama`
- `Use custom base URL` 填写远程地址,例如 `http://192.168.1.100:11434`
- 确认远程服务器的防火墙允许 11434 端口入站
Docker 运行 Ollama 时需要加 --network=host 或端口映射:
Docker 容器化部署 run -d --gpus=all -p 11434:11434 -v ollama:/root/.ollama ollama/ollama
---
坑5:API 密钥没填但用了 ollama.com
错误信息:
Invalid API key for ollama.com
原因: Ollama 官方 API(ollama.com)需要 API Key,但配置界面没有提示。
修复方法:
在 Cline 设置中:
1. API Provider 选 Ollama
2. 点 Use custom base URL
3. 填 https://ollama.com(注意是 https)
4. 在 API Key 栏填入你的密钥(从 ollama.com 获取)
或者,如果你用的是本地 Ollama(不需要 ollama.com):
- `API Provider` 选 `Custom`
- `Base URL` 填 `http://localhost:11434`
- `API Key` 留空
---
完整配置检查清单
每次配置完成后,按这个顺序验证:
# 1. Ollama 服务正常
curl http://localhost:11434/api/tags
# 2. 模型已加载
ollama ps
# 3. Cline 能通本地
curl -s http://localhost:11434/api/generate -d '{
"model": "qwen3.5-35b-a3b-4bit",
"prompt": "hi",
"stream": false
}'
# 4. 在 VS Code 中新建 Task,测试完整的 Plan/Act 循环
---
为什么本地模型越来越值得用
根据 2026 年 5 月的开发者工具调研数据:
- Cline 全球安装量已超过 **500 万**,是 VS Code 扩展市场中增长最快的 AI 编程工具
- Ollama 模型库已有超过 **10,000** 个社区模型
- 本地模型的 Token 生成成本接近于零(只需电费)
对于想要保护代码隐私、不想被 API 限流、或需要在离线环境工作的开发者,Cline + Ollama 的组合是当前最高性价比的方案。
如果你想快速体验,MiniMax 的 Token 计划提供了低价 GPU 资源,适合用来跑中等规模的本地模型测试:
👉 立即参与:https://platform.minimaxi.com/subscribe/token-plan?code=E5yur9NOub&source=link
---
我的测试环境(仅供参考):
📌 This article was AI-assisted generated and human-reviewed | TechPassive — An AI-driven content testing site focused on real tool reviews
🔗 Related Tech Articles
Deep dive into related technical topics: