qwen-vision-mcp

wafo210715/qwen-vision-mcp
0 starsMITCommunity

Install to Claude Code

This server doesn't publish a one-line install command. Follow the setup in the source repository.

Summary

Enables text-only LLMs to see images on demand by integrating Qwen vision models via MCP, supporting stateful multi-turn conversations with automatic history trimming.

README.md

qwen-vision-mcp

让任何文本模型(Claude、GLM、GPT、Gemini...)通过 MCP 按需"看图"。后端走阿里云 DashScope 的 qwen 视觉模型,通过 Anthropic 兼容接口调用。

为什么需要这个

文本模型(GLM-4、Claude Haiku、GPT-4o-mini 等便宜/快的模型)不会直接看图。但很多任务(截图报错、UI 调试、图表分析、文档 OCR)需要视觉理解。

qwen-vision-mcp 把 qwen 视觉模型包装成一个 MCP 工具 look(image, question),让任何 MCP 兼容的 Agent 按需调用——只在需要时才"看一眼",主对话仍由你便宜的文本模型驱动。

特色

  • 🧠 有状态多轮持久:同一会话内 qwen 会记得之前所有图片和问答,支持"再看一眼刚才那张图"。
  • 🚆 自动 trim 防超限:单次请求体超过 DashScope 6MB 上限时,自动把较早的 image block 替换成文字指针(保留文字 question + assistant 回复),长程多图对话不崩。
  • 🔌 按进程隔离:每个客户端会话独立一个 MCP server 进程,messages 不串台。
  • 📦 极简依赖:只依赖 @modelcontextprotocol/sdk,Bun 直接跑 .ts,无编译步骤。
  • 🔁 失败干净回滚:网络异常 / HTTP 错误时自动 pop 掉刚 push 的 user message,历史不污染。

工作原理

文本模型 (GLM/Claude/GPT)  ──MCP stdio──▶  qwen-vision-mcp server
                                                  │
                                                  ▼
                                          DashScope qwen 视觉模型
                                         (Anthropic 兼容接口)

主模型决定"什么时候需要看图、问什么",qwen 只负责"看一眼并回答具体问题"。模型行为由工具 description 引导(要拆解、要聚焦、要多轮追问)。

安装

需要 Bun 运行时 + DashScope API Key(阿里云百炼控制台 获取)。

git clone <your-fork-url> qwen-vision-mcp
cd qwen-vision-mcp
bun install                    # 装 @modelcontextprotocol/sdk
cp .env.example .env           # 填入 QWEN_API_KEY

.env 内容:

QWEN_BASE_URL=https://dashscope.aliyuncs.com/apps/anthropic/v1
QWEN_API_KEY=sk-你的-key
QWEN_MODEL=qwen3.7-plus
QWEN_MAX_TOKENS=1024
QWEN_MAX_REQUEST_BYTES=5000000

接入 MCP 客户端

Claude Code

~/.claude.json(或项目级 .mcp.json)的 mcpServers 里加:

{
  "mcpServers": {
    "qwen-vision": {
      "command": "bun",
      "args": ["run", "/absolute/path/to/qwen-vision-mcp/index.ts"],
      "env": { "QWEN_API_KEY": "sk-..." }
    }
  }
}

Cursor / Continue / 其它 MCP 客户端

任何支持 stdio MCP server 的客户端都能接入,配置格式大同小异——指定 bun 为 command,run /path/to/index.ts 为 args,把 QWEN_API_KEY 放到 env 里。

Proma

在 Proma 工作区的 mcp.json 里加:

"qwen-vision": {
  "type": "stdio",
  "command": "bun",
  "args": ["run", "/absolute/path/to/qwen-vision-mcp/index.ts"],
  "env": { "QWEN_API_KEY": "sk-...", "QWEN_MODEL": "qwen3.7-plus" },
  "enabled": true
}

暴露的工具

look(image, question) — 有状态

让 qwen 看一张图片回答你提出的具体问题。

  • image: 本地绝对路径 / http(s) URL / data:image;base64,...
  • question: 针对该图片的具体、聚焦的问题

重要:这个工具是有状态的。同一会话内 qwen 会记得前面所有图片和问答。

  • 同一张图追问细节 → 直接连续调用,qwen 自带上下文
  • 切换到完全无关的新图 → 先调 reset_vision_session 清空历史,避免旧图污染

reset_vision_session() — 清空历史

何时调:当前图片讨论完、要切到无关新图时,或想从干净状态重启时。 何时不调:同一张图的多轮追问、相关图片延续讨论时。

配置项

| 环境变量 | 默认 | 说明 | |---|---|---| | QWEN_BASE_URL | https://dashscope.aliyuncs.com/apps/anthropic/v1 | DashScope Anthropic 兼容入口 | | QWEN_API_KEY | 必填 | DashScope API Key | | QWEN_MODEL | qwen3.7-plus | 视觉模型 id(可改 qwen-vl-max-latest 等) | | QWEN_MAX_TOKENS | 1024 | 单次回复 token 上限 | | QWEN_MAX_REQUEST_BYTES | 5000000 | 单次请求体字节上限(DashScope 硬上限 6MB) | | QWEN_ENABLE_THINKING | false | 推理模型 thinking 开关。默认关(视觉问答 7-10x 提速);复杂图表分析/推理题场景设 true |

已知限制

  • 进程隔离 ≠ 跨重启持久化:进程被杀(客户端退出、crash)→ 内存里的 messages 丢失 = 自动 reset。同一会话活跃期间的持久化没问题,跨重启做不到。
  • URL 图片需 DashScope 服务端能访问:内网图床 / 被墙的 URL 会报 Failed to download multimodal content用本地路径最稳
  • 历史图片 trim 策略:超过 QWEN_MAX_REQUEST_BYTES 时从最早的 image 开始替换成文字指针,保留最后 1 张图和所有文字。这意味着 qwen 对"很久之前的图"会失去视觉记忆(但仍能从对话历史里"读"自己之前的描述)。

故障排查

| 错误 | 原因 | 解决 | |---|---|---| | 404 | BASE_URL 错了 | 确认用 /apps/anthropic/v1 而不是 /compatible-mode/v1 | | model not found | QWEN_MODEL id 错了 | 查 DashScope 文档 确认 id | | Failed to download multimodal content | URL 图片 DashScope 服务端访问不到 | 改用本地路径 | | Exceeded limit on max bytes to request body : 6291456 | 请求体超 6MB | 已自动 trim;若仍报错,调小 QWEN_MAX_REQUEST_BYTES 或主动调 reset_vision_session | | 响应慢(每次 10s+) | qwen3.7-plus 是推理模型,默认每轮生成几百 token thinking | 已默认关 thinking;确认 QWEN_ENABLE_THINKING=false(或换非推理模型如 qwen-vl-max-latest) |

开发与测试

# 启动 server(stdio 模式,等待客户端连接)
bun run index.ts

# 协议层冒烟测试(发 initialize + tools/list)
( \
  printf '%s\n' \
    '{"jsonrpc":"2.0","id":1,"method":"initialize","params":{"protocolVersion":"2024-11-05","capabilities":{},"clientInfo":{"name":"test","version":"1.0"}}}' \
    '{"jsonrpc":"2.0","method":"notifications/initialized"}' \
    '{"jsonrpc":"2.0","id":2,"method":"tools/list","params":{}}' ; \
  sleep 2 \
) | bun run index.ts

# 端到端测试(看一张本地图)
( \
  printf '%s\n' \
    '{"jsonrpc":"2.0","id":1,"method":"initialize","params":{"protocolVersion":"2024-11-05","capabilities":{},"clientInfo":{"name":"test","version":"1.0"}}}' \
    '{"jsonrpc":"2.0","method":"notifications/initialized"}' \
    '{"jsonrpc":"2.0","id":3,"method":"tools/call","params":{"name":"look","arguments":{"image":"/tmp/test.png","question":"一句话描述这张图"}}}' ; \
  sleep 15 \
) | bun run index.ts

License

MIT

Related MCP servers

Browse all →