MCP开发实战（一）基于MCP协议的大模型网关——多个大模型API统一封装为标准化工具

原创已于 2025-04-25 01:26:10 修改 · 923 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#python #AI编程

于 2025-04-24 14:35:22 首次发布

基于MCP协议开发大模型网关的核心目标是将多个大模型API统一封装为标准化工具，通过MCP协议实现安全可控的调用。以下是结合用户代码与MCP协议特性的开发实践指南：

一、架构设计要点

协议层统一
采用MCP 2024-11-05版协议，通过Streamable HTTP实现客户端与服务器的双向通信。相较于传统SSE，新协议支持动态升级HTTP请求为流式传输，简化了端点管理（如用户代码中的/mcp统一处理所有请求）。
网关核心功能
• 多模型代理：每个大模型API封装为独立的MCP Tool（如gpt4-generate、claude3-summarize）

• 动态路由：根据请求参数自动选择最优模型（如根据model_type参数路由）

• 流量控制：在MCP Server层实现请求限速与配额管理
安全机制
• API密钥管理：通过Nacos等配置中心动态加载密钥（如用户代码中API_KEY的注入）

• 权限校验：在tools/call阶段验证调用权限（参考网页5的沙箱环境方案）

二、MCP Server开发实践
关键代码改造

# 扩展多模型工具注册
TOOLS_REGISTRY["tools"].extend([
    {
        "name": "gpt4_generate",
        "description": "GPT-4文本生成接口，支持max_tokens参数控制长度",
        "inputSchema": {
            "type": "object",
            "properties": {
                "prompt": {"type": "string"},
                "max_tokens": {"type": "integer"}
            },
            "required": ["prompt"]
        }
    },
    {
        "name": "claude3_analyze",
        "description": "Claude 3多模态分析接口，支持图像URL输入",
        "inputSchema": {
            "type": "object",
            "properties": {
                "image_url": {"type": "string"},
                "analysis_type": {"type": "string"}
            }
        }
    }
])

# 添加模型调用处理逻辑
async def stream_model_inference(model_name: str, params: dict) -> AsyncIterator[bytes]:
    """统一处理大模型调用，返回流式结果"""
    # 示例：路由到不同模型后端
    if model_name == "gpt4_generate":
        async for chunk in openai_client.chat.completions.create(
            model="gpt-4", messages=[{"role": "user", "content": params["prompt"]}], stream=True
        ):
            yield json.dumps({"stream": chunk.choices[0].delta.content})
    elif model_name == "claude3_analyze":
        # 调用Claude API并流式返回...

配置管理优化

# 通过环境变量动态加载多模型配置
MODEL_CONFIG = {
    "gpt4": {"endpoint": os.getenv("GPT4_ENDPOINT"), "api_key": os.getenv("GPT4_KEY")},
    "claude3": {"endpoint": os.getenv("CLAUDE3_ENDPOINT"), "api_key": os.getenv("CLAUDE3_KEY")}
}

三、MCP Client开发关键
多模型负载均衡实现

# 在MultiHTTPMCPClient中添加智能路由
async def select_best_model(self, prompt: str) -> str:
    """根据prompt内容选择最优模型"""
    # 示例：使用轻量级模型进行路由决策
    routing_prompt = f"""
    根据用户输入判断最适合的模型：
    输入：{prompt}
    可选模型：{self.servers.keys()}
    返回JSON: {{"model": "model_name", "reason": "..."}}
    """
    response = await self.llm.chat([{"role": "user", "content": routing_prompt}])
    return json.loads(response.choices[0].message.content)["model"]

流式响应处理增强

# 改进call_local_tool以支持多模型流式输出
async def call_local_tool(self, full_name: str, args: Dict[str, Any]) -> str:
    srv_name, tool_name = full_name.split("_", 1)
    async for chunk in self.servers[srv_name].call_tool_stream(tool_name, args):
        # 实时将流式数据推送至前端
        websocket.send_text(chunk)  # 假设集成WebSocket
        yield chunk

四、部署与测试方案

容器化部署

# 多阶段构建优化镜像大小
FROM python:3.10-slim as builder
RUN pip install mcp fastapi httpx uvloop

FROM gcr.io/distroless/python3-debian11
COPY --from=builder /usr/local/lib/python3.10/site-packages /usr/local/lib/python3.10/site-packages
COPY ./src /app
CMD ["/app/mcp_gateway.py"]

自动化测试
使用MCP Inspector进行协议级验证：

npx @modelcontextprotocol/inspector --url http://localhost:8000/mcp --tool get_weather

五、高级功能扩展

上下文感知路由
通过MCP的Roots机制，让模型动态感知可用数据源：

{
  "roots": [
    {"uri": "file:///mnt/models/gpt4", "name": "GPT-4模型仓库"},
    {"uri": "https://api.claude.ai/v3", "name": "Claude3生产端点"}
  ]
}

混合执行模式
结合Sampling机制实现人机协同：

async def sensitive_operation(self, prompt: str):
    # 高风险操作需人工审核
    await self.llm.sampling_request(
        prompt, 
        approval_callback=lambda: input("是否允许执行此操作？(y/n)")
    )

六、性能优化建议

连接池管理

# 使用httpx.AsyncClient保持长连接
self.session = httpx.AsyncClient(
    limits=httpx.Limits(max_connections=100, max_keepalive_connections=20),
    timeout=httpx.Timeout(10.0, pool=5.0)
)

协议级缓存
通过MCP的context字段实现响应缓存：

@mcp.resource("cache://{key}")
def get_cached_response(key: str) -> dict:
    return redis.get(key) or {}

以上方案结合了用户代码与MCP协议的最佳实践，实现了大模型API的统一网关化。关键创新点包括动态模型路由、流式响应增强、混合执行模式等，既遵循协议规范，又扩展了生产级功能需求。