API测试工作台

API测试工作台使用说明

快速开始

这个工具用于检查各类模型 API 或中转接口的接入质量。当前支持常见的 chat/completions 形态，也兼容部分 responses 形态接口，可用于测试连通性、基础能力、格式服从、长上下文、输出稳定性，以及响应 model 字段是否和请求模型接近。

推荐流程：先用「单次跑测」确认接口能正常工作，再用「官方对比」把待测接口和可信接口放在一起比较。工具输出的是风险信号和证据链，不是官方认证结论。

开始之前

准备 Base URL，例如 https://api.example.com/v1、https://api.example.com，或像 www.fhl.mom 这样的域名。系统会自动补全 HTTPS，并尽量识别可用的接口形态。Base URL 默认隐藏，可点击小眼睛临时查看。
准备 API Key，建议只使用试用 Key、临时测试 Key 或限额子账号 Key。
准备 模型 ID，例如 qwen-max、deepseek-chat、glm-4.5、claude-xxx。模型 ID 必须和供应商提供的名称保持一致，例如 gpt-5.5、gpt-5-5、claude-opus-4-5 这类写法不能凭感觉手改。
不要在公开电脑、直播画面、录屏素材里暴露正式生产 Key 或企业主账号 Key。

单次跑测

在左侧填写 Base URL、API Key、模型 ID，也可以把连接信息粘贴到「智能粘贴」后点「一键识别」。模型 ID 建议直接复制供应商后台给出的完整名称。
选择探针类别：「验收」用于完整检查，「补测」用于快速复核重点能力。
选择题库模式：「标准」便于横向复盘；「随机」会抽取变体题，降低固定题被针对性适配的风险。
点击「一键跑测」后，题库模式和探针类别会自动锁定，跑完或取消前不能切换，避免结果和页面状态错位。
点击任意探针，可以查看提示词、模型回答和评估明细。评估明细会自动换行，长内容不会撑破页面。

功能页说明

标签页	用途	适合场景
单次跑测	一键跑完整套探针	第一次接入、快速验收、随机复测
官方对比	A/B 两个接口并行跑同一批题	对比中转节点、可信节点或不同供应商
历史记录	保存并比较历次结果	追踪模型质量变化、节点波动和版本变化

探针在测什么

层级	重点	异常含义
基础层	最小返回、JSON、中文筛选、精确命中	接入点、格式控制或基础理解可能有问题
能力层	代码追踪、逻辑、概率、规则遵循、幻觉边界	推理、事实边界或系统规则处理不稳
对抗层	抗干扰、Prompt 注入、跨步一致性	安全边界或多步任务可靠性不足
耐久层	长输出、长上下文、多步推理链	长任务容易截断、重复、漏读或算错
进阶层	多轮回忆、工具规划、复杂业务推理	真实业务场景下可能丢上下文或结构不稳
行为侧写	安全边界、格式服从、短答长度、结构化倾向	仅用于观察回答习惯，不作为原厂/非原厂判断依据

看懂结果

综合评分：基于已完成探针计算，分数越高代表本轮接入质量越稳定。
接入质量诊断：整理本轮证据，包括 response.model、题库表现、长上下文、输出稳定性和行为侧写。
response.model：如果响应模型名和请求模型差异明显，需要优先复核供应商路由、别名映射或模型降级策略。
行为侧写：只展示回答风格特征，不直接输出“像某模型”，也不单独判断是否原厂。

注意：本工具给出的是风险信号，不是最终裁决。要确认是否存在路由替换、能力缩水或上下文裁剪，建议使用「官方对比」和真实业务任务一起判断。

怎么用随机题库

标准模式：题面固定，适合横向对比不同供应商、不同 Key、不同节点。
随机模式：系统会从同类题里抽一套，并记录本轮种子和题目 ID，适合防止固定题被硬编码适配。
换一套题：只在随机模式下可用。跑测开始后会锁定，避免中途切题造成报告错位。

常见错误

日志	含义	处理方式
`HTTP 401`	Key 无效	检查 API Key 是否填错或过期
`HTTP 403` / 渠道已禁用	当前 Key 或模型渠道无权限	更换模型、Key，或联系供应商开启渠道
`HTTP 502` / `upstream_error`	供应商上游服务或中转节点临时不可用	稍后重试、换节点/模型，或让供应商确认上游路由是否恢复
`temperature deprecated`	该模型不接受 temperature 参数	工具会自动跳过该参数重试
`Failed to fetch`	网络、CORS 或 URL 不可达	当前版本已接入本站代理以降低 CORS 影响；若仍失败，请确认供应商接口、Key、模型权限是否正常
公司内网可访问，本站测不了	目标接口可能只在内网/VPN可达，公网代理无法访问	在公司网络内部署代理，或让供应商提供公网可访问且放行 CORS 的测试入口
`finish_reason=length`	输出被截断	复核 max_tokens、模型输出上限或中转限制
超时	模型或节点响应太慢	重跑、换节点，或降低并发/等待高峰期过去

官方对比

官方对比适合把待测接口和可信接口放在一起比较。相比“凭印象判断模型风格”，同题 A/B 对比更可靠。分差较大时，应优先查看具体失败题、响应 model 和运行日志。

导出报告

跑测完成后点击顶部「导出报告」，会生成 Markdown 报告，包含探针明细、响应 model、分数、接入质量诊断和每个检查项，可用于存档或发给供应商排查。

隐私与数据

API Key 和 Base URL 会用于完成本次测试请求。为解决部分接口的浏览器 CORS 限制，当前版本会通过本站腾讯云代理转发请求到你填写的目标接口；代理只做请求转发，不做持久化保存。仍建议只使用试用 Key、临时测试 Key 或限额子账号 Key。
模型回答原文、探针 prompt、长上下文密钥答案都不上报。这些内容只在你本地浏览器内参与判分和展示。
默认不开启任何统计。只有当部署方在页面里显式配置 window.APITEST_ANALYTICS 时才会上报，且上报内容经过白名单脱敏，仅含：探针类别、题库模式、题目数量、完成进度、是否成功、脱敏后的模型家族前缀等非敏感元数据。
历史记录同样只存在本机浏览器，清空后不可恢复。

建议仍只使用试用 Key、临时测试 Key 或限额子账号 Key，并避免在公开录屏中暴露正式生产 Key。

更新日志版本规则

更新日志改用 日期.V序号 规则，例如 6.11.V2 表示 6 月 11 日第 2 个版本。列表按时间从新到旧排序。

测试配置 0 / 17

Base URL

API Key（仅限测试 Key）

模型 ID

ID 名称请和供应商提供的保持一致，例如横杠、点号和大小写都不要自行改写。

探针类别

题库模式

标准模式便于横向对比；随机模式可降低题型被针对性适配的风险。

建议：使用单独申请的试用 Key、限制额度的测试 Key，或临时子账号 Key。不要复用线上业务 Key。

探针

基础能力对抗耐久进阶

选择探针

未评估

探针 Prompt

模型返回 content

评估明细

验收结论

完成进度0 / 17

—

综合评分

—

风险等级

model 字段比对未知

请求模型—

响应 model—

一致性—

token 消耗比对

接口返回 usage未返回

工具估算消耗约 0

对比说明等待跑测

社区参考 NEW

未加载

社区帖子暂无

当前状态待发布

后续参考样本满 100 后统计

本轮动作跑测后可发布

发布的是脱敏测试帖：模型、域名、分数、完成题数和错误类型；不提交 Key、回答正文或完整 prompt。

A 端：待测节点

填写要验证的中转站或目标 endpoint。

Base URL

API Key

模型 ID

B 端：对比基线

填写可信接口作为官方对比基线。

Base URL

API Key

模型 ID

对照结果

未运行

等待运行

完成双端跑测后生成差异分析。

—

A 端综合分

—

B 端综合分

逐题对照

尚无数据

历史记录列表

每次单次跑测自动存档。选两个快照可对比能力变化趋势。

尚无历史记录

趋势对比

选 2 个快照

点击左侧两个快照进行对比

用户社区

用户自行测试后提交的匿名测试帖

模型 ID

Base URL 域名筛选

优先看完整测试帖（隐藏未完成、模型未配置、CORS/协议异常等接入失败）

当前先做测试帖罗列，方便大家互相查看真实案例。每个匿名用户每天最多提交 10 条；未记录 Base URL 域名的历史记录不会收录；同一测试结果只保留一次。

帖子概览

筛选后查看测试帖

等待样本

帖子数

—

完整测试帖

—

接入异常帖

涉及域名

暂无测试帖。跑测完成后可从右侧卡片发布脱敏测试帖。

测试帖列表

暂无测试帖

提交与隐私

测试帖只展示脱敏摘要，不展示密钥、回答正文和完整 prompt。

会提交：模型 ID、响应 model、Base URL 域名、评分、完成题数、风险等级、错误类型和 usage 汇总。
不会提交：API Key、完整 Base URL 路径、模型回答正文、完整 prompt、联系方式和用户备注。
提交限制：每天最多 10 条；没有 Base URL 域名的记录会提交失败；相同模型、域名、得分和关键结果只收录一次。
社区参考分会等帖子累计足够后再做，避免少量异常样本误导判断。

🎯

API测试工作台

模型 API 接入测试页

本页面用于模型接入测试、结果辅助判断与对比验证。
请仅使用试用 Key 或临时测试 Key，避免填写正式生产凭证。