测试配置 0 / 17
ID 名称请和供应商提供的保持一致,例如横杠、点号和大小写都不要自行改写。
标准模式便于横向对比;随机模式可降低题型被针对性适配的风险。
建议:使用单独申请的试用 Key、限制额度的测试 Key,或临时子账号 Key。不要复用线上业务 Key。
探针
基础 能力 对抗 耐久 进阶
选择探针
未评估
验收结论
完成进度0 / 17
综合评分
风险等级
model 字段比对 未知
请求模型
响应 model
一致性
token 消耗比对
接口返回 usage未返回
工具估算消耗约 0
对比说明等待跑测
社区参考 NEW
未加载
社区帖子暂无
当前状态待发布
后续参考样本满 100 后统计
本轮动作跑测后可发布
发布的是脱敏测试帖:模型、域名、分数、完成题数和错误类型;不提交 Key、回答正文或完整 prompt。
A 端:待测节点
填写要验证的中转站或目标 endpoint。
B 端:对比基线
填写可信接口作为官方对比基线。
对照结果
未运行
等待运行
完成双端跑测后生成差异分析。
A 端综合分
B 端综合分
尚无数据
历史记录列表
每次单次跑测自动存档。选两个快照可对比能力变化趋势。
尚无历史记录
趋势对比
选 2 个快照
点击左侧两个快照进行对比
用户社区
用户自行测试后提交的匿名测试帖
当前先做测试帖罗列,方便大家互相查看真实案例。每个匿名用户每天最多提交 10 条;未记录 Base URL 域名的历史记录不会收录;同一测试结果只保留一次。
帖子概览
筛选后查看测试帖
等待样本
0
帖子数
完整测试帖
接入异常帖
0
涉及域名
暂无测试帖。跑测完成后可从右侧卡片发布脱敏测试帖。
测试帖列表
暂无测试帖
提交与隐私
测试帖只展示脱敏摘要,不展示密钥、回答正文和完整 prompt。
  • 会提交:模型 ID、响应 model、Base URL 域名、评分、完成题数、风险等级、错误类型和 usage 汇总。
  • 不会提交:API Key、完整 Base URL 路径、模型回答正文、完整 prompt、联系方式和用户备注。
  • 提交限制:每天最多 10 条;没有 Base URL 域名的记录会提交失败;相同模型、域名、得分和关键结果只收录一次。
  • 社区参考分会等帖子累计足够后再做,避免少量异常样本误导判断。
🎯
API测试工作台
模型 API 接入测试页
本页面用于模型接入测试、结果辅助判断与对比验证。
请仅使用试用 Key 或临时测试 Key,避免填写正式生产凭证。