最近更新
更新日志按 日期.V序号 排序,例如 6.22.V1 表示 6 月 22 日第 1 个版本;越靠前越新。
6.30.V1 NEW
上线用户社区与提交规则
- 用户社区:新增社区页面和发帖入口,先罗列用户自行测试后提交的匿名测试帖,支持按模型和 Base URL 域名筛选。
- 共享数据:社区帖子已接入服务器存储和 HTTPS 接口,不再只保存在当前浏览器本地。
- 提交规则:每天最多提交 10 条;未记录 Base URL 域名的旧历史记录不会收录;相同测试结果只保留一次,减少刷分和重复样本。
- 隐私边界:只提交模型 ID、响应 model、Base URL 域名、评分、完成题数、风险等级、错误类型和 usage 汇总;不会提交 API Key、完整 Base URL、回答正文、完整 prompt 或联系方式。
6.24.V1
修正 token 消耗展示口径
- 我们发现:部分接口返回的 token 总量会包含缓存命中,容易和平台实际计费口径对不上。
- 这是此前说明不够清楚。缓存命中可能被计入接口 usage,但实际扣费通常更接近非缓存 token。
- 现在已调整:报告会拆分接口上报总量、缓存命中和非缓存计费参考量,方便对照后台账单。
6.22.V2
重点优化移动端、报告和运营入口
- 移动端重排:手机端改为单列任务流,配置、验收结论、探针详情和运营卡片不再挤成三栏。
- 报告更好读:查看报告改为“本次结论、下一步建议、问题分类、关键证据”等结构,先突出重点再看明细。
- 按需反馈:只有中高风险、无法评估或明显异常时才生成“给供应商的话”;正常结果改为后续验证建议。
- 复制与导出:完整报告区新增“复制报告”和“导出报告”按钮,方便直接反馈或留档。
- 入口恢复:恢复联系站长和打赏二维码,合作推荐、打赏支持、问题反馈统一放到中间区域。
6.22.V1
优化公告、验收结论和反馈链路
- 平台公告:默认展示免责声明、您已知悉和功能简述;更新日志作为第二页查看。
- 公告关闭:底部改为“今日关闭”和“关闭公告”,区分当天不再弹出和仅关闭本次。
- 验收结论:右侧只保留进度、评分、风险、model 字段和 token 消耗,详细内容进入报告页。
- 题面保护:探针题面和期望提示默认隐藏,探针名称保留,避免泄漏测试题。
- 反馈信息:问题反馈直接复制完整报告和运行日志,方便后续排查。
- 异常识别:补充网页地址误填、JSON 容错和空流式响应预览。
6.18.V1
优化异常反馈和流式接口兼容
- 增强流式 SSE 解析能力,兼容更多中转站返回的字段形态,减少“接口能连通但工具读不到正文”的情况。
- 当接口返回非标准流式数据时,运行日志会记录脱敏后的结构摘要,方便判断是供应商 SSE 格式、上游错误,还是模型正文为空。
- 优化协议异常提示。遇到这类问题时,会更明确说明“当前不能评价模型能力或真假”,避免把链路兼容问题误读成模型能力问题。
- 导出报告和提交反馈前增加有效结果检查,避免未开始或未完成跑测时生成空报告,反馈内容也会更容易排查。
6.15.V1
修复部分用户从 www 域名访问时无法测试的问题
- 根据近期反馈排查了本站代理链路,确认代理服务本身正常,主要问题集中在跨域预检、供应商上游异常、内网接口不可达和少量协议兼容场景。
- 修复代理跨域配置,补齐
www 域名的访问支持。用户从带 www 的网址进入时,也可以正常发起测试请求。
- 同步验证主域名与
www 域名的 OPTIONS 预检请求,均已返回正确跨域头。
- 保留此前的上游异常、内网/VPN、协议异常等提示逻辑:如果接口本身不可达或供应商返回异常,报告会优先解释链路问题,不会简单判定模型能力为 0。
6.12.V1
优化接入失败诊断,让报告更准确地区分“模型问题”和“链路问题”
- 新增
HTTP 502 / upstream_error 专项识别。遇到供应商上游服务、模型路由或中转节点临时不可用时,会优先提示排查服务状态,而不是把结果误读成模型能力 0 分。
- 补充公司内网、VPN、私有网络场景说明。如果接口只能在公司网络内访问,本站公网代理无法代替内网环境,需要在公司网络内部署代理或提供公网测试入口。
- 优化早停逻辑。遇到明确的上游不可用、内网不可达、协议异常等问题时,会尽早停止重复测试,减少无效请求和额度消耗。
- 更新常见错误说明,帮助用户更快判断是 Key、模型 ID、CORS、上游服务,还是网络边界导致的无法测试。
6.11.V2
接入本站代理能力,显著降低 CORS 对测试的影响
- 新增腾讯云代理转发链路。遇到供应商接口不允许浏览器直连时,测试请求会优先通过本站代理转发,减少
Failed to fetch 和 OPTIONS 预检失败导致的“无法测试”。
- 代理链路已支持 OpenAI / Responses / Anthropic Messages 等现有兼容形态,前端仍会自动尝试不同接口路径。
- 优化错误边界:代理跑通后,如果上游返回 401 / 403 / 订阅不存在 / 模型无权限,会明确归因到供应商账号、Key、模型权限或订阅状态,而不是误判为网页 CORS。
- 新增上游服务异常识别。遇到
HTTP 502 或 upstream_error 时,会提示优先排查供应商节点、模型路由或上游服务状态,而不是把结果误读成模型能力 0 分。
- 补充内网接口提示。若接口只能在公司内网或 VPN 环境访问,本站公网代理无法代替内网环境,需要在内网侧部署代理或提供公网测试入口。
- 模型 ID 输入区新增提示,提醒用户必须和供应商提供的模型名称保持一致,避免手打
gpt5.5、gpt-5.5、gpt-5-5 这类差异导致测试失败。
- 同步更新使用说明和隐私说明,明确当前版本会通过本站代理完成请求转发,并建议继续使用临时或限额测试 Key。
6.11.V1
优化了更多中转站和 Claude 接口的测试兼容性
- 新增 Anthropic Messages API 兼容,可自动尝试常见的
/v1/messages 接口。
- 兼容 Anthropic 标准 Key 与部分中转站使用的 Bearer Key 鉴权方式。
- 补充 Claude 非流式、流式响应及 Token 用量解析,减少因接口协议不同导致的“无法测试”。
- 接口即使忽略非流式参数、直接返回
data: {...},工具也会自动识别并合并内容。
- 兼容响应头标记错误但正文实际为 SSE 的中转站,避免把正常返回误判为模型 0 分。
- 遇到无法解析的协议响应时会及时停止,不再重复跑完整套题浪费时间和额度。
- 智能粘贴支持识别
ANTHROPIC_BASE_URL 和 ANTHROPIC_AUTH_TOKEN,Claude Code 配置可直接填入。
- 调整网页跨域提示文案,让错误原因和下一步处理方式更直观。
6.3
根据用户反馈优化了真实中转站测试体验
- 增加 stream 兜底能力,部分只支持流式输出的接口也能尝试完成测试。
- 优化网页直连失败提示,区分 CORS、浏览器限制和接口本身不可用,减少误判。
- 修复“没有收到模型回答却仍生成能力分”的问题;接入失败时会明确显示无法评估,并停止重复请求。
- 报告中新增 Token 消耗观察,展示接口返回 usage 和工具估算值,方便对照后台账单。
6.2
增强了接口兼容性和接入容错能力
- 新增对部分
responses 形态接口的兼容,适配更多中转站和模型接入方式。
- Base URL 填写更灵活,支持直接填写域名,系统会自动补全并尝试识别可用接口。
- 优化接口探测和响应解析逻辑,减少因路径差异或返回结构不同导致的误判。
6.1
优化了页面结构和部分功能
- 优化顶部入口与页面结构,减少无关信息干扰。
- 底部功能区精简优化,页面内容会更集中在核心功能本身。
5.7
让评分更准、更可信:
- 关键题目的答案改为每轮随机生成,结果更难被中转商针对性优化,更接近真实水平。
- 优化判分逻辑,减少对正确回答的误判,并加固防刷分检查,避免靠套路拿高分。
- 输出被截断的题目会单独标注,不再把中转限制误判成模型能力问题。
- 新增隐私说明:你的密钥、接口地址和模型回答都只在本地使用,不会外发。
5.6
本次更新统一了产品表达和说明文案:
- 探针名称中删除版本前缀,避免用户误以为某些题目属于单独模式。
- 右侧报告栏改名为「接入质量诊断」,用证据链表达替代强裁决表达。
- 更新使用说明,补充 Base URL 隐藏、跑测中锁定题库、行为侧写边界和版本规则。
- 更新日志改为
月份.小版本 排序方式。
5.5
修复跑测中的状态切换问题:
- 跑测开始后冻结本轮题目列表,避免中途切换「标准 / 随机 / 验收 / 补测」导致当前题目消失。
- 跑测中锁定题库模式、探针类别、换题和清空操作,完成或取消后自动恢复。
- 历史归档使用本轮冻结题目,避免报告和实际跑测题目不一致。
5.4
修正页面安全和结果展示细节:
- 评估明细支持自动换行,长内容不会撑破网页结构。
- Base URL 默认隐藏,单次跑测和官方对比页均可通过小眼睛临时查看。
- 将“模型指纹”调整为“行为侧写”,只展示回答习惯,不再输出“像某模型”的强判断。
5.3
升级接入质量诊断能力:
- 新增行为侧写、随机多轮回忆、随机长上下文插针、输出截断与复读检测等探针。
- 综合结果从单纯分数扩展为接入可信度、题库表现、上下文完整性和输出稳定性等证据。
- 保留官方对比和历史记录,方便长期追踪节点质量变化。
5.2
增强随机题库和判分鲁棒性:
- 随机题库支持同类题抽样,降低固定题面被针对性适配的风险。
- 多轮回忆、日期、项目编号、金额等判分兼容空格、标点和常见格式差异。
- 工具规划、规则遵循、JSON 输出等题目增加格式与语义分层判断。
5.1
完善基础工具能力:
- 新增运行日志复制和导出,便于发给供应商排查 401、403、超时、限流和空响应。
- 优化使用说明入口和更新提示入口。
- 完善官方对比和历史记录,支持保存不同接口的跑测结果。