Releases: XBigRoad/prompt-optimizer-studio
v0.1.8
更新内容
- 任务详情页整体收口:补齐结果区、运行信息、round 诊断与详情加载软失败处理,减少单次请求抖动导致的空白页和误报。
- 分项分数条升级:round detail 改为西瓜主题渐变分数条,支持 pass / near / miss 三档语义;成功结构化评分轮次可稳定显示
dimensionScores + rubric snapshot。 - 自定义 structured rubric 支持更完整:结构化可解析的任务级 rubric 可以正常生成分数条;历史轮次继续按当轮 snapshot 显示,避免被后来编辑的 rubric 反向污染。
- 评审与运行信息改成“说真话”:收口 no-output、judge summary、runtime error、fallback 文案,去掉用户面
95+ / threshold / Decision Threshold / 高分复核未完成等内部话术。 - 评审建议操作更顺手:补齐评审建议面板与自动采纳链路,可按规则写入下一轮引导或长期规则。
- Provider 稳定性增强:补强 403 / 500 / 503 / EOF / Cloudflare 包装页等 fault-injection 处理与测试,降低瞬时请求层故障把任务过早送进错误终态的概率。
- 发布卫生收口:移除测试中的本地绝对路径引用,避免源码发布包携带本地目录信息。
已知说明
- 这版已经把本地展示链路、rubric/snapshot 链路和主要 provider recover 路径收口,但外部 provider、auth pool、上游可用性波动仍可能影响 live 任务终态。
- 若某一轮本质上是请求层失败或模型返回客观无效结构化评分,系统会尽量保留可恢复信息并说真话,但不能替代上游服务本身的可用性。
Full Changelog: v0.1.6...v0.1.8
v0.1.7 - 结果台、结构治理与维护更新
v0.1.7 - 结果台、结构治理与维护更新
这次我们直接把 v0.1.7 当成公开主路径的稳定维护线来收口。
这条线先完成了两块核心更新:
- 把公开版用户最容易直接感知到的结果台、轮次展示、停止逻辑和规则编辑链路收口到更稳定、更容易理解的状态;
- 把服务端模块边界、OpenAI-compatible 兼容链路和结构治理守卫正式落地,减少后续继续回退到隐式依赖和兼容桥接层的风险。
在这个基线上,我们又额外补上了两类已经确认属实的维护修复:
- 收口 jobs 长滚动页面的渲染模糊问题;
- 修正服务重启后 stale
running任务会被自动续跑的问题。
本次版本仍然聚焦公开版体验、稳定性与可维护性,不额外引入新的产品路线。
这次更新了什么
更清楚的结果台与轮次展示
- 轮次卡片与任务详情文案改成更直白的人话。
上轮提示词评分、这版后来已经评过分、这版要到下一轮才会评分等表达更符合当前产品语义。- 空 diagnostics panel 不再一块一块空着显示;占位式 MVE 也会被转成更自然的说明。
- 主视图不再直接裸露上游
stream error / INTERNAL_ERROR / Gateway timeout等原始报错。
连续三轮过线的停止逻辑修复
- 修复了满足连续过线后仍继续跑下一轮的问题。
- 修复了满足停止条件但同轮 optimizer 失败时,整条任务被错误打成 failed 的问题。
- 现在会优先按“连续 3 轮过线”正确收口最终交付。
长期规则与任务评分标准链路收口
- 自动运行中的任务详情也可以调整长期规则。
- 待生效引导可以先生成长期规则草稿,再明确保存,不会和长期规则混在一起。
- 长期规则、任务级评分标准与待生效引导之间的关系说明更清楚。
Runtime 与兼容层加固
- 补齐了 OpenAI-compatible
/responses回退回归修复与验证。 - 模型连接测试、模型发现与请求链路对不完整网关能力的处理更稳。
- 公开主路径的运行稳定性与解释性进一步收口。
结构治理正式落地
jobs / runtime / providers / settings / prompt-pack / db / goal-anchor模块边界已明确。- API route、页面与测试统一依赖稳定公开入口。
- retired compatibility files 已删除,并通过
check:architecture与模块边界测试防止回退。
在 v0.1.7 基础上额外补上的维护更新
-
jobs 长滚动页面滚动时不再容易发糊
- 对 jobs 控制室首页和
/jobs/[id]长滚动区域关闭了重型backdrop-filter。 - diagnostics 列表外层去掉整列
layouttween,减少滚动和展开时的合成层压力。 - 页面视觉风格保持不变,但滚动过程更稳,不再容易出现短暂模糊、贴图丢失或发虚。
- 对 jobs 控制室首页和
-
服务重启后不再自动续跑 stale
running任务- worker 启动前会先把 heartbeat 已 stale 的
running任务安全收口。 - 未请求取消的 stale
running任务会转为paused。 - 已请求取消的 stale
running任务会转为cancelled。 - worker 现在只会 claim
pending任务;打开任务列表或详情页不再偷偷续跑旧任务。
- worker 启动前会先把 heartbeat 已 stale 的
验证
已完成:
npm run check另外,本次维护修复对应的直接回归验证也已通过:
node --import tsx --test tests/task-controls.test.ts tests/layout-rhythm-contract.test.ts致谢
v0.1.6 - Provider Retry Boundary Fix
Highlights
- stop blindly retrying explicit
auth_unavailableprovider failures - stop expanding generic
INTERNAL_ERRORfailures into repeated retries by default - keep retries for clearly transient timeout / gateway / upstream / EOF / network-style failures
- add regression coverage for both no-retry and retry-allowed paths
Why this hotfix matters
When an upstream provider was genuinely unavailable, some failure modes could be amplified by overly broad retry behavior and appear as long round 0 hangs. This hotfix narrows retry behavior to transient failure classes so runtime failures surface faster and more truthfully.
Verification
npm run check
v0.1.5 - 控制室展示修正与基础设施错误提示优化
本次更新主要聚焦在任务控制室的状态展示准确性,以及基础设施错误提示的可理解性。
1. 控制室状态展示更准确
- 修复了任务控制室把“尚未产生成绩”的任务显示成
0.00的问题 - 现在,无有效成绩的任务会更准确地显示为
—与“未产生成绩” - 最近结果与历史任务中的最佳分数展示也一起对齐
2. 基础设施错误提示更易理解
- 补充识别了
stream error、INTERNAL_ERROR、received from peer、server_error等上游失败信号 - 这类问题现在会被统一展示为可重试的基础设施 / provider 层错误
- 不再把难懂的原始错误载荷直接甩给用户
3. 回归验证补齐
- 补充了无成绩任务卡片展示的回归测试
- 补充了 stream/internal provider 错误归类的回归测试
- 让这次控制室小维修更适合作为稳定的公开补丁发布
总结
v0.1.5 进一步修正了任务控制室在边界状态下的可读性,让无成绩任务和上游故障都能以更准确、更友好的方式呈现。
v0.1.4 - 交互修复、错误提示改进与运行时容错增强
本次更新主要聚焦在任务创建交互、错误提示可读性,以及多轮运行在基础设施异常下的稳定性。
1. 任务创建体验改进
- 修复了首页投递台收起后无法再次展开的问题
- 修复了投递台收起后页面可能被隐藏层挡住、导致无法正常点击的问题
- 首页创建和管理新任务的交互更加稳定
2. 错误提示更清楚
- 对
504 Gateway Timeout、Bad Gateway、Cloudflare等网关和上游故障做了更一致的识别 - 这类问题现在会被显示为可重试的基础设施错误
- 不再直接向用户暴露难以理解的原始上游错误页内容
3. 多轮运行更稳定
- 当任务已经产出可用结果时,即使后续轮次遇到基础设施故障,也不再轻易把整条任务直接打成完全失败
- 在这种情况下:
step模式会软着陆到pausedauto模式会软着陆到manual review
- 这样可以更好地保留已有候选结果和当前进度,也更方便后续继续判断是重试、人工复核,还是直接采用当前结果
4. 回归验证补齐
- 补充了以下覆盖:
- 基础设施错误归类
- 多轮运行中的 fail-soft 软着陆逻辑
- 投递台收起 / 再展开的交互行为
总结
v0.1.4 进一步提升了主流程的可靠性,让任务创建更顺手,错误提示更易懂,多轮运行在异常情况下也更稳。
v0.1.3 - 任务创建、详情展示、运行参数与稳定性对齐更新
v0.1.3
1. 运行参数更可控
- 所有模型现在都可以配置推理强度
- 任务运行参数在设置、创建、任务详情、API 与数据库之间的保存链路更完整
- 任务级模型与推理强度调整更容易追踪
2. 任务创建与详情体验改进
- 首页创建任务时可直接带入关键运行参数
- 任务详情页展示更有用的信息,例如推理强度
- 移除了低价值摘要项,让主路径信息更清楚
3. 结果与状态展示更清楚
- 对无分数、失败态、最佳分数等展示做了更合理的处理
- 更容易判断任务实际停在什么状态
- 一批目标锚点与提示词理解相关的小修复也已纳入公开主路径
4. 稳定性与审计链路补齐
- settings / jobs / API / UI / DB 之间的参数快照更完整
- 补入一批围绕任务创建、详情展示、运行参数同步与运行稳定性的通用修复
- 保持公开版主路径对齐,不引入未完成验证的实验能力
验证
npm run check
v0.1.2 - 可配置评分标准、更广模型接入与双语界面
Highlights
- 中英双语界面切换:首页、配置台、结果台支持
中文 / EN切换。 - 评分标准可配置:支持配置台里的
全局评分标准覆写,也支持任务级评分标准覆写与结果页预览/编辑。 - 更广的模型与 provider 接入:在 OpenAI-compatible、Anthropic、Gemini 之外,新增 Mistral、Cohere 原生支持,并提供 DeepSeek / Kimi / Qwen / GLM / OpenRouter 等常见平台预设。
- 配置台增强:支持
快速选择服务商、接口协议手动覆盖、同时运行任务数配置,以及更稳定的模型搜索式选择器。 - 控制室与结果页体验优化:支持结果对比模式、手动完成/重启等更完整的任务控制,并优化首页与详情页的信息布局。
Fixed
- 修复部分运行时环境中
crypto.randomUUID不可用导致首页草稿任务创建失败的问题。 - 增加草稿任务 ID fallback,并补充回归测试。
- 拦截 invalid round score,避免异常模型输出污染结果,并改善相关错误提示。
Verification
npm run check通过- Docker 与本地页面实际核对当前公开 UI / 功能
v0.1.1 - Dashboard UUID Compatibility Fix
修复内容
- 修复首页任务控制室在部分运行时环境下因
crypto.randomUUID不可用而崩溃的问题 - 为草稿任务 ID 生成增加兼容性回退逻辑
- 增加对应回归测试
验证
node --import tsx --test tests/random-id.test.tsnpm run typechecknpm run testnpm run build
Full Changelog: v0.1.0...v0.1.1
v0.1.0 - Self-Hosted Control Room
Prompt Optimizer Studio is now ready for its first public release.
Release shape:
- This release is the Self-Hosted / Server Edition.
- Data is stored on the machine or deployment environment running the app.
- A separate Web Local Edition is planned for the future, but it is not part of this release.
Highlights:
- Final-prompt-first workflow: the latest full prompt stays copyable and visible at all times.
- Human steering loop: pause a task, add one-time guidance, continue one round, or resume auto.
- Goal-anchor drift guard: keep optimization aligned with the original task intent.
- Reviewer isolation: the reviewer only sees the current candidate and scoring rules, not historical aggregate issue lists.
- Multi-provider connectivity: configure your Base URL, API key, and model alias from the Config Desk, while the backend routes to OpenAI-compatible, Anthropic native, or Gemini native protocols.
- Docker-ready self-hosting: ship with a Dockerfile, Compose path, persistent volume convention, and /api/health endpoint.
- AGPL-3.0-only license: modified hosted versions must make their corresponding source available to users.
- Control-room UI: redesigned the Control Room, Result Desk, and Config Desk with a cleaner operator-first layout.
- Worker lease fix: prevents the same running job from being claimed multiple times.
Known note:
- If an older local database already contains duplicate round numbers produced before the worker-lease fix, those historical rows can still appear until cleaned up.