manifest.yaml
26 KB
-
W4: transforms 加 normalize op + enum_mapping 覆盖率 74→98% · 194778d9
背景: DW top 200 treatName 实测,treatment 字典覆盖率仅 74%(15.8% 漏配 _default skip)。 3 大根因: ① 中英文标点不一致(yaml 写英文,DW 实际中文)— 50%+ 漏配 ② review/recommendation route 关键词不全 — 已交付纸质病历/转诊等流程性误吃 actual ③ 真治疗新词漏配 — 牙周序列治疗/桩冠修复/根管治疗后冠修复 等 修复(原则:代码跟宿主无关,宿主个性化只在 yaml): 1. transforms.derive 加 op=normalize(trim 升级版 + CJK→ASCII 中段标点) - 中括号 ()→ () | 中逗号 , → , | 中分号 ; → ; - 中冒号 : → : | 中尖括号 <> → < > | 中百分号 % → % - 顿号 、 → ,(语义等价分隔符) - 任何中文宿主通用,不是 jvs-dw 特化 — 进 transforms(通用层),不进 yaml(宿主层) 2. manifest: - § C 加 normalize derive on treat_name(treat_plan + plan 两路 in-place 覆盖) - § B.1 diagnosis message 从 trim 升级到 normalize - § C.3 review route 关键词补 ~22 项(正畸复诊/检查/咨询/会诊/复查/转诊/已交付病历/缴费等) - § C.4 plan 字段 review drop 也同步补 3. treatment_actual.yaml + treatment_planned.yaml 同步补 ~15 个新词: periodontic: 牙周序列治疗 / 系统性牙周治疗 / 全口洁治+OHI / 龈上洁治术/.../洁牙/洗牙 endodontic: 根管治疗后冠修复 / RCT+冠修复 implant: 拔除后种植 prosthodontic: 桩冠修复 restorative: 树脂充填术 orthodontic: 更换新矫治器 / 粘接上半口矫治器 / 粘接全口附件 / 精调粘接附件 / 发放新矫治器 / 去除矫正器,配戴保持器保持现有咬合关系 清理 1 个中文顿号 dead key("全口龈上洁治、抛光。" → normalize 后自动落到现有 ASCII 字典) 4. diagnosis.yaml 补 2 个高频: K05 菌斑性牙龈炎(928 hits;yaml 原有"菌斑性龈炎"长写变体) K02 深窝沟(7613 hits;早期龋兆,临床归 K02) 实测覆盖率(DW top 200,512K rows): treatment_actual: 74.0% → 99.9% (mapping 85.5 + review 11.7 + rec 2.6) 漏配从 80,879 → 598 行(剩 1 条长文本"拟涂氟知情同意"无业务价值) diagnosis: 87.1% → 90.5% 剩漏配 95% 是故意 drop(乳牙列/混合牙列/种植术后等 Z 类术后状态) 不需要重导(代码先稳定);下次 cold-import 自动生效。 Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>luoqi committed