任务:由 表格 + 文本 + 空间 三类输入,预测两个能效分数——SAP(1–100)与 EI(环境影响)。
围绕两条主线——稳健(抗输入漂移)+ 诚实(不可靠时弃判、转交人工)。
一句话读图:整条链只有一个预测器(导师提供、冻结);6 个 LLM 仅在步骤② 做特征、不预测分数;所有 UQ(步骤④)都挂在预测器的集成之上。本次汇报集中在步骤② 与步骤④。
| 切分 | 条数 | 用途 |
|---|---|---|
| train | 74,994 | 训练预测器 |
| val | 18,748 | 调参 / 早停 |
| cal | 12,499 | conformal 校准专用 |
| test | 18,749 | 最终评估 |
每条 EPC 文本 → 20 维特征(17 个类别 + 3 个数值)。这 20 维与 4 个基础数值列拼成 24 维,作为表格编码器的额外输入——为模型增加一条更抗造的“结构化车道”,本身不预测分数。
单个 LLM 一次性抽取,覆盖全部 124,990 行。无冗余、无交叉校验——单点抽取,个别错值无从发现。
6 个 LLM 各独立抽取一遍 → 共识聚合:类别取多数票、数值取中位数,并产出每特征一致性 Fleiss κ。在干净原文上重抽全部 4 切分,随后重训。
为何用众数 / 中位数而非平均:这些是离散类别码与小整数,平均会得到无意义的小数;众数 / 中位数对单个 LLM 的离群更稳健,且结果必落在合法取值集内。
4 基础 + 20 LLM = 24 维数值,外加类别字段。
以 DistilBERT 编码评估员的自由文本描述。
编码房屋的位置 / 空间信息。
门控融合 → SAP / EI。门控权重 α:表格 0.87 / 文本 0.10 / 空间 0.03,如实反映三模态的信息冗余。超参由 Optuna 选定(dropout 0.0583、lr 2.97e-4、fusion=gated),训练为 M=5(现扩至 10 seed)集成。
主心骨——外部审计优于自我报告:OOD / Conformal / CQR 都用模型没训练过的留出数据来判定可信度,而非采信模型的自报置信度。本次七项改进重点加固第 2 / 3 / 5 步(6-LLM 特征、Mahalanobis、CQR)。
以 6-LLM 共识重抽 20 维特征,并重训全部相关模型。
工程进行中 · 含一处阻塞
面向答辩的七项论文加固改进。
代码已全部落地
当前结果(旧值)· 诚实定位 · 下一步时间线。
仅余重训刷新数字
一句话总结:方法与工程均已就位,当前仅余一次重训以刷新结果。
主线 20 维特征在 V3 阶段由单个 LLM 一次性抽取,缺乏冗余与交叉校验。
6 个 LLM 各独立抽取一次,再做共识聚合:类别特征(17)取多数票,数值特征(3)取中位数。
参与模型:doubaoglmminimaxdeepseekkimimimo(小米,独立端点)
评估数据 100% 完成(cal / val / test 已齐)——多数 UQ 实验的输入均已具备。
06-04 train 抽至约 3% 时撞周额度暂停;06-07 17:08 额度刷新后已恢复,train 进行中(ETA ~21h)、0 失败。
train 是重训的前提;流程可断点续跑(跨切分缓存按文本 hash 去重),暂停不丢失任何进度。kimi 改走 KCL 网关后绕开原网关死挂、吞吐 ~2.8×。
| 措施 | 作用 |
|---|---|
| 跨切分全局缓存 | 按文本 hash 去重并在 4 个切分间共享 → 调用量 35.5 万 → 27.1 万次(约 −23.5%;EPC 文本高度重复)。 |
| 64 路并行 + 缓存复用 | 复用 phase11b 的 736.9M-token 抽取缓存;mimo 为纯增量补抽,不重跑已缓存的 5 个 LLM。 |
| 跳过列表(skip-list) | 个别 LLM 对个别文本会“死挂”(kimi 思维循环,约 0.01% 文本)→ 跳过并采用部分共识,避免阻塞整条流水线。 |
| 看门狗 quota_supervisor | 对约 5 小时短窗限额自动暂停、刷新后自动恢复——独立于本人运行,无需人工值守。 |
这部分是不显眼但关键的基础工程:它保障了数据质量与可复现性,并把一次耗时 4–5 天的大规模抽取变得可控、可断点。
| 答辩可被质疑的薄弱点 | 对应改进 |
|---|---|
| UQ-Spearman ≈ 0.24(不确定性与真实误差相关性弱) | CQR(首要) · NLL 分解 |
| GMM router 信号失效(后验 99.7% = 1) | Mahalanobis OOD |
| latent K=2 聚类退化 | 改以 property_age 为主 |
| 语义替换的 min/max 区间不稳定 | 10–90 分位带 |
| 多 seed 数量不足、统计功效偏弱 | 种子数扩至 10 |
| “四方法横向比较”属性不一致 | 按角色重新定位(仅写作) |
状态代码已全部落地、单测全部通过,默认关闭 / 配置开启 → 随 Path-B 重训一并生效。 注:这组改进目标并非提升精度(LLM 特征在 IID 下已证不涨点),而是改善“不确定性的可用性”。
全局 conformal 给每个样本同一区间宽度,因而在结构上无法按样本难度排序——Spearman 偏低是其必然结果,而非偶然。
类比:候选人自评“Python 9/10”不可盲信;标准化测试发现普遍虚高 3 分 → 全体下调 3。模型提出,conformal 校准裁定。
proof-of-direction:单 LLM·单种子、非最终数;6-LLM / 10-seed 重训后须重算(绝对值会变,趋势是信号)。实现仅加一个分位数头、随重训一并完成。
显式分解 aleatoric(数据固有噪声)与 epistemic(模型欠拟合)→ 直接解释“为何仅 0.24”:残差由 aleatoric 主导,增加集成成员数也无济于事。
在融合潜空间 z_fused 上度量“距训练分布多远”,替代已失效的 GMM router。类比:门卫判断“整体组合是否异常”,而非“单一维度是否偏高”。
分位带语义替换 → 10–90 分位带 聚类改以 property_age 为主(K=8,宽度异质 1.93×) 统计种子扩至 10(Wilcoxon 具统计功效) 写作四方法按角色重定位
贯穿主线:外部审计优于自我报告——conformal / CQR / Mahalanobis 均以模型“未训练过”的留出数据进行审计,而非采信模型自报的置信度。
5 项均为后验方法:套在冻结预测器外、不重训、不调 API,跑在重训后的同一批权重上,与路线 B 解耦。
代码 + 单测全部就位(pytest 99 项通过),真实数字待重训。这 5 项都顶不破 ~0.24 的 aleatoric 天花板——CQR(0.36) 仍是唯一杠杆;加的是横向对照的广度 + 对贡献 ①② 的加固,不提精度。
模态门控 α:表格 0.87 / 文本 0.10 / 空间 0.03——门控如实反映各模态的信息冗余,这是论文洞见,而非缺陷。
负面结果作为科学发现如实呈现:MoE 三次失败(催生 Mondrian)、LLM 在 IID 下信息冗余、UQ-Spearman 0.24(即 aleatoric 天花板)——均为研究发现,而非缺陷。
| 关切 | 回应 |
|---|---|
| ① 20 维特征与原文存在信息重叠 | 认同——IID 数据已证实(+0.07pp)。立论:漂移下两者互补,价值落在鲁棒性。 |
| ② 特征属预处理产物、增加用户负担;为何不直接规范化文本? | 问题成立 → normalize_vs_extract 对照实验(抽取特征 vs 规范化文本,同一漂移下比较退化)已实现,正面回应。 |
| ③ UQ 应关联(预测 − 真值),而非仅模型 / 输入扰动 | 同意:集成 / 扰动散布属 epistemic;conformal 才是校准至真实误差的部分(覆盖保证);低 Spearman 反映较大 aleatoric;原理性修复即 CQR;早期方向性信号(单 LLM 单种子 demo):0.24 → 0.36,相对 +约 50%(proof-of-direction,待重训复核)。 |
这三点直接塑造了这组改进:CQR / NLL 回应第③点,对照实验回应第②点,鲁棒性叙事回应第①点。
| 阶段 | 内容 |
|---|---|
| ① 续跑抽取 额度恢复后 | 完成 train 抽取(满速约 2.5 天,另含额度暂停时间)。 |
| ② 一次性重训 | 触发重训:CQR / NLL 两个新头与 10 个种子一并烤入(以 --skip-retrain 暂存、待 train 完成后手动统一触发,省一轮训练)。 |
| ③ 重跑 UQ | phase4b(CQR) / 8 / 9 / 10 / 12 / 13 全部重跑 → 刷新所有数字,并验证 CQR 显著高于 0.24。 |
| ④ 论文写作 | 数字刷新后,按 THESIS_WRITING_GUIDE 的主线撰写;8 月提交。 |
计算资源:KCL CREATE HPC 已验证可用(A100-40GB)——Mac 负责 LLM / API,集群负责 GPU 重训。重训封装成一条命令的 Slurm array(16 训练 × 8 并发 ~2 波、自动链入 UQ)→ 墙钟预计 ~25h 压到 ~5h(GPU 总时长不变,只是并行);脚本就绪,尚未在 CREATE 上实跑。
周 / 月额度刷新需数天(约 5 小时的短窗仅周期性循环、可自动续跑)。当前触及的是周额度 → 等待用户额度刷新,或更换备用 key 续跑。
提醒:抽取完成后须将 LLM 缓存异地备份(NAS 曾发生过一次故障)。
方法与工程均已就位,当前仅余一次重训以刷新结果。
谢谢 · 欢迎提问与讨论