组会进度汇报 · 2026-06-08
多模态 EPC 能效预测
不确定性量化 · 校准 · 部署鲁棒性框架
Jiahao Chen
KCL Engineering MSc
研究背景:Warm Home Healthy Life(Westminster City Council · Queen Park)
数据说明:本报告所有量化结果均为 Path-B 重训之前的旧值(5-LLM / 单 LLM);最终数据将在重训完成后刷新。
背景回顾

核心贡献是“框架”,而非模型本身

任务:由 表格 + 文本 + 空间 三类输入,预测两个能效分数——SAP(1–100)与 EI(环境影响)。

两类“模型”须严格区分

  • 预测器 = 导师提供的三编码器门控融合网络(架构冻结,唯一输出 SAP/EI)。
  • 6 个 LLM = 离线特征提取器,把非结构化文本转成结构化数值(不直接预测分数)。

三项贡献:这套“框架”本身

围绕两条主线——稳健(抗输入漂移)+ 诚实(不可靠时弃判、转交人工)。

1
四方法 UQ 系统对照——MC Dropout / 深度集成 / Conformal / CQR。
2
簇条件 Mondrian conformal + 三层 triage——按簇给不同区间宽度、分层处置。
3
LLM 部署鲁棒性基准——文本漂移下退化更小(+18.5pp)。
完整系统工作流 · 总览

端到端:从原始 EPC 文本,到可部署的不确定性

数据与切分
EPC 124,990 行
train/val/cal/test
沿用未变
LLM 特征抽取
文本 → 20 维数字
本次改动
三编码器融合预测器
表格+文本+空间
→ SAP / EI
沿用未变
UQ / 校准 / Triage
论文贡献层
本次加固
可部署输出
不可靠时
弃判转人工
沿用未变(数据切分 / 预测器架构) 本次工作(路线 B 特征 + 七项 UQ 改进)

一句话读图:整条链只有一个预测器(导师提供、冻结);6 个 LLM 仅在步骤② 做特征、不预测分数;所有 UQ(步骤④)都挂在预测器的集成之上。本次汇报集中在步骤② 与步骤④。

完整工作流 · 步骤 ① / ④

步骤① 数据与切分:一份数据,四种用途

用什么数据 · 怎么处理

  • 英国 EPC 能效证书,共 124,990 条房屋记录。
  • 每条含三类输入:表格字段(面积 / 墙体 / 采暖…)、自由文本(评估员描述)、空间(位置)。
  • 表格做标准化与编码,文本交 DistilBERT,空间单独编码——三路在步骤③ 融合。

四路切分(V1 起固定,全程共用)

切分条数用途
train74,994训练预测器
val18,748调参 / 早停
cal12,499conformal 校准专用
test18,749最终评估
沿用未变切分在 V1 即固定、V1→V6 完全一致,保证所有版本数字可比;独立的 cal 切分是 conformal“覆盖保证”的前提。
完整工作流 · 步骤 ② / ④ · 本次改动

步骤② LLM 特征抽取:把非结构化文本变成 20 个结构化数字

做什么 · 怎么处理

每条 EPC 文本 → 20 维特征(17 个类别 + 3 个数值)。这 20 维与 4 个基础数值列拼成 24 维,作为表格编码器的额外输入——为模型增加一条更抗造的“结构化车道”,本身不预测分数

之前 · V3

单个 LLM 一次性抽取,覆盖全部 124,990 行。无冗余、无交叉校验——单点抽取,个别错值无从发现。

现在 · 路线 B

6 个 LLM 各独立抽取一遍 → 共识聚合:类别取多数票、数值取中位数,并产出每特征一致性 Fleiss κ。在干净原文上重抽全部 4 切分,随后重训。

为何用众数 / 中位数而非平均:这些是离散类别码与小整数,平均会得到无意义的小数;众数 / 中位数对单个 LLM 的离群更稳健,且结果必落在合法取值集内。

完整工作流 · 步骤 ③ / ④

步骤③ 预测器:三编码器门控融合(导师提供、架构冻结)

① 表格编码器

4 基础 + 20 LLM = 24 维数值,外加类别字段。

② 文本编码器

DistilBERT 编码评估员的自由文本描述。

③ 空间编码器

编码房屋的位置 / 空间信息。

门控融合 → SAP / EI。门控权重 α:表格 0.87 / 文本 0.10 / 空间 0.03,如实反映三模态的信息冗余。超参由 Optuna 选定(dropout 0.0583、lr 2.97e-4、fusion=gated),训练为 M=5(现扩至 10 seed)集成。

架构沿用未变这是唯一输出 SAP/EI 的部件;论文贡献不在改它,而在它外面套的可信赖部署装置。路线 B 仅因更换输入特征而重训权重,结构不动。
完整工作流 · 步骤 ④ / ④ · 推理时怎么运作

步骤④ 部署时一条数据怎么走:从输入到决策

1
输入:原始 EPC —— 表格字段 + 评估员自由文本 + 空间。
2
抽取 / 规范化:6-LLM 共识把乱文本抽成 20 维结构化特征,并把文本规范化。
3
OOD 检测:经三编码器得到融合表示后,用 Mahalanobis 量它离训练分布多远——太远则标记 / 降级(替代失效的 GMM router)。
4
给模型出分:门控融合的预测头把融合表示映射为点预测 SAP / EI。
5
UQ 给区间:Conformal / CQR(辅以 MC Dropout / 深度集成)给出带覆盖保证的预测区间(≈90%)。
6
三层 triage 决策:综合区间宽度 + OOD + 共识强度 → 自动接受 / 人工复核 / 弃判转人工。

主心骨——外部审计优于自我报告:OOD / Conformal / CQR 都用模型没训练过的留出数据来判定可信度,而非采信模型的自报置信度。本次七项改进重点加固第 2 / 3 / 5 步(6-LLM 特征、Mahalanobis、CQR)。

本次汇报 · 对应工作流 步骤②+④

上次组会以来的三块工作

① 路线 B步骤②

以 6-LLM 共识重抽 20 维特征,并重训全部相关模型。
工程进行中 · 含一处阻塞

② 七项改进步骤④

面向答辩的七项论文加固改进。
代码已全部落地

③ 结果与计划

当前结果(旧值)· 诚实定位 · 下一步时间线。
仅余重训刷新数字

一句话总结:方法与工程均已就位,当前仅余一次重训以刷新结果。

进展 ① · 路线 B

由单 LLM 抽取升级为 6-LLM 共识

原方案

主线 20 维特征在 V3 阶段由单个 LLM 一次性抽取,缺乏冗余与交叉校验。

现方案(路线 B)

6 个 LLM 各独立抽取一次,再做共识聚合:类别特征(17)取多数票,数值特征(3)取中位数

参与模型:doubaoglmminimaxdeepseekkimimimo(小米,独立端点)

  • 干净原文上重抽全部 4 个数据切分,随后重训所有使用 LLM 特征的模型。
  • 附带两项产出:① 特征一致性指标 Fleiss κ(可写入论文);② 旧的单 LLM 特征予以保留,构成天然的“旧 / 新”对照。
  • 定位:将“单点抽取”升级为“多模型共识”,这一升级本身即构成一项稳健性贡献,而不仅是工程改动。
进展 ① · 抽取进度

路线 B 抽取进度(截至 2026-06-07)

3 / 3
cal · val · test
三切分全部抽完并落盘
运行中
train 抽取中(06-07 恢复)
ETA ~21h · 0 失败
≈ 52%↑
总体进度(06-07 起持续上升)
约 14.2 万 / 27.1 万 cell
6
每条文本 / 每个特征
的共识 LLM 数

已就绪

评估数据 100% 完成(cal / val / test 已齐)——多数 UQ 实验的输入均已具备。

阻塞已解除

06-04 train 抽至约 3% 时撞周额度暂停;06-07 17:08 额度刷新后已恢复,train 进行中(ETA ~21h)、0 失败。

train 是重训的前提;流程可断点续跑(跨切分缓存按文本 hash 去重),暂停不丢失任何进度kimi 改走 KCL 网关后绕开原网关死挂、吞吐 ~2.8×。

进展 ① · 工程支撑

支撑约 27 万次 LLM 调用的基础工程

措施作用
跨切分全局缓存按文本 hash 去重并在 4 个切分间共享 → 调用量 35.5 万 27.1 万次(约 −23.5%;EPC 文本高度重复)。
64 路并行 + 缓存复用复用 phase11b 的 736.9M-token 抽取缓存;mimo 为纯增量补抽,不重跑已缓存的 5 个 LLM。
跳过列表(skip-list)个别 LLM 对个别文本会“死挂”(kimi 思维循环,约 0.01% 文本)→ 跳过并采用部分共识,避免阻塞整条流水线。
看门狗 quota_supervisor对约 5 小时短窗限额自动暂停、刷新后自动恢复——独立于本人运行,无需人工值守。

这部分是不显眼但关键的基础工程:它保障了数据质量与可复现性,并把一次耗时 4–5 天的大规模抽取变得可控、可断点。

进展 ② · 论文加固

七项改进:逐一对应答辩中的薄弱点

答辩可被质疑的薄弱点对应改进
UQ-Spearman ≈ 0.24(不确定性与真实误差相关性弱CQR(首要) · NLL 分解
GMM router 信号失效(后验 99.7% = 1)Mahalanobis OOD
latent K=2 聚类退化改以 property_age 为主
语义替换的 min/max 区间不稳定10–90 分位带
多 seed 数量不足、统计功效偏弱种子数扩至 10
“四方法横向比较”属性不一致按角色重新定位(仅写作)

状态代码已全部落地、单测全部通过,默认关闭 / 配置开启 → 随 Path-B 重训一并生效。 注:这组改进目标并非提升精度(LLM 特征在 IID 下已证不涨点),而是改善“不确定性的可用性”。

进展 ② · 首要改进

CQR:针对性改善 UQ-Spearman(当前 0.24)

结构性根因

全局 conformal 给每个样本同一区间宽度,因而在结构上无法按样本难度排序——Spearman 偏低是其必然结果,而非偶然。

CQR 的机制

  • 模型自报逐样本的分位数宽度(0.05 / 0.5 / 0.95)。
  • conformal 在留出集上审计并校正 → 自适应宽度,且保留覆盖保证

类比:候选人自评“Python 9/10”不可盲信;标准化测试发现普遍虚高 3 分 全体下调 3。模型提出,conformal 校准裁定。

方向性证据(待重训复核)

  • 单 LLM·单种子 demo 模型上,全局 CQR 把 UQ-Spearman 0.24 → 0.36(SAP 0.40 / EI 0.32),相对 +约 50%
  • 反直觉:按年代把 CQR 做成簇条件并不再涨(≈持平)→ 聚类管各簇覆盖率,逐样本排序由分位数头承担。

proof-of-direction:单 LLM·单种子、非最终数;6-LLM / 10-seed 重训后须重算(绝对值会变,趋势是信号)。实现仅加一个分位数头、随重训一并完成。

进展 ② · 其余改进

强化若干稳健性偏弱的结果

NLL 头

显式分解 aleatoric(数据固有噪声)与 epistemic(模型欠拟合)→ 直接解释“为何仅 0.24”:残差由 aleatoric 主导,增加集成成员数也无济于事。

Mahalanobis OOD

在融合潜空间 z_fused 上度量“距训练分布多远”,替代已失效的 GMM router。类比:门卫判断“整体组合是否异常”,而非“单一维度是否偏高”。

分位带语义替换 → 10–90 分位带 聚类改以 property_age 为主(K=8,宽度异质 1.93×) 统计种子扩至 10(Wilcoxon 具统计功效) 写作四方法按角色重定位

贯穿主线:外部审计优于自我报告——conformal / CQR / Mahalanobis 均以模型“未训练过”的留出数据进行审计,而非采信模型自报的置信度。

进展 ② · 新增一批

五项后验 UQ 方法:拓宽对照、加固贡献

5 项均为后验方法:套在冻结预测器外、不重训、不调 API,跑在重训后的同一批权重上,与路线 B 解耦。

1
正规打分(CRPS / NLL / Winkler)——给四方法 UQ 一把统一尺子,同时奖励“窄”与“准”。
2
最差切片覆盖率——按预测分数分箱,查 90% 区间有没有“偷偷欠覆盖”某段房屋。
3
Conformal Risk Control——把保证从“区间宽度”推广到“分到哪个能效等级”。
4
末层 Laplace——末层贝叶斯后验 → 逐样本 epistemic 方差,对照再添一种。
5
校准回归(Kuleshov 等距)——把 NLL 高斯重校准成有名字的对照基线,衬托 conformal / CQR 的有限样本保证更可取。

代码 + 单测全部就位(pytest 99 项通过),真实数字待重训。这 5 项都顶不破 ~0.24 的 aleatoric 天花板——CQR(0.36) 仍是唯一杠杆;加的是横向对照的广度 + 对贡献 ①② 的加固,不提精度

进展 ③ · 当前结果

当前关键结果 Pre-retrain 旧值,重训后将变化

0.749
baseline 平均 R²
(MAE 4.38)
+88.7%
多模态 vs 纯表格
R²(0.398 → 0.750)
+0.07pp
LLM 特征 IID 增益
≈ 0(如实呈现)
+18.5pp
鲁棒性优势
(漂移下退化更小)
≈ 90%
conformal 覆盖率
(具覆盖保证)
1.93×
Mondrian 宽度异质
(property_age K=8)
2.4×
triage MAE 梯度
Tier1 2.84 → Tier3 6.70
0.872
共识 Fleiss κ
(6-LLM 后将变化)

模态门控 α:表格 0.87 / 文本 0.10 / 空间 0.03——门控如实反映各模态的信息冗余,这是论文洞见,而非缺陷。

进展 ③ · 诚实定位

诚实定位:答辩中的表述底线

不可声明

  • “LLM 特征提升精度”——并未提升(IID +0.07pp,统计上等于 0)。
  • “我们做出了更好的模型”——模型由导师提供且已冻结。
  • “在真实消费者文本上验证了鲁棒性”——实际为合成漂移(LLM 改写)。

可如实声明

  • 架构:多模态(原文)优于“将文本压缩为类别”——tab_llm_only 仅达 no_llm 的 94.2%
  • LLM 的价值在于鲁棒性而非精度:漂移下退化减少 18.5pp。
  • 校准为真:conformal 具覆盖保证(≈90%)。
  • 可部署 = triage:将“沉默的错误”转为“诚实的弃判”。

负面结果作为科学发现如实呈现:MoE 三次失败(催生 Mondrian)、LLM 在 IID 下信息冗余、UQ-Spearman 0.24(即 aleatoric 天花板)——均为研究发现,而非缺陷。

进展 ③ · 评审回应

回应评审关切

关切回应
① 20 维特征与原文存在信息重叠认同——IID 数据已证实(+0.07pp)。立论:漂移下两者互补,价值落在鲁棒性。
② 特征属预处理产物、增加用户负担;为何不直接规范化文本问题成立 normalize_vs_extract 对照实验(抽取特征 vs 规范化文本,同一漂移下比较退化)已实现,正面回应。
③ UQ 应关联(预测 − 真值),而非仅模型 / 输入扰动同意:集成 / 扰动散布属 epistemic;conformal 才是校准至真实误差的部分(覆盖保证);低 Spearman 反映较大 aleatoric;原理性修复即 CQR早期方向性信号(单 LLM 单种子 demo):0.24 → 0.36,相对 +约 50%(proof-of-direction,待重训复核)。

这三点直接塑造了这组改进:CQR / NLL 回应第③点,对照实验回应第②点,鲁棒性叙事回应第①点。

下一步 · 时间线

后续计划与时间安排

阶段内容
① 续跑抽取
额度恢复后
完成 train 抽取(满速约 2.5 天,另含额度暂停时间)。
② 一次性重训触发重训:CQR / NLL 两个新头与 10 个种子一并烤入(以 --skip-retrain 暂存、待 train 完成后手动统一触发,省一轮训练)。
③ 重跑 UQphase4b(CQR) / 8 / 9 / 10 / 12 / 13 全部重跑 → 刷新所有数字,并验证 CQR 显著高于 0.24。
④ 论文写作数字刷新后,按 THESIS_WRITING_GUIDE 的主线撰写;8 月提交

计算资源:KCL CREATE HPC 已验证可用(A100-40GB)——Mac 负责 LLM / API,集群负责 GPU 重训。重训封装成一条命令的 Slurm array(16 训练 × 8 并发 ~2 波、自动链入 UQ)→ 墙钟预计 ~25h 压到 ~5h(GPU 总时长不变,只是并行);脚本就绪,尚未在 CREATE 上实跑。

风险 · 阻塞

当前阻塞与风险

主要阻塞:API 额度构成多日硬墙

周 / 月额度刷新需数天(约 5 小时的短窗仅周期性循环、可自动续跑)。当前触及的是周额度 → 等待用户额度刷新,或更换备用 key 续跑。

对时间线的影响

  • train 抽取满速约 2.5 天;重训 + UQ 在集群上约 1–2 天。
  • 预计数字刷新落在续跑启动后约一周内。

已具备的缓解措施

  • 流程可断点续跑(跨切分缓存),暂停不丢失进度
  • 看门狗自动处理短窗限额;评估数据(cal / val / test)已完成。

提醒:抽取完成后须将 LLM 缓存异地备份(NAS 曾发生过一次故障)。

小结

小结

  • 工程:路线 B 抽取已过半,评估数据齐备,受额度阻塞(可续跑)。
  • 方法:七项改进代码全部就位,待重训烤入。
  • 诚实定位:核心贡献是框架而非模型;LLM 的价值在于鲁棒性而非精度。
  • 下一步:续跑 → 重训 → 刷新数字 → 论文写作(8 月提交)。

方法与工程均已就位,当前仅余一次重训以刷新结果。

谢谢 · 欢迎提问与讨论