多模态 EPC 预测 · 进度汇报

组会进度汇报 · 2026-06-08

多模态 EPC 能效预测

不确定性量化 · 校准 · 部署鲁棒性框架

Jiahao Chen
KCL Engineering MSc

研究背景：Warm Home Healthy Life（Westminster City Council · Queen Park）

数据说明：本报告所有量化结果均为 Path-B 重训之前的旧值（5-LLM / 单 LLM）；最终数据将在重训完成后刷新。

背景回顾

核心贡献是“框架”，而非模型本身

任务：由 表格 + 文本 + 空间 三类输入，预测两个能效分数——SAP（1–100）与 EI（环境影响）。

两类“模型”须严格区分

预测器 = 导师提供的三编码器门控融合网络（架构冻结，唯一输出 SAP/EI）。
6 个 LLM = 离线特征提取器，把非结构化文本转成结构化数值（不直接预测分数）。

三项贡献：这套“框架”本身

围绕两条主线——稳健（抗输入漂移）+ 诚实（不可靠时弃判、转交人工）。

四方法 UQ 系统对照——MC Dropout / 深度集成 / Conformal / CQR。

簇条件 Mondrian conformal + 三层 triage——按簇给不同区间宽度、分层处置。

LLM 部署鲁棒性基准——文本漂移下退化更小（+18.5pp）。

完整系统工作流 · 总览

端到端：从原始 EPC 文本，到可部署的不确定性

①

数据与切分

EPC 124,990 行
train/val/cal/test

沿用未变

→

②

LLM 特征抽取

文本 → 20 维数字

本次改动

→

③

三编码器融合预测器

表格+文本+空间
→ SAP / EI

沿用未变

→

④

UQ / 校准 / Triage

论文贡献层

本次加固

→

▶

可部署输出

不可靠时
弃判转人工

沿用未变（数据切分 / 预测器架构）本次工作（路线 B 特征 + 七项 UQ 改进）

一句话读图：整条链只有一个预测器（导师提供、冻结）；6 个 LLM 仅在步骤② 做特征、不预测分数；所有 UQ（步骤④）都挂在预测器的集成之上。本次汇报集中在步骤② 与步骤④。

完整工作流 · 步骤 ① / ④

步骤① 数据与切分：一份数据，四种用途

用什么数据 · 怎么处理

英国 EPC 能效证书，共 124,990 条房屋记录。
每条含三类输入：表格字段（面积 / 墙体 / 采暖…）、自由文本（评估员描述）、空间（位置）。
表格做标准化与编码，文本交 DistilBERT，空间单独编码——三路在步骤③ 融合。

四路切分（V1 起固定，全程共用）

切分	条数	用途
train	74,994	训练预测器
val	18,748	调参 / 早停
cal	12,499	conformal 校准专用
test	18,749	最终评估

切分在 V1 即固定、V1→V6 完全一致，保证所有版本数字可比；独立的 cal 切分是 conformal“覆盖保证”的前提。

完整工作流 · 步骤 ② / ④　·　本次改动

步骤② LLM 特征抽取：把非结构化文本变成 20 个结构化数字

做什么 · 怎么处理

每条 EPC 文本 → 20 维特征（17 个类别 + 3 个数值）。这 20 维与 4 个基础数值列拼成 24 维，作为表格编码器的额外输入——为模型增加一条更抗造的“结构化车道”，本身不预测分数。

之前 · V3

单个 LLM 一次性抽取，覆盖全部 124,990 行。无冗余、无交叉校验——单点抽取，个别错值无从发现。

现在 · 路线 B

6 个 LLM 各独立抽取一遍 → 共识聚合：类别取多数票、数值取中位数，并产出每特征一致性 Fleiss κ。在干净原文上重抽全部 4 切分，随后重训。

为何用众数 / 中位数而非平均：这些是离散类别码与小整数，平均会得到无意义的小数；众数 / 中位数对单个 LLM 的离群更稳健，且结果必落在合法取值集内。

完整工作流 · 步骤 ③ / ④

步骤③ 预测器：三编码器门控融合（导师提供、架构冻结）

① 表格编码器

4 基础 + 20 LLM = 24 维数值，外加类别字段。

② 文本编码器

以 DistilBERT 编码评估员的自由文本描述。

③ 空间编码器

编码房屋的位置 / 空间信息。

门控融合 → SAP / EI。门控权重 α：表格 0.87 / 文本 0.10 / 空间 0.03，如实反映三模态的信息冗余。超参由 Optuna 选定（dropout 0.0583、lr 2.97e-4、fusion=gated），训练为 M=5（现扩至 10 seed）集成。

这是唯一输出 SAP/EI 的部件；论文贡献不在改它，而在它外面套的可信赖部署装置。路线 B 仅因更换输入特征而重训权重，结构不动。

完整工作流 · 步骤 ④ / ④　·　推理时怎么运作

步骤④ 部署时一条数据怎么走：从输入到决策

输入：原始 EPC —— 表格字段 + 评估员自由文本 + 空间。

↓

抽取 / 规范化：6-LLM 共识把乱文本抽成 20 维结构化特征，并把文本规范化。

↓

OOD 检测：经三编码器得到融合表示后，用 Mahalanobis 量它离训练分布多远——太远则标记 / 降级（替代失效的 GMM router）。

↓

给模型出分：门控融合的预测头把融合表示映射为点预测 SAP / EI。

↓

UQ 给区间：Conformal / CQR（辅以 MC Dropout / 深度集成）给出带覆盖保证的预测区间（≈90%）。

↓

三层 triage 决策：综合区间宽度 + OOD + 共识强度 → 自动接受 / 人工复核 / 弃判转人工。

主心骨——外部审计优于自我报告：OOD / Conformal / CQR 都用模型没训练过的留出数据来判定可信度，而非采信模型的自报置信度。本次七项改进重点加固第 2 / 3 / 5 步（6-LLM 特征、Mahalanobis、CQR）。

本次汇报 · 对应工作流步骤②+④

上次组会以来的三块工作

① 路线 B步骤②

以 6-LLM 共识重抽 20 维特征，并重训全部相关模型。
工程进行中 · 含一处阻塞

② 七项改进步骤④

面向答辩的七项论文加固改进。
代码已全部落地

③ 结果与计划

当前结果（旧值）· 诚实定位 · 下一步时间线。
仅余重训刷新数字

一句话总结：方法与工程均已就位，当前仅余一次重训以刷新结果。

进展 ① · 路线 B

由单 LLM 抽取升级为 6-LLM 共识

原方案

主线 20 维特征在 V3 阶段由单个 LLM 一次性抽取，缺乏冗余与交叉校验。

现方案（路线 B）

6 个 LLM 各独立抽取一次，再做共识聚合：类别特征（17）取多数票，数值特征（3）取中位数。

参与模型：doubaoglmminimaxdeepseekkimimimo（小米，独立端点）

在干净原文上重抽全部 4 个数据切分，随后重训所有使用 LLM 特征的模型。
附带两项产出：① 特征一致性指标 Fleiss κ（可写入论文）；② 旧的单 LLM 特征予以保留，构成天然的“旧 / 新”对照。
定位：将“单点抽取”升级为“多模型共识”，这一升级本身即构成一项稳健性贡献，而不仅是工程改动。

进展 ① · 抽取进度

路线 B 抽取进度（截至 2026-06-07）

3 / 3

cal · val · test
三切分全部抽完并落盘

运行中

train 抽取中（06-07 恢复）
ETA ~21h · 0 失败

≈ 52%↑

总体进度（06-07 起持续上升）
约 14.2 万 / 27.1 万 cell

每条文本 / 每个特征
的共识 LLM 数

已就绪

评估数据 100% 完成（cal / val / test 已齐）——多数 UQ 实验的输入均已具备。

阻塞已解除

06-04 train 抽至约 3% 时撞周额度暂停；06-07 17:08 额度刷新后已恢复，train 进行中（ETA ~21h）、0 失败。

train 是重训的前提；流程可断点续跑（跨切分缓存按文本 hash 去重），暂停不丢失任何进度。kimi 改走 KCL 网关后绕开原网关死挂、吞吐 ~2.8×。

进展 ① · 工程支撑

支撑约 27 万次 LLM 调用的基础工程

措施	作用
跨切分全局缓存	按文本 hash 去重并在 4 个切分间共享 → 调用量 35.5 万 → 27.1 万次（约 −23.5%；EPC 文本高度重复）。
64 路并行 + 缓存复用	复用 phase11b 的 736.9M-token 抽取缓存；mimo 为纯增量补抽，不重跑已缓存的 5 个 LLM。
跳过列表（skip-list）	个别 LLM 对个别文本会“死挂”（kimi 思维循环，约 0.01% 文本）→ 跳过并采用部分共识，避免阻塞整条流水线。
看门狗 quota_supervisor	对约 5 小时短窗限额自动暂停、刷新后自动恢复——独立于本人运行，无需人工值守。

这部分是不显眼但关键的基础工程：它保障了数据质量与可复现性，并把一次耗时 4–5 天的大规模抽取变得可控、可断点。

进展 ② · 论文加固

七项改进：逐一对应答辩中的薄弱点

答辩可被质疑的薄弱点	对应改进
UQ-Spearman ≈ 0.24（不确定性与真实误差相关性弱）	CQR（首要） · NLL 分解
GMM router 信号失效（后验 99.7% = 1）	Mahalanobis OOD
latent K=2 聚类退化	改以 property_age 为主
语义替换的 min/max 区间不稳定	10–90 分位带
多 seed 数量不足、统计功效偏弱	种子数扩至 10
“四方法横向比较”属性不一致	按角色重新定位（仅写作）

状态代码已全部落地、单测全部通过，默认关闭 / 配置开启 → 随 Path-B 重训一并生效。注：这组改进目标并非提升精度（LLM 特征在 IID 下已证不涨点），而是改善“不确定性的可用性”。

进展 ② · 首要改进

CQR：针对性改善 UQ-Spearman（当前 0.24）

结构性根因

全局 conformal 给每个样本同一区间宽度，因而在结构上无法按样本难度排序——Spearman 偏低是其必然结果，而非偶然。

CQR 的机制

模型自报逐样本的分位数宽度（0.05 / 0.5 / 0.95）。
conformal 在留出集上审计并校正 → 自适应宽度，且保留覆盖保证。

类比：候选人自评“Python 9/10”不可盲信；标准化测试发现普遍虚高 3 分 → 全体下调 3。模型提出，conformal 校准裁定。

方向性证据（待重训复核）

单 LLM·单种子 demo 模型上，全局 CQR 把 UQ-Spearman 0.24 → 0.36（SAP 0.40 / EI 0.32），相对 +约 50%。
反直觉：按年代把 CQR 做成簇条件并不再涨（≈持平）→ 聚类管各簇覆盖率，逐样本排序由分位数头承担。

proof-of-direction：单 LLM·单种子、非最终数；6-LLM / 10-seed 重训后须重算（绝对值会变，趋势是信号）。实现仅加一个分位数头、随重训一并完成。

进展 ② · 其余改进

强化若干稳健性偏弱的结果

NLL 头

显式分解 aleatoric（数据固有噪声）与 epistemic（模型欠拟合）→ 直接解释“为何仅 0.24”：残差由 aleatoric 主导，增加集成成员数也无济于事。

Mahalanobis OOD

在融合潜空间 z_fused 上度量“距训练分布多远”，替代已失效的 GMM router。类比：门卫判断“整体组合是否异常”，而非“单一维度是否偏高”。

分位带语义替换 → 10–90 分位带　聚类改以 property_age 为主（K=8，宽度异质 1.93×）　统计种子扩至 10（Wilcoxon 具统计功效）　写作四方法按角色重定位

贯穿主线：外部审计优于自我报告——conformal / CQR / Mahalanobis 均以模型“未训练过”的留出数据进行审计，而非采信模型自报的置信度。

进展 ② · 新增一批

五项后验 UQ 方法：拓宽对照、加固贡献

5 项均为后验方法：套在冻结预测器外、不重训、不调 API，跑在重训后的同一批权重上，与路线 B 解耦。

正规打分（CRPS / NLL / Winkler）——给四方法 UQ 一把统一尺子，同时奖励“窄”与“准”。

最差切片覆盖率——按预测分数分箱，查 90% 区间有没有“偷偷欠覆盖”某段房屋。

Conformal Risk Control——把保证从“区间宽度”推广到“分到哪个能效等级”。

末层 Laplace——末层贝叶斯后验 → 逐样本 epistemic 方差，对照再添一种。

校准回归（Kuleshov 等距）——把 NLL 高斯重校准成有名字的对照基线，衬托 conformal / CQR 的有限样本保证更可取。

代码 + 单测全部就位（pytest 99 项通过），真实数字待重训。这 5 项都顶不破 ~0.24 的 aleatoric 天花板——CQR(0.36) 仍是唯一杠杆；加的是横向对照的广度 + 对贡献 ①② 的加固，不提精度。

进展 ③ · 当前结果

当前关键结果 Pre-retrain 旧值，重训后将变化

0.749

baseline 平均 R²
（MAE 4.38）

+88.7%

多模态 vs 纯表格
R²（0.398 → 0.750）

+0.07pp

LLM 特征 IID 增益
≈ 0（如实呈现）

+18.5pp

鲁棒性优势
（漂移下退化更小）

≈ 90%

conformal 覆盖率
（具覆盖保证）

1.93×

Mondrian 宽度异质
（property_age K=8）

2.4×

triage MAE 梯度
Tier1 2.84 → Tier3 6.70

0.872

共识 Fleiss κ
（6-LLM 后将变化）

模态门控 α：表格 0.87 / 文本 0.10 / 空间 0.03——门控如实反映各模态的信息冗余，这是论文洞见，而非缺陷。

进展 ③ · 诚实定位

诚实定位：答辩中的表述底线

不可声明

“LLM 特征提升精度”——并未提升（IID +0.07pp，统计上等于 0）。
“我们做出了更好的模型”——模型由导师提供且已冻结。
“在真实消费者文本上验证了鲁棒性”——实际为合成漂移（LLM 改写）。

可如实声明

架构：多模态（原文）优于“将文本压缩为类别”——tab_llm_only 仅达 no_llm 的 94.2%。
LLM 的价值在于鲁棒性而非精度：漂移下退化减少 18.5pp。
校准为真：conformal 具覆盖保证（≈90%）。
可部署 = triage：将“沉默的错误”转为“诚实的弃判”。

负面结果作为科学发现如实呈现：MoE 三次失败（催生 Mondrian）、LLM 在 IID 下信息冗余、UQ-Spearman 0.24（即 aleatoric 天花板）——均为研究发现，而非缺陷。

进展 ③ · 评审回应

回应评审关切

关切	回应
① 20 维特征与原文存在信息重叠	认同——IID 数据已证实（+0.07pp）。立论：漂移下两者互补，价值落在鲁棒性。
② 特征属预处理产物、增加用户负担；为何不直接规范化文本？	问题成立 → normalize_vs_extract 对照实验（抽取特征 vs 规范化文本，同一漂移下比较退化）已实现，正面回应。
③ UQ 应关联（预测 − 真值），而非仅模型 / 输入扰动	同意：集成 / 扰动散布属 epistemic；conformal 才是校准至真实误差的部分（覆盖保证）；低 Spearman 反映较大 aleatoric；原理性修复即 CQR；早期方向性信号（单 LLM 单种子 demo）：0.24 → 0.36，相对 +约 50%（proof-of-direction，待重训复核）。

这三点直接塑造了这组改进：CQR / NLL 回应第③点，对照实验回应第②点，鲁棒性叙事回应第①点。

下一步 · 时间线

后续计划与时间安排

阶段	内容
① 续跑抽取额度恢复后	完成 train 抽取（满速约 2.5 天，另含额度暂停时间）。
② 一次性重训	触发重训：CQR / NLL 两个新头与 10 个种子一并烤入（以 `--skip-retrain` 暂存、待 train 完成后手动统一触发，省一轮训练）。
③ 重跑 UQ	phase4b(CQR) / 8 / 9 / 10 / 12 / 13 全部重跑 → 刷新所有数字，并验证 CQR 显著高于 0.24。
④ 论文写作	数字刷新后，按 THESIS_WRITING_GUIDE 的主线撰写；8 月提交。

计算资源：KCL CREATE HPC 已验证可用（A100-40GB）——Mac 负责 LLM / API，集群负责 GPU 重训。重训封装成一条命令的 Slurm array（16 训练 × 8 并发 ~2 波、自动链入 UQ）→ 墙钟预计 ~25h 压到 ~5h（GPU 总时长不变，只是并行）；脚本就绪，尚未在 CREATE 上实跑。

风险 · 阻塞

当前阻塞与风险

主要阻塞：API 额度构成多日硬墙

周 / 月额度刷新需数天（约 5 小时的短窗仅周期性循环、可自动续跑）。当前触及的是周额度 → 等待用户额度刷新，或更换备用 key 续跑。

对时间线的影响

train 抽取满速约 2.5 天；重训 + UQ 在集群上约 1–2 天。
预计数字刷新落在续跑启动后约一周内。

已具备的缓解措施

流程可断点续跑（跨切分缓存），暂停不丢失进度。
看门狗自动处理短窗限额；评估数据（cal / val / test）已完成。

提醒：抽取完成后须将 LLM 缓存异地备份（NAS 曾发生过一次故障）。

小结

工程：路线 B 抽取已过半，评估数据齐备，受额度阻塞（可续跑）。
方法：七项改进代码全部就位，待重训烤入。

诚实定位：核心贡献是框架而非模型；LLM 的价值在于鲁棒性而非精度。
下一步：续跑 → 重训 → 刷新数字 → 论文写作（8 月提交）。

方法与工程均已就位，当前仅余一次重训以刷新结果。

谢谢 · 欢迎提问与讨论