
学位论文简介
随着人工智能与工业数字化的深入应用,工业互联网等关键领域的软件规模持续扩大、版本迭代不断加快,源代码漏洞检测能力已成为保障关键业务连续性与软件供应链安全的重要基础。现实中,漏洞相关代码与补丁长期分散在不同单位与不同网络域内,受保密条款、知识产权与相关政策约束,源码明文难以集中汇聚,形成数据孤岛。数据分散使单一单位难以覆盖足够多的漏洞类型,长尾样本更稀缺,模型训练容易出现覆盖不足与泛化能力不足的问题。联邦学习通过数据不出域、只交换模型更新的方式组织多方协同训练,为在合规条件下汇聚跨域知识、提升漏洞检测模型能力提供了可行路径。
但要让联邦学习在工业互联网中长期稳定运行,仍需同时解决三类相互耦合的问题。第一,代码与补丁更新具有小步频繁的特点,轮次之间需要高频执行内容对齐与增量同步,多方并发会迅速累积计算与通信开销,拉长轮次时延。第二,源码明文不可出域导致样本长期分散,单靠参数聚合难以补足长尾类型与未见模式,而现有跨孤岛增广方法又难以同时兼顾语义有效性、隐私约束与长期可承受的通信开销。第三,工业互联网中的参与方在算力、带宽与在线稳定性上差异明显,难以长期统一部署依赖证书体系或可信硬件的双向认证;若缺少可靠认证、会话绑定与可核验扰动机制,伪装、冒充、重放与策略规避将直接破坏训练可信性与数据安全。因此,需要在同一训练链路内协同处理效率、样本有效性与接入上传安全三类问题,才能实现可长期运行的跨孤岛漏洞检测联邦学习。
针对上述问题,本文提出三项相互配合的方法,并通过系统实验验证其有效性与所需的代价。
(1)针对高频小改动与多方并发带来的交互效率约束,提出高并发数据增量同步方法 SPsync。该方法以内容定义切块提升边界稳定性,结合弱哈希候选定位与强哈希确认减少冗余比对与重复传输;同时将分块与摘要处理流程放入 Spark 分布式框架中执行,并通过热点键分片规约缓解少数高频键导致的处理倾斜与尾时延拖尾。实验结果表明,SPsync 能在轮次密集与并发放大条件下保持更稳定的同步开销与时延表现,为跨域交换提供可控的数据交互基础。
(2)针对源码不出域导致的样本稀缺、分布偏差与长尾覆盖不足,提出隐私友好的跨孤岛增广方法 V-ASC。该方法在端侧将函数代码解析为抽象语法树,并映射为不可逆向量指纹;仅交换少量簇中心及其统计量作为模式级代表,再利用中心匹配为本地未标注样本生成伪标签以扩充训练集。为降低跨轮交换成本,方法进一步引入触发式增量中心更新,并由 SPsync 承载中心同步,以减少冗余通信和轮次波动。实验结果表明,V-ASC 能在数据差异更大、长尾更稀缺的设置下稳定增加高质量漏洞样本,从而提升检测效果,并保持通信与端侧计算代价可控。
(3)针对开放协作环境中的身份可信与上传合规不足,提出可验证隐私认证框架 LDPAKE。该框架以 OPAQUE 建立轻量双向认证会话,并通过用途隔离派生得到传输保护材料与端侧随机性材料;再利用会话绑定随机流实现本地差分隐私扰动,并通过基于 PLONK 的非交互零知识证明核验扰动随机性的来源与幅度边界,使聚合端在不暴露更新明文与随机性细节的前提下完成合规验证。实验结果表明,LDPAKE 在弱链路与并发条件下具备可用的接入与上传性能,并能有效抵御伪装、冒充、重放与策略规避等风险。
主要学术成果
[1] Weisheng Zhang, Zhibang Yang, Shenghong Yang, Mingxing Duan, Kenli li. SPsync: Lightweight multi-terminal big spatiotemporal data synchronization solution[J]. Future Generation Computer Systems, 2023, 141: 106-115. (本人第一作者,SCI 2区)
[2] Weisheng Zhang, Jiapeng Zhang, Siyang Yu, Mingxing Duan, Kenli li. A cross-silo vulnerability federated learning approach based on content chunking[J]. IEEE Internet of Things Journal, 2024, 12(19): 39297-39312. (本人第一作者,SCI 2区)
[3] Weisheng Zhang, Jiapeng Zhang, Mingxing Duan, Zhuo Tang, Kenli Li. LDPAKE: A Unified PAKE--LDP--ZKP Framework for Verifiable Privacy in Federated Learning[J]. IEEE Transactions on Dependable and Secure Computing, 2026. (本人第一作者,SCI 1区, Under Review)