主要内容
- 研究背景与目的:大语言模型(LLM)微调是使预训练模型适应特定任务的重要方式,文章探索将量子计算集成到LLM微调中,旨在提升模型在复杂任务中的分类能力,特别是处理数据的非局部相关性。
- 方法:提出一种混合量子 - 经典深度学习架构。经典部分采用Sentence Transformer(SetFit),量子部分由具有长程连接的参数化量子电路构成。详细介绍了相关概念,如角度编码、量子数据重上传、量子电路的基本构建块(ansatz)等,并阐述了整体架构、量子启发的潜在向量、单编码器和多编码器设计以及能耗估计等内容。
- 实验:以斯坦福情感树库(SST2)数据集进行二分类任务,在低数据 regime下进行实验。研究了模型在不同超参数设置下的性能,包括量子比特数、主块层数、重上传次数、重上传层数等;通过消融实验量化各组件对模型性能的贡献;在训练和推理过程中引入噪声模拟,验证方法在现实条件下的适用性;还对计算设置进行了说明。
- 结果:单编码器架构中,准确率随量子比特数增加呈上升趋势,但18比特时出现异常;多编码器架构比单编码器架构准确率更高。重上传次数和重上传层数对准