# A Survey of Text Watermarking in the Era of Large Language Models
本文介绍首个大模型时代下的文本水印综述,由清华、港中文、港科广、UIC、北邮联合发布,全面阐述了大模型时代下文本水印技术的算法类别与设计、评估角度与指标、实际应用场景,同时深入探讨了相关研究当前面临的挑战以及未来发展的方向,探索文本水印领域的前沿趋势。
-
论文:A Survey of Text Watermarking in the Era of Large Language Models
-
论文链接:https://arxiv.org/abs/2312.07913
大模型时代:文本水印新纪元
文本水印是一种信息隐藏技术,起源可以追溯到上个世纪 90 年代。它通过将机密信息(水印)嵌入文本中,实现了在共享水印规则的个体之间进行安全、隐式的消息传递。
随着大语言模型(LLMs)的崛起,文本水印技术焕发新生,涌现出多种可能:
-
将现有文本水印算法应用于 LLMs?
-
将 LLMs 运用于文本水印算法设计?
-
将水印直接植入 LLMs?
特别是随着 ChatGPT 的出现,文本水印技术更是被推向研究热潮。本综述将揭秘 LLMs 与文本水印技术的梦幻联动,深入探索文本水印新纪元!
1. 文本水印技术保障大模型使用安全
近年来,大语言模型在自然语言处理领域取得显著进展,但其快速生成文本的能力也带来了信息传播和知识产权方面的挑战。文本水印技术通过嵌入可识别的标记来实现内容追踪和来源归属,是解决大语言模型滥用问题的有效方法。
2. 大模型辅助文本水印算法设计
在文本水印算法设计中一个关键挑战是在不扭曲原始文本的含义或可读性的情况下嵌入水印。传统方法通常无法在修改文本时做到较好的语义保持。然而,大语言模型(LLMs)显著改变了这一格局。由于它们对语义和上下文的精准把握,LLMs 能够实现精细的水印嵌入方法,对文本的内在含义影响最小化。
3. 大模型 × 文本水印全新探索:水印植入大模型
随着越来越多的文本直接由大模型生成,研究直接针对大模型的水印技术已经成为一种趋势。被植入水印的大模型(Watermarked LLMs)可以直接生成水印文本,以从而实现更为直接、快捷的水印嵌入。
文本水印算法大汇总
现有的文本水印算法可以根据植入水印的对象不同分为两大类:Watermarking for Existing Text,向现有文本中嵌入水印;Watermarking for LLMs, 向大模型中植入水印。其中,Watermarking for Existing Text 又可以根据水印规则的不同细粒度地划分为:
-
Format-based Watermarking
-
Lexical-based Watermarking
-
Syntactic-based Watermarking
-
Generation-based Watermarking
Watermarking for LLMs 可以根据水印加入的时间划分为:
-
Watermarking during LLM Training
-
Watermarking during Logits Generation
-
Watermarking during Token Sampling
近期,随着 LLM 的兴起和广泛使用,Watermarking for LLMs 类别下的研究层出不穷。尤其在 Watermarking for Logits Generation 子类下,更是有许多侧重于各个角度的创新方法被提出,例如如何应对低熵文本、如何让文本携带多比特信息、如何高鲁棒地应对攻击者的篡改、如何抵御水印伪造等等。
如何评估一个文本水印算法?
在该综述中,作者系统性地将文本水印算法的评估总结为四个角度:Success Rate(成功率)、Text Quality(文本质量)、Robustness(鲁棒性)、Unforgeability(不可伪造性)。
-
Success Rate:检测水印信息的准确性
-
Text Quality:水印算法对文本质量的影响
-
Robustness:应对 “水印移除攻击” 的鲁棒性
-
Unforgeability:抵制水印伪造的能力
作者还对每个评估角度下现有的评估指标做了全面的总结。
1. Success Rate(成功率):对于零比特水印算法(Zero-bit),检测过程等价于一个二分类问题,评估指标包括 F1、TPR、FPR、TNR、FNR 等;对于多比特水印算法(Multi-bit),则需要考虑文本水印算法能够携带的负载量(Payload),同时在检测时需要关注比特正确率(Bit Accuracy)。
2. Text Quality(文本质量):评估水印算法对生成文本质量的影响有多种指标,例如 PPL(困惑度)、基于预训练模型编码的语义相似度检测、文本丰富性评估等。此外,还有许多研究在下游的 NLP 传统任务上对水印文本的质量进行评估。这些下游任务包括:机器翻译、情感分类、知识理解、代码生成、文本总结、故事续写、问答、指令遵循等。
3. Robustness(鲁棒性):用于测试水印算法鲁棒性的水印移除攻击可以分为字符级(character-level)、单词级(word-level)和文档级(document-level)三大类。字符级的攻击方式包括 Homoglyph Attack(同形字符替换攻击)等,单词级的攻击方式包含同义词替换、Emoji Attack 等,文档级攻击包括重写攻击、Copy-Paste Attack 等。
4. Unforgeability(不可伪造性):不可伪造性需要在两种不同的检测场景下分别考虑。在私密检测场景(Private Detection Scenario)下,也就是水印检测器不公开的情况下,攻击者只能从生成的文本中寻找蛛丝马迹,试图攻破水印规则。这里的攻击方式包括训练分类器,以及词频分析(Spoofing Attack)等。在公开检测场景(Public Detection Scenario)下,也就是水印检测器公开的情况下,攻击者不仅可以从生成的文本中寻找线索,还可以通过分析检测器的结构和算法来反推生成器的设计。这里的攻击方式在私密场景攻击方式的基础上,还包括逆向工程(Reverse Training)等等。
此外,作者还整理了现有的文本水印算法在这四个评估角度下做出的优化尝试,▲代表基础优化目标,● 代表首要优化目标,○ 代表次要优化目标。
文本水印技术的应用场景
大模型时代下,文本水印技术的应用场景得到了进一步的拓广。本综述关注了新纪元下文本水印技术的三大应用场景:版权保护、学术诚信和虚假新闻检测。
1. 版权保护:文本水印在保护文本 / 数据集版权以及保护大模型版权上发挥了至关重要的作用。
-
文本 / 数据集版权保护:在数字时代,随着数据的共享和利用不断增加,保护这些资产免受非法复制和滥用的影响变得至关重要。文本水印技术通过在文本和数据集中嵌入不可察觉的标记,有助于维护知识产权。
-
大模型版权保护:大模型版权保护的关键目标是防御抽取攻击,即从 LLMs 中提取大量数据用于训练新模型。通过在 LLMs 的输出中嵌入水印,使用带水印的数据集进行训练后得到的新模型也会带有水印特征。当前的研究工作已经为各种 LLM 类型开发了水印算法,包括嵌入式(输入是文本,输出是该文本的相应嵌入)、生成式(目前最常用的 LLM,其输入和输出都是