
LLM Alignment
文章平均质量分 68
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
A Survey on Personalized Alignment—The Missing Piece for Large Language Models in Real-World
本文系统探讨了大型语言模型(LLMs)在实际应用中的个性化对齐问题。当前LLMs通过监督微调(SFT)和人类反馈强化学习(RLHF)实现了与通用人类价值观(如帮助性、诚实性、无害性)的对齐,但在适应个体用户偏好方面存在显著不足。偏好记忆管理管理用户显式(如直接反馈)和隐式(如行为数据、用户生成内容)的偏好信息。通过偏好推理将隐式信号转化为结构化的偏好空间。个性化生成与奖励通过提示注入、编码嵌入、参数微调或代理工作流等方式,将用户偏好融入生成过程。结合通用价值观约束与个性化奖励模型,优化生成质量。原创 2025-04-09 08:30:00 · 94 阅读 · 0 评论 -
ENHANCING HUMAN-LIKE RESPONSES IN LARGE LANGUAGE MODELS
本文探索了使大语言模型(LLMs)更具类人特质的进展。我们专注于在人工智能系统中增强自然语言理解、对话连贯性和情商的技术。该研究评估了多种方法,包括使用多样化的数据集进行微调、融入心理学原理,以及设计能更好模拟人类推理模式的模型。我们的研究结果表明,这些改进不仅改善了用户交互,还为不同领域的人工智能应用开辟了新的可能性。未来的工作将探讨这些类人属性带来的伦理影响和潜在偏见。本研究提出了多项有助于推动大语言模型(LLMs)实现更自然、类人交互发展的贡献。原创 2025-03-24 15:51:34 · 398 阅读 · 0 评论 -
Conformal Tail Risk Control for Large Language Model Alignment
大语言模型(LLMs)的最新发展使其在各种任务中得到广泛应用。大语言模型在社会中的普及促使人们对其性能的可靠性提出了更高要求。特别是在风险敏感的应用场景中,需要特别关注那些意外的不良结果,即尾部事件,例如有害的回答、侮辱性语言和冒犯性输出。由于获取人工标注的成本较高,通用评分模型应运而生,以实现对这些尾部事件量化过程的自动化。这一现象导致了人机评分机制之间可能存在的不一致性。在这项工作中,我们提出了一种针对黑盒模型的轻量级校准框架,该框架可确保人机之间的一致性,并提供可证明的保证。原创 2025-03-16 08:30:00 · 103 阅读 · 0 评论 -
Like Father, Like Son: Kinship-Aware Preference Mapping (KARMA) for Automatic Alignment
近期,大语言模型(LLM)校准领域取得了进展,旨在通过利用预训练模型生成偏好数据,从而降低人工标注的成本。然而,现有方法常常对能力差异巨大的模型的回复进行比较,只能得出表面上的区别,无法为判断何种回复更优提供有意义的指导。为解决这一局限,我们提出了基于亲属关系的偏好映射(Kinship-Aware pReference MApping,KARMA)框架,这是一种全新的框架,能够系统地将能力相当的模型的回复进行配对。原创 2025-03-10 08:30:00 · 107 阅读 · 0 评论 -
The Differences Between Direct Alignment Algorithms are a Blur
直接对齐算法(DAAs)通过用直接策略优化取代人类反馈强化学习(RLHF)中的强化学习(RL)和奖励建模(RM)来简化语言模型对齐。DAA可以根据其排名损失(成对与逐点)、这些损失中使用的奖励(例如,政策和参考政策的似然比或比值比)或是否需要监督微调(SFT)阶段(两阶段与一阶段)进行分类。我们首先证明了单阶段方法不如两阶段方法。为了解决这个问题,我们引入了一个显式的SFT阶段,并在单级ORPO和ASFT中引入了控制偏好优化强度的β参数。原创 2025-02-19 10:00:00 · 313 阅读 · 0 评论 -
Correcting Large Language Model Behavior via Influence Function
人工智能对齐技术的最新进展显著改善了大型语言模型(LLM)与静态人类偏好的对齐。然而,人类偏好的动态性可能会使一些先前的训练数据过时甚至错误,最终导致LLM偏离当代人类偏好和社会规范。现有的方法,无论是管理新数据以进行持续对齐,还是手动纠正过时数据以进行重新对齐,都需要昂贵的人力资源。为了解决这个问题,我们提出了一种新的方法,LLM BehAvior Correction with INfluence FunCtion REcall and Post Training(LANCET),它不需要人为干预。原创 2025-01-21 10:15:00 · 533 阅读 · 0 评论 -
UALIGN: Leveraging Uncertainty Estimations for Factuality Alignment on Large Language Models
尽管表现出了令人印象深刻的能力,但大型语言模型(LLM)仍然经常难以准确表达它们所拥有的事实知识,特别是在LLM的知识边界模糊的情况下。为了改进LLM的事实表达,我们提出了UALIGN框架,该框架利用不确定性估计来表示知识边界,然后明确地将这些表示作为输入特征纳入提示,使LLM与事实知识保持一致。首先,我们通过计算两个不确定性估计(包括置信度得分和语义熵)来准备知识问答(QA)样本的数据集,以表示LLM的知识边界。原创 2025-01-19 10:15:00 · 168 阅读 · 1 评论 -
The Superalignment of Superhuman Intelligence with Large Language Models
由于大型语言模型和多模态语言模型的快速发展,我们目睹了超人的智能。随着这种超人模型的应用越来越流行,这里出现了一个关键问题:我们如何确保超人模型仍然安全、可靠,并且与人类价值观保持一致?在这篇立场论文中,我们从学习的角度讨论了超对齐的概念,通过概述从大规模预训练、监督微调到对齐训练的学习范式转变来回答这个问题。我们将超对齐定义为当任务变得非常复杂,需要人类专家进行注释,并且模型比人类专家更强时,设计有效和高效的对齐算法,以可扩展的方式从有噪声的标记数据(逐点样本或成对偏好数据)中学习。原创 2025-01-09 09:49:14 · 259 阅读 · 0 评论 -
MusicRL: Aligning Music Generation to Human Preferences
我们提出了MusicRL,这是第一个根据人类反馈进行微调的音乐生成系统。对文本到音乐模型的欣赏是特别主观的,因为音乐性的概念以及字幕背后的具体意图取决于用户(例如,“欢快的锻炼音乐”等字幕可以映射到复古吉他独奏或技术流行节拍)。这不仅使此类模型的监督训练具有挑战性,而且还要求将持续的人类反馈集成到部署后的微调中。MusicRL是一个预训练的自回归MusicLM模型,该模型通过强化学习进行微调,以最大化序列级奖励。原创 2024-11-07 10:15:14 · 76 阅读 · 0 评论 -
ADELIE: Aligning Large Language Models on Information Extraction
大型语言模型 (LLM) 通常无法完成信息提取 (IE) 任务,并且难以遵循 IE 任务的复杂指令。这主要是由于 LLM 未与人类对齐,因为主流对齐数据集通常不包含 IE 数据。在本文中,我们介绍了 ADELIE(在信息提取上对齐大型语言 moDEL),这是一种对齐的 LLM,可有效解决各种 IE 任务,包括封闭 IE、开放 IE 和按需 IE。我们首先收集并构建一个高质量的对齐语料 IEInstruct for IE。然后,我们使用 IEInstruct 上的指令调优来训练 ADELIESFT。原创 2024-10-30 19:48:50 · 244 阅读 · 0 评论 -
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
多模态大语言模型(MLLMs)被广泛认为是通用人工智能(AGI)研究的关键。MLLM的核心在于其实现跨模态对齐的能力。为了实现这一目标,当前的MLLM通常遵循两个阶段的训练范式:预训练阶段和指令调优阶段。尽管取得了成功,但这些模型中对齐能力的建模仍存在不足。首先,在预训练阶段,模型通常假设所有图像文本对都是一致对齐的,但事实上不同图像文本对之间的对齐程度是不一致的。其次,目前用于微调的指令包含各种任务,不同任务的指令通常需要不同级别的对齐能力,但之前的MLLM忽略了这些差异化的对齐需求。原创 2024-10-20 11:33:47 · 230 阅读 · 0 评论 -
How do Large Language Models Navigate Conflicts?
在日常沟通中,人们经常接近真相——例如,四舍五入或省略细节——以最大限度地帮助听众。大型语言模型(LLM)是如何处理这种微妙的权衡的?为了解决这个问题,我们使用旨在表征人类行为的心理模型和实验来分析LLM。我们测试了一系列LLM,并探讨了人类偏好或推理时间推理的优化如何影响这些权衡。我们发现,从人类反馈中强化学习可以提高诚实和乐于助人的能力,而思维提示链使LLM倾向于帮助而非诚实。最后,GPT-4 Turbo演示了类人响应模式,包括对会话框架和听众决策上下文的敏感性。原创 2024-04-02 17:40:42 · 136 阅读 · 0 评论 -
ChatGLM-RLHF: Practices of Aligning Large Language Models with Human Feedback
ChatGLM是一个免费使用的人工智能服务,由ChatGLM系列大型语言模型(LLM)提供支持。在本文中,我们提出了ChatGLM RLHF管道——一种从人类反馈中强化学习(RLHF)的系统——旨在增强ChatGLM与人类偏好的一致性。ChatGLM RLHF包括三个主要组成部分:收集人类偏好数据、训练奖励模型和优化政策。在将ChatGLM RLHF集成到生产中的整个过程中,我们遇到并解决了几个前所未有的挑战。原创 2024-08-24 21:23:50 · 125 阅读 · 0 评论 -
Foundational Challenges in Assuring Alignment and Safety of Large Language Models
这项工作确定了确保大型语言模型(LLM)的一致性和安全性的18个基本挑战。这些挑战分为三类:对LLM的科学理解、开发和部署方法以及社会技术挑战。基于已识别的挑战,我们提出了200多个具体的研究问题。原创 2024-08-10 10:33:54 · 241 阅读 · 0 评论 -
GreedLlama: Performance of Financial Value-Aligned Large Language Models in Moral Reasoning
本文通过“GreedLama”的案例研究,研究了将大型语言模型(LLM)与财务优化相结合的伦理意义,该模型经过微调,以优先考虑经济效益结果。通过将GreedLama在道德推理任务中的表现与基础Llama2模型进行比较,我们的结果突显了一个令人担忧的趋势:GreedLama表现出对利润的明显偏好,而不是道德考虑,在低和高道德模糊的情况下,以比基础模型低得多的速度做出道德上适当的决策。原创 2024-07-26 10:37:57 · 87 阅读 · 0 评论 -
Comparing Bad Apples to Good Oranges
对齐大型语言模型(LLM)的一种常见技术依赖于通过比较以固定上下文为条件的多生成来获取人类偏好。这仅在将生成置于相同的上下文中时利用成对比较。然而,这种有条件的排名往往无法捕捉到人类偏好的复杂和多维方面。在这项工作中,我们重新审视了偏好获取的传统范式,并提出了一个新的轴,该轴基于在指令-反应对上共同激发偏好。虽然先前的偏好优化是为条件排名协议(如DPO)设计的,但我们提出的偏好获取协议引入了DOVE,这是一种新的偏好优化目标,它使所选指令响应对的联合概率高于被拒绝的指令响应对。原创 2024-07-22 09:58:23 · 337 阅读 · 0 评论 -
Binary Classifier Optimization for Large Language Model Alignment
通过偏好优化使大型语言模型(LLM)与人类偏好保持一致是至关重要的,但也是劳动密集型的,需要评估人员对每个提示进行选择和拒绝的文本完成情况的比较。最近,Kahneman Tversky Optimization(KTO)已经证明,LLM可以在每个提示完成对上仅使用二进制“竖起大拇指”或“向下大拇指”信号进行对齐。在本文中,我们提出了理论基础来解释通过这些二进制信号实现的成功对准。我们的分析揭示了一个新的视角:优化一个二元分类器,其logit是一个奖励,隐式地诱导最小化直接偏好优化(DPO)损失。原创 2024-07-21 10:03:02 · 375 阅读 · 0 评论 -
A Moral Imperative: The Need for Continual Superalignment of Large Language Models
本文探讨了在人工智能系统,特别是大型语言模型(LLM)中实现终身超对齐所面临的挑战。超级对准是一个理论框架,旨在确保超级智能人工智能系统按照人类的价值观和目标行事。尽管其愿景很有希望,但我们认为,实现超对齐需要对当前的LLM架构进行实质性的改变,因为它们在理解和适应这些人类伦理和不断演变的全球场景的动态性质方面存在固有的局限性。我们剖析了将不断变化的人类价值观编码到LLM中的挑战,强调了静态人工智能模型与人类社会动态本质之间的差异。原创 2024-07-09 16:38:33 · 232 阅读 · 0 评论 -
HelpSteer2: Open-source dataset for training top-performing reward models
高质量的偏好数据集对于训练奖励模型至关重要,该模型可以有效地指导大型语言模型(LLM)生成与人类偏好一致的高质量响应。随着LLM变得更强和更好地协调,需要更新许可的偏好数据集,如Open Assistant、HHRLHF和HelpSteer,以保持对奖励建模的有效性。从GPT-4等专有LLM中提取偏好数据的方法对模型提供商的商业使用有限制。为了提高生成的响应和属性标记质量,我们发布了HelpSteer2,这是一个许可的偏好数据集(CC-BY-4.0)。原创 2024-06-25 15:52:53 · 202 阅读 · 0 评论 -
ITERALIGN: Iterative Constitutional Alignment of Large Language Models
随着大型语言模型(LLM)的快速发展,使LLM与人类价值观和社会规范保持一致以确保其可靠性和安全性变得至关重要。已经提出了利用人反馈的强化学习(RLHF)和宪法人工智能(CAI)来进行LLM对齐。然而,这些方法要么需要大量的人工注释,要么需要明确预定义的构造,这是劳动密集型和资源消耗型的。为了克服这些缺点,我们研究了基于宪法的LLM对齐,并提出了一个数据驱动的宪法发现和自比对框架ITERALIGN。ITERALIGN利用红色团队来揭示LLM的弱点,并使用更强的LLM自动发现新的体质。原创 2024-06-17 10:37:44 · 509 阅读 · 0 评论 -
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators
大型语言模型(LLM)作为评估生成的自然语言质量的自动评估器,已经证明了其很有前途的能力。然而,LLM在评估中仍然表现出偏见,并且经常难以产生与人类评估相一致的连贯评估。在这项工作中,我们首先对LLM评估者和人类判断之间的偏差进行了系统研究,揭示了旨在减轻偏差的现有校准方法不足以有效地调整LLM评估器。受RLHF中偏好数据使用的启发,我们将评估公式化为一个排序问题,并引入了成对偏好搜索(PAIRS),这是一种不确定性引导的搜索方法,使用LLM进行成对比较并有效地对候选文本进行排序。原创 2024-06-13 11:25:26 · 237 阅读 · 0 评论 -
Improving the Robustness of Large Language Models via Consistency Alignment
大型语言模型(LLM)在遵循用户指令和生成有用的响应方面取得了巨大成功。尽管如此,它们的鲁棒性仍远未达到最佳状态,因为它们可能会由于口头指令的微小变化而产生明显不一致的响应。最近的文献探讨了这一不一致性问题,强调了持续改进响应生成稳健性的重要性。然而,仍然缺乏系统的分析和解决方案。在本文中,我们定量地定义了不一致性问题,并提出了一个由指令增强监督微调和一致性对齐训练组成的两阶段训练框架。第一阶段通过类似的指令扩充帮助模型概括以下指令。原创 2024-06-05 09:06:56 · 91 阅读 · 0 评论 -
Ask Optimal Questions: Aligning Large Language Models with Retriever’s Preference in Conversational
与单轮检索任务不同,对话搜索需要在对话上下文中理解当前问题。重写然后检索的常见方法旨在去文本化问题,使现成的检索器能够自给自足,但由于结合检索结果信号的能力有限,大多数现有方法都会产生次优查询重写。为了克服这一限制,我们提出了一个新的框架RETPO(检索者偏好优化),该框架旨在优化语言模型(LM),以根据目标检索系统的偏好重新制定搜索查询。该过程首先提示大型LM生成各种潜在的重写,然后收集这些重写的检索性能作为检索器的首选项。原创 2024-05-16 10:17:48 · 117 阅读 · 0 评论 -
Vaccine: Perturbation-aware Alignment for Large Language Model
微调即服务的新范式为大型语言模型(LLM)引入了一个新的攻击面:用户上传的一些有害数据可以很容易地欺骗微调,产生一个破坏对齐的模型。我们进行了实证分析,发现了一种有害的嵌入漂移现象,显示了排列破坏效应的可能原因。受我们研究结果的启发,我们提出了Vaccine,这是一种扰动软件对齐技术,可以减轻用户微调的安全风险。Vaccine的核心思想是通过在对齐阶段逐渐添加精心制作的扰动来产生不变的隐藏嵌入。这使得嵌入能够在微调阶段承受来自未经净化的用户数据的有害扰动。原创 2024-05-13 11:15:26 · 241 阅读 · 0 评论 -
Exploring Multilingual Concepts of Human Values in Large Language Models
先前的研究表明,抽象概念在LLM的表示空间中被线性地表示为方向,主要以英语为中心。在本文中,我们将这项研究扩展到多语言背景下,特别关注与人类价值相关的概念(即价值概念),因为它们对人工智能安全具有重要意义。通过我们对7种类型的人类价值观、16种语言和3个具有不同多语性的LLM系列的全面探索,我们首先以多语形式实证证实了LLM中存在价值概念。原创 2024-05-10 09:29:25 · 78 阅读 · 0 评论 -
Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs
从人类反馈中强化学习(RLHF)形式的人工智能对齐越来越被视为高性能大型语言模型的关键组成部分。最近的文献将近端策略优化(PPO)定位为RLHF RL部分的规范方法。然而,它涉及高计算成本和敏感的超参数调整。我们假设,导致PPO发展的大多数动机原则在RLHF中不太受实际关注,并主张使用一种计算成本较低的方法来保持甚至提高性能。我们重新审视了RL背景下人类偏好的对齐公式。原创 2024-05-08 10:45:45 · 214 阅读 · 0 评论 -
HD-EVAL: Aligning Large Language Model Evaluators Through Hierarchical Criteria Decomposition
大型语言模型(LLM)已经成为一种很有前途的替代昂贵的人工评估的方法。然而,基于LLM的评估的一致性和覆盖范围往往受到评估提示和标准的范围和潜在偏差的限制。为了应对这一挑战,我们提出了HD-EVAL,这是一种新的框架,通过分层标准分解将基于LLM评估的评估者与人类偏好迭代地一致。HD-EVAL继承了人类专家评估思维的精髓,通过将给定的评估任务分解为更细粒度的标准,根据估计的人类偏好对其进行聚合,将不重要的标准与归因进行修剪,并进一步分解重要的标准,增强了基于LLM的评估者的一致性。原创 2024-05-06 10:39:42 · 570 阅读 · 0 评论 -
Gotcha! Don’t trick me with unanswerable questions! Self-aligning Large Language Models
尽管大型语言模型(LLM)具有非凡的回答问题的能力,但即使问题没有明确的答案,它们也经常表现出相当程度的过度自信。为了避免对这些未知问题提供幻觉般的答案,现有的研究通常会调查拒绝回答这些问题的方法。在这项工作中,我们提出了一种新的、可扩展的自对准方法,利用LLM本身来增强其对不同类型未知问题的响应能力,不仅能够拒绝回答,而且能够解释未知问题的不可回答性。具体来说,SelfAlign方法首先采用两阶段的类感知自增强方法来生成大量未知的问题-答案数据。原创 2024-05-05 22:36:04 · 160 阅读 · 0 评论 -
Learn Your Reference Model for Real Good Alignment
对齐问题的复杂性源于现有方法不稳定的事实。研究人员不断发明各种技巧来解决这一缺点。例如,在语言模型对齐的基本强化学习(RLHF)技术中,除了奖励最大化之外,还最小化了可训练策略和SFT策略之间的Kullback-Leibler分歧。这一添加防止了模型过度拟合到奖励模型(RM),并生成RM域外的文本。直接偏好优化(DPO)方法重新制定了RLHF的优化任务,并消除了奖励模型,同时默认保持了策略接近SFT策略的要求。在我们的论文中,我们认为DPO方法中的这种隐含限制会导致次优结果。原创 2024-04-23 19:20:15 · 105 阅读 · 0 评论 -
Boosting Large Language Models via Graph-centric Instruction Tuning and Preference Alignment
当前的大型语言模型(LLM)是否可以通过参数更新更好地解决图推理和生成任务?在本文中,我们提出了InstructionGraph,这是一个框架,通过指令调整和偏好调整,使LLM能够进行图推理和生成。具体而言,我们首先提出了一种结构化格式描述器,将所有图形数据统一为通用的类代码格式,该格式可以简单地表示图形,而无需任何外部的图形专用编码器。此外,引入了图指令调整阶段来指导LLM解决图推理和生成任务。最后,我们识别了图任务中潜在的幻觉问题,并对负实例进行了偏好对齐采样,其目标是提高模型的输出可靠性。原创 2024-04-18 10:56:19 · 227 阅读 · 0 评论 -
RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of LLMs
来自人类反馈的强化学习(RLHF)已被广泛用于使大型语言模型与用户意图相一致。然而,基于近端策略优化(PPO)的RLHF偶尔是不稳定的,需要进行显著的超参数微调,并且在对齐期间最大化估计的回报在计算上是昂贵的。最近,直接偏好优化(DPO)被提出来解决这些挑战。然而,DPO通常依赖于人类注释器和替代LLM生成的对比响应,而不是策略模型,这限制了RLHF的有效性。在本文中,我们通过系统地结合拒绝采样(RS)和DPO来解决这两个挑战。我们提出的方法,RS-DPO,始于监督微调策略模型(SFT)的开发。原创 2024-04-13 10:51:57 · 305 阅读 · 0 评论 -
Enhancing Large Language Model Fine-Tuning with Style-Aligned Response Adjustments
为特定任务使用小数据集对大型语言模型(LLM)进行微调是一个广泛而复杂的挑战。对有限数量的例子进行过拟合的可能性可能会对模型的泛化和保留其原始技能的能力产生负面影响。我们的研究探讨了微调过程中真实实况反应风格的影响。我们发现,将基本事实反应风格与LLM的固有风格相匹配,可以获得更好的学习结果。基于这一见解,我们开发了一种方法,使用这些调整后的响应作为训练目标,最小限度地改变LLM预先存在的响应,以纠正错误。这项技术能够根据模型的本地响应风格进行精确校正,保护模型的核心能力,从而避免过度拟合。原创 2024-04-10 09:43:24 · 103 阅读 · 0 评论 -
MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences
从人类反馈中强化学习(RLHF)通过使用从偏好数据导出的单一奖励模型,使语言模型与人类偏好相一致。然而,这种方法忽略了从多个用户收集的数据中固有的人类偏好的丰富多样性。在这项工作中,我们首先得出了与单一奖励RLHF一致的不可能结果,从而突出了其在代表不同人类偏好方面的不足。为了提供该问题的公平解决方案,我们通过期望最大化算法学习偏好分布的混合,并受社会选择理论中的平等原则的启发,提出了政策学习的MaxMin对齐目标,以更好地代表不同的人类偏好。原创 2024-04-09 09:44:14 · 423 阅读 · 0 评论 -
A Critical Evaluation of AI Feedback for Aligning Large Language Models
人工智能反馈强化学习(RLAIF)是一种流行的范式,用于提高强大的预训练语言模型的指令跟随能力。RLAIF首先使用来自教师模型的演示执行监督微调(SFT),然后使用来自评论家模型的反馈通过强化学习(RL)进一步微调模型。虽然最近流行的开源模型已经证明了RL步骤在性能上有了实质性的改进,但在本文中,我们质疑RL步骤的复杂性是否真的适合人工智能反馈。我们表明,RL步骤的改进实际上完全是由于在SFT数据收集中使用比用于人工智能反馈生成的批评者(例如,GPT-4)更弱的教师模型(例如GPT-3.5)的广泛实践。原创 2024-04-05 14:50:41 · 82 阅读 · 0 评论 -
Transforming and Combining Rewards for Aligning Large Language Models
将语言模型与人类偏好相一致的一种常见方法是首先从偏好数据中学习奖励模型,然后使用该奖励模型来更新语言模型。我们研究了在这种方法中出现的两个密切相关的问题。首先,奖励模型的任何单调变换都保持了偏好排序;有比其他人“更好”的选择吗?其次,我们经常希望将语言模型与多个属性对齐:我们应该如何组合多个奖励模型?使用对齐过程的概率解释,我们确定了从Bradley Terry偏好模型中学习到的奖励(常见情况)的自然转换选择。这个派生变换有两个重要性质。首先,它强调改善表现不佳的产出,而不是已经取得好成绩的产出。原创 2024-03-31 11:04:27 · 181 阅读 · 0 评论 -
GraphTranslator: Aligning Graph Model to Large Language Model for Open-ended Tasks
像ChatGPT这样的大型语言模型(LLM)展示了强大的零样本和指令跟踪功能,催化了不同领域的革命性转变,尤其是对于开放式任务。虽然这一想法在图领域的探索较少,尽管有许多强大的图模型(GM)可用,但它们仅限于预定义形式的任务。尽管已经提出了几种将LLM应用于图的方法,但它们无法同时处理预定义和开放的任务,LLM作为节点特征增强器或独立的预测器。原创 2024-03-26 17:36:39 · 313 阅读 · 0 评论 -
Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation
将大型语言模型(LLM)与人类价值观相结合,对于减轻其滥用带来的潜在不利影响至关重要。从社会学的视角来看,承认各方的关切是塑造人类价值观的关键因素,本文提出了一个新的方向来调整LLM:社会场景模拟。为了实现这一点,我们提出了MATRIX,这是一种新颖的社交场景模拟器,它模拟用户输入查询周围的真实场景,使LLM能够在响应之前考虑社会后果。MATRIX是一个虚拟排练空间,类似于独白,LLM在这里独自扮演与查询和练习相关的各种角色。原创 2024-03-20 10:57:25 · 127 阅读 · 0 评论 -
DeAL: Decoding-time Alignment for Large Language Models
如今,大型语言模型(LLM)被期望生成与人类偏好相一致的内容。目前的工作集中在模型训练时的对齐,通过诸如人类反馈强化学习(RLHF)等技术。然而,尚不清楚这种方法是否是向模型教授对齐目标的有效选择。首先,无法结合多种自定义奖励以及依赖模型开发人员对通用和静态原则的看法是关键的限制。其次,模型训练中的残余差距和这种方法的可靠性也值得怀疑(例如,即使在安全训练后也容易越狱)。为了解决这些问题,我们提出了DeAL,这是一个允许用户自定义奖励函数并启用LLM(DeAL)的解码时间ALignment的框架。原创 2024-03-20 10:05:05 · 278 阅读 · 0 评论 -
Aligning Large Language Models to a Domain-specific Graph Database
图数据库(Graph DB)广泛应用于金融、社交网络和医学等各个领域。然而,由于其固有的复杂性和专业性,将自然语言(NL)翻译成图查询语言(GQL)(通常称为NL2GQL)被证明是具有挑战性的。一些方法试图利用大型语言模型(LLM)来处理类似的任务,如text2SQL。然而,当涉及到特定域上的NL2GQL任务时,由于缺乏特定于域的NL-GQL数据对,因此很难在LLM和图形DB之间建立对齐关系。为了应对这一挑战,我们提出了一个定义明确的管道。原创 2024-03-15 14:14:38 · 176 阅读 · 0 评论 -
Measuring Personality Consistency and Linguistic Alignment in Interacting Populations of LLM
虽然在大型语言模型(LLM)的研究中,代理交互和个性化都是充满活力的主题,但对语言交互对受角色制约的LLM代理行为的影响的关注有限。这样的努力对于确保代理人与他们指定的特征保持一致,同时能够进行公开的、自然主义的对话非常重要。在我们的实验中,我们通过提示对GPT-3.5进行人格特征调节,并使用简单的变异性诱导采样算法创建两组LLM代理。然后,我们进行性格测试,并将代理提交给合作写作任务,发现不同的个人资料表现出不同程度的性格一致性和与对话伙伴的语言一致性。原创 2024-03-12 09:52:57 · 109 阅读 · 0 评论