- 博客(31)
- 收藏
- 关注
原创 dpo-from-scratch
这篇文章介绍了直接偏好优化(DPO)方法及其在大型语言模型(LLM)对齐中的应用。DPO被提出作为从人类反馈中进行强化学习(RLHF)的替代方案,可以直接优化模型输出以符合用户偏好,而无需训练单独的奖励模型。文章详细解释了DPO的工作原理和数学公式,并展示了如何准备包含偏好响应的数据集(如有礼貌和较不礼貌的回答)。作者计划实现DPO损失函数并将其应用于LLM微调,以生成更符合用户期望的响应。文中还提供了相关代码示例和数据集的下载链接,为读者提供了实践DPO的完整指南。
2025-06-19 19:41:45
734
原创 create-preference-data-ollama
本文介绍了使用Llama 3.1 70B模型和Ollama工具生成偏好数据集的方法。偏好微调是将指令微调后的LLM与人类偏好对齐的过程,文中探讨了三种创建偏好数据集的方法,并重点介绍了第三种方法:利用LLM直接生成符合和不符特定偏好标准的成对回应。通过Ollama运行700亿参数的Llama 3.1指令微调模型,可以将基础的指令数据集(如问答对)转换为带有"chosen"(偏好)和"rejected"(非偏好)标签的格式。文章详细说明了Ollama的安装过程、模型下载
2025-06-19 19:36:48
892
原创 档案学实物
在档案学中,“全宗”是指一个机关、团体或个人在其活动过程中形成的全部档案的总称。全宗的概念强调了档案的来源以及其整体性。每一个全宗都是一个独立的、有机的档案整体,反映了档案形成者的全部活动过程和历史面貌。想象一下一个学校。学校在运行过程中会产生各种各样的档案,包括教学计划、学生成绩单、行政文件、财务报表等。所有这些档案,尽管内容不同,但因为它们都由同一个学校产生,所以它们一起构成了这个学校的全宗。这些档案能够全面反映出这个学校的历史和运作情况。
2024-12-07 20:51:57
470
1
原创 中国古代史
西周和东周的划分主要是根据周朝都城的地理位置变化来确定的。时期,周朝的都城是镐京(宗周),位于今天的。时期,都城迁移到了洛邑(成周),位于今天的。这个划分的标志性事件是公元前770年,周平王东迁至洛邑,从此开始了东周时期"是指在中国春秋末年,晋国被韩、赵、魏三家列卿瓜分的事件公元前453年,赵联合韩、魏灭掉了智氏,晋国公室名存实亡公元前403年,周威烈王册命了韩、赵、魏三家列位诸侯,史称“三家分晋”。这一事件被司马光列为《资治通鉴》的开篇之作,
2024-06-15 21:42:57
1524
原创 数量关系_
排列组合(记作Anm):从n个不同元素中取出m个元素的所有不同排列的个数,考虑元素的顺序。其中,n!表示阶乘,规定0!1。例如,从5个不同元素中取出2A525⋅420(记作Cnm):从n个不同元素中取出m个元素的所有不同组合的个数,不考虑元素的顺序。n−mn!其中,Ammm!表示m个元素的全排列数。
2024-06-07 15:27:18
1007
原创 weread
import argparseimport jsonimport loggingimport osimport reimport timefrom notion_client import Clientimport requestsfrom requests.utils import cookiejar_from_dictfrom http.cookies import SimpleCookiefrom datetime import datetimeimport hashlib
2024-03-20 10:10:22
251
1
原创 <人性的弱点>札记
忘记自己的私利,关注对方的利益;6.如何激励他人走向成功–夸奖他人每一点微小的进步,由衷的赞许,不吝惜赞美之词(想要改变他人的时候,用奖励代替惩罚,由衷的赞美,哪怕只有一点微小的进步。鼓励对方成为谈话的主角,不要骄傲自己所做的事,不自吹自擂,多听别人说他自己骄傲的事,让对方多说,自己倾听。(你谈话的对象不关心你和你自己的问题,而是对他本人感兴趣得多,学会倾听他们的说话,自己少说,犯错的时候先倾听,找出自身的毛病)(对重视的渴求,学会欣赏他们的好,由衷地赞美,让对方觉得你真心觉得他很重要,对于对方的认可)
2024-03-07 08:35:28
1026
原创 战略、战役、战斗
战略,战役,战斗的区别和关系战略:广义上的战略泛指对全局性、高层次的重大问题的筹划和指导,如国家战略、国防战略、经济发展战略等。军事战略主要指筹划和指导战争全局的方略。军事战略按作战类型和性质,分为进攻战略和防御战略。在军事战略下一层次,还有军种战略和战区战略等。战役:军团为达成战争的局部目的或全局性目的,在统一指挥下进行的由一系列战斗组成的作战行动。它介于战争与战斗之间。按作战基本类型,分为进攻战役和防御战役;按战役力量构成及其相互关系,分为合同战役和联合战役;
2024-02-23 16:30:27
3530
原创 C51单片机
但电阻不能无限减小,单片机IO口有最大电流限制6mA,亦有单片机IO口合计最大电流限制60mA(视单片机参数确定)箭头朝内PNP,导通电压顺箭头过,电压导通电流控制。故,要使三极管导通,电阻应小于143K欧姆。红色发光二极管的压降为2.0–2.2V。黄色发光二极管的压降为1.8—2.0V。绿色发光二极管的压降为3.0—3.2V。正常发光时的额定电流约为20mA。箭头两端:一端基极,一端发射极。一个PN结的导通电压0.7v。一个PN结的导通电压0.7v。则,根据经验取10KΩ。
2024-01-08 11:12:57
409
1
原创 赵武灵王(赵雍)
赵雍为继续扩大疆土,需要长期在外,国家政务和军中事务太多,会车裂他的精神的。若立赵章为王,章的羽翼已经丰满,必然不受赵雍长期的控制,以实现其野心。司马迁:主父初以长子章为太子,后得吴娃,爱之,为不出者数岁,生子何,乃废太子章而立何为王。吴娃死,爱弛,怜故太子,欲两王之,犹豫未决,故乱起,以至父子俱死,为天下笑,岂不痛乎!赵章反叛,公子成平叛赵章,赵章兵败,逃到主父那里。二十年,巡查中山国,西巡胡人地势。同年,沙丘之乱,主父被困沙丘,饿死。二十六年,再次进攻中山国,夺取的土地北至燕、代一带,西至云中、九原。
2023-09-26 18:34:01
166
原创 让子弹飞一会
《让子弹飞一会儿》电影剧本北洋年间 南部中国!.日 外 青石岭青山白石。雄关漫道。苍鹰翱翔天际。铁轨直插远方。一颗后脑勺由画面上方落下,耳朵紧贴轨道,听。 须臾,头颅轻起,让出缝隙,手指插入耳孔,挖净。再听。铁轨抖动,隆隆声由远而近。呜-一-汽笛长嘶。脑袋一翻,后脑勺变成正脸。大眼惊恐。火车从这边来了!铁轮飞转,白烟滚滚,血旗猎猎,风驰电掣。白马十匹,赫然出现。率两节车厢呼啸而来。马拉火车。十匹白马是火车的车头。白马黑车,游龙山间。日 内 火车车厢车厢内,火锅巨大,如八仙圆
2023-08-14 16:48:13
875
原创 第七章 正弦稳态电路
因为复功率的相位应当和阻抗的相位一致,而按照相量定义电流相位等于电压相位-阻抗相位,如果直接电压乘电流,求出来的相位和阻抗相位不相等。为了最后能和阻抗相位一致,需要电压相位减电流相位才能得到阻抗相位。如何取得电流负相位呢?这样,电压乘电流的共轭得到的那个复数,相位就和阻抗一致了。电流取共轭的目的是要取电流相位角φ的负值,即-φ。这样在S=U乘以I的共轭就能够表示其物理意义:视在功率等于电压乘以电流再乘以他们之间的夹角。复功率=电压*电流共轭?cosφ,无功功率Q=S。
2023-07-25 17:38:14
787
原创 周期性非正弦稳态电路的分析
它将周期函数表示为正弦函数和余弦函数构成的级数。更正式地说,对于满足狄利克雷定理的周期函数,其傅里叶级数是由一组简单振荡函数的加权和表示的方法。傅里叶级数是指一种将周期函数表示为三角函数(正弦和余弦)的和的方法。为系数,可以通过函数。
2023-07-18 10:40:24
507
1
原创 混连谐振电路
注意:过电压谐振频率下,电流I最大,有功最大电感和电容电压并不是所有频率内最大的Q>0.5时,电感电压最大值在ωω01之后,电容电压最大值在ωω01之前,两个电压均大于谐振时的电感电容电压,在工程上应给予考虑;Q<0.5时,电路谐振时将不发生过电压现象电感电容电压交点会在电阻电压下面。
2023-07-10 19:05:40
516
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人