自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(229)
  • 收藏
  • 关注

原创 gpt-4o-mini 等大模型的第三方中转API接口教程

摘要:本文介绍了如何在Python环境中使用gpt-4o-mini模型,包括Anaconda的安装与配置、创建新的Python虚拟环境、安装langchain与openai相关包、接入OpenAI API(包括使用第三方API站点以规避地域限制)的方法。详细步骤涵盖了环境变量的设置、API密钥的管理、模型调用的代码示例及消费估算。此外,还提供了优化大模型使用效率的建议,如使用多线程、令牌池,以及编写有效提示词的重要性。最后,推荐了相关教程和提示词编写技巧,旨在帮助读者更好地利用大模型进行自然语言处理任务。

2024-08-21 13:10:09 5627 4

原创 知网论文批量下载pdf格式论文,油猴脚本

通过油猴脚本批量下载知网论文PDF的方法。安装Chrome浏览器和油猴插件,需调整浏览器设置。知网搜索作者论文后,点击批量下载按钮。针对知网验证码频繁的问题,建议购买镜像网站账号。文章还提供了Python代码,通过比对BibTex导出的参考文献和已下载文件,快速找出遗漏论文。

2025-07-18 10:16:52 580

原创 杨耀东老师在ICML2025上对齐教程:《语言模型的对齐方法:一种机器学习视角》

杨耀东老师在ICML2025会议上分享了《语言模型的对齐方法:一种机器学习视角》教程。百度网盘PPT链接

2025-07-17 21:43:39 247

原创 ACL 2025 论文阅读:Dynamic Label Name Refinement for Few-Shot Dialogue Intent Classification

一种动态优化标签名称的方法来提升小样本对话意图分类效果。针对现有方法中标签名称含义模糊导致分类性能下降的问题,作者利用大语言模型根据文本上下文动态生成更准确的类别标签。通过实验验证,该方法能显著降低标签间的语义相似度,提升分类准确率。研究还发现,模型能力越强,生成的标签与原始标签差异越大,分类效果提升越明显。此外,实验设计巧妙地区分了标签优化模型和分类模型各自的影响,表明二者性能都会影响最终效果。这项工作为改进小样本分类任务提供了新的思路。

2025-07-09 20:03:05 208 1

原创 embedding模型计算企业信息表两个属性列的向量相似度

BGE-M3嵌入模型实战摘要:文章介绍了如何使用BAAI/bge-m3模型进行文本相似度计算。官方示例展示了通过FlagEmbedding工具包快速实现句子向量化与相似度矩阵计算(1024维向量,输出2x2相似矩阵)。针对企业数据场景(如产业分类与经营范围匹配),作者提出将向量reshape为2x1x1024以生成2x1x1的相似度矩阵,并给出完整处理流程代码。此外还提供了从零实现的PyTorch版本,包括Tokenizer加载、模型推理等核心步骤,帮助理解底层计算逻辑。

2025-07-02 10:57:44 983

原创 MTEB 中的 Embedding 模型文本分类微调实践

本文探讨了基于MTEB框架对文本嵌入(embedding)模型进行微调的新思路,区别于传统端到端分类训练,该方法优化模型生成语义相似向量的能力。实验分为三部分:首先评估原始BGE-small模型在AGNews数据集上的kNN分类准确率为77.8%;然后使用FlagEmbedding工具进行微调,重点分析same_dataset_within_batch参数对训练效率的影响;最后对比微调前后的模型表现。该方法通过优化文本在向量空间的分布,为后续检索或分类任务提供更好的语义表示基础

2025-07-01 09:55:32 1025

原创 MTEB:基于 Embedding 的文本分类评估与实战解析

介绍了如何使用 MTEB(Massive Text Embedding Benchmark)对文本嵌入模型进行文本分类任务评估,涵盖逻辑回归与KNN两种方法的实现与对比。通过使用BERT和bge-m3模型,展示了embedding质量对分类效果的影响。同时,详细debug了MTEB的评估流程,并提供了自定义数据集的接入方式,为后续微调embedding模型打下基础。

2025-06-19 18:49:05 808

原创 embedding模型的两种编码方式(cls和mean)及其实现细节

基于BERT微调的embedding模型的两种编码方式(cls和mean)及其实现细节。cls模式使用首个token表示整个句子语义;mean模式对所有token向量求平均。深入解析了BERT模型生成embedding的内部过程,包括last_hidden_state处理、正则化等关键步骤,并展示了如何封装这两种编码方式的模型实现,为微调embedding模型提供了技术参考。

2025-06-16 09:02:44 681

原创 torch 高维矩阵乘法分析,一文说透

一提到矩阵乘法,大家对于二维矩阵乘法都很了解,即 A 矩阵的行乘以 B 矩阵的列。但对于高维矩阵乘法可能就不太清楚,不知道高维矩阵乘法是怎么在计算。

2025-06-13 19:41:35 1189

原创 Mac使用Ollama完成模型推理

Mac上使用Ollama加速LLM推理的方法。采用Ollama(封装llama.cpp)配合LangChain实现异步调用。提供了异步协程调用的代码示例。测试显示,异步处理40条数据仅需1分44秒(2.61秒/条),比同步调用(3.4秒/条)效率提升约20%。

2025-06-13 10:28:58 316

原创 Mac M4 芯片运行大模型指南,包括模型微调与推理

本文分享了在Mac mini M4(16G内存)上部署大模型的经验。模型推理推荐使用Ollama,其底层基于llama.cpp但提供了更友好的API接口和模型管理功能,适合快速部署。vLLM暂不支持Mac的MPS加速。模型微调建议采用Unsloth框架,相比LLamaFactory具有内存占用小、微调快的优势。

2025-06-10 16:49:09 1108

原创 产业集群间的专利合作关系

分析企业专利合作关系的完整流程。首先通过脚本从全国3000多万条专利中筛选目标企业相关专利,并统计企业间合作次数;然后利用百度地图API获取企业经纬度信息,支持异步处理和异常保存;最后区分企业类型并整合数据。该方法可有效识别企业间的专利协作关系,为产业集群研究提供数据支持。全套代码已开源,包含专利筛选、合作统计、地理编码等核心功能。

2025-05-27 19:01:51 491

原创 llamafactory SFT 从断点恢复训练

手动恢复训练可通过修改resume_from_checkpoint参数实现,但为减轻手动负担,编写了自动恢复训练的Shell脚本。

2025-05-16 22:07:41 1092

原创 问题改写提示词提升多跳问题的检索效果,用户输入部分放到提示词最后

本文介绍了一套有效的问题改写提示词,经过实际测试,使用该提示词后,qwen-2.5-7B模型在hotpot数据集上的命中率从82%提升至91%。这套提示词使得qwen-2.5-7B的问题改写能力可以与gpt-4o等强大模型媲美,显著提升多跳问题的处理效果。

2025-05-16 10:47:10 1227

原创 GPU 在训练大模型的过程中暂停

在GPU训练模型过程中,发现GPU停止工作,尽管显存仍被占用。通过nvidia-smi命令检查,GPU当前温度为87°C,接近最大工作温度93°C,但尚未达到关机温度98°C。推测长时间运行导致温度过高,GPU自动停止工作。

2025-05-12 09:19:34 638

原创 使用 Selenium 爬取动态网页数据 —— 实战与坑点详解

记录了笔者在爬取网页数据过程中遇到的各种技术挑战,包括页面动态渲染、JavaScript 注入等问题,并最终给出一个可运行的完整方案。

2025-05-03 20:09:04 1416

原创 梳理顶会论文相关的经验贴

梳理顶会论文相关的经验贴

2025-05-01 15:16:11 220

原创 datasets 数据处理封装后,统一处理流程以避免Dataset Map顺序依赖问题

使用 `datasets.map()` 函数显式控制数据处理的并发行为。函数之间有顺序依赖,务必封装成一个统一的处理函数,确保数据流正确

2025-04-28 21:18:30 397

原创 LangGraph 构建数学 Agent:工具调用 + 结果验证 + 流程总结全流程实战

实战项目展示了如何使用 LangGraph 构建具备工具调用、结果验证与流程总结功能的数学智能体。项目中集成了加法与乘法工具、提示词模板、少样本示例,以及状态管理和流程控制,实现了完整的计算与判断流程。

2025-04-15 15:20:03 1000

原创 LangChain 高效实现 LLM 结构化输出:代码、技巧与对比分析

结合 Langchain 官方文档,通过 with_structured_output 实现大模型的结构化输出。相较官方示例,新增了 Prompt 模板填充与 Few-shot 提示词技术,提升了如 gpt-4o-mini 等模型的结构化输出能力。还对 PydanticOutputParser 及文本分类评估进行了补充,并提供完整代码与数据资源下载链接

2025-04-15 10:50:46 984

原创 微调Embedding模型:基于BERT的实战教程

在理解RAG流程后,从零微调BERT为Embedding模型的全过程,包括数据集构建、模型训练与效果评估。项目基于FlagEmbedding框架,展示了不同负样本数量对召回效果的影响,并与BGE-M3模型做对比。文中还分析了训练过程中的核心代码与关键参数,适合对Embedding模型微调感兴趣的开发者参考。附带完整代码与资源下载链接。

2025-04-07 14:39:34 1358 3

原创 数据分析与知识发现 论文阅读【信息抽取】

数据分析与知识发现期刊 信息抽取相关论文阅读

2025-04-02 20:12:29 1209 1

原创 langchain框架,ollama调用deepseek r1 实现RAG问答

langchain、ollama 基于本地的 emdding模型与deepseek构建RAG智能问答

2025-03-29 18:55:57 623

原创 torch不能使用cuda的解决方案

安装nvidia桌面端APP, 安装 cuda,torch 安装cuda版本

2025-03-29 18:16:58 1377

原创 解决HuggingFaceEmbeddings模型加载报错:缺少sentence-transformers依赖包

使用Langchain加载HuggingFaceEmbeddings时,遇到了“Error loading model: Could not import sentence_transformers”错误。尽管已安装sentence_transformers,但依然报错。通过检查并运行import sentence_transformers代码,发现缺少一些依赖包。

2025-03-28 20:01:54 668 1

原创 DeepSeek 协程API 调用与 vllm推理,llamafactory本地vllm部署

使用 Python 协程优化 DeepSeek API 调用的可行性。在本地通过 llamafactory + vLLM 部署 DeepSeek 后,异步调用的加速效果明显提升。

2025-03-24 14:26:29 1020

原创 MDQA 知识图谱提示用于多文档问答

一种知识图谱提示(KGP)方法,以优化多文档问答的上下文构建。包括图构建和图遍历。创建跨文档的知识图谱,节点表示段落,边基于语义或词汇相似性。此外,研究涉及KNN、TF-IDF、BM25等检索方法,并探讨了检索器微调与大模型评分机制。

2025-03-20 10:47:51 995

原创 基于百度地图API利用协程高并发获取企业的经纬度

本文探讨了如何利用 协程 高效调用百度地图 API 进行批量地理编码。传统的同步请求方式受 API 速率限制,而 Python 的 asyncio + aiohttp 结合 aiolimiter,能够实现高并发请求并智能限流。相比多线程,协程不仅具备更高的并发能力,还对硬件资源要求更低。

2025-03-11 10:50:58 888

原创 从工商注册表中筛选出某一年份的企业数据

从工商企业注册信息表中筛选出某一年的企业数据

2025-03-04 12:07:46 359

原创 基于专利合作地址匹配的数据构建区域协同矩阵

基于专利申请中权人地址信息分析区域间专利合作情况的方法。通过提取并匹配专利申请中的公司地址,利用Python计算不同地区间的合作频次,构建合作矩阵来展示各区域之间的协同关系。

2025-02-27 20:58:25 650

原创 大模型SFT有监督微调教程

前一篇文章 [大模型预训练代码实战教程],介绍了大模型预训练的过程。有监督微调与预训练的代码流程基本一致,唯一的区别就是不对用户输入部分计算loss。本篇相比前一篇大模型预训练的文章,主要介绍如何把指令部分对应的label设置为-100。

2025-02-22 17:04:05 1183

原创 大模型预训练代码实战教程

不使用现成的微调工具,使用Transformers库的AutoTrain进行自定义微调。通过构造适合大模型的数据集和数据模板,并讲解了如何处理输入文本、标签和填充符号。

2025-02-21 16:14:05 1201

原创 大模型损失函数计算之中的 pad 介绍

首先以框图的形式介绍大模型的损失函数的计算过程。由于在大模型损失函数计算过程中,用到了 pad ,故介绍一下pad方法的用法。

2025-02-17 15:48:39 922

原创 Gparted图文并茂详细介绍重新分配磁盘分区

使用 Gparted 工具对 Linux 服务器的磁盘进行调整,以扩容 /分区的容量重新划分磁盘。列举了调整分区的完整操作流程,包括使用 Gparted U 盘启动、创建空白分区、移动分区及合并分区,最终成功将 /分区 扩容至 161GB。

2025-02-07 13:42:18 2838

原创 Markdown 博客写作图片自动上传到 CSDN 与博客园

使用 `dotnet-cnblog` 工具,将本地 Markdown 文件中的图片自动上传至博客园,并生成一个包含网络图片地址的 Markdown 文件。然后,直接将该文件复制到 CSDN,CSDN 会自动存储这些图片。

2025-02-06 18:35:52 903

原创 企业分类相似度筛选实战:基于规则与向量方法的对比分析

聚焦企业分类相似类别筛选,介绍`google_bleu`算法与向量的嵌入模型方法,探讨两种方法在文本相似度计算中的效果对比。规则方法依赖字符匹配,而向量方法利用深层语义理解,能精准筛选语义相近类别。

2025-01-18 17:39:19 1256

原创 三种文本相似计算方法:规则、向量与大模型裁判

本文介绍了三种方法,评估两个字符串之间的相似度:基于字符n-gram的规则算法(如ROUGE、BLEU),通过嵌入模型将文本编码为向量并计算余弦相似度,以及使用大模型直接评判文本相关性。文章详细探讨了这些方法的实现细节及适用场景,并提供了Python示例代码,帮助读者理解和应用不同的方法来满足具体需求。

2025-01-17 23:24:31 1541

原创 SSH 代码同步与远程连接:多密钥 vs 单密钥 SSH 配置指南

详细解析了如何使用 SSH 配置 Git 工具与远程主机的连接,比较了多密钥结构和单密钥结构的优缺点。单密钥结构可简化配置过程,也可实现与 GitHub、Gitee 和远程主机的同步操作。同时,介绍了如何通过 SSH 和配置文件优化远程主机连接体验,适用于使用 VSCode 等工具的开发者。

2025-01-06 19:25:12 606

原创 使用 VSCode 学习与实践 LaTeX:从插件安装到排版技巧

介绍了使用 VSCode 编写 LaTeX 文档的详细方法。从选择编辑器和安装插件开始,讲解了如何设置编译输出目录以保持文件整洁,并涵盖了常用的 LaTeX 语法,如插入图片、创建列表和添加参考文献。特别说明了图片位置控制及参考文献的编译流程,适合初学者快速入门和提高 LaTeX 文档编写效率。

2024-12-24 13:23:11 2357

原创 基于 LlamaFactory 微调大模型的实体识别的评估实现

利用 LlamaFactory 框架微调大语言模型完成实体识别任务。在实体识别评估中,采用实体边界完全匹配方可计为正确结果。代码实现包括分类评价指标的计算(准确率、召回率与 F1 值)。

2024-12-06 16:15:26 844

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除