- 博客(568)
- 资源 (69)
- 收藏
- 关注

原创 通俗易懂的Latex教程文档
本篇文档可以搭配视频讲解使用。讲解视频: 通俗易懂的Latex教程(附数学建模国赛美赛模板) 这是一份面向刚入门数模,想要快速上手Latex排版的同学的Latex教学文档。在线编辑网站overleaf:https://www.overleaf.com/我所使用的环境:TeX Live (自带编辑器TeXworks) 编辑器:TeXstudioTeX Live和TeXstud
2021-10-05 17:02:15
33541
16
原创 MinerU v2.1:Sglang参数透传/显存要求降低
今天(2025.7.5),MinerU 发布了v2.1.0版本,更新内容如下:MinerU 开源仓库:https://github.com/opendatalab/MinerU。
2025-07-05 18:43:35
455
原创 【算法笔记】4.LeetCode-Hot100-数组专项
思路分析:这道题求和首先想到用双指针进行遍历枚举,左指针控制循环开始的位置,右指针在左指针的起始位开始向右累计。由于两个循环嵌套,算法复杂度为 O(N2对于数组中的任何位置 j,前缀和 pre[j] 是数组中从第一个元素到第 j 个元素的总和。这意味着如果想知道从元素 i+1 到 j 的子数组的和,你可以用 pre[j] - pre[i] 来计算。用一个 哈希表 来存储每个前缀和出现的次数,可以快速检查某个特定的前缀和是否已经存在,以及它出现了多少次。
2025-07-05 18:41:39
631
原创 做了一个明日方舟主题摆件APP
这回第一次采用 Flutter,起初认为 Flutter 能够多端部署,那在一套平台开发好,就能无缝迁移。虽然能够无缝安装,但 web、电脑端、移动端的画面比例会不一样,导致渲染时仍需要单独去调整。以下是统一界面未经调整,在不同设备上的显示情况。
2025-07-03 20:13:02
240
原创 【算法笔记】3.LeetCode-Hot100-字符串专项
解题思路:第一个想法就用纯暴力的方式去做,挨个元素开始遍历,用unordered_set来去重,maxLen记录每轮循环的最大值。这样需要两个循环,时间复杂度是O(N2这道题官方更推荐采用的思路去做:滑动窗口有点类似于双指针的思路,通过两个指针表示字符串中的某个子串(窗口)的左右边界,左指针从起始位为开始遍历,右指针不断向右拓展,找到集合中无重复的字符就加入窗口范围。下面的例子能够更好地理解滑动窗口的思路:对于字符串abcabcbb暴力解法:i = 0 → 检查 abc → 合法。
2025-07-03 20:11:39
238
原创 【Ragflow】30.离线环境迁移方案
之前的 Ragflow-Plus 在服务器上稳定运行一段时间后,接到任务,要把服务迁移到一台的,的台式机上。起初认为,下载离线安装包,加载离线镜像,迁移下数据就可以了。结果坑多得意想不到,折腾了一晚上才搞定。本文就来分享一下解决方式,Ragflow-Plus 用的是和 Ragflow 相同数据存储方式,用 Ragflow 部署的系统可相同适用。
2025-07-02 18:35:30
562
原创 FreePDFv3.0.0:颠覆你的文献阅读习惯
前两天做了一个文献翻译阅读器,最近在用的时候,发现文献中一些内容没看懂,问大模型,它没看过文献上下文,瞎回复。有没有办法直接把大模型问答融合进阅读中呢?在问答时,直接把文献的上下文信息也告诉模型,这样它就能准确回答问题。于是,将这个功能加到软件中,FreeFDF 升级到版本。FreePDFv3:颠覆科研人的文献阅读方式。
2025-07-01 00:11:24
605
原创 Qwen3-Embedding:原理解读和检索场景测试
2025.6.6,通义千问团队发布了 Qwen3-Embedding 和 Qwen3-Reranker 系列。两组模型一块训练发布,本文侧重于前者进行分析和测试。开源地址:https://github.com/QwenLM/Qwen3-Embedding截至目前,在 METB Leaderboard 中,以检索任务(Retrieval)进行排名,Qwen3-Embedding 位居榜首。作为参考,之前常用的 bge-m3 模型排第30位。技术报告:https://github.com/QwenLM/Qwen
2025-06-29 00:38:21
748
原创 【算法笔记】2.LeetCode-Hot100-双指针专项
暴力解法:从头开始遍历,如果遇到非零元素,将其交换到末尾。时间复杂度: O(n2空间复杂度:O(1)更好的解法:使用双指针的思路,左指针指向当前已经处理好的序列的尾部,右指针指向待处理序列的头部。右指针不断向右移动,每次右指针指向非零数,则将左右指针对应的数交换,同时左指针右移。时间复杂度: O(n);空间复杂度:O(1)
2025-06-29 00:36:57
784
原创 FreePDFv2.0.0:翻译引擎增加,支持中英文双向翻译
FreePDF 发布 v2.0.0 版本,新增两个功能:新增 PDF 文件拖拽导入功能。新增三种翻译引擎,支持离线翻译及双语互翻。FreePDF 开源地址:https://github.com/zstar1003/FreePDF。
2025-06-28 00:19:15
250
原创 【算法笔记】1.LeetCode-Hot100-哈希专项
在刷题过程中,发现各种题解千奇百怪,不同的人有不同的代码风格。因此,有必要以一种统一的风格来记录题解,同时记录在刷题过程中的思考。
2025-06-27 00:40:15
376
原创 FreePDF:让看英文文献像喝水一样简单
第一次看英文文献,遇到不少看不懂的英文单词,一个个查非常费劲。后来,学会了使用划词翻译,整段整段翻译查看,极大提升看文献效率。最近,想到了一种更快的看文献的方式,那就是把英文PDF文件直接翻译成中文,同时保持结构不变。对于同一语义,英文往往需要的单词内容更长,因此结构不变能够做到,且已有 pdf2zh、BabelDOC等产品实现了这一点。然而,目前其主流产品均是以 web 服务形式进行提供,无法上传较大的PDF文件,且用多后会收费。
2025-06-27 00:39:22
782
原创 【大模型微调】5.调参经验总结与显存占用因素探究
训练模型的过程通常被戏称为“炼丹”。参数组合和结果息息相关,但没有标准最优参数组合。因此,在自行钻研之前,有必要先看看别人是怎么做的。
2025-06-22 12:28:40
1205
原创 【大模型微调】3.通过Easy Dataset构建自己的微调数据集
在前文了解 LLaMA-Factory 的各种主要设置参数后,本文开始使用现有的资料构建自己的微调数据集。
2025-06-18 22:56:20
777
原创 【大模型微调】2.微调方法详解与模型显存占用实测
在实际测试前,有必要先梳理一下基本的训练方法,以避免在后续实验中不理解参数的具体含义。这里的基本的训练方法参照 LLaMA-Factory 官方文档作为划分依据,不包含 LLaMA-Factory 支持以外的其它方法。LLaMA-Factory 官方文档地址:https://github.com/hiyouga/LLaMA-Factory训练方法按照训练阶段,可分为预训练(Pre-training)和后训练(Post-training)。
2025-06-18 13:52:27
1013
原创 【大模型微调】1.LLaMA-Factory简介和基本使用流程
(52.4k)、unsloth(40.6k)、DeepSpeed(38.9k)、peft(18.8k)和axolotl(9.6k)。其中,不仅热度最高,而且还是国人维护,自然成为首选。LLaMA-Factory支持直接通过命令行或 Web UI去微调模型,无需编写代码,其支持各种模型LLaMA、DeepSeek、Qwen等多种模型微调,集成了各种训练主流方法。仓库地址:https://github.com/hiyouga/LLaMA-Factory。
2025-06-17 00:53:51
1218
原创 MinerU v2.0:VLM模型捅破解析效果天花板!
之前写 Dolphin 的分析文章时,我对 VLM 进行文档解析的路线始终不抱希望,因为之前的规律表明:只有模型参数足够大,才能获得好效果,小参数模型一致难以企及大参数模型的性能。MinerU 0.9B 的 VLM 模型让人眼前一亮,一个模型同时解决了布局分析、公式识别、文本OCR等各种任务,而且效果不错。本文中的实验结果表明,每块部分都由小模型去做,虽然能应对大多数场景,但对于部分复杂场景,它的瓶颈也暴露无疑,很难再通过数据训练去突破。
2025-06-16 00:46:00
2398
10
原创 【Ragflow】29.RagflowPlus(v0.4.3):遗留问题修复/项目文档完善
本次继续对进行小版本更新,发布版本。开源地址:https://github.com/zstar1003/ragflow-plus。
2025-06-14 02:05:09
384
原创 【Ragflow】28.RagflowPlus(v0.4.2):继续修复相关问题
本次对进行一轮小版本更新,发布 v0.4.2 版本,主要对上一版本存在的问题进行修复。开源地址:https://github.com/zstar1003/ragflow-plus。
2025-06-10 16:31:09
496
2
原创 一套个人知识储备库构建方案
比如,我要查询某篇文章中用到的一个命令,但忘了在哪一篇文章,导致翻阅文章的时间远远超过再查询的时间。好记性不如烂笔头,将阶段性的经验总结成文章,下次遇到相同的问题时,查起来比再次去搜集资料快得多。仓库地址:https://github.com/zstar1003/KnowRepo。于是我打算构建一个多端可同时访问的网页,用来记录需要经常查询的命令。上传到github后,可以利用Github Page的方式进行部署。然而,当文章越来越多时,有一个问题逐渐开始变得“严峻”起来。的前四个字母组合,起名为。
2025-06-08 22:24:59
245
原创 【Ragflow】27.RagflowPlus(v0.4.1):小版本迭代,问题修复与功能优化
此次更新后,在局域网服务器中进行了一轮测试,目前已基本能满足个人应用场景的使用需求。后续会将精力投入到大模型相关的基建拓展研究中,比如,embedding模型的效果如何评估,如何微调大模型。之前定下的Ragflow-Plus的更新计划将会暂缓推进,如果有开发经验的读者想继续对此项目进行贡献,欢迎提交PR。
2025-06-08 22:23:45
647
原创 【Ragflow】26.RagflowPlus(v0.4.0):完善解析逻辑/文档撰写模式全新升级
RagflowPlus v0.4.0发布摘要 开源项目RagflowPlus迎来重大更新,主要优化包括: 文件上传支持选择文件夹自动解析子文件,优化传输通道减少超时 文档撰写模块重构,新增自定义模板功能,独立响应通道提升速度,支持知识库选择和参数调节 多项优化:调整解析逻辑修复关键词检索问题,修复知识库权限BUG,改进Excel解析效率,统一Ollama接口为v1/embeddings
2025-06-06 11:44:43
1128
原创 【Ragflow】25.Ragflow-plus开发日志:excel文件解析新思路/公式解析适配
本文对表格和公式两类元素进行调优测试,不难发现,对于rag系统来说,检索是至关重要的环节。想要效果好,就需要对每一个块进行精调。因此,在进行对话测试前,检索测试是必要环节:如果检索不出来,那就要排查chunk块的类型和关键词设定;如果能检索到,模型回答不出来,那就是模型本身的性能问题。
2025-06-03 09:55:26
1636
原创 【Ragflow】24.Ragflow-plus开发日志:增加分词逻辑,修复关键词检索失效问题
理解完检索过程后,回到开篇提到的问题,就可以进一步定位:关键词相似度不足,实际原因就是解析块和问题的分词逻辑不一致。在现版本中,解析时,文本的分词直接通过处理,即会将空格,制表符\t、换行符\n等字符,作为分隔依据,这样操作太过简单。ragflow的分词器在1. 预处理:- 将所有非单词字符(字母、数字、下划线以外的)替换为空格。- 全角字符转半角。- 转换为小写。- 繁体中文转简体中文。2. 按语言切分:- 将预处理后的文本按语言(中文/非中文)分割成多个片段。
2025-06-02 20:31:00
1922
原创 字节Dolphin:多模态模型分阶段解析的新思路
1.能够识别文档顺序,双栏情况下的阅读顺序处理得不错2.提示词内嵌,这样就可以无需用户再输入具体的文本提示词,同时在一定程度上保证效果的稳定性。1.Dolphin本质上还是基于自回归多模态模型的路线,特别是该模型在不同阶段用不同的prompt进行训练复用,个人感觉这样做会潜在增强模型的幻觉问题,看仓库的讨论区,幻觉现象反馈确实比较多。2.没有对论文文档进行特异性处理,比如同类产品基本都能在模型层面屏蔽页眉页脚信息,以减少后处理的复杂度。3.对于图像元素,会进行过滤,没有图像文件信息输出。
2025-05-26 10:32:24
809
原创 【不背八股】1.if __name__ == “__main__“ 有什么作用?
最近开始准备秋招,技术圈惯例会把常见的面试问答题戏称为“八股文”,网上流传不少这样的材料,写得晦涩难懂,以至于让好多求职者去。在我看来,用文科思维学工科毫无意义,八股实际就是一些基础计算机科学知识,如何用清晰地方式去理解,实践,应用才更有价值。因此,打算开个新的系列文章[],用一种全新的表述方式,重新理解八股面试题。
2025-05-25 13:20:52
328
原创 MinerU v1.3.12:支持ppocrv5模型
昨天(2025-05-24),MinerU 进行了一轮小版本更新,当前版本更新到。MinerU项目地址:https://github.com/opendatalab/MinerU此轮更新围绕ppocrv5模型展开,涵盖以下两点:将ch_server模型更新为ch_lite模型更新为。增加手写文档的支持:通过优化layout对手写文本区域的识别,现已支持手写文档的解析可通过lang参数chch_serverch_litech_lite_v4。
2025-05-25 13:20:14
1567
原创 FreeTex背后的算法:UniMERNet算法解读
本文介绍了数学表达式识别(MER)领域的UniMERNet算法及其构建的UniMER数据集。UniMERNet基于Swin-Transformer编码器和mBART解码器,通过细粒度嵌入、卷积增强等技术提升识别精度,在四种数学表达式类型(SPE/CPE/SCE/HWE)上表现优异。
2025-05-23 22:53:13
1068
原创 PaddleOCR的Pytorch推理模块
本文介绍了将百度PaddleOCR模型转换为PyTorch版本的过程,以解决PaddlePaddle框架与PyTorch项目兼容性问题。
2025-05-21 17:28:10
1727
原创 FreeTex v0.3.0:支持静默运行/软件体积压缩
FreeTex发布v0.3.0版本,主要更新包括静默运行和体积压缩。静默运行功能允许软件在关闭窗口后最小化到托盘,避免重新加载模型导致的工作中断。体积压缩通过模型精度转换和安装包优化,将下载文件体积从1.07GB减少至603.75MB。此版本仅适用于Windows_x86_64用户,未做功能更新,无需强制下载。
2025-05-18 14:54:55
400
1
原创 【Ragflow】22.RagflowPlus(v0.3.0):用户会话管理/文件类型拓展/诸多优化更新
RagflowPlus发布了v0.3.0版本,新增了用户会话管理、知识库图像预览显示、文件类型解析拓展、聊天对话字体动态调节等功能。同时,对信息排序、知识库创建、嵌入模型适配等方面进行了优化,并修复了用户人数显示不全、创建时间异常等问题。
2025-05-17 21:07:43
971
原创 FreeTex v0.2.0:功能升级/支持Mac
FreeTex发布了v0.2.0版本,主要更新包括新增识别结果预览显示、支持Latex格式化输出、软件体积优化及移除控制台黑窗,并首次推出macOS(arm64)版本。Windows版本现提供压缩包,解压后直接运行。macOS版本因系统限制,部分新功能无法生效,且需用户手动调整安全设置以安装。软件优化了识别功能,建议用户在使用时避免截图包含文字或使用暗色背景,以确保识别准确性。此外,软件统一使用CPU版本,以提高兼容性和减少资源占用。FreeTex团队感谢社区成员的贡献,并强调软件将保持简洁,专注于公式识别
2025-05-10 10:11:43
1212
原创 FreeTex:免费的智能公式识别神器
FreeTex 主要解决了公式识别需要付费的问题,作为本地计算软件,无需联网,没有服务器运维成本,并有效保护了数据隐私性。
2025-05-06 15:04:34
2549
13
原创 深入拆解 MinerU 解析处理流程
MinerU更新频率也相当频繁,在短短一个月内,更新了10个小版本。本文结合最新版本v1.3.10,深入拆解下它进行文档解析时的内部操作细节。
2025-05-02 16:05:52
1183
翻译 MiMo-7B:小米大模型,为推理而生
我们提出了 MiMo-7B,一个专为推理任务而生的大型语言模型,其优化贯穿了预训练和后训练两个阶段。在预训练期间,我们增强了数据预处理流程,并采用三阶段数据混合策略来强化基础模型的推理潜力。MiMo-7B-Base 在 25 万亿(Trillion)个 token 上进行预训练,并引入了多词元预测(Multi-Token Prediction)目标以提升性能和加速推理速度。
2025-05-01 14:09:39
234
一个简单实现登录和注册的小demo
2022-02-07
Jetson-nano自动驾驶小车技术文档
2021-07-25
数据集spacenet/AICrowd/CHN6-CUG/deepglobe-road-dataset/Massachuset
2022-07-07
苹果科技官网前端界面(纯H5/CSS/Javascript)
2022-06-13
Android:简单登录注册Demo
2022-06-13
【Android】husbandry项目工程文件
2022-06-13
雾霾定位探测系统(App)
2022-05-11
MLP/LeNet/AlexNet/GoogLeNet/ResNet在三个不同数据集上的分类效果实践
2022-05-02
雪堆博弈-最小节点覆盖问题程序与文档
2022-05-02
医学数据库MIMIC-III v1.4
2022-05-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人