深入解析 Transformers 框架（四）：Qwen2.5/GPT 分词流程与 BPE 分词算法技术细节详解

老牛同学

已于 2024-11-09 11:13:20 修改

阅读量1.8k

点赞数 29

CC 4.0 BY-SA版权

分类专栏： AI 文章标签： AI BPE GPT Qwen2.5 transformers 人工智能

于 2024-11-09 08:54:27 首次发布

转载请注明原文链接：https://ntopic.cn

本文链接：https://blog.csdn.net/obullxl/article/details/143639397

前面我们已经通过三篇文章，详细介绍了 Qwen2.5 大语言模型在 Transformers 框架中的技术细节，包括包和对象加载、模型初始化和分词器技术细节：

深入解析 Transformers 框架（一）：包和对象加载中的设计巧思与实用技巧
深入解析 Transformers 框架（二）：AutoModel 初始化及 Qwen2.5 模型加载全流程
深入解析 Transformers 框架（三）：Qwen2.5 大模型的 AutoTokenizer 技术细节

在第 3 篇文章中，我们简要介绍了 Qwen2.5 使用的 Byte Pair Encoding (BPE) 分词算法，并用英文序列 “Hello World.” 举例说明了分词过程。然而，这只是 BPE 分词的一部分内容。今天，我们将继续深入探讨 Qwen2.5 的分词流程，重点介绍 Qwen2.5 如何处理中英文混合的文本序列，并解析 BPE 分词算法的具体实现。
分词配置文件

一、中英文分词示例与初步分析

为深入理解 Qwen2.5 的分词过程，我们以一段中英文混合的文本序列“Transformers分词：台风又双叒叕来了！”为例进行剖析。以下是相关的代码示例：

import os

from transformers import AutoTokenizer

# 初始化分词器，从本地文件加载模型
model_dir = os.path.join('D:', os.path.sep, 'ModelSpace', 'Qwen2.5', 'Qwen2.5-1.5B-Instruct')
tokenizer = AutoTokenizer.from_pretrained(
    model_dir,
    local_files_only=True