tokens关于在输出字符时出现部分乱码

siynb_725g87gb

已于 2024-02-04 16:42:47 修改

阅读量1.4k

点赞数 3

文章标签：人工智能机器学习深度学习神经网络自然语言处理

于 2024-02-04 16:41:38 首次发布

本文链接：https://blog.csdn.net/qq_39667443/article/details/136028683

版权

文章讨论了在使用大模型进行语言问答时遇到的字符显示问题，即某些字被转化为两个FFFD。原因在于大模型的tokenizer将中文字符分为了多个token。解决方案是遇到特殊字符时不直接输出，而是暂存并等待后续token一起解析。参考了一个GitHub上的MLX框架示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在使用大模型做语言问答的时候，出现了有某些字无法正常显示而出现了两个� � 的情况。
在这里插入图片描述

解释如下：

tokens是大模型输出的基本单位，而不是字符的基本单位。大部分中文汉字都是三个token对应一个汉字，有部分生僻字是四个token对应一个汉字。在使用大模型的时候，输出的tokrnizer在解析时就会出现上述的问题。

解决方案：修正的代码中是遇到这个字符，就不吐出来，只把token加入待解析的队列，然后等下个token出来后一起解析。

参考：GitHub - someoneAlready/mlx-examples: Examples in the MLX frameworkhttps://www.fileformat.info/info/unicode/char/fffd/index.htm

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

siynb_725g87gb

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

为什么Qwen2用户表示有乱码输出问题？Qwen2系列开源，目前国内非常好用的LLM！

强化学习曾小健

07-11

2486

经过数月的等待和阿里团队不懈的努力，Qwen系列开源模型迎来了从Qwen1.5到Qwen2的飞跃式升级。本次升级亮点包括：5种不同尺寸的预训练及指令微调模型，包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B；在中文和英语的基础上，新增27种语言的高质量训练数据；在多个评测基准上取得领先表现；显著提升代码和数学能力；支持更长的上下文长度，最高可达128K tokens（Qwen2-72B-Instruct）。

【第5章：深度生成模型— 5.3 生成模型在自然语言生成中的应用案例】

02-14

自然语言生成（NLG）是AI领域最具挑战性的任务之一，而深度生成模型正在彻底改变这个领域。想象一下，AI不仅能写出流畅的文章，还能创作诗歌、编写代码、甚至生成整个虚拟世界的故事线。今天，我们就来深入探讨生成模型在NLG中的各种神奇应用，从最基础的文本生成到最前沿的对话系统，手把手带你理解这些技术的实现原理。（本文包含大量代码示例和实战技巧，建议在Jupyter Notebook中边看边实操）

参与评论您还未登录，请先登录后发表或查看评论

GPT2模型输出中文乱码

m0_55207117的博客

02-21

1848

python（pycharm）输入输出中文乱码实测有用

别再踩这些坑！国产大模型部署十大常见错误（经验血书）

在信息的熵增中，记录结构、重建秩序。技术思想者的笔记，系统构建者的注释。

04-02

1296

能部署模型的人不一定写得出 LoRA，但能“复现 + 修复 + 总结”这些坑的人，一定是能落地国产大模型系统的人。

Java调用Python大语言模型（LLM）遇到乱码

qq_46119503的博客

02-29

887

使用Java调用大语言模型时出现了乱码问题

Token解密出错：The string "此处为乱码'' doesn't have a valid JSON format(已解决)

weixin_43830606的博客

02-18

1万+

最近在毕设里面使用token做登录授权，使用postman测试出现了乱码报错： com.auth0.jwt.exceptions.JWTDecodeException: The string ‘�z��’G�#�KaTeX parse error: Expected 'EOF', got '&' at position 6: �uB"�&̲�r#��3S"’’ doesn’...

Huggingface tokenizer decode batch_decode报错解决思路与分析

jieshenai的博客

07-17

4147

由tokenizer.decode报错开始，叙述笔者如何解决这个bug，并深入源码理清 decode 与 batch_decode的区别。

应用层修复大语言模型（LLMs）输出异常 JSON 通用解决方案

HAibiiin的博客

12-27

952

在应用集成大语言模型逐步深入的过程中，对于以 JSON 为代表的结构化数据输出逐步成为核心用例。在模型无法保证 100% 生成正确 JSON 输出的当下，应用层是否有一套能够适配多语言，多种结构化格式，同时提供更为健全修复能力的方案？本文结合个人经验，提出了一个基于 ANTLR 的修复方案，希望能为你带来一定的参考价值。

lora微调模型输出只有空格或者乱码或者符号

zc1226的博客

07-11

1254

输入模板是更重要的，3种情况可以同时进行修改，以便快速查出问题所在。

大模型llama输出乱码

热门推荐

张彦峰的博客

02-14

167万+

在微服务架构中，API网关作为核心组件之一，承担着请求路由、负载均衡、安全认证等重要功能。Spring Cloud Zuul作为一款功能强大的API网关解决方案，得到了广泛应用。本文将深入探讨Spring Cloud Zuul的各项功能，从基础配置到工作原理，再到多层负载和应用优化，全面解析其在实际应用中的最佳实践与实用技巧，为开发者提供一站式指导，助力其打造高性能、高可用的微服务架构。

LLM（大语言模型）解码时是怎么生成文本的？

m0_70839135的博客

07-14

767

在自然语言处理（NLP）领域，大语言模型（Large Language Model, LLM）的崛起标志着文本生成技术的重大飞跃。这些模型，如GPT系列、BERT及其变体，通过深度学习技术，特别是基于Transformer的架构，实现了对自然语言复杂性的深刻理解和生成能力。LLM不仅改变了我们与机器交互的方式，还在文本创作、机器翻译、文本摘要、对话系统等众多应用场景中展现出前所未有的潜力。本文将深入探讨LLM在解码过程中如何生成文本的机制，揭示其背后的技术原理与策略。

speechbrain 分词speechbrain.tokenizers.SentencePiece

hnlg311709000526的博客

12-19

551

这个分词主要针对的是英文，其中在speechbrain.tokenizers.SentencePiece文件中有一个open读取操作，其默认的是gbk，而自己保存的文件格式是utf-8，所以这个文件读取时会出现乱码情况，所以将所有open,添加 encoding="utf-8" 而且需要注意，分词相关的文件，一定不能错，以前的错误文件会对自己造成干扰做个记录，方便以后查看 ...

Transformer数据预处理(Tokenizer)的问题

Mark_Australia的博客

03-15

3191

transformer中预处理问题

ONVIF中getpreset返回中文乱码问题解决

qq_36184671的博客

08-23

640

soap_set_mode(proxyDevice.soap,SOAP_C_UTFSTRING); soap_set_mode(proxyDiscovery.soap,SOAP_C_UTFSTRING); soap_set_mode(proxyMedia.soap,SOAP_C_UTFSTRING); soap_set_mode(proxyPTZ.soap,SOAP_C_UTFSTRING); s...

机器学习中输入输出Tokens的概念详解

weixin_43841461的博客

11-26

3563

在自然语言处理中，Token指的是文本数据中最小的处理单元。它可以是一个单词、一个字符、一个子词（subword）或是其他任何形式的文本片段。Token化的目的是将连续的文本序列转换为离散的、可被机器学习模型处理的形式。

输出时候乱码怎么处理

mxbin1的博客

02-11

977

输出后

bert相关问题总结

qq_45193988的博客

12-10

1036

bert一些相关知识