
深度学习
文章平均质量分 89
dl
山顶夕景
互联网大厂AI算法工程师。实践出真知。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【ChatGPT】LLM三大核心技术及GPT应用(ChatGLM-6B、duckduckgo_search、GPT在科研的应用等)
instructGPT(基于提示学习的系列模型)——>GPT3.5(大规模预训练语言模型)——>ChatGPT模型(高质量数据标注+反馈学习)。chatGPT三大技术:情景学习、思维链、自然指令学习。GPT4飞跃式提升:多模态、输入字符数量、推理能力、文本创造,如poem、解释图片含义、图表计算等,2022年8月完成训练。论文:https://cdn.openai.com/papers/gpt-4.pdfChatGPT Plus:集成GPT-4的ChatGPT升级版,https://chat.open原创 2023-04-15 18:51:45 · 21064 阅读 · 6 评论 -
【Pytorch基础教程22】肺部感染识别任务(模型微调实战)
学习总结模型微调:迁移学习的应用场景,如在目标数据集上训练目标模型,将从头训练输出层,而其余层的参数都是基于源模型的参数微调得到的。获取pytorch中的预训练模型,冻结预训练模型中所有参数;然后模型微调:如替换ResNet最后的2层网络,返回一个新模型文章目录学习总结一、任务介绍二、步骤概览三、具体流程3.1 加载库和观察数据3.2 迁移学习,微调模型3.3 定义tensorboard writer的函数3.4 训练结果Reference一、任务介绍数据集来源:https://www.原创 2022-03-18 21:22:03 · 2450 阅读 · 2 评论 -
【RL】Pytorch简洁教程 | 坑点总结
训练一个神经网络通畅需要以下步骤:- 定义一个神经网络,通常有一些可以训练的参数- 迭代一个数据集(Dataset)- 处理网络的输入- 计算损失(会调用Module对象的`forward()`方法)- 计算损失函数对参数的梯度- 更新参数,通常使用如下的梯度下降方法来更新:`weight=weight-learning_rate × gradien`。原创 2021-06-13 01:03:59 · 7586 阅读 · 5 评论 -
【GNN】图神经网络学习小结 and 笔记汇总
1.资源推荐Hands-on Graph Neural Networks with PyTorch & PyTorch Geometric原创 2021-07-10 23:29:52 · 1736 阅读 · 10 评论 -
2021年如何科学的“微调”预训练模型
文章目录一、前言二、什么是“微调”Fine-tune?三、预训练模型和常见NLP训练任务四、“微调”预训练模型五、结语Reference本文转自AI部落公众号。仅用于学习。一、前言2021年,深度学习领域,无论是自然语言处理、音频信号处理、图像处理、推荐系统,似乎都看到attention混得风生水起,只不过更多时候看到的是它的另一个代号:Transformer。大部分深度学习的同学除了在各大paper里看到Transformer,平常与Transformer打交道最多的时候,大概率都是在用一个叫做:转载 2021-11-27 15:47:21 · 1586 阅读 · 0 评论 -
斯坦福大学博士李纪为谈初入NLP小建议
文章目录作者信息一、了解NLP的最基本知识二、了解早年经典的NLP模型以及论文三、了解机器学习的基本模型四、多看NLP其他子领域的论文五、了解 CV和data mining领域的基本重大进展作者信息李纪为,香侬科技创始人,斯坦福大学计算机专业用时最短的博士学位获得者,在剑桥大学学者Marek Rei发布的自然语言处理 2012-2016 年顶级会议作者统计中,李纪为以14 篇顶级会议论文第一作者的数据排名第一。最近在跟同学的邮件、或者知乎留言中的交流中,不少同学尤其是刚入(jin)门(keng)的同学转载 2021-12-12 20:38:03 · 842 阅读 · 0 评论 -
腾讯NLP算法岗实习面经
ps:本文转载自知乎用户ID:George的NLP面筋。文章目录一面(技术面)1. 简要的自我介绍。2. 研究生阶段最有挑战的项目是什么?3. 对于这个项目,传统的方法是怎么样的?4. 列举下这个任务在传统用法的一些典型特征。5. 看你简历里有QA相关的论文,大概介绍下里面用的方法。6. 你在这篇论文里用到的是GloVe,为何不用word2vec,或者说word2vec与GloVe有什么区别?7. 你清楚word2vec吗,大致描述下word2vec的结构以及训练方法。8. 现阶段NLP的研究相对CV发展转载 2021-12-22 15:26:59 · 1009 阅读 · 1 评论 -
常见26种NLP任务的练手项目(收藏)
常见的30种NLP任务非常适合练手的Project作用:研究+练手,加深理解,项目涵盖95+%NLP业务场景。下列Project都是类似论文实现那样的demo级的,也不是传统的工程实现,用的方法一般比工业界的高端,非常适合练手用。文章目录1.分词 Word Segmentation2.词预测 Word Prediction3. 文本蕴涵 Textual Entailment4. 语音识别 Automatic Speech Recognition5. 自动摘要 Automatic Summarisati转载 2021-06-21 03:24:23 · 2028 阅读 · 3 评论 -
【Pytorch基础教程41】DeepSpeed分布式训练框架
在 DeepSpeed 中,可以通过在配置文件中设置 “bf16.enabled”: true 来启用 BF16 混合精度训练,减少占用内存。混合精度训练是指在训练过程中同时使用FP16(半精度浮点数)和FP32(单精度浮点数)两种精度的技术。deepspeed可以根据具体情况选择合适的通信库,例如在 CPU 集群上进行分布式训练,可以选择 mpi 和 gloo;如果是在 GPU 上进行分布式训练,可以选择 nccl。mpi 是一种跨节点通信库,常用于 CPU 集群上的分布式训练;gloo 是一种高原创 2023-07-10 12:29:53 · 14718 阅读 · 5 评论 -
【LLM】(KV cache优化)MHA、MQA、GQA、MLA、YOCO机制的区别
MHA机制(Multi-head Attention)MHA(Multi-head Attention)是标准的多头注意力机制,包含h个Query、Key 和 Value 矩阵。所有注意力头的 Key 和 Value 矩阵权重不共享MQA机制(Multi-Query Attention)MQA(Multi-Query Attention,Fast Transformer Decoding: One Write-Head is All You Need)是多查询注意力的一种变体,也是用于自回归解码的一原创 2024-02-16 17:08:59 · 3848 阅读 · 0 评论 -
【LLM-RAG】BGE M3-embedding模型(模型篇|混合检索、多阶段训练)
M3-Embedding联合了3种常用的检索方式,对应三种不同的文本相似度计算方法。可以基于这三种检索方式进行多路召回相关文档,然后基于三种相似度得分平均求和对召回结果做进一步重排。多阶段训练过程:在这里插入图片描述第一阶段:第一阶段的自动编码预训练采用的是RetroMAE,在105种语言的网页跟wiki数据上进行,从而获得一个基底模型第二阶段:在第一个数据源的弱监督数据进行预训练,这阶段的损失损失只考虑基于稠密检索的对比学习损失。最后第三阶段会在第二,三个数据源的监督数据进行训练,这阶段原创 2024-02-16 16:01:32 · 13848 阅读 · 0 评论 -
【RL】(task4)DDPG算法、TD3算法
一、DDPG算法DDPG(Deep Deterministic Policy Gradient)算法DDPG算法是一种结合了深度学习和确定性策略梯度的算法。它主要解决的是在连续动作空间中,智能体(agent)如何通过不断尝试来学习到一个最优策略,使得在与环境交互的过程中获得最大的回报。深度学习:使用深度神经网络来近似表示价值函数和策略。确定性策略:不像一些随机策略,确定性策略为每个状态输出一个确定的动作,这样更容易进行优化。策略梯度:通过计算策略的梯度来更新策略,使得策略朝着更好的方向改进。原创 2024-01-25 00:27:37 · 1041 阅读 · 0 评论 -
【LLM-agent】function call功能、AgentTuning微调
function call本质:准确识别用户的语义,将其转为结构化的指令,其中通过LLM理解指令和上下文判断需要调用哪个函数、抽取出input中函数所需的参数。是用户和界面交互方式产生质变的一个trick。所以为了提高模型准确识别和调用函数的能力,如agenttuning就是利用多个agent任务交互轨迹,对LLM进行sft微调.gpt中的function call可以让开发者在调用 GPT-4 和 GPT-3.5-turbo 模型时,描述函数并让模型智能地输出一个包含调用这些函数所需参数的 JSON原创 2024-01-21 14:46:16 · 7880 阅读 · 4 评论 -
【RL】(task1)马尔科夫过程、动态规划、DQN
一、马尔科夫过程递归结构形式的贝尔曼方程计算给定状态下的预期回报,这样的方式使得用逐步迭代的方法就能逼近真实的状态/行动值。有了Bellman equation就可以计算价值函数了马尔科夫过程描述了一个具有无记忆性质的随机过程,未来状态只依赖于当前状态,与过去状态无关,类似于一个人在空间中的随机游走。二、动态规划动态规划:多阶段决策问题的方法,它将问题分解为一系列的子问题,并通过保存子问题的解来构建整体问题的解。贝尔曼方程 类比于回报公式��=��+1+���+1原创 2024-01-16 00:10:20 · 1140 阅读 · 1 评论 -
【LLM】2023年十大高影响力AI论文
Pythia — 大模型该如何训练?《Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling》Llama 2 — 开源模型之王《Llama 2: Open Foundation and Fine-Tuned Chat Models》QLoRA — 高效微调《QLoRA: Efficient Finetuning of Quantized LLMs》BloombergGPT — 垂直领域大原创 2024-01-14 23:36:31 · 1515 阅读 · 0 评论 -
【LLM-RAG】知识库问答 | 检索 | embedding
RAG流程(写作论文中的background:公式设定、emb、召回内容、召回基准)(工作中的思路《A Survey on Retrieval-Augmented Text Generation》该工作旨在对检索增强文本生成进行研究。主要核心的点如下:1、Retrieval Source知识来源源训练语料:有标注的训练数据直接作为外部知识;外部数据:支持提供训练数据之外的外部知识作为检索来源,比如于任务相关的领域数据,实现模型的快速适应;无监督数据:前两种知识源都需要一定的人工标注来完善“检索依据-原创 2024-01-01 12:12:32 · 5636 阅读 · 5 评论 -
【LLM+RS】LLM在推荐系统的实践应用(华为诺亚)
noteLLM用于推荐主要还是解决推荐系统加入open domain 的知识。可以基于具体推荐场景数据做SFT。学习华为诺亚-技术分享-LLM在推荐系统的实践应用。文章目录note一、背景和问题二、推荐系统中哪里使用LLM1. 特征工程2. 特征编码3. 打分排序三、推荐系统中如何使用LLM四、挑战和展望Reference一、背景和问题传统的推荐模型网络参数效果较小(不包括embedding参数),训练和推理的时间、空间开销较小,也能充分利用用户-物品的协同信号。但是它的缺陷是原创 2024-01-01 11:43:41 · 2354 阅读 · 1 评论 -
【LLM】大模型之RLHF和替代方法(DPO、RAILF、ReST等)
SFT使用交叉熵损失函数,目标是调整参数使模型输出与标准答案一致,不能从整体把控output质量,RLHF(分为奖励模型训练、近端策略优化两个步骤)则是将output作为一个整体考虑,优化目标是使模型生成高质量回复。启发1:像可以用6b、66b依次得到差一点、好一点的target构造排序数据集,进行DPO直接偏好学习或者其他RLHF替代方法(RAILF、ReST等),比直接RLHF更方便训练启发2:为了减少幻觉(如拒绝回答),可以构造排序数据集(如good response为拒绝话术,bad respo原创 2023-12-11 22:36:10 · 11067 阅读 · 1 评论 -
【LLM】chatglm3的agent应用和微调实践
知识库和微调并不是冲突的,它们是两种相辅相成的行业解决方案。开发者可以同时使用两种方案来优化模型。例如:使用微调的技术微调ChatGLM3-6B大模型模拟客服的回答的语气和基础的客服思维。接着,外挂知识库将最新的问答数据外挂给ChatGLM3-6B,不断更新客服回答的内容信息。chatglm3的对话格式中, 部分使用 special token 表示,无法从文本形式被 tokenizer 编码以防止注入。metadata 部分采用纯文本表示,为可选内容。关于glm3的微调:与此原创 2023-11-25 20:34:54 · 8194 阅读 · 20 评论 -
【tips】huggingface下载模型权重的方法
方法1:直接在Huggingface上下载,但是要fanqiang,可以git clone或者在代码中:```pythonfrom huggingface_hub import snapshot_download# snapshot_download(repo_id="decapoda-research/llama-7b-hf")snapshot_download(repo_id="THUDM/chatglm3-6b")```方法2:使用modelscope:```pythonpip ins原创 2023-10-29 15:30:51 · 6265 阅读 · 1 评论 -
【CS324】LLM(大模型的能力、数据、架构、分布式训练、微调等)
语言模型最初是在信息理论的背景下研究的,可以用来估计英语的熵。熵用于度量概率分布:熵实际上是一个衡量将样本�∼�x∼p 编码(即压缩)成比特串所需要的预期比特数的度量。举例来说,“the mouse ate the cheese” 可能会被编码成 “0001110101”。熵的值越小,表明序列的结构性越强,编码的长度就越短。直观地理解N-gram模型在计算上极其高效,但在统计上效率低下。神经语言模型在统计上是高效的,但在计算上是低效的。大模型的参数发展:随着深度学习在2010年代的兴起和主要硬原创 2023-09-12 00:29:43 · 2354 阅读 · 2 评论 -
【LLM模型篇】LLaMA2 | Vicuna | EcomGPT等
EcomGPT:电商领域大模型解决问题:解决电商场景任务(如品牌识别,评价解析,广告文案生成等)论文链接:https://arxiv.org/abs/2308.06966GitHub链接:https://github.com/Alibaba-NLP/EcomGPT1. sft数据从学术论文或竞赛平台等开放数据源收集了共65个各种电商任务数据集,包括命名实体识别、评论问答、商品类目预测、多轮对话等传统的自然语言处理任务。这些开源数据集的任务都是由领域专家设计,然后由受过培训的人工标注,数据质量很高原创 2023-09-02 20:52:23 · 3824 阅读 · 4 评论 -
【LLM数据篇】预训练数据集+指令生成sft数据集
在《Aligning Large Language Models with Human: A Survey》综述中对LLM数据分类为典型的人工标注数据、self-instruct数据集等优秀的开源sft数据集:alpaca_data、belle、千言数据集、firefly、moss-003-sft-data多轮对话数据集等文章目录note构造指令实例的3种方式sft:Aligning Large Language Models with Human: A SurveyAlpaca1. self原创 2023-08-20 15:15:10 · 16942 阅读 · 0 评论 -
解决wandb: Network error (ReadTimeout), entering retry loop.
# 一、问题描述```pythonwandb: W&B API key is configured (use `wandb login --relogin` to force relogin)wandb: Network error (ReadTimeout), entering retry loop.wandb: Network error (ReadTimeout), entering retry loop```出现上面的原因:使用wandb在线模式运行代码,服务器是一边运行我们的代码一边向原创 2023-07-28 19:03:54 · 9250 阅读 · 4 评论 -
【LLM】Prompt tuning大模型微调实战
- 给出好的prompt可以让LLM生成更好的答案,反过来想通过LLM帮我们找到好的prompt就是prompt tuning的思路,训练让模型看到新的例子生成prompt,并把该段prompt作为前缀拼接到我们自己的prompt上,送入LLM得到结果 - prompt tuning训练的前缀是向量,所以解释性略差- 和few show比较:LLM的上下文context长度是有限的(prompt中给出有限的例子,业务复杂时难让模型学习足够多知识),prompt tuning就没有这个限制,只需在训练原创 2023-07-10 21:48:49 · 10176 阅读 · 3 评论 -
【LLM】金融场景的大模型Lora微调实战
金融行业需要垂直领域LLM,因为存在金融安全和数据大多数存储在本地,在风控、精度、实时性有要求(1)500亿参数的BloombergGPTBloombergGPT金融大模型也是用transformer架构,用decoder路线, 构建目前规模最大的金融数据集FINPILE,对通用文本+金融知识的混合训练。用了512块40GB的A100 GPU,训练中备份了4个模型,每个模型分了128块GPU。(2)度小满5月的【源轩大模型】使用hybrid-tuning方式,首个千亿参数金融大模型在通用能力评测原创 2023-07-08 02:04:52 · 9377 阅读 · 4 评论 -
【解决】sklearn-LabelEncoder遇到没在编码规则里的新值
一、问题描述问题:sklearn-LabelEncoder 遇到没在编码规则里的新值。打通线上线下配置:线下生成训练样本时,用户先定义特征MFDL配置文件,在模型训练后,通过平台一键打包功能,将MFDL配置文件以及训练输出的模型文件,打包、上传到模型管理平台,通过一定的版本管理及加载策略,将模型动态加载到线上服务,从而实现线上、线下配置一体化。提供一致性特征样本:通过实时收集在线Serving输出的特征快照,经过一定的规则处理,将结果数据输出到Hive表,作为离线训练样本的基础数据源,提供一致性特征样本原创 2023-05-28 18:50:27 · 1627 阅读 · 1 评论 -
【CV】Yolov8:ultralytics目标检测、关键点检测、语义分割
Yolov8提供了一个全新的 SOTA 模型,包括 P5 640 和 P6 1280 分辨率的目标检测网络和基于 YOLACT 的实例分割模型。和 YOLOv5 一样,基于缩放系数也提供了 N/S/M/L/X 尺度的不同大小模型,用于满足不同场景需求骨干网络和 Neck 部分可能参考了 YOLOv7 ELAN 设计思想,将 YOLOv5 的 C3 结构换成了梯度流更丰富的 C2f 结构,并对不同尺度模型调整了不同的通道数,属于对模型结构精心微调Head 部分相比 YOLOv5 改动较大,换成了目前主流的原创 2023-05-21 16:05:15 · 15222 阅读 · 4 评论 -
【LLM】LangChain基础使用(构建LLM应用)
noteLangChain应用开发框架,支持python和typescript语言;可以帮助生成prompt模板,并通过代理充当其他组件(如提示模板、其他大语言模型、外部数据和其他工具)的中央接口。LangChain可以直接与 OpenAI 的 text-davinci-003、gpt-3.5-turbo 模型以及 Hugging Face 的各种开源语言模如 Google 的 flan-t5等模型集成。文章目录note一、LangChain介绍二、LangChain的应用1. 集成LLM原创 2023-05-11 21:45:16 · 1446 阅读 · 0 评论 -
【LLM大模型】指令微调、peft高效参数微调
LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合,LLaMA-13B 仅以 1/10 规模的参数在多数的 benchmarks 上性能优于 GPT-3(175B),LLaMA-65B 与业内最好的模型 Chinchilla-70B 和 PaLM-540B 比较也具有竞争力。通过使用与 ChatGLM(chatglm.cn)相同的技术,ChatGLM-6B 初具中文问答和对话功能,并支持在单张 2080Ti 上进行推理使用。原创 2023-05-07 17:28:27 · 13299 阅读 · 3 评论 -
【GPT】文本生成任务(生成摘要、文本纠错、机器翻译等的模型微调)
note文章目录note一、NLG任务二、NLG之文本摘要2.1 基于mT5的文本摘要2.2 基于openai接口测试2.3 基于chatGPT接口三、根据自己的数据集进行模型微调四、文本纠错任务五、机器翻译任务Reference一、NLG任务NLG:自然语言生成任务,很多NLP任务可以被描述为NLG任务,如经典的T5模型(text to text transfer transformer模型)就是NLG模型,如文本纠错任务,输出正确的文本描述、智能问答根据一定背景进行推理,然后回答。# 安装一些必原创 2023-04-25 21:20:35 · 6475 阅读 · 0 评论 -
【Pytorch基础教程40】DLRM推荐算法模型部署
一、DLRM模型 DLRM是2020年meta提出的工业界推荐算法模型,模型结构非常简单,也没用到什么attention机制等的东西,更多是注重在推荐系统稀疏特征场景下的落地:sparse feature:离散的类别特征,通过embedding层转为稠密embedding;通过Embedding将其映射成一个稠密的连续值。假设one-hot编码后的向量是 ��e i , 向量中除了第 ii 个位 置为1外, 通过Embedding后得到的embedding向量为��w i原创 2023-06-01 00:01:21 · 2409 阅读 · 0 评论 -
【Pytorch基础教程39】torch常用tensor处理函数
一、tensor的创建二、tensor的加减乘除三、torch.argmax()函数四、gathter函数小栗子1小栗子2:如果每行需要索引多个元素:四、改变维度、拼接、堆叠等操作# 一、tensor的创建- `torch.tensor`会复制data,不想复制可以使用`torch.Tensor.detach()`。- 如果是获得numpy数组数据,可以使用`torch.from_numpy()`,共享内存```python# 1. tensortorch.tensor(data, d原创 2023-04-29 22:26:57 · 6251 阅读 · 3 评论 -
【Pytorch基础教程38】torchserve模型部署和推理
notetorch-model-archiver打包模型;利用torchserve加载前面打包的模型,并以grpc和http等接口往外提供推理服务启动模型的api服务、curl命令发送http post请求,请求模型服务API;流程和TensorFlow serving流程大同小异Wav2Vec2语音转文本的模型。这里我们为了简化流程从huggingface下载对应的模型,进行本地化利用torchserve部署hander将原始data进行转为模型输入所需的格式;nlp中很多任务可以直接用torcht原创 2023-04-27 20:29:59 · 3062 阅读 · 3 评论 -
【Pytorch基础教程37】Glove词向量训练及TSNE可视化
noteGlove模型目标:词的向量化表示,使得向量之间尽可能多蕴含语义和语法信息。首先基于语料库构建词的共现矩阵,然后基于共现矩阵和GloVe模型学习词向量。对词向量计算相似度可以用cos相似度、spearman相关系数、pearson相关系数;预训练词向量可以直接用于下游任务,也可作为模型参数在下游任务的训练过程中进行精调(fine-tuning);很多使用如情感分析、词性标注任务中,我们的NLP模型使用了随机初始化的词向量层(将离散词embedding化)原创 2023-04-08 17:07:15 · 2577 阅读 · 1 评论 -
【Pytorch基础教程36】基于Ernie预训练模型和Bert的新闻分类
大模型的痛点:- 仅考虑单一粒度语义建模,缺乏多粒度知识引入,语义理解能力受限;- 受限于 Transformer 结构的建模长度瓶颈,无法处理超长文本;- 聚焦语言等单一模态,缺乏工业真实应用场景针对多个模态如语言、视觉、听觉信息的联合建模能力。Ernie 2.0是百度在Ernie 1.0基础之上的第二代预训练结构。模型结构与Ernie 1.0还有 Bert保持一致,12层的transformer的encoder层。- 受Bert mask策略的启发,提出一种新的语言表示模型,称为ERNIE(原创 2023-02-05 17:54:54 · 2404 阅读 · 4 评论 -
【Pytorch基础教程35】引入非线性的激活函数
线性分类模型一般是一个广义线性函数,即一个或多个【线性判别函数】加上一个【非线性激活函数】,所谓“线性”是指决策边界由一个多个超平面组成。什么是Sigmoid?它有什么作用?👶通过引入S型的对数几率函数y=11+e−zy=\dfrac{1}{1+e^{-z}}y=1+e−z1该激活函数作用是因此引入非线性,则有多种选择。逻辑回归即线性回归+sigmoid函数,是最基础也是最重要的模型:通过逻辑回归能演化出很多模型:(1)非线性(2)可微性:因为在反向传播更新梯度时,需要计算损失函数对权重的偏导数原创 2022-12-04 16:38:12 · 1806 阅读 · 0 评论 -
【Pytorch基础教程34】EGES召回模型
某宝在19年提出的EGES模型,是加入side information的graph embedding方法,解决冷启动问题。核心任务在于基于用户行为计算所有项目之间的成对相似性。大致步骤为基于用户历史行为构造一个图,然后利用 Node2Vec 的方法来学习 Item 的 Embedding 向量。这样便可以根据向量的内积计算节点间的相似度来生成候选集。为了解决冷启动,阿里的GNN迭代了三次:BGE、GES 和 EGES。原创 2022-10-31 23:57:55 · 1429 阅读 · 0 评论 -
【Pytorch基础教程33】算法模型部署(MLFlow/ONNX/tf serving)
**ONNX( Open Neural Network Exchange)** 是 Facebook (现Meta) 和微软在2017年共同发布的,用于标准描述计算图的一种格式。ONNX通过定义一组与环境和平台无关的标准格式,使AI模型可以在不同框架和环境下交互使用,==ONNX可以看作深度学习框架和部署端的桥梁==,就像编译器的中间语言一样。由于各框架兼容性不一,我们通常只用 ONNX 表示更容易部署的静态图。原创 2022-10-01 23:05:00 · 3624 阅读 · 0 评论 -
【Pytorch基础教程32】基于transformer的情感分类
当前NLP和CV领域很重要的模型~Google 提出的 Transformer 模型,用 Self Attention 的结构,取代了以往 NLP 任务中的 RNN 网络结构,在 WMT 2014 Englishto-German 和 WMT 2014 English-to-French两个机器翻译任务上都取得了当时 SOTA 的效果。原创 2022-09-09 00:43:14 · 6080 阅读 · 1 评论