SlideShare a Scribd company logo
Seq2seq Model
Orozco Hsu
2025-05-09
1
About me
2
• Education
• NCU (MIS)、NCCU (CS)
• Experiences
• Telecom big data Innovation
• Retail Media Network (RMN)
• Customer Data Platform (CDP)
• Know-your-customer (KYC)
• Digital Transformation
• LLM Architecture & Development
• Research
• Data Ops (ML Ops)
• Generative AI research
• Business Data Analysis, AI
Tutorial
Content
3
Homework
Transformer 三種架構
• 理解與生成機制
• RNN 問題 (梯度消失/爆炸)
• (非序列資料) VAE 應用,如推薦系統
Seq2seq 架構
• Encoder-only (BERT model)
• Decoder-only (GPT model)
• Encoder-decoder (T5, BART model)
Code
• Sample code
• https://drive.google.com/drive/folders/1wEdGUZbqvmVNwS8AtsO5hXODpK
Dn6Qk3?usp=sharing
4
Seq2seq (文字序列應用案例)
• 輸入:我今天想吃拉麵
• Encoder:
• 【理解】你在說什麼,它會先讀完整段話,形成一個內部的語意理解
• Decoder:
• 根據理解回答你,像是一步一步【生成】:我知道附近哪裡有拉麵店!
5
Seq2seq (結合2個RNN)
6
用來處理序列轉換任務,例如: 【機器翻譯、對話系統、文本摘要】
利用 RNN 的架構進行逐一讀入,將【理解】轉換成
hidden state ,輸出一個壓縮過的語意向量
接收字詞的輸入與來自 Encoder 的 hidden state,這樣
才能正確地翻譯並【生成】對應的輸出序列
壓
縮
• 仍然有梯度的問題
• 【長文本】容易在 encoder 階段被【遺忘】,導致 decoder 無法生成【對齊
語意】
• 遺忘機制在實務上效果還是有限,有可能【錯判】資訊的重要性
• Decoder 階段是序列式生成字詞一步接一步 (greedy/ beam search),屬於
【自回歸生成】,這限制了整體語意【上下文】掌握能力
• RNN 為【時間步依賴 (Time step)】結構 (一步接一步),無法【平行】運算
• LSTM/GRU 屬於單層或少數層推疊,很難表現出語意、語法等多層次結構
7
因為不斷學習每一個字詞,然後再遺忘,避免訓練階段梯度爆炸
當輸入序列太長時,誤差反向傳播回去會發生:計算後的梯度會被不斷縮小 (梯度消失) 或 梯度被不斷放大 (梯度爆炸)
Seq2seq (結合2個RNN)
• 可視為 seq2seq 的一種特殊形式,但它的輸出目標是輸入本身,
不是【序列】資料
• 採用機率空間 (latent space) 的 encoder-decoder 架構,並不是
為了解碼語言,而是為了學習一個隱變量生成模型
• 模型學會使用者對物品偏好的【隱藏分佈】,然後透過這個潛在
向量來生成對其他物品的預測分佈
8
加入了 latent space 的機率分布假設 (通常是高斯分布),使模型可以學到更平滑、更有泛化能力的隱變量空間
Seq2seq (非序列資料)
VAE (Variational Autoencoders)
• 與 seq2seq 相同處
• 與 seq2seq 不同處
9
特點 說明
Encoder-Decoder 架構 都具有 【輸入】=> 【壓縮】 => 【輸出】
隱藏空間 (Latent space) 將輸入資料轉為某種內部表示,再生成輸出
用於生成任務 都可以用來產生某種輸出,如: 句子、推薦分數
特點 VAE Seq2seq
中間的 latent 表示 機率分佈 (有 μ, σ) + 抽樣機制 單一 hidden state 向量
學習目標 (計算損失) 最大化 KL + 重建損失 生成與實際的 Cross entropy
應用範圍 壓縮、生成、推薦、圖像重建 機器翻譯、對話、摘要
VAE 中使用 KL 散度將 latent space 正則化為標準常態 N(0,1) 目的就是每個使用者評分高低會有不同
Seq2seq (非序列資料)
VAE (Variational Autoencoders)
• 輸入:
• 五個使用者對於十個物品評分,有些物品是空的 (表示沒評分)
• Encoder (編碼使用者偏好分佈):
• 將這個稀疏的評分向量轉為潛在空間 Z ~ N (μ, σ²)
• Decoder (重建完整評分向量):
• 將 Z 表徵傳回 decoder,產生對所有物品的預測分數
• Loss 計算:
• 重建損失,已知評分 vs 預測評分
• KL 散度損失: 讓潛在空間 (使用者的Z 表徵) 接近標準常態分佈
10
(Z 表徵為使用者個人偏好)
• 標準常態分佈(平均值為 0,變異數為 1)
• 一般常態分佈 (平均值為 μ,變異數為 σ² )
VAE.ipynb
VAE_encoder_Z.ipynb
MSE(x_hat, x)
衡量每位使用者的 μ 與 σ 距離標準常態分佈有多遠,距離越遠就要大幅調乘權重參數
Seq2seq (非序列資料)
VAE (Variational Autoencoders)
Transformer Models
• They are a more recent and highly effective architecture for sequence
modeling.
• They move away from recurrence and rely on a self-attention
mechanism to process sequences in parallel and capture long-term
dependencies in data, making them more efficient than traditional
RNNs.
• Self-attention mechanisms to weight the importance of different parts of
input data.
• They have been particularly successful in NLP tasks and have led to
models like BERT, GPT, and others.
11
• In the paper Attention is all you need (2017).
• It abandons traditional CNNs and RNNs.
• It includes Encoder and Decoder.
12
https://arxiv.org/abs/1706.03762
由多層的編碼器/解碼器堆疊而成,每層包含 Multi-head Self-Attention、LayerNorm、前饋神經網
路(FFN)、殘差連接(Residual) 等模組,整體架構是可微分的,並透過 反向傳播
(Backpropagation) 進行訓練
Q: 來自於 Decoder 的輸入
K,V: 來自於 Encoder 的輸出 (4x768)
類似 BERT
GPT
GPT不靠時間步方式,
以 Tokens + PE 方式以 attention 機制來生成
ChatGPT屬於那種?
Transformer Models
RNN與GPT都採用自回歸方式生成
• How are you? • 你好嗎?
Tokenizer
<CLS> “How” “are” “you” “?” <SEP>
Vocabulary
How 1
are 10
you 300
? 4
Word to index mapping
d=768 Add PE
(Positional Encoding)
Multi-Head-
Attention (HMA)
In
parallel
Feed
Forward
Residual Connection
N
O
R
M
Residual Connection
N
O
R
M
Block Block Block
context
vectors
BERT 的模型約有 30,000個
tokens,這些常用的詞、詞根、
子詞(subword) 編上編號
embedding
逐元素相加:
這樣模型就知道哪些詞
是出現在前面、哪些在
後面,才能理解語序
BERT 有 12 個 Block,BERT Large 有 24 個 Block
用 sin 和 cos 波形來表示不同位置,奇數用 cos,偶數用 sin;
每個位置 pos 對應一組固定向量
機器翻譯
計算的方向
Transformer Models
Encoder 階段
何謂 Token?
Multi-head-attention
• Attention mechanism:
• Select more useful information from words.
• Q, K and V are obtained by applying a linear transformation to the input word
vector x. (token 經過 word embedding 之後就是 x)
• Each matrix W can be learned through training.
14
Q: Information to be queried
K: Vectors being queried
V: Values obtained from the query
(多頭的意思,想像成 CNN 中多個卷積核的作用(抓取特徵值) => 【多個注意力】機制
RNN 難以學到遠距離的依賴關係,因此需要導入 attention 機制。
1. how are you 經過 Q·
Kᵀ 之後為注意力分數 [0.8, 1.2, -0.4] ,再透過 softmax 為 [0.31,
0.52, 0.17] ,這表示how應該要關注的字詞為 are 因為有 52%
2. 接下來 how 這個詞 [0.31 ·
vhow+0.52 ·
vare+0.17 ·
vyou],這會有 768維
3. 三個字詞算完,一共有 [3x768] 進入 Layer Norm
15
模型透過 Self-Attention 機制,在這 128K 的 token 中動態找出:
• 哪些字詞 (Tokens) 彼此有關係
• 哪些部分該被【關注】
• 哪些可忽略
Multi-head-attention
1. 每個 token 的向量會分別經過三個矩陣變換,產生 Q, K, V
2. 利用 Q 與所有 K 的內積來計算關聯分數,再經 softmax 得到注意力分數 (機率)
3. 權重越高,表示模型對該 token 給予越高的注意力
• Bidirectional Encoder Representations from Transformers
• 使用 Encoder 進行編碼,採用 self-attention 機制在編碼 token 同時考慮上下
文的 token,上下文的意思就是雙向的意思 (bidirectional)
• 採用 Self-Attention多頭機制提取全面性信息
• 採用猜字的方式進行學習,稱為 Masked Language Model (MLM) ,以 Cross
entropy 計算損失,以達到模型收斂效果
• 使用 Transformer 的 Encoder 進行特徵提取,可說 Encoder 就是 BERT模型
16
當訓練的時候,雙向的意思就是 => 透過 MASK,會同時看到【今天天氣】 [MASK] 【,我想吃冰淇淋】
當預測字詞【很】的時候,雙向的意思就是 => 會同時看到【我今天】 【開心】
Transformer Models (BERT)
Encoder-only
處理「這部電影會很好看,結果非常無聊」時,它同時看到整句的前後文,知道「非常無聊」才是真正的情緒,
不會被「很好看」這個片段誤導。 pytorch_bert.ipynb
17
Context
Vector
(K,V)
B
O
S
你 好 嗎
你 好 嗎 ?
max max max max
你 0.8
好 0
嗎 0.1
… …
END 0
?
E
N
D
max
Add PE
Masked MHA
Cross Attention
Feed Forward
你 1
好 0
嗎 0
… …
… 0
Ground truth
Minimize
cross
entropy
Embedding
1. 剛開始進行模型訓練時,QKV 參數都是隨機值,剛開始的關注詞根本不具參考性
2. 每做完一次訓練就是 (FFN + Backward),根據 Loss 的結果進行 Backward
3. 更新 QKV 讓 attention 的分數越來越有判斷力
pytorch_transformer.ipynb
(Token-level loss)
1. 透過 Encoder 的 Context Vector (K,V )
2. 生成第一個字詞:你 (softmax(Linear(Context Vector)))
3. 將字詞:你,作為Q,進行KV查表後,生成字詞:好…
如果沒有 Context Vector 輸入,
稱為 Decoder-only 模型,例如: ChatGPT
該模型為 Causal Masking 方式: 整合 QA pairs 問
題資料集為一個欄位,一起訓練
只看過去字詞(tokens),遮住未來字詞(tokens)
Helsinki-NLP/opus-mt-zh-en ·Hugging Face
Transformer Models
Decoder 階段
當它看到「我以為這部電影會很好看,結果」,
它只能依靠前面的字猜「接下來會說什麼」,
所以「非常無聊」這個反轉情緒,它是之後才看到的,不能提前感知
機器翻譯
補充: 執行 pytorch_transformer.ipynb 需要算力
18
HuggingFace LLM models
• Model card:
• https://huggingface.co/TheBloke/Llama-2-7B-Chat-fp16
• 何謂預訓練模型 ? 如何啟動本地端模型?
• 了解訓練資料集、建模、評估、推論
• 下一步 ?
19
hf_pytorch_pretrain_gpt.ipynb
https://ollama.com
Homework
• 改寫 HW03.ipynb,將生活居家.csv 與 彩妝保養.csv 進行分類
• 輸入「簡單的外型設計,香氣清新」
• 得到「生活居家」 分類結果
20
• 將 pytorch_transformer.ipynb 修改為中文輸入,注音符號輸出
• 將中文字轉注音,例如 pypinyin + 注音對應表
• 台灣教育部標準注音字表或萌典API 抓取
• Base model 改為 t5-small 或 facebook/mbart-large-50
21
挑戰
Transformer 的 decoder layer (解碼層)
22
Ad

More Related Content

Similar to Seq2seq Model introduction with practicing hands on coding.pdf (20)

软件工程
软件工程软件工程
软件工程
bill0077
 
淘宝网前端开发面试题
淘宝网前端开发面试题 淘宝网前端开发面试题
淘宝网前端开发面试题
Lumend
 
基于My sql的分布式数据库实践 公开
基于My sql的分布式数据库实践 公开基于My sql的分布式数据库实践 公开
基于My sql的分布式数据库实践 公开
YANGL *
 
微服務架構 導入經驗分享 吳剛志 - Community Open Camp
微服務架構 導入經驗分享 吳剛志 - Community Open Camp微服務架構 導入經驗分享 吳剛志 - Community Open Camp
微服務架構 導入經驗分享 吳剛志 - Community Open Camp
Andrew Wu
 
Big data, big deal ms it168文库
Big data, big deal ms it168文库Big data, big deal ms it168文库
Big data, big deal ms it168文库
Accenture
 
Big data, big deal ms it168文库
Big data, big deal ms it168文库Big data, big deal ms it168文库
Big data, big deal ms it168文库
Accenture
 
OS-11 multicore-2.pdfOOS-08 IPC.pdfOS-08 IPC.pdfS-08 IPC.pdf
OS-11 multicore-2.pdfOOS-08 IPC.pdfOS-08 IPC.pdfS-08 IPC.pdfOS-11 multicore-2.pdfOOS-08 IPC.pdfOS-08 IPC.pdfS-08 IPC.pdf
OS-11 multicore-2.pdfOOS-08 IPC.pdfOS-08 IPC.pdfS-08 IPC.pdf
wywwzjj
 
Java@taobao
Java@taobaoJava@taobao
Java@taobao
vanadies10
 
2_Clustering.pdf
2_Clustering.pdf2_Clustering.pdf
2_Clustering.pdf
FEG
 
云计算可信评估方法研究
云计算可信评估方法研究云计算可信评估方法研究
云计算可信评估方法研究
iamafan
 
NoSQL误用和常见陷阱分析
NoSQL误用和常见陷阱分析NoSQL误用和常见陷阱分析
NoSQL误用和常见陷阱分析
iammutex
 
5_Neural_network_碩士班第五次.pdf
5_Neural_network_碩士班第五次.pdf5_Neural_network_碩士班第五次.pdf
5_Neural_network_碩士班第五次.pdf
FEG
 
李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略
hdhappy001
 
Decision tree
Decision treeDecision tree
Decision tree
FEG
 
BDTC2015 阿里巴巴-鄢志杰(智捷)-deep learning助力客服小二:数据技术及机器学习在客服中心的应用
BDTC2015 阿里巴巴-鄢志杰(智捷)-deep learning助力客服小二:数据技术及机器学习在客服中心的应用BDTC2015 阿里巴巴-鄢志杰(智捷)-deep learning助力客服小二:数据技术及机器学习在客服中心的应用
BDTC2015 阿里巴巴-鄢志杰(智捷)-deep learning助力客服小二:数据技术及机器学习在客服中心的应用
Jerry Wen
 
Hacking Nginx at Taobao
Hacking Nginx at TaobaoHacking Nginx at Taobao
Hacking Nginx at Taobao
Joshua Zhu
 
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
Scourgen Hong
 
1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptx1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptx
FEG
 
软件工程
软件工程软件工程
软件工程
bill0077
 
淘宝网前端开发面试题
淘宝网前端开发面试题 淘宝网前端开发面试题
淘宝网前端开发面试题
Lumend
 
基于My sql的分布式数据库实践 公开
基于My sql的分布式数据库实践 公开基于My sql的分布式数据库实践 公开
基于My sql的分布式数据库实践 公开
YANGL *
 
微服務架構 導入經驗分享 吳剛志 - Community Open Camp
微服務架構 導入經驗分享 吳剛志 - Community Open Camp微服務架構 導入經驗分享 吳剛志 - Community Open Camp
微服務架構 導入經驗分享 吳剛志 - Community Open Camp
Andrew Wu
 
Big data, big deal ms it168文库
Big data, big deal ms it168文库Big data, big deal ms it168文库
Big data, big deal ms it168文库
Accenture
 
Big data, big deal ms it168文库
Big data, big deal ms it168文库Big data, big deal ms it168文库
Big data, big deal ms it168文库
Accenture
 
OS-11 multicore-2.pdfOOS-08 IPC.pdfOS-08 IPC.pdfS-08 IPC.pdf
OS-11 multicore-2.pdfOOS-08 IPC.pdfOS-08 IPC.pdfS-08 IPC.pdfOS-11 multicore-2.pdfOOS-08 IPC.pdfOS-08 IPC.pdfS-08 IPC.pdf
OS-11 multicore-2.pdfOOS-08 IPC.pdfOS-08 IPC.pdfS-08 IPC.pdf
wywwzjj
 
2_Clustering.pdf
2_Clustering.pdf2_Clustering.pdf
2_Clustering.pdf
FEG
 
云计算可信评估方法研究
云计算可信评估方法研究云计算可信评估方法研究
云计算可信评估方法研究
iamafan
 
NoSQL误用和常见陷阱分析
NoSQL误用和常见陷阱分析NoSQL误用和常见陷阱分析
NoSQL误用和常见陷阱分析
iammutex
 
5_Neural_network_碩士班第五次.pdf
5_Neural_network_碩士班第五次.pdf5_Neural_network_碩士班第五次.pdf
5_Neural_network_碩士班第五次.pdf
FEG
 
李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略
hdhappy001
 
Decision tree
Decision treeDecision tree
Decision tree
FEG
 
BDTC2015 阿里巴巴-鄢志杰(智捷)-deep learning助力客服小二:数据技术及机器学习在客服中心的应用
BDTC2015 阿里巴巴-鄢志杰(智捷)-deep learning助力客服小二:数据技术及机器学习在客服中心的应用BDTC2015 阿里巴巴-鄢志杰(智捷)-deep learning助力客服小二:数据技术及机器学习在客服中心的应用
BDTC2015 阿里巴巴-鄢志杰(智捷)-deep learning助力客服小二:数据技术及机器学习在客服中心的应用
Jerry Wen
 
Hacking Nginx at Taobao
Hacking Nginx at TaobaoHacking Nginx at Taobao
Hacking Nginx at Taobao
Joshua Zhu
 
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
Scourgen Hong
 
1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptx1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptx
FEG
 

More from FEG (20)

Supervised learning in decision tree algorithm
Supervised learning in decision tree algorithmSupervised learning in decision tree algorithm
Supervised learning in decision tree algorithm
FEG
 
Unsupervised learning in data clustering
Unsupervised learning in data clusteringUnsupervised learning in data clustering
Unsupervised learning in data clustering
FEG
 
Sequence Model with practicing hands on coding.pdf
Sequence Model with practicing hands on coding.pdfSequence Model with practicing hands on coding.pdf
Sequence Model with practicing hands on coding.pdf
FEG
 
AIGEN introduction with practicing hands on coding.pdf
AIGEN introduction with practicing hands on coding.pdfAIGEN introduction with practicing hands on coding.pdf
AIGEN introduction with practicing hands on coding.pdf
FEG
 
資料視覺化_Exploation_Data_Analysis_20241015.pdf
資料視覺化_Exploation_Data_Analysis_20241015.pdf資料視覺化_Exploation_Data_Analysis_20241015.pdf
資料視覺化_Exploation_Data_Analysis_20241015.pdf
FEG
 
Operation_research_Linear_programming_20241015.pdf
Operation_research_Linear_programming_20241015.pdfOperation_research_Linear_programming_20241015.pdf
Operation_research_Linear_programming_20241015.pdf
FEG
 
Operation_research_Linear_programming_20241112.pdf
Operation_research_Linear_programming_20241112.pdfOperation_research_Linear_programming_20241112.pdf
Operation_research_Linear_programming_20241112.pdf
FEG
 
非監督是學習_Kmeans_process_visualization20241110.pdf
非監督是學習_Kmeans_process_visualization20241110.pdf非監督是學習_Kmeans_process_visualization20241110.pdf
非監督是學習_Kmeans_process_visualization20241110.pdf
FEG
 
Sequence Model pytorch at colab with gpu.pdf
Sequence Model pytorch at colab with gpu.pdfSequence Model pytorch at colab with gpu.pdf
Sequence Model pytorch at colab with gpu.pdf
FEG
 
學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf
學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf
學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf
FEG
 
資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf
資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf
資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf
FEG
 
2023 Decision Tree analysis in business practices
2023 Decision Tree analysis in business practices2023 Decision Tree analysis in business practices
2023 Decision Tree analysis in business practices
FEG
 
2023 Clustering analysis using Python from scratch
2023 Clustering analysis using Python from scratch2023 Clustering analysis using Python from scratch
2023 Clustering analysis using Python from scratch
FEG
 
2023 Data visualization using Python from scratch
2023 Data visualization using Python from scratch2023 Data visualization using Python from scratch
2023 Data visualization using Python from scratch
FEG
 
2023 Supervised Learning for Orange3 from scratch
2023 Supervised Learning for Orange3 from scratch2023 Supervised Learning for Orange3 from scratch
2023 Supervised Learning for Orange3 from scratch
FEG
 
2023 Supervised_Learning_Association_Rules
2023 Supervised_Learning_Association_Rules2023 Supervised_Learning_Association_Rules
2023 Supervised_Learning_Association_Rules
FEG
 
202312 Exploration Data Analysis Visualization (English version)
202312 Exploration Data Analysis Visualization (English version)202312 Exploration Data Analysis Visualization (English version)
202312 Exploration Data Analysis Visualization (English version)
FEG
 
202312 Exploration of Data Analysis Visualization
202312 Exploration of Data Analysis Visualization202312 Exploration of Data Analysis Visualization
202312 Exploration of Data Analysis Visualization
FEG
 
Transfer Learning (20230516)
Transfer Learning (20230516)Transfer Learning (20230516)
Transfer Learning (20230516)
FEG
 
Image Classification (20230411)
Image Classification (20230411)Image Classification (20230411)
Image Classification (20230411)
FEG
 
Supervised learning in decision tree algorithm
Supervised learning in decision tree algorithmSupervised learning in decision tree algorithm
Supervised learning in decision tree algorithm
FEG
 
Unsupervised learning in data clustering
Unsupervised learning in data clusteringUnsupervised learning in data clustering
Unsupervised learning in data clustering
FEG
 
Sequence Model with practicing hands on coding.pdf
Sequence Model with practicing hands on coding.pdfSequence Model with practicing hands on coding.pdf
Sequence Model with practicing hands on coding.pdf
FEG
 
AIGEN introduction with practicing hands on coding.pdf
AIGEN introduction with practicing hands on coding.pdfAIGEN introduction with practicing hands on coding.pdf
AIGEN introduction with practicing hands on coding.pdf
FEG
 
資料視覺化_Exploation_Data_Analysis_20241015.pdf
資料視覺化_Exploation_Data_Analysis_20241015.pdf資料視覺化_Exploation_Data_Analysis_20241015.pdf
資料視覺化_Exploation_Data_Analysis_20241015.pdf
FEG
 
Operation_research_Linear_programming_20241015.pdf
Operation_research_Linear_programming_20241015.pdfOperation_research_Linear_programming_20241015.pdf
Operation_research_Linear_programming_20241015.pdf
FEG
 
Operation_research_Linear_programming_20241112.pdf
Operation_research_Linear_programming_20241112.pdfOperation_research_Linear_programming_20241112.pdf
Operation_research_Linear_programming_20241112.pdf
FEG
 
非監督是學習_Kmeans_process_visualization20241110.pdf
非監督是學習_Kmeans_process_visualization20241110.pdf非監督是學習_Kmeans_process_visualization20241110.pdf
非監督是學習_Kmeans_process_visualization20241110.pdf
FEG
 
Sequence Model pytorch at colab with gpu.pdf
Sequence Model pytorch at colab with gpu.pdfSequence Model pytorch at colab with gpu.pdf
Sequence Model pytorch at colab with gpu.pdf
FEG
 
學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf
學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf
學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf
FEG
 
資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf
資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf
資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf
FEG
 
2023 Decision Tree analysis in business practices
2023 Decision Tree analysis in business practices2023 Decision Tree analysis in business practices
2023 Decision Tree analysis in business practices
FEG
 
2023 Clustering analysis using Python from scratch
2023 Clustering analysis using Python from scratch2023 Clustering analysis using Python from scratch
2023 Clustering analysis using Python from scratch
FEG
 
2023 Data visualization using Python from scratch
2023 Data visualization using Python from scratch2023 Data visualization using Python from scratch
2023 Data visualization using Python from scratch
FEG
 
2023 Supervised Learning for Orange3 from scratch
2023 Supervised Learning for Orange3 from scratch2023 Supervised Learning for Orange3 from scratch
2023 Supervised Learning for Orange3 from scratch
FEG
 
2023 Supervised_Learning_Association_Rules
2023 Supervised_Learning_Association_Rules2023 Supervised_Learning_Association_Rules
2023 Supervised_Learning_Association_Rules
FEG
 
202312 Exploration Data Analysis Visualization (English version)
202312 Exploration Data Analysis Visualization (English version)202312 Exploration Data Analysis Visualization (English version)
202312 Exploration Data Analysis Visualization (English version)
FEG
 
202312 Exploration of Data Analysis Visualization
202312 Exploration of Data Analysis Visualization202312 Exploration of Data Analysis Visualization
202312 Exploration of Data Analysis Visualization
FEG
 
Transfer Learning (20230516)
Transfer Learning (20230516)Transfer Learning (20230516)
Transfer Learning (20230516)
FEG
 
Image Classification (20230411)
Image Classification (20230411)Image Classification (20230411)
Image Classification (20230411)
FEG
 
Ad

Recently uploaded (19)

💥高仿护照制作,【微信:hackr01】让你的旅行更安全、更快速! 1. 专业团队:我们拥有经验丰富、技术精湛的制作团队,为你提供最优质的服务。 2. 安...
💥高仿护照制作,【微信:hackr01】让你的旅行更安全、更快速! 1. 专业团队:我们拥有经验丰富、技术精湛的制作团队,为你提供最优质的服务。 2. 安...💥高仿护照制作,【微信:hackr01】让你的旅行更安全、更快速! 1. 专业团队:我们拥有经验丰富、技术精湛的制作团队,为你提供最优质的服务。 2. 安...
💥高仿护照制作,【微信:hackr01】让你的旅行更安全、更快速! 1. 专业团队:我们拥有经验丰富、技术精湛的制作团队,为你提供最优质的服务。 2. 安...
【微VqiChen信】daikao8.com!揭秘黑客如何利用漏洞篡改成绩数据黑客助力修改雅思考试成绩,快速提升你的语言能力 . 黑客助力帮你改考试成绩数据,黑客接单改分数,黑客改数据库成绩
 
制作美国毕业证伊利诺伊理工大学成绩单,IIT文凭学历认证
制作美国毕业证伊利诺伊理工大学成绩单,IIT文凭学历认证制作美国毕业证伊利诺伊理工大学成绩单,IIT文凭学历认证
制作美国毕业证伊利诺伊理工大学成绩单,IIT文凭学历认证
sedhy1
 
制作美国毕业证宾夕法尼亚大学成绩单,UPenn文凭学历认证
制作美国毕业证宾夕法尼亚大学成绩单,UPenn文凭学历认证制作美国毕业证宾夕法尼亚大学成绩单,UPenn文凭学历认证
制作美国毕业证宾夕法尼亚大学成绩单,UPenn文凭学历认证
sedhy1
 
阮新泉腔的 e(er)、ue(ere),ue 的讀唸例句。頭前是泉腔央元音的變體
阮新泉腔的 e(er)、ue(ere),ue 的讀唸例句。頭前是泉腔央元音的變體阮新泉腔的 e(er)、ue(ere),ue 的讀唸例句。頭前是泉腔央元音的變體
阮新泉腔的 e(er)、ue(ere),ue 的讀唸例句。頭前是泉腔央元音的變體
lct4246
 
- 高仿护照的法律后果 【微信:hackr01】 - 如何安全使用假护照? 哪里可以买到高仿护照? - 如何定制可用的假签证? -...
- 高仿护照的法律后果 【微信:hackr01】    - 如何安全使用假护照?  哪里可以买到高仿护照?     - 如何定制可用的假签证?     -...- 高仿护照的法律后果 【微信:hackr01】    - 如何安全使用假护照?  哪里可以买到高仿护照?     - 如何定制可用的假签证?     -...
- 高仿护照的法律后果 【微信:hackr01】 - 如何安全使用假护照? 哪里可以买到高仿护照? - 如何定制可用的假签证? -...
【微VqiChen信】daikao8.com!揭秘黑客如何利用漏洞篡改成绩数据黑客助力修改雅思考试成绩,快速提升你的语言能力 . 黑客助力帮你改考试成绩数据,黑客接单改分数,黑客改数据库成绩
 
🔍高仿护照、假护照、仿制护照、伪造护照【微信:hackr01】、克隆护照 🔍 一比一护照、精仿证件、护照复刻、护照翻版 #高仿护照 #假护照 #仿制护照 ...
🔍高仿护照、假护照、仿制护照、伪造护照【微信:hackr01】、克隆护照 🔍 一比一护照、精仿证件、护照复刻、护照翻版 #高仿护照 #假护照 #仿制护照 ...🔍高仿护照、假护照、仿制护照、伪造护照【微信:hackr01】、克隆护照 🔍 一比一护照、精仿证件、护照复刻、护照翻版 #高仿护照 #假护照 #仿制护照 ...
🔍高仿护照、假护照、仿制护照、伪造护照【微信:hackr01】、克隆护照 🔍 一比一护照、精仿证件、护照复刻、护照翻版 #高仿护照 #假护照 #仿制护照 ...
【微VqiChen信】daikao8.com!揭秘黑客如何利用漏洞篡改成绩数据黑客助力修改雅思考试成绩,快速提升你的语言能力 . 黑客助力帮你改考试成绩数据,黑客接单改分数,黑客改数据库成绩
 
專業外語(二)xxxddddddfffffddddddddddd-W06.pdf
專業外語(二)xxxddddddfffffddddddddddd-W06.pdf專業外語(二)xxxddddddfffffddddddddddd-W06.pdf
專業外語(二)xxxddddddfffffddddddddddd-W06.pdf
MeiMei986041
 
學習愛的語言--五種愛之語。Learn the five love languages.
學習愛的語言--五種愛之語。Learn the five love languages.學習愛的語言--五種愛之語。Learn the five love languages.
學習愛的語言--五種愛之語。Learn the five love languages.
ssusere30c90
 
制作美国毕业证加州理工学院成绩单,Caltech文凭学历认证
制作美国毕业证加州理工学院成绩单,Caltech文凭学历认证制作美国毕业证加州理工学院成绩单,Caltech文凭学历认证
制作美国毕业证加州理工学院成绩单,Caltech文凭学历认证
sedhy1
 
中一課文啟思中國語文《風雪中的北平》投影片/溫書資料/臨急抱佛腳溫書資料.pdf
中一課文啟思中國語文《風雪中的北平》投影片/溫書資料/臨急抱佛腳溫書資料.pdf中一課文啟思中國語文《風雪中的北平》投影片/溫書資料/臨急抱佛腳溫書資料.pdf
中一課文啟思中國語文《風雪中的北平》投影片/溫書資料/臨急抱佛腳溫書資料.pdf
elisacheung2
 
專業外語(二)ghbhuhhhyggyyggyggggggggg-W04.pdf
專業外語(二)ghbhuhhhyggyyggyggggggggg-W04.pdf專業外語(二)ghbhuhhhyggyyggyggggggggg-W04.pdf
專業外語(二)ghbhuhhhyggyyggyggggggggg-W04.pdf
MeiMei986041
 
改分被坑?认准「数据库渗透」技术团队!【微信VQiChen】 “其他中介跑路?我们承诺: ✅ 先验证后付款 ✅ 失败全额退款 ✅ 无痕操作...
改分被坑?认准「数据库渗透」技术团队!【微信VQiChen】   “其他中介跑路?我们承诺:   ✅ 先验证后付款   ✅ 失败全额退款   ✅ 无痕操作...改分被坑?认准「数据库渗透」技术团队!【微信VQiChen】   “其他中介跑路?我们承诺:   ✅ 先验证后付款   ✅ 失败全额退款   ✅ 无痕操作...
改分被坑?认准「数据库渗透」技术团队!【微信VQiChen】 “其他中介跑路?我们承诺: ✅ 先验证后付款 ✅ 失败全额退款 ✅ 无痕操作...
【微信hackr01】澳洲改成绩,澳洲改分,澳大利亚改成绩黑客如何入侵大学网站改成绩的?成绩修改 韩国中学成绩修改 日本中学成绩修改 泰国中学成绩修改美国大学挂科改成绩 英国大学挂科改成绩
 
怕被学校发现?** 黑客技术隐形修改,安全交易,绝不泄密! 【微信VQiChen】成绩单有F/D记录?** 黑客技术轻松删除,安全无风险,留学生首选!
怕被学校发现?** 黑客技术隐形修改,安全交易,绝不泄密!  【微信VQiChen】成绩单有F/D记录?** 黑客技术轻松删除,安全无风险,留学生首选!怕被学校发现?** 黑客技术隐形修改,安全交易,绝不泄密!  【微信VQiChen】成绩单有F/D记录?** 黑客技术轻松删除,安全无风险,留学生首选!
怕被学校发现?** 黑客技术隐形修改,安全交易,绝不泄密! 【微信VQiChen】成绩单有F/D记录?** 黑客技术轻松删除,安全无风险,留学生首选!
【微信hackr01】澳洲改成绩,澳洲改分,澳大利亚改成绩黑客如何入侵大学网站改成绩的?成绩修改 韩国中学成绩修改 日本中学成绩修改 泰国中学成绩修改美国大学挂科改成绩 英国大学挂科改成绩
 
制作美国毕业证西雅图华盛顿大学成绩单,UW文凭学历认证
制作美国毕业证西雅图华盛顿大学成绩单,UW文凭学历认证制作美国毕业证西雅图华盛顿大学成绩单,UW文凭学历认证
制作美国毕业证西雅图华盛顿大学成绩单,UW文凭学历认证
sedhy1
 
制作美国毕业证加利福尼亚大学圣迭戈分校成绩单,UCSD文凭学历认证
制作美国毕业证加利福尼亚大学圣迭戈分校成绩单,UCSD文凭学历认证制作美国毕业证加利福尼亚大学圣迭戈分校成绩单,UCSD文凭学历认证
制作美国毕业证加利福尼亚大学圣迭戈分校成绩单,UCSD文凭学历认证
sedhy1
 
Martyrs of Algeria-of Gods and men (Chinese).pptx
Martyrs of Algeria-of Gods and men (Chinese).pptxMartyrs of Algeria-of Gods and men (Chinese).pptx
Martyrs of Algeria-of Gods and men (Chinese).pptx
Martin M Flynn
 
【文凭认证】多大毕业证认证Q/微:892798920办多伦多大学毕业证留信留服使馆公证,多大硕士毕业证,U of T研究生毕业证,文凭,改U of T成绩...
【文凭认证】多大毕业证认证Q/微:892798920办多伦多大学毕业证留信留服使馆公证,多大硕士毕业证,U of T研究生毕业证,文凭,改U of T成绩...【文凭认证】多大毕业证认证Q/微:892798920办多伦多大学毕业证留信留服使馆公证,多大硕士毕业证,U of T研究生毕业证,文凭,改U of T成绩...
【文凭认证】多大毕业证认证Q/微:892798920办多伦多大学毕业证留信留服使馆公证,多大硕士毕业证,U of T研究生毕业证,文凭,改U of T成绩...
Q147258
 
制作美国毕业证亚利桑那州立大学成绩单,ASU文凭学历认证
制作美国毕业证亚利桑那州立大学成绩单,ASU文凭学历认证制作美国毕业证亚利桑那州立大学成绩单,ASU文凭学历认证
制作美国毕业证亚利桑那州立大学成绩单,ASU文凭学历认证
sedhy1
 
111111111111111111111111应用PSCAD进行电力电子装置仿真.ppt
111111111111111111111111应用PSCAD进行电力电子装置仿真.ppt111111111111111111111111应用PSCAD进行电力电子装置仿真.ppt
111111111111111111111111应用PSCAD进行电力电子装置仿真.ppt
lichengli2
 
制作美国毕业证伊利诺伊理工大学成绩单,IIT文凭学历认证
制作美国毕业证伊利诺伊理工大学成绩单,IIT文凭学历认证制作美国毕业证伊利诺伊理工大学成绩单,IIT文凭学历认证
制作美国毕业证伊利诺伊理工大学成绩单,IIT文凭学历认证
sedhy1
 
制作美国毕业证宾夕法尼亚大学成绩单,UPenn文凭学历认证
制作美国毕业证宾夕法尼亚大学成绩单,UPenn文凭学历认证制作美国毕业证宾夕法尼亚大学成绩单,UPenn文凭学历认证
制作美国毕业证宾夕法尼亚大学成绩单,UPenn文凭学历认证
sedhy1
 
阮新泉腔的 e(er)、ue(ere),ue 的讀唸例句。頭前是泉腔央元音的變體
阮新泉腔的 e(er)、ue(ere),ue 的讀唸例句。頭前是泉腔央元音的變體阮新泉腔的 e(er)、ue(ere),ue 的讀唸例句。頭前是泉腔央元音的變體
阮新泉腔的 e(er)、ue(ere),ue 的讀唸例句。頭前是泉腔央元音的變體
lct4246
 
專業外語(二)xxxddddddfffffddddddddddd-W06.pdf
專業外語(二)xxxddddddfffffddddddddddd-W06.pdf專業外語(二)xxxddddddfffffddddddddddd-W06.pdf
專業外語(二)xxxddddddfffffddddddddddd-W06.pdf
MeiMei986041
 
學習愛的語言--五種愛之語。Learn the five love languages.
學習愛的語言--五種愛之語。Learn the five love languages.學習愛的語言--五種愛之語。Learn the five love languages.
學習愛的語言--五種愛之語。Learn the five love languages.
ssusere30c90
 
制作美国毕业证加州理工学院成绩单,Caltech文凭学历认证
制作美国毕业证加州理工学院成绩单,Caltech文凭学历认证制作美国毕业证加州理工学院成绩单,Caltech文凭学历认证
制作美国毕业证加州理工学院成绩单,Caltech文凭学历认证
sedhy1
 
中一課文啟思中國語文《風雪中的北平》投影片/溫書資料/臨急抱佛腳溫書資料.pdf
中一課文啟思中國語文《風雪中的北平》投影片/溫書資料/臨急抱佛腳溫書資料.pdf中一課文啟思中國語文《風雪中的北平》投影片/溫書資料/臨急抱佛腳溫書資料.pdf
中一課文啟思中國語文《風雪中的北平》投影片/溫書資料/臨急抱佛腳溫書資料.pdf
elisacheung2
 
專業外語(二)ghbhuhhhyggyyggyggggggggg-W04.pdf
專業外語(二)ghbhuhhhyggyyggyggggggggg-W04.pdf專業外語(二)ghbhuhhhyggyyggyggggggggg-W04.pdf
專業外語(二)ghbhuhhhyggyyggyggggggggg-W04.pdf
MeiMei986041
 
制作美国毕业证西雅图华盛顿大学成绩单,UW文凭学历认证
制作美国毕业证西雅图华盛顿大学成绩单,UW文凭学历认证制作美国毕业证西雅图华盛顿大学成绩单,UW文凭学历认证
制作美国毕业证西雅图华盛顿大学成绩单,UW文凭学历认证
sedhy1
 
制作美国毕业证加利福尼亚大学圣迭戈分校成绩单,UCSD文凭学历认证
制作美国毕业证加利福尼亚大学圣迭戈分校成绩单,UCSD文凭学历认证制作美国毕业证加利福尼亚大学圣迭戈分校成绩单,UCSD文凭学历认证
制作美国毕业证加利福尼亚大学圣迭戈分校成绩单,UCSD文凭学历认证
sedhy1
 
Martyrs of Algeria-of Gods and men (Chinese).pptx
Martyrs of Algeria-of Gods and men (Chinese).pptxMartyrs of Algeria-of Gods and men (Chinese).pptx
Martyrs of Algeria-of Gods and men (Chinese).pptx
Martin M Flynn
 
【文凭认证】多大毕业证认证Q/微:892798920办多伦多大学毕业证留信留服使馆公证,多大硕士毕业证,U of T研究生毕业证,文凭,改U of T成绩...
【文凭认证】多大毕业证认证Q/微:892798920办多伦多大学毕业证留信留服使馆公证,多大硕士毕业证,U of T研究生毕业证,文凭,改U of T成绩...【文凭认证】多大毕业证认证Q/微:892798920办多伦多大学毕业证留信留服使馆公证,多大硕士毕业证,U of T研究生毕业证,文凭,改U of T成绩...
【文凭认证】多大毕业证认证Q/微:892798920办多伦多大学毕业证留信留服使馆公证,多大硕士毕业证,U of T研究生毕业证,文凭,改U of T成绩...
Q147258
 
制作美国毕业证亚利桑那州立大学成绩单,ASU文凭学历认证
制作美国毕业证亚利桑那州立大学成绩单,ASU文凭学历认证制作美国毕业证亚利桑那州立大学成绩单,ASU文凭学历认证
制作美国毕业证亚利桑那州立大学成绩单,ASU文凭学历认证
sedhy1
 
111111111111111111111111应用PSCAD进行电力电子装置仿真.ppt
111111111111111111111111应用PSCAD进行电力电子装置仿真.ppt111111111111111111111111应用PSCAD进行电力电子装置仿真.ppt
111111111111111111111111应用PSCAD进行电力电子装置仿真.ppt
lichengli2
 
Ad

Seq2seq Model introduction with practicing hands on coding.pdf

  • 2. About me 2 • Education • NCU (MIS)、NCCU (CS) • Experiences • Telecom big data Innovation • Retail Media Network (RMN) • Customer Data Platform (CDP) • Know-your-customer (KYC) • Digital Transformation • LLM Architecture & Development • Research • Data Ops (ML Ops) • Generative AI research • Business Data Analysis, AI
  • 3. Tutorial Content 3 Homework Transformer 三種架構 • 理解與生成機制 • RNN 問題 (梯度消失/爆炸) • (非序列資料) VAE 應用,如推薦系統 Seq2seq 架構 • Encoder-only (BERT model) • Decoder-only (GPT model) • Encoder-decoder (T5, BART model)
  • 4. Code • Sample code • https://drive.google.com/drive/folders/1wEdGUZbqvmVNwS8AtsO5hXODpK Dn6Qk3?usp=sharing 4
  • 5. Seq2seq (文字序列應用案例) • 輸入:我今天想吃拉麵 • Encoder: • 【理解】你在說什麼,它會先讀完整段話,形成一個內部的語意理解 • Decoder: • 根據理解回答你,像是一步一步【生成】:我知道附近哪裡有拉麵店! 5
  • 6. Seq2seq (結合2個RNN) 6 用來處理序列轉換任務,例如: 【機器翻譯、對話系統、文本摘要】 利用 RNN 的架構進行逐一讀入,將【理解】轉換成 hidden state ,輸出一個壓縮過的語意向量 接收字詞的輸入與來自 Encoder 的 hidden state,這樣 才能正確地翻譯並【生成】對應的輸出序列 壓 縮
  • 7. • 仍然有梯度的問題 • 【長文本】容易在 encoder 階段被【遺忘】,導致 decoder 無法生成【對齊 語意】 • 遺忘機制在實務上效果還是有限,有可能【錯判】資訊的重要性 • Decoder 階段是序列式生成字詞一步接一步 (greedy/ beam search),屬於 【自回歸生成】,這限制了整體語意【上下文】掌握能力 • RNN 為【時間步依賴 (Time step)】結構 (一步接一步),無法【平行】運算 • LSTM/GRU 屬於單層或少數層推疊,很難表現出語意、語法等多層次結構 7 因為不斷學習每一個字詞,然後再遺忘,避免訓練階段梯度爆炸 當輸入序列太長時,誤差反向傳播回去會發生:計算後的梯度會被不斷縮小 (梯度消失) 或 梯度被不斷放大 (梯度爆炸) Seq2seq (結合2個RNN)
  • 8. • 可視為 seq2seq 的一種特殊形式,但它的輸出目標是輸入本身, 不是【序列】資料 • 採用機率空間 (latent space) 的 encoder-decoder 架構,並不是 為了解碼語言,而是為了學習一個隱變量生成模型 • 模型學會使用者對物品偏好的【隱藏分佈】,然後透過這個潛在 向量來生成對其他物品的預測分佈 8 加入了 latent space 的機率分布假設 (通常是高斯分布),使模型可以學到更平滑、更有泛化能力的隱變量空間 Seq2seq (非序列資料) VAE (Variational Autoencoders)
  • 9. • 與 seq2seq 相同處 • 與 seq2seq 不同處 9 特點 說明 Encoder-Decoder 架構 都具有 【輸入】=> 【壓縮】 => 【輸出】 隱藏空間 (Latent space) 將輸入資料轉為某種內部表示,再生成輸出 用於生成任務 都可以用來產生某種輸出,如: 句子、推薦分數 特點 VAE Seq2seq 中間的 latent 表示 機率分佈 (有 μ, σ) + 抽樣機制 單一 hidden state 向量 學習目標 (計算損失) 最大化 KL + 重建損失 生成與實際的 Cross entropy 應用範圍 壓縮、生成、推薦、圖像重建 機器翻譯、對話、摘要 VAE 中使用 KL 散度將 latent space 正則化為標準常態 N(0,1) 目的就是每個使用者評分高低會有不同 Seq2seq (非序列資料) VAE (Variational Autoencoders)
  • 10. • 輸入: • 五個使用者對於十個物品評分,有些物品是空的 (表示沒評分) • Encoder (編碼使用者偏好分佈): • 將這個稀疏的評分向量轉為潛在空間 Z ~ N (μ, σ²) • Decoder (重建完整評分向量): • 將 Z 表徵傳回 decoder,產生對所有物品的預測分數 • Loss 計算: • 重建損失,已知評分 vs 預測評分 • KL 散度損失: 讓潛在空間 (使用者的Z 表徵) 接近標準常態分佈 10 (Z 表徵為使用者個人偏好) • 標準常態分佈(平均值為 0,變異數為 1) • 一般常態分佈 (平均值為 μ,變異數為 σ² ) VAE.ipynb VAE_encoder_Z.ipynb MSE(x_hat, x) 衡量每位使用者的 μ 與 σ 距離標準常態分佈有多遠,距離越遠就要大幅調乘權重參數 Seq2seq (非序列資料) VAE (Variational Autoencoders)
  • 11. Transformer Models • They are a more recent and highly effective architecture for sequence modeling. • They move away from recurrence and rely on a self-attention mechanism to process sequences in parallel and capture long-term dependencies in data, making them more efficient than traditional RNNs. • Self-attention mechanisms to weight the importance of different parts of input data. • They have been particularly successful in NLP tasks and have led to models like BERT, GPT, and others. 11
  • 12. • In the paper Attention is all you need (2017). • It abandons traditional CNNs and RNNs. • It includes Encoder and Decoder. 12 https://arxiv.org/abs/1706.03762 由多層的編碼器/解碼器堆疊而成,每層包含 Multi-head Self-Attention、LayerNorm、前饋神經網 路(FFN)、殘差連接(Residual) 等模組,整體架構是可微分的,並透過 反向傳播 (Backpropagation) 進行訓練 Q: 來自於 Decoder 的輸入 K,V: 來自於 Encoder 的輸出 (4x768) 類似 BERT GPT GPT不靠時間步方式, 以 Tokens + PE 方式以 attention 機制來生成 ChatGPT屬於那種? Transformer Models RNN與GPT都採用自回歸方式生成
  • 13. • How are you? • 你好嗎? Tokenizer <CLS> “How” “are” “you” “?” <SEP> Vocabulary How 1 are 10 you 300 ? 4 Word to index mapping d=768 Add PE (Positional Encoding) Multi-Head- Attention (HMA) In parallel Feed Forward Residual Connection N O R M Residual Connection N O R M Block Block Block context vectors BERT 的模型約有 30,000個 tokens,這些常用的詞、詞根、 子詞(subword) 編上編號 embedding 逐元素相加: 這樣模型就知道哪些詞 是出現在前面、哪些在 後面,才能理解語序 BERT 有 12 個 Block,BERT Large 有 24 個 Block 用 sin 和 cos 波形來表示不同位置,奇數用 cos,偶數用 sin; 每個位置 pos 對應一組固定向量 機器翻譯 計算的方向 Transformer Models Encoder 階段 何謂 Token?
  • 14. Multi-head-attention • Attention mechanism: • Select more useful information from words. • Q, K and V are obtained by applying a linear transformation to the input word vector x. (token 經過 word embedding 之後就是 x) • Each matrix W can be learned through training. 14 Q: Information to be queried K: Vectors being queried V: Values obtained from the query (多頭的意思,想像成 CNN 中多個卷積核的作用(抓取特徵值) => 【多個注意力】機制 RNN 難以學到遠距離的依賴關係,因此需要導入 attention 機制。 1. how are you 經過 Q· Kᵀ 之後為注意力分數 [0.8, 1.2, -0.4] ,再透過 softmax 為 [0.31, 0.52, 0.17] ,這表示how應該要關注的字詞為 are 因為有 52% 2. 接下來 how 這個詞 [0.31 · vhow+0.52 · vare+0.17 · vyou],這會有 768維 3. 三個字詞算完,一共有 [3x768] 進入 Layer Norm
  • 15. 15 模型透過 Self-Attention 機制,在這 128K 的 token 中動態找出: • 哪些字詞 (Tokens) 彼此有關係 • 哪些部分該被【關注】 • 哪些可忽略 Multi-head-attention 1. 每個 token 的向量會分別經過三個矩陣變換,產生 Q, K, V 2. 利用 Q 與所有 K 的內積來計算關聯分數,再經 softmax 得到注意力分數 (機率) 3. 權重越高,表示模型對該 token 給予越高的注意力
  • 16. • Bidirectional Encoder Representations from Transformers • 使用 Encoder 進行編碼,採用 self-attention 機制在編碼 token 同時考慮上下 文的 token,上下文的意思就是雙向的意思 (bidirectional) • 採用 Self-Attention多頭機制提取全面性信息 • 採用猜字的方式進行學習,稱為 Masked Language Model (MLM) ,以 Cross entropy 計算損失,以達到模型收斂效果 • 使用 Transformer 的 Encoder 進行特徵提取,可說 Encoder 就是 BERT模型 16 當訓練的時候,雙向的意思就是 => 透過 MASK,會同時看到【今天天氣】 [MASK] 【,我想吃冰淇淋】 當預測字詞【很】的時候,雙向的意思就是 => 會同時看到【我今天】 【開心】 Transformer Models (BERT) Encoder-only 處理「這部電影會很好看,結果非常無聊」時,它同時看到整句的前後文,知道「非常無聊」才是真正的情緒, 不會被「很好看」這個片段誤導。 pytorch_bert.ipynb
  • 17. 17 Context Vector (K,V) B O S 你 好 嗎 你 好 嗎 ? max max max max 你 0.8 好 0 嗎 0.1 … … END 0 ? E N D max Add PE Masked MHA Cross Attention Feed Forward 你 1 好 0 嗎 0 … … … 0 Ground truth Minimize cross entropy Embedding 1. 剛開始進行模型訓練時,QKV 參數都是隨機值,剛開始的關注詞根本不具參考性 2. 每做完一次訓練就是 (FFN + Backward),根據 Loss 的結果進行 Backward 3. 更新 QKV 讓 attention 的分數越來越有判斷力 pytorch_transformer.ipynb (Token-level loss) 1. 透過 Encoder 的 Context Vector (K,V ) 2. 生成第一個字詞:你 (softmax(Linear(Context Vector))) 3. 將字詞:你,作為Q,進行KV查表後,生成字詞:好… 如果沒有 Context Vector 輸入, 稱為 Decoder-only 模型,例如: ChatGPT 該模型為 Causal Masking 方式: 整合 QA pairs 問 題資料集為一個欄位,一起訓練 只看過去字詞(tokens),遮住未來字詞(tokens) Helsinki-NLP/opus-mt-zh-en ·Hugging Face Transformer Models Decoder 階段 當它看到「我以為這部電影會很好看,結果」, 它只能依靠前面的字猜「接下來會說什麼」, 所以「非常無聊」這個反轉情緒,它是之後才看到的,不能提前感知 機器翻譯
  • 19. HuggingFace LLM models • Model card: • https://huggingface.co/TheBloke/Llama-2-7B-Chat-fp16 • 何謂預訓練模型 ? 如何啟動本地端模型? • 了解訓練資料集、建模、評估、推論 • 下一步 ? 19 hf_pytorch_pretrain_gpt.ipynb https://ollama.com
  • 20. Homework • 改寫 HW03.ipynb,將生活居家.csv 與 彩妝保養.csv 進行分類 • 輸入「簡單的外型設計,香氣清新」 • 得到「生活居家」 分類結果 20
  • 21. • 將 pytorch_transformer.ipynb 修改為中文輸入,注音符號輸出 • 將中文字轉注音,例如 pypinyin + 注音對應表 • 台灣教育部標準注音字表或萌典API 抓取 • Base model 改為 t5-small 或 facebook/mbart-large-50 21 挑戰
  • 22. Transformer 的 decoder layer (解碼層) 22