您現在已為任何一組範例建立嵌入。受控相似度評估會採用這些嵌入資料,並傳回用於評估相似度的數字。請注意,嵌入是數字向量。如要找出兩個向量 \(A = [a_1,a_2,...,a_n]\) 和 \(B = [b_1,b_2,...,b_n]\)之間的相似度,請選擇下列三種相似度評估方法之一:
測量 | 意義 | 公式 | 隨著相似度增加,這項指標... |
---|---|---|---|
歐幾里得距離 | 向量端點之間的距離 | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | 減少 |
餘弦 | 向量間角度的餘弦值 \(\theta\) | \(\frac{a^T b}{|a| \cdot |b|}\) | 增加 |
點積 | 餘弦乘以兩個向量的長度 | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | 增加。也會隨著向量長度增加。 |
選擇相似度評估指標
與餘弦相反,點積與向量長度成正比。這一點很重要,因為在訓練集 (例如熱門 YouTube 影片) 中經常出現的範例,其嵌入向量通常長度較長。 如果您想擷取熱門程度,請選擇 dot product。不過,熱門範例可能會扭曲相似度指標,為平衡這種偏差,您可以將長度提升為指數 \(\alpha\ < 1\) ,以便計算內積為 \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)。
為進一步瞭解向量長度如何影響相似度評估,請將向量長度標準化為 1,並注意到這三項評估會彼此成比例。
證明:相似度測量方法的比例
將 a 和 b 標準化後, \(||a||=1\) 和 \(||b||=1\),這三個指標的關係如下:
- 歐幾里得距離 = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\)。
- 內積 = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\)。
- 餘弦 = \(\cos(\theta_{ab})\)。
查看相似度評估
相似度評估指標會根據其他組合的相似度,量化一組範例的相似度。以下比較手動和監督兩種類型:
類型 | 建立方式 | 最適合 | 影響 |
---|---|---|---|
手動 | 手動合併特徵資料。 | 資料集較小,且內含可輕鬆合併的功能。 | 提供相似度計算結果的洞察資料。如果特徵資料有所變更,您必須手動更新相似度評估指標。 |
監督式 | 測量受控 DNN 產生的嵌入項目之間的距離。 | 包含難以合併特徵的大型資料集。 | 無法提供結果洞察。不過,DNN 可自動調整以因應變化的特徵資料。 |