사용자 제공 데이터 매칭 (UPDM)은 웹사이트, 앱, 오프라인 상점의 정보와 같이 사용자에 관해 수집한 퍼스트 파티 데이터를 Google 소유 및 운영 데이터를 포함한 모든 Google 광고 데이터에서 동일한 사용자의 로그인 활동과 결합합니다. 여기에는 Google Marketing Platform(GMP) 제품을 통해 구매한 데이터(예: Display & Video 360을 사용하여 구매한 YouTube)가 포함됩니다. Google에서 소유 및 운영하지 않는 기타 GMP 제품은 지원되지 않습니다.
사용자 제공 데이터 매칭에 사용하려면 광고 이벤트를 Google 광고 데이터에서 로그인한 사용자와 연결해야 합니다.
이 문서에서는 사용자가 제공한 데이터 매칭 기능을 설명하고 설정 및 사용에 관한 안내를 제공합니다.
연결 탭 개요
중요한 광고 통계를 얻으려면 종종 여러 소스의 데이터를 연결해야 합니다. 이 데이터 파이프라인 문제에 대한 자체 솔루션을 빌드하려면 상당한 시간과 엔지니어링 투자가 필요합니다. Ads Data Hub의 연결 페이지는 BigQuery에서 광고 데이터를 가져오고 변환하고 일치시키는 단계별 안내 인터페이스를 제공하여 이 프로세스를 간소화하므로 Ads Data Hub 쿼리 또는 BigQuery에서 데이터를 읽는 다른 제품에서 사용할 수 있습니다. 퍼스트 파티 데이터로 쿼리를 보강하면 더욱 풍부한 고객 경험을 제공할 수 있고 업계 전반의 광고 추적 변화에 더 잘 대처할 수 있습니다.
연결 페이지는 개인 식별 정보 (PII)를 암호화하고 개인 정보 보호 중심 방식으로 파트너와 공유할 수 있는 도구로 구성되어 있습니다. PII가 포함된 열을 선택하면 Ads Data Hub에서 데이터를 암호화하여 퍼스트 파티 데이터를 내보내거나 읽을 수 있는 권한이 있는 사용자만 이를 수행할 수 있도록 합니다. 측정 또는 활성화 사용 사례에 필요한 퍼스트 파티 데이터를 파악하기 어려울 수 있으므로 Ads Data Hub에서는 사전 정의된 사용 사례의 포괄적인 목록을 제공한 후 데이터를 추출, 변환, 로드하는 전체 환경을 안내합니다. 여러 유형의 연결을 만들 수 있지만 이 문서에서는 사용자가 제공한 데이터 일치에 연결 페이지를 사용한다고 가정합니다.
지원되는 퍼스트 파티 데이터 소스
다음 데이터 소스에서 데이터를 가져올 수 있습니다.
- BigQuery
- Cloud Storage
- 보안 FTP (SFTP)
- Snowflake
- MySQL
- PostgreSQL
- Amazon Redshift
- Amazon S3
로그인한 사용자의 경우 Google이 소유하고 운영하는 인벤토리에서만 사용자 제공 데이터 매칭을 사용할 수 있으므로 예정된 서드 파티 쿠키 지원 중단의 영향을 받지 않습니다. 서드 파티 데이터보다 업계 변화에 대한 저항력이 더 강하므로 더 풍부한 통계를 제공하여 고객 참여도를 높일 수 있습니다.
용어를 알아봅니다.
- 사용자 제공 데이터 연결: 사용자 제공 데이터 연결을 설정하여 데이터를 가져오고 일치시키고, 데이터 가져오기를 예약하고, 데이터를 변환하고, 사용자 ID를 사용하여 광고 데이터를 일치시킵니다. 광고 이벤트를 Google 광고 데이터에서 로그인한 사용자와 연결해야 합니다. 여러 Google Cloud 프로젝트가 필요합니다.
- 퍼스트 파티 데이터 연결: 퍼스트 파티 데이터 연결을 데이터 준비 도구로 설정하여 UPDM의 고급 기능 없이 데이터 가져오기를 예약하고 데이터를 변환합니다. 이 유형의 연결에는 Google Cloud 프로젝트가 하나만 필요합니다.
- 데이터 소스: 연결된 제품, 가져온 파일, 서드 파티 통합(예: BigQuery)
- 연결 대상: 사용 사례: 일반적으로 가져온 데이터가 활성화되는 Google 제품 또는 제품 기능(예: Ads Data Hub 사용자 제공 데이터 매칭)
- 관리자 프로젝트: 독점 광고 데이터가 원시 형식으로 포함된 Google Cloud 프로젝트입니다.
- 출력 데이터 세트: Ads Data Hub가 작성하는 BigQuery 데이터 세트입니다. 기본적으로 이 데이터 세트는 관리자 프로젝트에 있습니다. 다른 Google Cloud 프로젝트로 변경하려면 서비스 계정 구성을 참고하세요.
절차 요약
- 데이터 처리 및 일치 설정
- 관리자가 관리 프로젝트의 서비스 계정에 필요한 권한을 부여합니다. 데이터 처리 설정을 참고하세요.
- 퍼스트 파티 데이터 처리 및 일치
- 광고주가 퍼스트 파티 데이터의 형식을 지정하고 BigQuery 데이터 세트에 업로드합니다. 가장 간단한 설정은 관리자 프로젝트를 사용하는 것입니다. 하지만 소유한 모든 BigQuery 데이터 세트를 사용할 수 있습니다.
- 사용자는 연결을 만들고 가져오기 일정을 설정하여 데이터 일치 요청을 시작합니다.
- Google은 프로젝트와 Google의 사용자 ID 및 해싱된 사용자 제공 데이터가 포함된 Google 소유 데이터 간에 데이터를 조인하여 일치 테이블을 빌드하고 업데이트합니다.
- 퍼스트 파티 데이터 수집을 참고하세요.
- 일치하는 데이터를 기반으로 Ads Data Hub에서 진행 중인 쿼리
- 사용자는 Ads Data Hub에서 일반 쿼리를 실행하는 것과 동일한 방식으로 데이터 이동 색인에 대해 쿼리를 실행합니다. 일치하는 데이터 쿼리를 참고하세요.
개인 정보 보호 요구사항 알아보기
고객 데이터 수집
사용자 제공 데이터 매칭을 사용하려면 퍼스트 파티 데이터를 업로드해야 합니다. 퍼스트 파티 데이터는 광고주의 웹사이트, 앱, 오프라인 상점 또는 고객이 직접 광고주와 정보를 공유하는 다른 상황에서 수집된 정보입니다.
상담사는 다음 작업을 수행해야 합니다.
- 개인정보처리방침에 광고주를 대신하여 서비스를 수행하기 위해 고객 데이터를 제3자와 공유한다는 사실을 공개하고, 법적으로 필요한 경우 고객의 동의를 구합니다.
- 고객 데이터 업로드 시 Google의 승인된 API 또는 인터페이스만 사용해야 합니다.
- 적용되는 자체 규제 또는 업계 규정을 비롯한 모든 관련 법률 및 규정을 준수해야 합니다.
퍼스트 파티 동의 확인
Ads Data Hub에서 퍼스트 파티 데이터를 사용하려면 EU 사용자 동의 정책 및 Ads Data Hub 정책에 따라 데이터를 Google과 공유하기 위해 적절한 동의를 얻었음을 확인해야 합니다. 이 요건은 각 Ads Data Hub 계정에 적용되며, 새로운 퍼스트 파티 데이터를 업로드할 때마다 업데이트해야 합니다. 어느 사용자나 계정 전체를 대신하여 이를 확인할 수 있습니다.
분석 쿼리에 적용되는 것과 동일한 Google 서비스 쿼리 규칙이 UPDM 쿼리에도 적용됩니다. 예를 들어 데이터 이동 색인을 만들 때 EEA의 사용자에게 교차 서비스 쿼리를 실행할 수 없습니다.
Ads Data Hub에서 동의를 확인하는 방법은 유럽 경제 지역의 동의 요건을 참고하세요.
데이터 크기
최종 사용자 개인 정보를 보호하기 위해 사용자 제공 데이터 일치는 데이터 크기와 관련하여 다음 요구사항을 적용합니다.
- 사용자 목록에 레코드를 1,000개 이상 업로드해야 합니다.
- 일치 테이블을 업데이트할 때마다 최소한의 새로 일치된 사용자가 포함되어야 합니다. 이 동작은 차이 검사와 유사합니다.
- 목록이 최대 레코드 수를 초과해서는 안 됩니다. 최대 데이터 한도에 관해 알아보려면 Google 담당자에게 문의하세요.
데이터 처리 설정
시작하기 전에 데이터 연결을 만들도록 Ads Data Hub 계정을 구성해야 합니다. 데이터 연결을 만들면 데이터 일치 파이프라인을 설정할 수 있습니다. 다음 단계를 한 번만 수행하면 됩니다.
연결 페이지에서 설정 시작을 클릭하여 UPDM 사용 설정 단계에서 계정 설정 마법사를 엽니다.
BigQuery 및 Cloud Storage에 어떤 권한이 부여되나요?
BigQuery 또는 Cloud Storage에서 사용할 수 있도록 UPDM을 설정한 경우 이 참조를 사용하여 Ads Data Hub 서비스 계정에 부여된 권한을 확인하세요.
BigQuery
Datafusion 서비스 계정 | |||||||||
목적 | Data Fusion 서비스 계정은 Ads Data Hub UI에 소스 필드 목록을 표시하는 데 사용됩니다. | ||||||||
형식 | service-some-number@gcp-sa-datafusion.iam.gserviceaccount.com |
||||||||
필수 액세스 권한 |
|
||||||||
Dataproc 서비스 계정 | |||||||||
목적 | Dataproc 서비스 계정은 백그라운드에서 데이터 파이프라인을 실행합니다. | ||||||||
형식 | some-number[email protected] |
||||||||
필수 액세스 권한 |
|
||||||||
UPDM 서비스 계정 | |||||||||
목적 | UPDM 서비스 계정은 일치 작업을 실행하는 데 사용됩니다. | ||||||||
형식 | service-some-number@gcp-sa-adsdataconnector.iam.gserviceaccount.com |
||||||||
필수 액세스 권한 |
|
Cloud Storage
Datafusion 서비스 계정 | |||||||
목적 | Data Fusion 서비스 계정은 Ads Data Hub UI에 소스 필드 목록을 표시하는 데 사용됩니다. | ||||||
형식 | service-some-number@gcp-sa-datafusion.iam.gserviceaccount.com |
||||||
필수 액세스 권한 |
|
||||||
Dataproc 서비스 계정 | |||||||
목적 | Dataproc 서비스 계정은 백그라운드에서 데이터 파이프라인을 실행합니다. | ||||||
형식 | some-number[email protected] |
||||||
필수 액세스 권한 |
|
||||||
UPDM 서비스 계정 | |||||||
목적 | UPDM 서비스 계정은 일치 작업을 실행하는 데 사용됩니다. | ||||||
형식 | service-some-number@gcp-sa-adsdataconnector.iam.gserviceaccount.com |
||||||
필수 액세스 권한 |
|
기타 데이터 소스
다른 데이터 소스에는 필요하지 않음
퍼스트 파티 데이터 수집 및 일치
입력용 데이터 형식 지정
데이터가 올바르게 일치하려면 다음 형식 지정 요구사항을 준수해야 합니다.
- 다음 입력란 설명에 표시된 경우 SHA256 해싱을 사용하여 업로드해야 합니다.
- 입력란은 문자열 형식이어야 합니다. 예를 들어 Base16 인코딩 함수(TO_HEX)와 함께 BigQuery의 SHA256 해시 함수를 사용하는 경우 다음 변환(
TO_HEX(SHA256(user_data))
)을 사용하세요. - UPDM은 Base16 및 Base64 인코딩을 모두 지원합니다. 퍼스트 파티 데이터의 인코딩을 Ads Data Hub 쿼리에 사용된 디코딩과 일치시켜야 합니다. 퍼스트 파티 데이터 인코딩을 변경하는 경우 동일한 기반에서 디코딩하도록 Ads Data Hub 쿼리를 업데이트해야 합니다. 다음 예에서는 Base16 인코딩을 사용합니다.
사용자 ID
- 일반 텍스트
- 해싱: 없음
이메일
- 선행 및 후행 공백 삭제
- 소문자로만 입력하세요.
- 모든 이메일 주소에 도메인 이름(예: gmail.com 또는 hotmail.co.jp)을 포함하세요.
- 악센트를 삭제합니다(예: è, é, ê, ë를 e로 변경).
gmail.com
및googlemail.com
이메일 주소의 도메인 이름 앞에 있는 모든 마침표 (.)를 삭제합니다.- 해싱: Base16 인코딩 SHA256
유효: TO_HEX(SHA256("[email protected]"))
잘못됨: TO_HEX(SHA256("JéffersonLô[email protected]"))
전화
- 공백 제거
- E.164 형식입니다. 예를 들어 미국의 경우 +14155552671, 영국의 경우 +442071838750입니다.
- 국가 코드 앞의 '+'를 제외한 모든 특수문자를 삭제합니다.
- 해싱: Base16 인코딩 SHA256
유효: TO_HEX(SHA256("+18005550101"))
잘못됨: TO_HEX(SHA256("(800) 555-0101"))
이름
- 공백 제거
- 소문자로만 입력하세요.
- 모든 접두사(예: Mrs., Mr., Ms., 박사
- 악센트(예: è, é, ê, ë)를 삭제하지 마세요.
- 해싱: Base16 인코딩 SHA256
유효: TO_HEX(SHA256("daní"))
잘못됨: TO_HEX(SHA256("Daní"))
성
- 공백 제거
- 소문자로만 입력하세요.
- 모든 접미사(예: Jr., Sr., 2nd, 3rd, II, III, PHD, MD
- 악센트(예: è, é, ê, ë)를 삭제하면 안 됩니다.
- 해싱: Base16 인코딩 SHA256
유효: TO_HEX(SHA256("delacruz"))
잘못됨: TO_HEX(SHA256("de la Cruz, Jr."))
국가
- 모든 고객 데이터가 동일 국가의 데이터라도 국가 코드를 포함하세요.
- 국가 데이터는 해싱하지 마세요.
- ISO 3166-1 alpha-2 국가 코드 사용
- 해싱: 없음
유효: US
잘못됨: United States of America
또는 USA
우편번호
- 우편번호 데이터는 해싱하지 마세요.
- 미국 및 국제 우편번호가 모두 허용됩니다.
- 미국:
- 5자리 코드가 허용됩니다(예: 94043).
- 5자리 숫자 뒤에 4자리 코드가 오는 경우도 허용됩니다(예: 94043-1351 또는 940431351).
- 기타 모든 국가:
- 형식이 필요하지 않습니다 (소문자로 바꾸거나 공백 및 특수문자를 삭제할 필요가 없음).
- 우편번호 확장은 비워 두세요.
- 해싱: 없음
해시 유효성 검사 및 데이터 인코딩
다음 해시 유효성 검사 스크립트를 사용하여 데이터 형식이 올바른지 확인할 수 있습니다.
자바스크립트
Base16
/**
* @fileoverview Provides the hashing algorithm for User-Provided Data Match, as
* well as some valid hashes of sample data for testing.
*/
async function hash(token) {
// Removes leading or trailing spaces and converts all characters to lowercase.
const formattedToken = token.trim().toLowerCase();
// Hashes the formatted string using the SHA-256 hashing algorithm.
const hashArrayBuffer = await crypto.subtle.digest(
'SHA-256', (new TextEncoder()).encode(formattedToken));
// Converts the hash buffer to a hexadecimal string.
return Array.from(new Uint8Array(hashArrayBuffer))
.map((b) => b.toString(16).padStart(2, '0'))
.join('');
}
function main() {
// Expected hash for [email protected]:
// 87924606b4131a8aceeeae8868531fbb9712aaa07a5d3a756b26ce0f5d6ca674
hash('[email protected]').then(result => console.log(result));
// Expected hash for +18005551212:
// 61d9111bed3e6d9cfc1bc3b5cb35a402687c4f1546bee061a2bd444fbdd64c44
hash('+18005551212').then(result => console.log(result));
// Expected hash for John:
// 96d9632f363564cc3032521409cf22a852f2032eec099ed5967c0d000cec607a
hash('John').then(result => console.log(result));
// Expected hash for Doe:
// 799ef92a11af918e3fb741df42934f3b568ed2d93ac1df74f1b8d41a27932a6f
hash('Doe').then(result => console.log(result));
}
main()
Base64
/**
* @fileoverview Provides the hashing algorithm, as well as some valid hashes of
* sample data for testing.
*/
async function hash(token) {
// Removes leading or trailing spaces and converts all characters to lowercase.
const formattedToken = token.trim().toLowerCase();
// Hashes the formatted string using the SHA-256 hashing algorithm.
const hashBuffer = await crypto.subtle.digest(
'SHA-256', (new TextEncoder()).encode(formattedToken));
// Converts the hash buffer to a base64-encoded string and returns it.
const base64Str = btoa(String.fromCharCode(...new Uint8Array(hashBuffer)));
return base64Str;
}
function main() {
// Expected hash for [email protected]:
// h5JGBrQTGorO7q6IaFMfu5cSqqB6XTp1aybOD11spnQ=
hash('[email protected]').then(result => console.log(result));
// Expected hash for +18005551212:
// YdkRG+0+bZz8G8O1yzWkAmh8TxVGvuBhor1ET73WTEQ=
hash('+18005551212').then(result => console.log(result));
// Expected hash for John: ltljLzY1ZMwwMlIUCc8iqFLyAy7sCZ7VlnwNAAzsYHo=
hash('John').then(result => console.log(result));
// Expected hash for Doe: eZ75KhGvkY4/t0HfQpNPO1aO0tk6wd908bjUGieTKm8=
hash('Doe').then(result => console.log(result));
}
main()
Python
Base16
"""Provides the hashing algorithm, as well as some valid hashes of sample data for testing.
Supports: Python 2, Python 3
Sample hashes:
- Email '[email protected]': 87924606b4131a8aceeeae8868531fbb9712aaa07a5d3a756b26ce0f5d6ca674
- Phone '+18005551212': 61d9111bed3e6d9cfc1bc3b5cb35a402687c4f1546bee061a2bd444fbdd64c44
- First name 'John': 96d9632f363564cc3032521409cf22a852f2032eec099ed5967c0d000cec607a
- Last name 'Doe': 799ef92a11af918e3fb741df42934f3b568ed2d93ac1df74f1b8d41a27932a6f
"""
import base64
import hashlib
def updm_hash(token):
# Generates a SHA-256 hash of the input token after normalization.
return hashlib.sha256(token.strip().lower().encode('utf-8')).hexdigest()
def print_updm_hash(token):
# Prints the SHA-256 hash and the original token.
print('Hash: "{}"\t(Token: {})'.format(updm_hash(token), token))
def main():
# Hashes and prints sample tokens.
print_updm_hash('[email protected]')
print_updm_hash('+18005551212')
print_updm_hash('John')
print_updm_hash('Doe')
if __name__ == '__main__':
main()
Base64
"""Provides the hashing algorithm, as well as some valid hashes of sample data for testing.
Supports: Python 2, Python 3
Sample hashes:
- Email '[email protected]': h5JGBrQTGorO7q6IaFMfu5cSqqB6XTp1aybOD11spnQ=
- Phone '+18005551212': YdkRG+0+bZz8G8O1yzWkAmh8TxVGvuBhor1ET73WTEQ=
- First name 'John': ltljLzY1ZMwwMlIUCc8iqFLyAy7sCZ7VlnwNAAzsYHo=
- Last name 'Doe': eZ75KhGvkY4/t0HfQpNPO1aO0tk6wd908bjUGieTKm8=
"""
import base64
import hashlib
def hash(token):
# Generates a base64-encoded SHA-256 hash of a normalized input string.
return base64.b64encode(
hashlib.sha256(
token.strip().lower().encode('utf-8')).digest()).decode('utf-8')
def print_hash(token, expected=None):
# Computes and displays the hash of a token, with optional validation.
hashed = hash(token)
if expected is not None and hashed != expected:
print(
'ERROR: Incorrect hash for token "{}". Expected "{}", got "{}"'.format(
token, expected, hashed))
return
print('Hash: "{}"\t(Token: {})'.format(hashed, token))
def main():
# Tests the hash function with sample tokens and expected results.
print_hash(
'[email protected]', expected='h5JGBrQTGorO7q6IaFMfu5cSqqB6XTp1aybOD11spnQ=')
print_hash(
'+18005551212', expected='YdkRG+0+bZz8G8O1yzWkAmh8TxVGvuBhor1ET73WTEQ=')
print_hash('John', expected='ltljLzY1ZMwwMlIUCc8iqFLyAy7sCZ7VlnwNAAzsYHo=')
print_hash('Doe', expected='eZ75KhGvkY4/t0HfQpNPO1aO0tk6wd908bjUGieTKm8=')
if __name__ == '__main__':
main()
Go
Base16
/*
Provides the hashing algorithm, as well as some valid hashes of sample data for testing.
Sample hashes:
- Email '[email protected]': 87924606b4131a8aceeeae8868531fbb9712aaa07a5d3a756b26ce0f5d6ca674
- Phone '+18005551212': 61d9111bed3e6d9cfc1bc3b5cb35a402687c4f1546bee061a2bd444fbdd64c44
- First name 'John': 96d9632f363564cc3032521409cf22a852f2032eec099ed5967c0d000cec607a
- Last name 'Doe': 799ef92a11af918e3fb741df42934f3b568ed2d93ac1df74f1b8d41a27932a6f
*/
package main
import (
"crypto/sha256"
"fmt"
"strings"
)
// Hash hashes an email, phone, first name, or last name into the correct format.
func Hash(token string) string {
formatted := strings.TrimSpace(strings.ToLower(token))
hashed := sha256.Sum256([]byte(formatted))
encoded := fmt.Sprintf("%x", hashed[:])
return encoded
}
// PrintHash prints the hash for a token.
func PrintHash(token string) {
fmt.Printf("Hash: \"%s\"\t(Token: %s)\n", Hash(token), token)
}
func main() {
PrintHash("[email protected]")
PrintHash("+18005551212")
PrintHash("John")
PrintHash("Doe")
}
Base64
/*
Provides the hashing algorithm, as well as some valid hashes of sample data for testing.
Sample hashes:
- Email '[email protected]': h5JGBrQTGorO7q6IaFMfu5cSqqB6XTp1aybOD11spnQ=
- Phone '+18005551212': YdkRG+0+bZz8G8O1yzWkAmh8TxVGvuBhor1ET73WTEQ=
- First name 'John': ltljLzY1ZMwwMlIUCc8iqFLyAy7sCZ7VlnwNAAzsYHo=
- Last name 'Doe': eZ75KhGvkY4/t0HfQpNPO1aO0tk6wd908bjUGieTKm8=
*/
package main
import (
"crypto/sha256"
"encoding/base64"
"fmt"
"strings"
)
// Hash hashes an email, phone, first name, or last name into the correct format.
func Hash(token string) string {
formatted := strings.TrimSpace(strings.ToLower(token))
hashed := sha256.Sum256([]byte(formatted))
encoded := base64.StdEncoding.EncodeToString(hashed[:])
return encoded
}
// PrintHash prints the hash for a token.
func PrintHash(token string) {
fmt.Printf("Hash: \"%s\"\t(Token: %s)\n", Hash(token), token)
}
func main() {
PrintHash("[email protected]")
PrintHash("+18005551212")
PrintHash("John")
PrintHash("Doe")
}
자바
Base16
package updm.hashing;
import static java.nio.charset.StandardCharsets.UTF_8;
import com.google.common.base.Ascii;
import com.google.common.hash.Hashing;
/**
* Example of the UPDM hashing algorithm using hex-encoded SHA-256.
*
* <p>This uses the Guava Hashing to generate the hash: https://github.com/google/guava
*
* <p>Sample valid hashes:
*
* <ul>
* <li>Email "[email protected]": "87924606b4131a8aceeeae8868531fbb9712aaa07a5d3a756b26ce0f5d6ca674"
* <li>Phone "+18005551212": "61d9111bed3e6d9cfc1bc3b5cb35a402687c4f1546bee061a2bd444fbdd64c44"
* <li>First name "John": "96d9632f363564cc3032521409cf22a852f2032eec099ed5967c0d000cec607a"
* <li>Last name "Doe": "799ef92a11af918e3fb741df42934f3b568ed2d93ac1df74f1b8d41a27932a6f"
* </ul>
*/
public final class HashExample {
private HashExample() {}
public static String hash(String token) {
// Normalizes and hashes the input token.
String formattedToken = Ascii.toLowerCase(token).strip();
return Hashing.sha256().hashString(formattedToken, UTF_8).toString();
}
public static void printHash(String token) {
// Calculates and prints the token's hash.
System.out.printf("Hash: \"%s\"\t(Token: %s)\n", hash(token), token);
}
public static void main(String[] args) {
// Executes hash calculations and prints results for sample tokens.
printHash("[email protected]");
printHash("+18005551212");
printHash("John");
printHash("Doe");
}
}
Base64
package updm.hashing;
import static java.nio.charset.StandardCharsets.UTF_8;
import java.security.MessageDigest;
import java.security.NoSuchAlgorithmException;
import java.util.Base64;
/**
* Example of the hashing algorithm.
*
* <p>Sample hashes:
*
* <ul>
* <li>Email '[email protected]': h5JGBrQTGorO7q6IaFMfu5cSqqB6XTp1aybOD11spnQ=
* <li>Phone '+18005551212': YdkRG+0+bZz8G8O1yzWkAmh8TxVGvuBhor1ET73WTEQ=
* <li>First name 'John': ltljLzY1ZMwwMlIUCc8iqFLyAy7sCZ7VlnwNAAzsYHo=
* <li>Last name 'Doe': eZ75KhGvkY4/t0HfQpNPO1aO0tk6wd908bjUGieTKm8=
* </ul>
*/
public final class HashExample {
private HashExample() {}
public static String hash(String token) {
// Normalizes and hashes the input token using SHA-256 and Base64 encoding.
String formattedToken = token.toLowerCase().strip();
byte[] hash;
try {
hash = MessageDigest.getInstance("SHA-256").digest(formattedToken.getBytes(UTF_8));
} catch (NoSuchAlgorithmException e) {
throw new IllegalStateException("SHA-256 not supported", e);
}
return Base64.getEncoder().encodeToString(hash);
}
public static void printHash(String token) {
// Calculates and prints the hash for the given token.
System.out.printf("Hash: \"%s\"\t(Token: %s)\n", hash(token), token);
}
public static void main(String[] args) {
// Executes hash calculations and prints results for sample tokens.
printHash("[email protected]");
printHash("+18005551212");
printHash("John");
printHash("Doe");
}
}
SQL
Base16
/*
Provides the hashing algorithm, as well as some valid hashes of sample data for testing.
The following code uses Google Standard SQL and can be run on BigQuery to generate match tables from unhashed data.
Sample hashes:
- Email '[email protected]': 87924606b4131a8aceeeae8868531fbb9712aaa07a5d3a756b26ce0f5d6ca674
- Phone '+18005551212': 61d9111bed3e6d9cfc1bc3b5cb35a402687c4f1546bee061a2bd444fbdd64c44
- First name 'John': 96d9632f363564cc3032521409cf22a852f2032eec099ed5967c0d000cec607a
- Last name 'Doe': 799ef92a11af918e3fb741df42934f3b568ed2d93ac1df74f1b8d41a27932a6f
The unhashed input table schema is assumed to be:
- Column name: UserID, Type: String
- Column name: Email, Type: String
- Column name: Phone, Type: String
- Column name: FirstName, Type: String
- Column name: LastName, Type: String
- Column name: PostalCode, Type: String
- Column name: CountryCode, Type: String
*/
-- Creates a new table with hashed versions of specified columns from the input table.
CREATE TABLE `your_project_name.your_dataset_name.output_hashed_table_name`
AS
SELECT
UserID,
TO_HEX(SHA256(LOWER(Email))) AS Email,
TO_HEX(SHA256(Phone)) AS Phone,
TO_HEX(SHA256(LOWER(FirstName))) AS FirstName,
TO_HEX(SHA256(LOWER(LastName))) AS LastName,
PostalCode,
CountryCode,
FROM
`your_project_name.your_dataset_name.input_unhashed_table_name`;
Base64
/*
Provides the hashing algorithm, as well as some valid hashes of sample data for testing.
The following code uses Google Standard SQL and can be run on BigQuery to generate match tables from unhashed data.
Sample hashes:
- Email '[email protected]': h5JGBrQTGorO7q6IaFMfu5cSqqB6XTp1aybOD11spnQ=
- Phone '+18005551212': YdkRG+0+bZz8G8O1yzWkAmh8TxVGvuBhor1ET73WTEQ=
- First name 'John': ltljLzY1ZMwwMlIUCc8iqFLyAy7sCZ7VlnwNAAzsYHo=
- Last name 'Doe': eZ75KhGvkY4/t0HfQpNPO1aO0tk6wd908bjUGieTKm8=
The unhashed input table schema is assumed to be:
- Column name: UserID, Type: String
- Column name: Email, Type: String
- Column name: Phone, Type: String
- Column name: FirstName, Type: String
- Column name: LastName, Type: String
- Column name: PostalCode, Type: String
- Column name: CountryCode, Type: String
*/
-- Creates a new table with Base64-encoded SHA-256 hashes of specified columns.
CREATE TABLE `your_project_name.your_dataset_name.output_hashed_table_name`
AS
SELECT
UserID,
TO_BASE64(SHA256(LOWER(Email))) AS Email,
TO_BASE64(SHA256(Phone)) AS Phone,
TO_BASE64(SHA256(LOWER(FirstName))) AS FirstName,
TO_BASE64(SHA256(LOWER(LastName))) AS LastName,
PostalCode,
CountryCode,
FROM
`your_project_name.your_dataset_name.input_unhashed_table_name`;
통합 키
사용자 제공 데이터의 조합은 다른 조합보다 강력할 수 있습니다. 다음은 상대적 강도순으로 정렬된 다양한 사용자 제공 데이터 조합 목록입니다. 주소를 사용하는 경우 이름, 성, 국가, 우편번호를 포함해야 합니다.
- 이메일, 전화, 주소 (가장 강력함)
- 전화, 주소
- 이메일, 주소
- 이메일, 전화
- 주소
- 전화
- 이메일 (가장 약함)
일치 테이블 만들기
- 연결 > 연결 만들기 > 사용자 제공 데이터 매칭을 클릭합니다.
- 데이터 소스를 선택한 다음 연결을 클릭합니다.
- 메시지가 표시되면 인증한 후 다음을 클릭합니다.
BigQuery
'Apply'(적용)를 클릭하여 BigQuery에 대한 액세스 권한을 부여합니다.
Cloud Storage
'Apply'(적용)를 클릭하여 Cloud Storage에 대한 액세스 권한을 부여합니다.
MySQL
MySQL 데이터베이스 위치, 포트, 사용자 이름, 비밀번호를 입력합니다.
S3
Amazon S3 보안 비밀 액세스 키를 입력합니다.
PostgreSQL
PostgreSQL 데이터베이스 위치, 포트, 사용자 이름, 비밀번호, 데이터베이스를 입력합니다.
Redshift
Redshift 데이터베이스 위치, 포트, 사용자 이름, 비밀번호, 데이터베이스를 입력합니다.
sFTP
SFTP 서버 위치, 사용자 이름, 비밀번호를 입력합니다.
Snowflake
Snowflake 계정 식별자, 사용자 이름, 비밀번호를 입력합니다.
- 데이터 소스를 구성한 다음 다음을 클릭합니다.
BigQuery
가져올 BigQuery 테이블을 선택합니다.
Cloud Storage
gsutil 경로(예:
gs://my-bucket/folder/
)를 입력하고 파일 형식을 선택합니다.이 리소스를 처음 연결하는 경우 알림이 표시됩니다. 적용을 클릭하여 액세스 권한을 부여한 후 다음을 클릭합니다. 참고: 관련 버킷에
storage.buckets.setIamPolicy
를 위임할 권한이 있는 역할이 필요합니다.MySQL
사용할 MySQL 데이터베이스와 테이블을 선택합니다.
S3
업로드할 파일의 URI를 호스트 주소의 상대 경로로 입력합니다.
PostgreSQL
PostgreSQL 스키마 및 테이블 (또는 뷰) 이름을 입력합니다.
Redshift
Redshift 스키마 및 테이블 (또는 보기) 이름을 입력합니다. 기본적으로 Redshift는
cluster-identifier.account-number.aws-region.redshift.amazonaws.com
템플릿을 따르는 데이터베이스 위치 URL을 사용합니다.sFTP
파일 경로와 이름을
/PATH/FILENAME.csv
형식으로 입력합니다.Snowflake
사용할 Snowflake 데이터베이스, 스키마, 테이블 (또는 보기)을 입력합니다.
- 중간 대상으로 사용할 BigQuery 데이터 세트를 선택한 다음 다음을 클릭합니다. 이 단계를 통해 데이터 형식이 올바른지 확인합니다.
- 선택사항: 데이터 형식을 수정합니다. 변환에는 계산 해시, 소문자/대문자 형식 지정, 필드 병합/분할이 포함됩니다.
- 작업 > > 변환을 클릭합니다.
- 팝업되는 패널에서 변환 추가 또는 다른 변환 추가를 클릭합니다.
- 드롭다운 메뉴에서 변환 유형을 선택하고 요구사항을 입력합니다.
- 저장을 클릭합니다.
- 조인 키를 하나 이상 선택하고 사용할 필드를 매핑합니다. Ads Data Hub는 이름이 동일한 필드를 자동으로 매핑하며, 이 필드는 로 표시됩니다. 필요한 사항을 수정한 후 다음을 클릭합니다.
- 일정을 설정합니다.
- 연결 이름 지정
- 이전 단계에서 선택한 데이터 세트로 데이터를 가져오는 빈도를 지정하는 빈도를 설정합니다. 각 실행은 대상 테이블의 데이터를 덮어씁니다.
- 사용자 ID 충돌을 처리할 방법을 지정합니다. 기존 일치를 유지하거나 새 데이터로 덮어쓸지 선택할 수 있습니다.
- 마침을 클릭합니다. 데이터 이동 색인은 일반적으로 생성된 후 12시간이 지나면 쿼리할 수 있습니다.
연결 세부정보 보기
연결 세부정보 페이지에는 특정 연결의 최근 실행 및 오류에 관한 정보가 표시됩니다. 특정 연결의 세부정보를 보려면 다음 단계를 따르세요.
- 연결을 클릭합니다.
- 연결 이름을 클릭하여 세부정보를 확인합니다.
- 이제 연결 세부정보와 최근 실행을 확인할 수 있습니다. 각 오류에는 연결 수준 오류 (연결이 실행되지 않음)와 행 수준 오류 (행이 가져오지 않음)라는 두 가지 오류 유형이 표시됩니다.
- 실패함 상태는 전체 연결이 실행되지 않았음을 나타냅니다(예: 서비스 계정 권한 문제). 오류 상태를 클릭하여 연결에 영향을 미친 오류를 확인합니다.
- 완료됨 상태는 연결이 성공적으로 실행되었음을 나타냅니다. 하지만 행 수준 오류가 있을 수 있습니다. 이는 '오류가 있는 행' 열에 0이 아닌 값으로 표시됩니다. 값을 클릭하여 실패한 레코드에 대해 자세히 알아보세요.
연결 수정
다음 세부정보를 수정할 수 있습니다.
- 연결 이름
- 일정
- 대상 테이블
- 필드 매핑
데이터 소스 수정은 지원되지 않습니다. 데이터 소스를 변경하려면 새 연결을 만들고 이전 연결을 삭제합니다.
연결 세부정보를 수정하려면 다음 단계를 따르세요.
- 연결을 클릭합니다.
- 수정할 연결의 이름을 클릭합니다.
- 변경하려는 세부정보를 수정합니다.
- 연결 이름: 수정을 클릭하고 새 이름을 입력한 다음 Enter 키를 누릅니다.
- 일정: 수정을 클릭하고 새 일정을 설정한 다음 저장을 클릭합니다.
- 대상 테이블: 수정을 클릭하고 새 대상 이름을 입력한 다음 저장을 클릭합니다.
- 필드 매핑: 아이콘을 클릭하고 필드를 변경한 다음 저장을 클릭합니다.
- 아이콘을 클릭합니다.
일치하는 데이터 쿼리
데이터 이동 색인 쿼리
데이터 이동 색인에 개인 정보 보호 검사를 충족하기에 충분한 데이터가 포함되어 있으면 테이블에 대해 쿼리를 실행할 수 있습니다.
퍼스트 파티 데이터 (1PD)의 원본 테이블은 my_data
로 표시됩니다.
여기에는 개인 식별 정보(PII)와 비개인 식별 정보(non-PII) 데이터가 모두 포함됩니다.
데이터 이동 색인에 비해 범위 내의 모든 1PD 데이터를 나타내므로 원본 테이블을 사용하면 더 많은 통계를 바탕으로 보고서를 개선할 수 있습니다.
user_id
필드가 포함된 Ads Data Hub 스키마의 각 테이블에 데이터 매칭 테이블이 함께 제공됩니다. 예를 들어 adh.google_ads_impressions
테이블의 경우 Ads Data Hub는 사용자 ID가 포함된 adh.google_ads_impressions_updm
라는 데이터 이동 색인도 생성합니다.
정책에 따라 격리된 테이블의 경우 별도의 데이터 이동 색인이 생성됩니다. 예를 들어 adh.google_ads_impressions_policy_isolated_youtube
테이블의 경우 Ads Data Hub는 사용자 ID가 포함된 adh.google_ads_impressions_policy_isolated_youtube_updm
라는 데이터 이동 색인도 생성합니다.
이러한 테이블에는 user_id
에 일치하는 항목이 있는 원본 테이블에서 사용 가능한 사용자의 하위 집합이 포함됩니다. 예를 들어 원본 테이블에 사용자 A와 사용자 B의 데이터가 포함되어 있지만 사용자 A만 일치하는 경우 사용자 B는 데이터 이동 색인에 포함되지 않습니다.
데이터 이동 색인에는 사용자 식별자를 BYTES로 저장하는 customer_data_user_id
라는 추가 열이 포함됩니다.
쿼리를 작성할 때 필드 유형을 고려해야 합니다. SQL 비교 연산자는 동일한 유형의 리터럴을 비교한다고 예상합니다. user_id
가 퍼스트 파티 데이터 테이블에 저장되는 방식에 따라 데이터를 일치시키기 전에 테이블의 값을 인코딩해야 할 수도 있습니다.
매칭에 성공하려면 조인 키를 BYTES로 변환해야 합니다.
JOIN ON
adh.google_ads_impressions_updm.customer_data_user_id = CAST(my_data.user_id AS BYTES)
또한 SQL의 문자열 비교에서는 대소문자가 구분되므로 정확하게 비교할 수 있도록 양쪽의 문자열을 인코딩해야 할 수도 있습니다.
샘플 쿼리
일치하는 사용자 수 집계
이 쿼리는 Google Ads 노출 테이블에서 일치하는 사용자 수를 계산합니다.
/* Count matched users in Google Ads impressions table */
SELECT COUNT(DISTINCT user_id)
FROM adh.google_ads_impressions_updm
일치율 계산
일부 사용자는 일치 대상이 아닙니다. 예를 들어 로그아웃한 사용자, 아동, 동의하지 않은 사용자는 UPDM을 통해 일치되지 않습니다. is_updm_eligible
필드를 사용하여 더 정확한 UPDM 일치율을 계산할 수 있습니다. is_updm_eligible
필드는 2024년 10월 1일부터 사용할 수 있습니다. 이 날짜 이전에는 이 필드를 사용하여 일치율을 계산할 수 없습니다.
/* Calculate the UPDM match rate */
CREATE TEMP TABLE total_events OPTIONS(privacy_checked_export=TRUE) AS
SELECT
customer_id,
COUNT(*) AS n
FROM adh.google_ads_impressions
WHERE is_updm_eligible
GROUP BY 1;
CREATE TEMP TABLE matched_events OPTIONS(privacy_checked_export=TRUE) AS
SELECT
customer_id,
COUNT(*) AS n
FROM adh.google_ads_impressions_updm
GROUP BY 1;
SELECT
customer_id,
SAFE_DIVIDE(matched_events.n, total_events.n) AS match_rate
FROM total_events
LEFT JOIN matched_events
USING (customer_id)
퍼스트 파티 데이터와 Google Ads 데이터 조인
이 쿼리는 퍼스트 파티 데이터를 Google Ads 데이터와 조인하는 방법을 보여줍니다.
/* Join first-party data with Google Ads data. The customer_data_user_id field
contains your ID as BYTES. You need to cast your join key into BYTES for
successful matches. */
SELECT
inventory_type,
COUNT(*) AS impressions
FROM
adh.yt_reserve_impressions_updm AS google_data_imp
LEFT JOIN
`my_data`
ON
google_data_imp.customer_data_user_id = CAST(my_data.user_id AS BYTES)
GROUP BY
inventory_type
UPDM FAQ
UPDM과 관련된 FAQ 목록은 UPDM FAQ를 참고하세요.