Vertex AI mendukung daftar model pilihan yang dikembangkan oleh partner Google. Model partner dapat digunakan dengan Vertex AI sebagai model sebagai layanan (MaaS) dan ditawarkan sebagai API terkelola. Saat menggunakan model partner, Anda tetap mengirim permintaan ke endpoint Vertex AI. Model partner bersifat serverless sehingga Anda tidak perlu menyediakan atau mengelola infrastruktur.
Model partner dapat ditemukan menggunakan Model Garden. Anda juga dapat men-deploy model menggunakan Model Garden. Untuk mengetahui informasi selengkapnya, lihat Menjelajahi model AI di Model Garden. Meskipun informasi tentang setiap model partner yang tersedia dapat ditemukan di kartu modelnya di Model Garden, hanya model pihak ketiga yang berfungsi sebagai MaaS dengan Vertex AI yang didokumentasikan dalam panduan ini.
Model Claude dan Mistral dari Anthropic adalah contoh model yang dikelola pihak ketiga yang tersedia untuk digunakan di Vertex AI.
Model partner
Model partner berikut ditawarkan sebagai API terkelola di Model Garden (MaaS) Vertex AI:
Nama model | Pengandaian | Deskripsi | Panduan memulai |
---|---|---|---|
Claude Opus 4 | Bahasa, Visi | Model Anthropic yang paling canggih hingga saat ini dan model coding tercanggih. Claude Opus 4 memberikan performa berkelanjutan pada tugas yang berjalan lama yang memerlukan upaya terfokus dan ribuan langkah, sehingga secara signifikan memperluas kemampuan agen AI dalam menyelesaikan masalah. | Kartu model |
Claude Sonnet 4 | Bahasa, Visi | Model berukuran sedang Anthropic dengan kecerdasan yang lebih unggul untuk penggunaan bervolume tinggi, seperti coding, riset mendalam, dan agen. | Kartu model |
Claude 3.7 Sonnet dari Anthropic | Bahasa, Visi | Model terdepan untuk coding dan mendukung agen AI—serta model Claude pertama yang menawarkan kemampuan berpikir yang lebih luas. | Kartu model |
Claude 3.5 Sonnet v2 dari Anthropic | Bahasa, Visi | Claude 3.5 Sonnet yang telah di-upgrade adalah model canggih untuk tugas-tugas software engineering di dunia nyata dan kemampuan agentic. Claude 3.5 Sonnet menghadirkan peningkatan ini dengan harga dan kecepatan yang sama seperti pendahulunya. | Kartu model |
Claude 3.5 Haiku dari Anthropic | Bahasa, Visi | Claude 3.5 Haiku, model Anthropic generasi berikutnya yang paling cepat dan hemat biaya, optimal untuk kasus penggunaan yang membutuhkan kecepatan dan keterjangkauan. | Kartu model |
Claude 3 Opus dari Anthropic | Bahasa | Model AI canggih, dengan performa terbaik untuk menyelesaikan tugas yang sangat kompleks. Model ini dapat menavigasi perintah terbuka dan skenario yang tidak terlihat dengan kemahiran yang luar biasa dan pemahaman layaknya manusia. | Kartu model |
Claude 3 Haiku dari Anthropic | Bahasa | Model teks dan visi tercepat dari Anthropic untuk respons hampir instan terhadap kueri dasar, yang ditujukan untuk pengalaman AI yang lancar yang meniru interaksi manusia. | Kartu model |
Claude 3.5 Sonnet dari Anthropic | Bahasa | Claude 3.5 Sonnet mengungguli Claude 3 Opus dari Anthropic di berbagai evaluasi Anthropic dengan kecepatan dan biaya layaknya model tingkat menengah Anthropic, Claude 3 Sonnet. | Kartu model |
DeepSeek-R1-0528 (Pratinjau) | Bahasa | Versi terbaru model DeepSeek R1 dari DeepSeek. | Kartu model |
Jamba 1.5 Large (Pratinjau) | Bahasa | Jamba 1.5 Large dari AI21 Labs dirancang untuk memberikan respons berkualitas tinggi, throughput tinggi, dan harga yang kompetitif dibandingkan dengan model lain dalam kelas ukurannya. | Kartu model |
Jamba 1.5 Mini (Pratinjau) | Bahasa | Jamba 1.5 Mini dari AI21 Labs memiliki keseimbangan yang baik antara kualitas, throughput, dan biaya rendah. | Kartu model |
Llama 4 Maverick 17B-128E (GA) | Bahasa, Visi | Model Llama 4 terbesar dan paling mumpuni yang memiliki kemampuan coding, penalaran, dan gambar. Llama 4 Maverick 17B-128E adalah model multimodal yang menggunakan arsitektur Mixture-of-Experts (MoE) dan fusi awal. | Kartu model |
Llama 4 Scout 17B-16E (GA) | Bahasa, Visi | Llama 4 Scout 17B-16E memberikan hasil terbaik untuk kelas ukurannya, mengungguli generasi Llama sebelumnya serta model terbuka dan berpemilik lainnya pada beberapa tolok ukur. Llama 4 Scout 17B-16E adalah model multimodal yang menggunakan arsitektur Mixture-of-Experts (MoE) dan fusi awal. | Kartu model |
Llama 3.3 (GA) | Bahasa | Llama 3.3 adalah model yang disesuaikan untuk perintah 70B khusus teks yang memberikan peningkatan performa dibandingkan Llama 3.1 70B dan Llama 3.2 90B saat digunakan untuk aplikasi khusus teks. Selain itu, untuk beberapa aplikasi, Llama 3.3 70B mendekati performa Llama 3.1 405B. | Kartu model |
Llama 3.2 (Pratinjau) | Bahasa, Visi | Model multimodal berukuran sedang 90B yang dapat mendukung penalaran gambar, seperti analisis diagram dan grafik serta pemberian teks gambar. | Kartu model |
Llama 3.1 (GA dan Pratinjau) | Bahasa |
Kumpulan LLM multibahasa yang dioptimalkan untuk kasus penggunaan dialog multibahasa dan mengungguli banyak model chat open source dan tertutup yang tersedia pada tolok ukur industri umum. Llama 3.1 405B tersedia secara umum (GA) dan diberi harga per dolar per 1 juta token. Lihat harga. Llama 3.1 8B dan Llama 3.1 70B tersedia dalam Pratinjau tanpa biaya. |
Kartu model |
Mistral OCR (25.05) | Bahasa, Visi | Mistral OCR (25.05) adalah API Pengenalan Karakter Optik untuk pemahaman dokumen. Model ini memahami setiap elemen dokumen seperti media, teks, tabel, dan persamaan. | Kartu model |
Mistral Small 3.1 (25.03) | Bahasa | Mistral Small 3.1 (25.03) adalah versi terbaru model Small dari Mistral, yang menampilkan kemampuan multimodal dan panjang konteks yang lebih luas. | Kartu model |
Mistral Large (24.11) | Bahasa | Mistral Large (24.11) adalah versi berikutnya dari model Mistral Large (24.07) yang kini memiliki kemampuan penalaran dan panggilan fungsi yang ditingkatkan. | Kartu model |
Codestral (25.01) | Kode | Model canggih yang dirancang untuk pembuatan kode, termasuk pengisian di tengah dan penyelesaian kode. | Kartu model |
Harga model partner Vertex AI dengan jaminan kapasitas
Google menawarkan throughput yang disediakan untuk beberapa model partner yang mencadangkan kapasitas throughput untuk model Anda dengan biaya tetap. Anda memutuskan kapasitas throughput dan region tempat kapasitas tersebut akan dipesan. Karena permintaan throughput yang disediakan diprioritaskan daripada permintaan bayar sesuai penggunaan standar, throughput yang disediakan memberikan ketersediaan yang lebih tinggi. Saat sistem kelebihan beban, permintaan Anda tetap dapat diselesaikan selama throughput tetap berada di bawah kapasitas throughput yang dicadangkan. Untuk mengetahui informasi selengkapnya atau berlangganan layanan, Hubungi bagian penjualan.
Endpoint regional dan global
Untuk endpoint regional, permintaan ditayangkan dari region yang Anda tentukan. Jika Anda memiliki persyaratan residensi data atau jika model tidak mendukung endpoint global, gunakan endpoint regional.
Saat Anda menggunakan endpoint global, Google dapat memproses dan menayangkan permintaan Anda dari region mana pun yang didukung oleh model yang Anda gunakan, yang mungkin menyebabkan latensi yang lebih tinggi dalam beberapa kasus. Endpoint global membantu meningkatkan ketersediaan secara keseluruhan dan membantu mengurangi error.
Tidak ada perbedaan harga dengan endpoint regional saat Anda menggunakan endpoint global. Namun, kuota endpoint global dan kemampuan model yang didukung dapat berbeda dari endpoint regional. Untuk mengetahui informasi selengkapnya, lihat halaman model pihak ketiga terkait.
Menentukan endpoint global
Untuk menggunakan endpoint global, tetapkan region ke global
.
Misalnya, URL permintaan untuk perintah curl menggunakan format berikut:
https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME
Untuk Vertex AI SDK, endpoint regional adalah defaultnya. Tetapkan
region ke GLOBAL
untuk menggunakan endpoint global.
Model yang didukung
Endpoint global tersedia untuk model berikut:
Membatasi penggunaan endpoint API global
Untuk membantu menerapkan penggunaan endpoint regional, gunakan batasan kebijakan organisasi constraints/gcp.restrictEndpointUsage
untuk memblokir permintaan ke endpoint API global. Untuk mengetahui informasi selengkapnya, lihat
Membatasi penggunaan endpoint.
Memberikan akses pengguna ke model partner
Agar Anda dapat mengaktifkan model partner dan membuat permintaan perintah, administrator Google Cloud harus menetapkan izin yang diperlukan dan memverifikasi bahwa kebijakan organisasi mengizinkan penggunaan API yang diperlukan.
Menetapkan izin yang diperlukan untuk menggunakan model partner
Peran dan izin berikut diperlukan untuk menggunakan model partner:
Anda harus memiliki peran Identity and Access Management (IAM) Consumer Procurement Entitlement Manager. Siapa pun yang telah diberi peran ini dapat mengaktifkan model partner di Model Garden.
Anda harus memiliki izin
aiplatform.endpoints.predict
. Izin ini disertakan dalam peran IAM Vertex AI User. Untuk mengetahui informasi selengkapnya, lihat Pengguna Vertex AI dan Kontrol akses.
Konsol
Untuk memberikan peran IAM Consumer Procurement Entitlement Manager kepada pengguna, buka halaman IAM.
Di kolom Principal, temukan akun utama pengguna yang ingin Anda aktifkan aksesnya ke model partner, lalu klik Edit akun utama di baris tersebut.
Di panel Edit akses, klik
Tambahkan peran lain.Di Select a role, pilih Consumer Procurement Entitlement Manager.
Di panel Edit akses, klik
Tambahkan peran lain.Di Pilih peran, pilih Pengguna Vertex AI.
Klik Simpan.
gcloud
-
In the Google Cloud console, activate Cloud Shell.
Berikan peran Consumer Procurement Entitlement Manager yang diperlukan untuk mengaktifkan model partner di Model Garden
gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
Berikan peran Vertex AI User yang mencakup izin
aiplatform.endpoints.predict
yang diperlukan untuk membuat permintaan perintah:gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/aiplatform.user
Ganti
PRINCIPAL
dengan ID untuk prinsipal. ID menggunakan formatuser|group|serviceAccount:email
ataudomain:domain
—misalnya,user:[email protected]
,group:[email protected]
,serviceAccount:[email protected]
, ataudomain:example.domain.com
.Outputnya adalah daftar binding kebijakan yang mencakup hal berikut:
- members: - user:PRINCIPAL role: roles/roles/consumerprocurement.entitlementManager
Untuk mengetahui informasi selengkapnya, lihat Memberikan satu peran dan
gcloud projects add-iam-policy-binding
.
Menetapkan kebijakan organisasi untuk akses model partner
Untuk mengaktifkan model partner, kebijakan organisasi Anda harus mengizinkan API berikut: Cloud Commerce Consumer Procurement API - cloudcommerceconsumerprocurement.googleapis.com
Jika organisasi Anda menetapkan kebijakan organisasi untuk membatasi penggunaan layanan, administrator organisasi harus memverifikasi bahwa cloudcommerceconsumerprocurement.googleapis.com
diizinkan dengan menetapkan kebijakan organisasi.
Selain itu, jika Anda memiliki kebijakan organisasi yang membatasi penggunaan model di Model Garden, kebijakan tersebut harus mengizinkan akses ke model partner. Untuk mengetahui informasi selengkapnya, lihat Mengontrol akses model.
Kepatuhan terhadap peraturan model partner
Sertifikasi untuk AI Generatif di Vertex AI terus berlaku saat model partner digunakan sebagai API terkelola menggunakan Vertex AI. Jika Anda memerlukan detail tentang model itu sendiri, informasi tambahan dapat ditemukan di Kartu Model masing-masing, atau Anda dapat menghubungi penerbit model yang bersangkutan.
Data Anda disimpan dalam penyimpanan di dalam region atau multi-region yang dipilih untuk model partner di Vertex AI, tetapi regionalisasi pemrosesan data dapat bervariasi. Untuk mengetahui daftar mendetail komitmen pemrosesan data model partner, lihat Residensi data untuk model partner.
Perintah pelanggan dan respons model tidak dibagikan kepada pihak ketiga saat menggunakan Vertex AI API, termasuk model partner. Google hanya memproses Data Pelanggan sesuai dengan petunjuk Pelanggan, yang dijelaskan lebih lanjut dalam Adendum Pemrosesan Data Cloud kami.