Hugging Face-Modelle verwenden

Hugging Face bietet vortrainierte Modelle, Scripts zur Feinabstimmung und Entwicklungs-APIs, die das Erstellen und Entdecken von LLMs erleichtern. Model Garden kann Modelle in Hugging Face ausliefern, die Texteinbettungen, Text-zu-Bild, Textgenerierung und Bild-zu-Text unterstützen.

Bereitstellungsoptionen für Hugging Face-Modelle

Sie können unterstützte Hugging Face-Modelle in Vertex AI oder in der Google Kubernetes Engine (GKE) bereitstellen. Die von Ihnen gewählte Bereitstellungsoption kann vom verwendeten Modell und von der gewünschten Kontrolle über Ihre Arbeitslasten abhängen.

In Vertex AI bereitstellen

Vertex AI bietet eine verwaltete Plattform zum Erstellen und Skalieren von ML-Projekten, ohne dass interne MLOps-Kenntnisse erforderlich sind. Sie können Vertex AI als nachgelagerte Anwendung verwenden, die Hugging Face-Modelle bereitstellt. Wir empfehlen die Verwendung von Vertex AI, wenn Sie End-to-End-MLOps-Funktionen, Mehrwert-ML-Features und eine serverlose Umgebung für eine optimierte Entwicklung wünschen.

  1. Wenn Sie ein unterstütztes Hugging Face-Modell in Vertex AI bereitstellen möchten, rufen Sie Model Garden auf.

    Zu Model Garden

  2. Klicken Sie im Bereich Open-Source-Modelle bei Hugging Face auf Mehr anzeigen.

  3. Suchen Sie nach einem Modell, das Sie bereitstellen möchten, und wählen Sie es aus.

  4. Optional: Wählen Sie für die Bereitstellungsumgebung die Option Vertex AI aus.

  5. Optional: Geben Sie die Bereitstellungsdetails an.

  6. Klicken Sie auf Bereitstellen.

Sehen Sie sich zum Einstieg die folgenden Beispiele an:

In GKE bereitstellen

Google Kubernetes Engine (GKE) ist die Google Cloud Lösung für verwaltetes Kubernetes, die Skalierbarkeit, Sicherheit, Robustheit und Kosteneffizienz bietet. Wir empfehlen diese Option, wenn Sie bereits Kubernetes-Investitionen haben, Ihre Organisation über interne MLOps-Kenntnisse verfügt oder wenn Sie eine detaillierte Kontrolle über komplexe KI/ML-Arbeitslasten mit besonderer Sicherheit, Datenpipeline und Ressourcen benötigen Managementanforderungen.

  1. Wenn Sie ein unterstütztes Hugging Face-Modell in GKE bereitstellen möchten, rufen Sie Model Garden auf.

    Zu Model Garden

  2. Klicken Sie im Bereich Open-Source-Modelle bei Hugging Face auf Mehr anzeigen.

  3. Suchen Sie nach einem Modell, das Sie bereitstellen möchten, und wählen Sie es aus.

  4. Wählen Sie als Bereitstellungsumgebung GKE aus.

  5. Folgen Sie der Anleitung zur Bereitstellung.

Sehen Sie sich zum Einstieg die folgenden Beispiele an:

Was bedeutet „Von Vertex AI unterstützt“?

Die neuesten und beliebtesten Hugging Face-Modelle werden automatisch zu Model Garden hinzugefügt. Dazu wird für jedes Modell automatisch eine Bereitstellungskonfiguration generiert.

Um Bedenken hinsichtlich Sicherheitslücken und schädlichen Codes auszuräumen, verwenden wir den Hugging Face Malware Scanner, um die Sicherheit der Dateien in jedem Hugging Face-Modell-Repository täglich zu prüfen. Wenn ein Modell-Repository als Malware gekennzeichnet wird, entfernen wir das Modell sofort von der Hugging Face-Galerieseite.

Wenn ein Modell als von Vertex AI unterstützt gekennzeichnet ist, bedeutet das, dass es getestet wurde und in Vertex AI bereitgestellt werden kann. Wir können jedoch nicht garantieren, dass es keine Sicherheitslücken oder schädlichen Codes enthält. Wir empfehlen Ihnen, eigene Sicherheitsprüfungen durchzuführen, bevor Sie ein Modell in Ihrer Produktionsumgebung bereitstellen.

Bereitstellungskonfigurationen für bestimmte Anwendungsfälle optimieren

Die Standardbereitstellungskonfiguration, die mit der Option „Mit einem Klick bereitstellen“ bereitgestellt wird, kann aufgrund der Vielfalt der Anwendungsfälle und der unterschiedlichen Prioritäten in Bezug auf Latenz, Durchsatz, Kosten und Genauigkeit nicht alle Anforderungen erfüllen.

Sie können daher zuerst mit der Bereitstellung mit nur einem Klick experimentieren, um einen Referenzwert zu erhalten, und dann die Bereitstellungskonfigurationen mit dem Colab-Notebook (vLLM, TGI, TEI, HF PyTorch-Inferenz) oder dem Python SDK optimieren. Mit diesem iterativen Ansatz können Sie die Bereitstellung genau an Ihre Anforderungen anpassen, um die bestmögliche Leistung für Ihre spezifische Anwendung zu erzielen.

Was tun, wenn das gewünschte Modell nicht in Model Garden aufgeführt ist

Wenn Sie nach einem bestimmten Modell suchen, das nicht in Model Garden aufgeführt ist, wird es von Vertex AI nicht unterstützt. In den folgenden Abschnitten wird erläutert, warum das so ist und was Sie tun können.

Warum ist das Modell nicht aufgeführt?

Die folgenden Gründe können dazu führen, dass ein Modell nicht in Model Garden enthalten ist:

  • Es ist kein Modell, das im Trend liegt: Wir priorisieren oft Modelle, die weithin beliebt sind und bei der Community auf großes Interesse stoßen.
  • Es ist noch nicht kompatibel: Das Modell funktioniert möglicherweise nicht mit einem unterstützten Bereitstellungscontainer. Beispiel: der vLLM-Container für text-generation- und image-text-to-text-Modelle.
  • Nicht unterstützte Pipeline-Aufgaben: Das Modell enthält eine Aufgabe, die derzeit noch nicht vollständig unterstützt wird. Wir unterstützen die folgenden Aufgaben: text-generation, text2text-generation, text-to-image, feature-extraction, sentence-similarity und image-text-to-text.

Welche Optionen haben Sie?

Sie können weiterhin mit Modellen arbeiten, die in Model Garden verfügbar sind:

  • Mit dem Colab-Notebook selbst bereitstellen: Wir haben die folgenden Colab-Notebooks: (vLLM, TGI, TEI, HF pytorch inference), die die Flexibilität bieten, Modelle mit benutzerdefinierten Konfigurationen bereitzustellen. So haben Sie die vollständige Kontrolle über den Prozess.
  • Funktion beantragen: Wenden Sie sich an Ihren Supportmitarbeiter und reichen Sie über Model Garden einen Funktionsantrag ein. Weitere Informationen finden Sie im Vertex-Support für generative KI.
  • Behalten Sie die Updates im Blick: Wir fügen Model Garden regelmäßig neue Modelle hinzu. Das gewünschte Modell wird möglicherweise in Zukunft verfügbar sein. Schauen Sie also regelmäßig vorbei.