Glossar

Computer Vision (CV)

Erschließen Sie das Potenzial der KI mit Computer Vision! Entdecken Sie ihre Rolle bei der Objekterkennung, im Gesundheitswesen, bei selbstfahrenden Autos und darüber hinaus. Erfahren Sie jetzt mehr!

Computer Vision (CV) ist ein Bereich der künstlichen Intelligenz (AI), der Computer darauf trainiert, die visuelle Welt zu interpretieren und zu verstehen. Mithilfe digitaler Bilder von Kameras, Videos und Deep-Learning-Modellen können Maschinen Objekte genau identifizieren und klassifizieren und dann auf das reagieren, was sie "sehen". Ziel ist es, Computer in die Lage zu versetzen, das menschliche Sehen nachzuahmen, eine Aufgabe, bei der riesige Mengen visueller Daten verarbeitet und analysiert werden müssen, um sie sinnvoll zu nutzen. Dank der Fortschritte im Bereich des Deep Learning und der Verfügbarkeit großer Datensätze ist dieser Bereich schnell gewachsen.

Wie Computer Vision funktioniert

Beim maschinellen Sehen werden Algorithmen des maschinellen Lernens (ML) auf visuelle Daten angewandt. Anstatt explizit für die Erkennung eines Objekts programmiert zu werden, lernt ein CV-Modell, Muster aus Tausenden oder Millionen von markierten Bildern zu erkennen. Um beispielsweise ein Modell für die Erkennung von Katzen zu trainieren, wird es mit unzähligen Katzenbildern gefüttert, bis es lernt, die Merkmale einer Katze eigenständig zu erkennen.

Der moderne Lebenslauf stützt sich stark auf Deep-Learning-Modelle, insbesondere auf Convolutional Neural Networks (CNNs). Ein CNN ist eine Art von neuronalem Netzwerk, das bei der Verarbeitung von Bilddaten sehr effektiv ist. Es wendet Filter (oder Kernel) auf ein Bild an, um Merkmalskarten zu erstellen, die wichtige Merkmale wie Kanten, Texturen und Formen hervorheben. Diese Netzwerke unterstützen viele gängige Computer-Vision-Aufgaben und ermöglichen es Maschinen, visuelle Informationen mit zunehmender Genauigkeit zu analysieren.

Computer Vision vs. Bildverarbeitung

Obwohl sie eng miteinander verwandt sind, sind Computer Vision und Bildverarbeitung nicht dasselbe. Die Bildverarbeitung ist ein Teilbereich des Lebenslaufs, der sich auf die Bearbeitung digitaler Bilder konzentriert, um sie zu verbessern oder nützliche Informationen zu extrahieren. Dazu gehören Vorgänge wie das Schärfen, Verwischen oder Filtern eines Bildes. Im Gegensatz dazu geht die Computer Vision einen Schritt weiter und zielt darauf ab, den Inhalt des Bildes zu interpretieren und zu verstehen. So kann die Bildverarbeitung beispielsweise dazu dienen, die Qualität eines Fotos zu verbessern, während die Computer Vision dazu verwendet wird, die Personen, Objekte und Szenen auf dem Foto zu identifizieren. Mehr über die Unterscheidung erfahren Sie in diesem detaillierten Überblick über die digitale Bildverarbeitung.

Schlüsselaufgaben der Computer Vision

Computer Vision umfasst mehrere wichtige Aufgaben, die es Maschinen ermöglichen, visuelle Daten zu analysieren und zu interpretieren:

  • Objekt-Erkennung: Dies beinhaltet die Identifizierung und Lokalisierung von Objekten in einem Bild oder Video. Ein Modell wie Ultralytics YOLO zeichnet einen Begrenzungsrahmen um jedes erkannte Objekt und weist ihm eine Klassenbezeichnung zu.
  • Bildklassifizierung: Bei dieser Aufgabe geht es darum, einem ganzen Bild ein einziges Etikett aus einem vordefinierten Satz von Kategorien zuzuweisen. Zum Beispiel die Klassifizierung eines Bildes als "Katze" oder "Hund".
  • Bildsegmentierung: Im Gegensatz zur Objekterkennung wird bei der Segmentierung jedes Pixel eines Bildes klassifiziert. Sie liefert ein viel detaillierteres Verständnis des Bildinhalts. Zu den Teilaufgaben gehören Instanzsegmentierung und semantische Segmentierung.
  • Schätzung der Körperhaltung: Diese Methode wird verwendet, um die Position und Ausrichtung einer Person oder eines Objekts im Raum zu bestimmen. Sie wird häufig in der Robotik, der erweiterten Realität und der Analyse menschlicher Aktivitäten eingesetzt.
  • Objektverfolgung: Bei dieser Aufgabe geht es darum, ein oder mehrere Objekte in einer Videosequenz über die Zeit zu verfolgen. Sie ist entscheidend für Anwendungen wie Überwachung und autonome Navigation.

Anwendungen in der realen Welt

Bildverarbeitungsanwendungen werden in verschiedenen Bereichen immer häufiger eingesetzt:

Tools und Rahmenwerke

Die Entwicklung und der Einsatz von Computer-Vision-Modellen wird durch verschiedene Tools und Frameworks erleichtert. Bibliotheken wie PyTorch (besuchen Sie die offizielle Website von PyTorch) und TensorFlow (besuchen Sie die offizielle Website von TensorFlow) sind grundlegend für die Erstellung von Modellen. Open-Source-Bibliotheken wie OpenCV bieten eine umfangreiche Sammlung von Funktionen für die Echtzeit-Computersicht.

Plattformen wie Ultralytics HUB rationalisieren den gesamten Lebenszyklus eines Lebenslaufprojekts, von der Verwaltung der Datensätze über die Schulung benutzerdefinierter Modelle bis hin zur Bereitstellung. Die Verwendung von standardisierten Formaten wie ONNX trägt auch zur Interoperabilität zwischen verschiedenen Frameworks bei. In dem Maße, wie diese Technologien reifen, werden sie auch weiterhin Innovationen in allen Branchen vorantreiben.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert