Glossar

Computer Vision (CV)

Erschließen Sie das Potenzial der KI mit Computer Vision! Entdecken Sie ihre Rolle bei der Objekterkennung, im Gesundheitswesen, bei selbstfahrenden Autos und darüber hinaus. Erfahren Sie jetzt mehr!

Computer Vision (CV) ist ein Bereich der künstlichen Intelligenz (AI), der Computer darauf trainiert, die visuelle Welt zu interpretieren und zu verstehen. Mithilfe digitaler Bilder von Kameras, Videos und Deep-Learning-Modellen können Maschinen Objekte genau identifizieren und klassifizieren und dann auf das reagieren, was sie "sehen". Ziel ist es, Computer in die Lage zu versetzen, das menschliche Sehen nachzuahmen, eine Aufgabe, bei der riesige Mengen visueller Daten verarbeitet und analysiert werden müssen, um sie sinnvoll zu nutzen. Dank der Fortschritte im Bereich des Deep Learning und der Verfügbarkeit großer Datensätze ist dieser Bereich schnell gewachsen.

Wie Computer Vision funktioniert

Beim maschinellen Sehen werden Algorithmen des maschinellen Lernens (ML) auf visuelle Daten angewandt. Anstatt explizit für die Erkennung eines Objekts programmiert zu werden, lernt ein CV-Modell, Muster aus Tausenden oder Millionen von markierten Bildern zu erkennen. Um beispielsweise ein Modell für die Erkennung von Katzen zu trainieren, wird es mit unzähligen Katzenbildern gefüttert, bis es lernt, die Merkmale einer Katze eigenständig zu erkennen.

Der moderne Lebenslauf stützt sich stark auf Deep-Learning-Modelle, insbesondere auf Convolutional Neural Networks (CNNs). Ein CNN ist eine Art von neuronalem Netzwerk, das bei der Verarbeitung von Bilddaten sehr effektiv ist. Es wendet Filter (oder Kernel) auf ein Bild an, um Merkmalskarten zu erstellen, die wichtige Merkmale wie Kanten, Texturen und Formen hervorheben. Diese Netzwerke unterstützen viele gängige Computer-Vision-Aufgaben und ermöglichen es Maschinen, visuelle Informationen mit zunehmender Genauigkeit zu analysieren.

Computer Vision vs. Bildverarbeitung

Obwohl sie eng miteinander verwandt sind, sind Computer Vision und Bildverarbeitung nicht dasselbe. Die Bildverarbeitung ist ein Teilbereich des Lebenslaufs, der sich auf die Bearbeitung digitaler Bilder konzentriert, um sie zu verbessern oder nützliche Informationen zu extrahieren. Dazu gehören Vorgänge wie das Schärfen, Verwischen oder Filtern eines Bildes. Im Gegensatz dazu geht die Computer Vision einen Schritt weiter und zielt darauf ab, den Inhalt des Bildes zu interpretieren und zu verstehen. So kann die Bildverarbeitung beispielsweise dazu dienen, die Qualität eines Fotos zu verbessern, während die Computer Vision dazu verwendet wird, die Personen, Objekte und Szenen auf dem Foto zu identifizieren. Mehr über die Unterscheidung erfahren Sie in diesem detaillierten Überblick über die digitale Bildverarbeitung.

Schlüsselaufgaben der Computer Vision

Computer Vision umfasst mehrere wichtige Aufgaben, die es Maschinen ermöglichen, visuelle Daten zu analysieren und zu interpretieren:

Objekt-Erkennung: Dies beinhaltet die Identifizierung und Lokalisierung von Objekten in einem Bild oder Video. Ein Modell wie Ultralytics YOLO zeichnet einen Begrenzungsrahmen um jedes erkannte Objekt und weist ihm eine Klassenbezeichnung zu.
Bildklassifizierung: Bei dieser Aufgabe geht es darum, einem ganzen Bild ein einziges Etikett aus einem vordefinierten Satz von Kategorien zuzuweisen. Zum Beispiel die Klassifizierung eines Bildes als "Katze" oder "Hund".
Bildsegmentierung: Im Gegensatz zur Objekterkennung wird bei der Segmentierung jedes Pixel eines Bildes klassifiziert. Sie liefert ein viel detaillierteres Verständnis des Bildinhalts. Zu den Teilaufgaben gehören Instanzsegmentierung und semantische Segmentierung.
Schätzung der Körperhaltung: Diese Methode wird verwendet, um die Position und Ausrichtung einer Person oder eines Objekts im Raum zu bestimmen. Sie wird häufig in der Robotik, der erweiterten Realität und der Analyse menschlicher Aktivitäten eingesetzt.
Objektverfolgung: Bei dieser Aufgabe geht es darum, ein oder mehrere Objekte in einer Videosequenz über die Zeit zu verfolgen. Sie ist entscheidend für Anwendungen wie Überwachung und autonome Navigation.

Anwendungen in der realen Welt

Bildverarbeitungsanwendungen werden in verschiedenen Bereichen immer häufiger eingesetzt:

Autonome Fahrzeuge: CV ist für selbstfahrende Autos von entscheidender Bedeutung, denn es ermöglicht ihnen, ihre Umgebung wahrzunehmen, Fußgänger und andere Fahrzeuge zu erkennen, Verkehrszeichen zu lesen und sicher zu navigieren. Unternehmen wie Waymo und Tesla verlassen sich stark auf CV-Systeme. Erfahren Sie mehr über AI in Automotive-Lösungen.
Gesundheitswesen: In der medizinischen Bildanalyse hilft CV den Radiologen, Anomalien wie Tumore oder Frakturen in Röntgenbildern, CT-Scans und MRTs zu erkennen. Es wird auch in der Roboterchirurgie und bei der Patientenüberwachung eingesetzt. Lesen Sie mehr über die Bedeutung von CV in der Radiologie: Künstliche Intelligenz. Sie können auch erfahren, wie YOLO11 zur Tumorerkennung eingesetzt wird.
Sicherheit und Überwachung: CV betreibt automatische Überwachungssysteme zur Erkennung von Einbrüchen, zur Verfolgung von Personen und zur Analyse des Verhaltens von Menschenmengen. Siehe unseren Leitfaden zum Aufbau eines Sicherheitsalarmsystems.
Einzelhandel: Zu den Anwendungen gehören Bestandsmanagement über Regalüberwachung, Analyse des Kundenverhaltens und kassenlose Kassensysteme wie die von Amazon Go.
Fertigung: CV wird zur Qualitätskontrolle, Fehlererkennung, Überwachung von Montagelinien und zur Automatisierung von Robotern eingesetzt. Erfahren Sie mehr über die Entwicklung intelligenter Fertigungslösungen mit YOLO11.
Landwirtschaft: Diese Technologie ermöglicht Präzisionslandwirtschaft durch Pflanzenüberwachung, Krankheitserkennung, Unkrautidentifizierung und automatische Ernte. Lesen Sie mehr über die Überwachung der Pflanzengesundheit in Echtzeit.

Tools und Rahmenwerke

Die Entwicklung und der Einsatz von Computer-Vision-Modellen wird durch verschiedene Tools und Frameworks erleichtert. Bibliotheken wie PyTorch (besuchen Sie die offizielle Website von PyTorch) und TensorFlow (besuchen Sie die offizielle Website von TensorFlow) sind grundlegend für die Erstellung von Modellen. Open-Source-Bibliotheken wie OpenCV bieten eine umfangreiche Sammlung von Funktionen für die Echtzeit-Computersicht.

Plattformen wie Ultralytics HUB rationalisieren den gesamten Lebenszyklus eines Lebenslaufprojekts, von der Verwaltung der Datensätze über die Schulung benutzerdefinierter Modelle bis hin zur Bereitstellung. Die Verwendung von standardisierten Formaten wie ONNX trägt auch zur Interoperabilität zwischen verschiedenen Frameworks bei. In dem Maße, wie diese Technologien reifen, werden sie auch weiterhin Innovationen in allen Branchen vorantreiben.

Computer Vision (CV)

Flexible Lizenzierungslösung für Unternehmen zur Förderung Ihrer Innovation

Trainieren Sie AI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Trainieren Sie YOLO-Modelle einfach mit Ultralytics HUB

Wie Computer Vision funktioniert

Computer Vision vs. Bildverarbeitung

Schlüsselaufgaben der Computer Vision

Anwendungen in der realen Welt

Tools und Rahmenwerke

Lesen Sie mehr in dieser Kategorie

FastVLM: Apple stellt sein neues schnelles Bildsprachmodell vor

Human-in-the-Loop Machine Learning (HITL) erklärt

Fertigungsautomatisierung mit Vision AI

Werden Sie Mitglied der Ultralytics-Gemeinschaft