Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen

Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen

WBOY
WBOYnach vorne
2023-05-16 15:37:061872Durchsuche

1. Vorwort

Computer Vision (Computer Vision), üblicherweise als CV bezeichnet, ist ein Forschungsgebiet, das Technologie nutzt, um Computern dabei zu helfen, Bilder zu „sehen“ und zu „verstehen“, beispielsweise beim Erstellen Computer verstehen den Inhalt des Fotos oder Videos.

Dieser Artikel bietet eine allgemeine Einführung in Computer Vision. Dieser Artikel ist in sechs Teile unterteilt:

  • Warum Computer Vision wichtig ist
  • Was ist Computer Vision
  • Computer Vision Die Grundprinzipien von
  • Typische Aufgaben von Computer Vision
  • Anwendungsszenarien von Computer Vision im täglichen Leben
  • Herausforderungen von Computer Vision

2. Warum ist Computer Vision wichtig? Die Informationen werden verarbeitet und geformt. Wir Menschen nutzen das Sehen, um intuitiv die Form und den Zustand der Dinge vor uns zu verstehen. Die meisten von uns verlassen sich auf das Sehen, um das Kochen abzuschließen, Hindernisse zu überwinden, Straßenschilder zu lesen, Videos anzusehen und unzählige andere Aufgaben. Gäbe es da nicht besondere Gruppen wie Blinde, nimmt die überwiegende Mehrheit der Menschen äußere Informationen durch das Sehen auf, und dieser Anteil liegt sogar bei 80 % – dieser Anteil ist nicht unbegründet, so der berühmte Experimentalpsychologe Treicher Durch zahlreiche Experimente wurde bestätigt, dass 83 % der Informationen, die Menschen erhalten, durch Sehen, 11 % durch Hören und die restlichen 6 % durch Geruch, Berührung und Geschmack entstehen. Daher ist das Sehen für den Menschen zweifellos der wichtigste Sinn.

Nicht nur der Mensch ist ein „Sehtier“, sondern für die meisten Tiere spielt auch das Sehen eine sehr wichtige Rolle. Durch das Sehen nehmen Menschen und Tiere die Größe, das Licht und den Schatten, die Farbe und die Bewegung äußerer Objekte wahr und erhalten verschiedene Informationen, die für das Überleben des Körpers wichtig sind. Durch diese Informationen können sie lernen, wie die Welt um sie herum aussieht wie man mit der Welt interagiert.

Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen Vor dem Aufkommen von Computer Vision befanden sich Bilder für Computer in einem Black-Box-Zustand. Für einen Computer ist ein Bild nur eine Datei oder eine Datenfolge. Der Computer kennt den Inhalt des Bildes nicht, er weiß nur, wie groß das Bild ist, wie viel Speicher es belegt, in welchem ​​Format es vorliegt usw.

Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen Wenn Computer und künstliche Intelligenz in der realen Welt eine wichtige Rolle spielen wollen, müssen sie Bilder verstehen! Daher versuchen Informatiker seit einem halben Jahrhundert herauszufinden, wie man Computer zum Sehen bringt, und haben so das Gebiet der „Computer Vision“ hervorgebracht.

Ein Artikel zum Verständnis von Computer Vision, voller nützlicher InformationenDurch die rasante Entwicklung des Internets ist auch Computer Vision besonders wichtig geworden. Die folgende Abbildung ist ein Trenddiagramm der Menge neuer Daten im Netzwerk seit 2020. Graue Grafiken sind strukturierte Daten, blaue Grafiken sind unstrukturierte Daten (hauptsächlich Bilder und Videos). Es ist offensichtlich, dass die Anzahl der Bilder und Videos exponentiell wächst.

Ein Artikel zum Verständnis von Computer Vision, voller nützlicher InformationenDas Internet besteht aus Text und Bildern. Die Suche nach Text ist relativ einfach, aber um nach Bildern zu suchen, muss der Algorithmus wissen, was das Bild enthält. Lange Zeit verfügten Menschen nicht über genügend Technologie, um den Inhalt von Bildern und Videos zu verstehen, und konnten sich nur auf manuelle Anmerkungen verlassen, um Beschreibungen von Bildern oder Videos zu erhalten. Wie Computer in die Lage versetzt werden können, diese Bildinformationen besser zu verstehen, ist eine große Herausforderung für die heutige Computertechnologie. Um Bild- oder Videodaten optimal nutzen zu können, müssen Sie dem Computer ermöglichen, das Bild oder Video zu „sehen“ und den Inhalt zu verstehen.

3. Was ist Computer Vision?

Computer Vision ist ein wichtiger Zweig im Bereich der künstlichen Intelligenz. Das Problem besteht darin, Computern den Inhalt von Bildern oder Videos verstehen zu lassen. Zum Beispiel: Ist das Haustier auf dem Bild eine Katze oder ein Hund? Ist die Person auf dem Bild Lao Zhang oder Lao Wang? Was machen die Personen im Video? Darüber hinaus bezieht sich Computer Vision auf die Verwendung von Kameras und Computern anstelle des menschlichen Auges, um Ziele zu identifizieren, zu verfolgen und zu messen und die weitere Grafikverarbeitung durchzuführen, um Bilder zu erhalten, die besser für die Beobachtung mit dem menschlichen Auge oder die Übertragung an Instrumente zur Erkennung geeignet sind. Als wissenschaftliche Disziplin untersucht Computer Vision verwandte Theorien und Technologien und versucht, Systeme der künstlichen Intelligenz aufzubauen, die aus Bildern oder mehrdimensionalen Daten Informationen auf hoher Ebene gewinnen können. Aus technischer Sicht zielt es darauf ab, automatisierte Systeme zu nutzen, um das menschliche visuelle System zur Erledigung von Aufgaben nachzuahmen. Das ultimative Ziel von Computer Vision besteht darin, Computern die Möglichkeit zu geben, die Welt durch Sehen zu beobachten und zu verstehen, wie es Menschen tun, und die Fähigkeit zu haben, sich autonom an die Umgebung anzupassen. Aber es ist sehr schwierig, wirklich zu erkennen, dass ein Computer die Welt durch eine Kamera wahrnehmen kann, denn obwohl die von der Kamera aufgenommenen Bilder die gleichen sind wie das, was wir normalerweise sehen, ist jedes Bild für den Computer nur eine Anordnung und Kombination von Pixeln Werte. Ein Haufen starrer Zahlen. Wie es Computern ermöglicht wird, aus diesen starren Zahlen aussagekräftige visuelle Hinweise zu lesen, ist ein Problem, das durch Computer Vision gelöst werden sollte.

4. Grundprinzipien des Computer-Sehens

Jeder, der eine Kamera oder ein Mobiltelefon verwendet hat, weiß, dass Computer gut darin sind, Fotos mit erstaunlicher Genauigkeit und Details aufzunehmen. In gewissem Maße ist das künstliche „Sehen“ von Computern besser Die Sehfähigkeit des Menschen ist von Geburt an viel stärker. Aber so wie wir normalerweise sagen: „Hören bedeutet nicht Verstehen“, bedeutet „Sehen“ nicht „Verstehen“. Wenn Sie möchten, dass ein Computer Bilder wirklich „versteht“, ist das keine einfache Sache. Ein Bild ist ein großes Pixelraster, und jedes Pixel hat eine Farbe, die eine Kombination aus drei Primärfarben ist: Rot, Grün und Blau. Durch die Kombination der Intensitäten von drei Farben – sogenannte RGB-Werte – können wir jede beliebige Farbe erhalten. Der einfachste und am besten geeignete Computer-Vision-Algorithmus für den Einstieg ist: Um ein farbiges Objekt, beispielsweise einen rosa Ball, zu verfolgen, notieren wir zunächst die Farbe des Balls, speichern den RGB-Wert des mittleren Pixels und geben das Bild dann an den program , sodass das Programm das Pixel finden kann, das dieser Farbe am nächsten kommt. Der Algorithmus kann in der oberen linken Ecke beginnen, jedes Pixel untersuchen und den Unterschied zur Zielfarbe berechnen. Nachdem jedes Pixel überprüft wurde, ist der nächstgelegene Teil der Pixel wahrscheinlich das Pixel, in dem sich der Ball befindet. Dieser Algorithmus ist nicht auf die Ausführung auf diesem einzelnen Bild beschränkt, wir können den Algorithmus auch auf jedem Bild des Videos ausführen, um die Position des Balls zu verfolgen. Natürlich wird sich die Farbe des Balls aufgrund des Einflusses von Licht, Schatten und anderen Faktoren ändern. Sie entspricht nicht genau dem von uns gespeicherten RGB-Wert, kommt aber sehr nahe. In einigen extremen Fällen, beispielsweise bei einem Fußballspiel in der Nacht, kann der Tracking-Effekt jedoch sehr schlecht sein, und wenn eines der Trikots die gleiche Farbe wie der Ball hat, gerät der Algorithmus völlig in Ohnmacht. Sofern die Umgebung nicht streng kontrolliert werden kann, werden solche Farbverfolgungsalgorithmen daher selten in die Praxis umgesetzt. Heutzutage umfassen immer mehr Computer-Vision-Algorithmen im Allgemeinen „Deep Learning“-Methoden und -Technologien. Unter ihnen ist das Convolutional Neural Network (CNN) aufgrund seiner überlegenen Leistung am weitesten verbreitet. Da das Wissen, das mit „Deep Learning“ verbunden ist, zu umfangreich ist, wird in diesem Artikel nicht näher darauf eingegangen. Wenn Sie mehr über „Deep Learning“ erfahren möchten, können Sie sich auch den Einführungskurs zur KI ansehen – „Intel® OpenVINO™ Tool Suite Elementary Course“. Es beginnt mit den Grundkonzepten der KI, führt in relevantes Wissen über künstliche Intelligenz und Bildverarbeitungsanwendungen ein und hilft Benutzern, die Grundkonzepte und Anwendungsszenarien der Intel® OpenVINO™-Tool-Suite schnell zu verstehen. Der gesamte Kurs umfasst Videoverarbeitung, Kenntnisse im Zusammenhang mit Deep Learning, Inferenzbeschleunigung für Anwendungen der künstlichen Intelligenz und Demo-Demonstrationen der Intel® OpenVINO™-Tool-Suite. Er führt Sie Schritt für Schritt durch die Beherrschung von Deep Learning von der oberflächlichen zur tieferen Ebene.

5. Typische Aufgaben der Computer Vision

  • Die Bildklassifizierung besteht darin, verschiedene Kategorien von Bildern anhand ihrer semantischen Informationen zu unterscheiden. Sie ist der Kern der Computer Vision und dient der Objekterkennung, Bildsegmentierung und Objektverfolgung sowie Verhaltensanalyse, Gesichtserkennung und andere anspruchsvolle visuelle Aufgaben. Im Bild unten erkennt der Computer beispielsweise durch Bildklassifizierung Personen, Bäume, Gras und Himmel im Bild.

Die Bildklassifizierung wird in vielen Bereichen häufig verwendet, beispielsweise bei der Gesichtserkennung und intelligenten Videoanalyse im Sicherheitsbereich, bei der Erkennung von Verkehrsszenen im Transportbereich, bei der inhaltsbasierten Bildabfrage und bei der automatischen Klassifizierung von Fotoalben im Internet Bereich, Bilderkennung im medizinischen Bereich usw. Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen

  • Objekterkennung

Das Ziel der Objekterkennungsaufgabe besteht darin, ein Bild oder einen Videorahmen zu erstellen und den Computer die Positionen aller darin enthaltenen Objekte ermitteln zu lassen und Geben Sie für jedes Ziel spezifische Kategorien an. Wie in der folgenden Abbildung dargestellt, werden am Beispiel der Erkennung und Erkennung von Personen die Ränder verwendet, um die Positionen aller Personen im Bild zu markieren.

Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen

Bei der Zielerkennung mit mehreren Kategorien werden im Allgemeinen Rahmen unterschiedlicher Farbe verwendet, um die Positionen verschiedener erkannter Objekte zu markieren, wie in der Abbildung unten dargestellt.

Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen

  • Semantische Segmentierung

Semantische Segmentierung ist eine grundlegende Aufgabe in der Computer Vision Wir müssen den visuellen Input in verschiedene semantisch interpretierbare Kategorien unterteilen. Es unterteilt das gesamte Bild in Pixelgruppen, die dann beschriftet und klassifiziert werden. Beispielsweise müssen wir möglicherweise alle Pixel in einem Bild unterscheiden, die zu Autos gehören, und diese Pixel blau einfärben. Wie unten gezeigt, ist das Bild in die Beschriftungen „Personen“ (rot), „Bäume“ (dunkelgrün), „Gras“ (hellgrün) und „Himmel“ (blau) unterteilt.

Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen

Instanzsegmentierung ist eine Kombination aus Zielerkennung und semantischer Segmentierung. Das Ziel wird im Bild erkannt (Zielerkennung) und dann jedes Pixel ist Etikettierung (semantische Segmentierung). Wenn wir die Abbildungen oben und unten vergleichen, können wir sehen, dass bei der Verwendung menschlicher Ziele die semantische Segmentierung nicht zwischen verschiedenen Instanzen derselben Kategorie unterscheidet (alle Personen sind rot markiert), während die Instanzsegmentierung verschiedene Instanzen derselben Kategorie unterscheidet (verschieden). Farben werden verwendet, um verschiedene Menschen zu unterscheiden).

Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen

Zielverfolgung bezieht sich auf das Erkennen, Extrahieren, Identifizieren und Verfolgen bewegter Ziele in Bildsequenzen, das Erhalten der Bewegungsparameter der sich bewegenden Ziele und die Durchführung Verarbeitung und Analyse zur Erlangung eines Verhaltensverständnisses bei sich bewegenden Zielen zur Erledigung übergeordneter Erkennungsaufgaben.

Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen

6. Anwendungsszenarien von Computer Vision im täglichen Leben

Die Anwendungsszenarien von Computer Vision sind sehr breit, hier sind ein paar Ein häufiges Anwendungsszenario im Leben. ·Gesichtserkennung bei Zugangskontrolle und Alipay

Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen

  • Kennzeichenerkennung auf Parkplätzen und Mautstationen
# 🎜🎜#

Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen

    Risikoerkennung beim Hochladen von Videos auf Websites oder APPs

Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen #🎜 🎜#

Verschiedene Selfie-Requisiten auf Douyin und anderen APPs (Sie müssen zuerst die Position des Gesichts identifizieren)

#🎜 🎜# 7. Herausforderungen für Computer VisionEin Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen

Derzeit entwickelt sich die Computer-Vision-Technologie rasant und hat vorläufigen industriellen Maßstab erreicht. Die zukünftige Entwicklung der Computer-Vision-Technologie steht vor allem vor den folgenden Herausforderungen: Erstens: Wie kann sie bei der Lösung bestimmter Probleme besser mit anderen Technologien kombiniert werden? Bei einigen Problemen ist es jedoch unmöglich, eine hohe Genauigkeit zu erreichen. Die zweite Frage ist, wie die Entwicklungszeit und die Arbeitskosten von Computer-Vision-Algorithmen reduziert werden können. Derzeit erfordern Computer-Vision-Algorithmen eine große Datenmenge und manuelle Anmerkungen Es ist ein langer Forschungs- und Entwicklungszyklus erforderlich, um die Anforderungen des Anwendungsbereichs zu erfüllen. Der dritte Punkt besteht darin, den Entwurf und die Entwicklung neuer Algorithmen mit dem Aufkommen neuer Bildgebungshardware und Chips zu beschleunigen Auch der Entwurf und die Entwicklung von Computer-Vision-Algorithmen für verschiedene Chips und Datenerfassungsgeräte gehört zu den Herausforderungen.

8. Fazit

Als eine der am schnellsten wachsenden und am weitesten verbreiteten Technologien im Bereich der künstlichen Intelligenz ist Computer Vision wie die „Augen“ der künstlichen Intelligenz und mehr Informationen branchenübergreifend analysieren. Mit der Änderung der Algorithmen, der Verbesserung der Hardware-Rechenleistung, der Datenexplosion und dem Hochgeschwindigkeitsnetzwerk, das durch die Entwicklung der 5G-Technologie in der Zukunft entstehen wird, wird Computer Vision auch einen breiteren Entwicklungsraum in Bezug auf Anwendungen haben. Warten wir ab!

Das obige ist der detaillierte Inhalt vonEin Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen