Heim > Artikel > Technologie-Peripheriegeräte > Das Bild lässt sich längere Zeit nicht laden und ist ein Mosaik? Das Open-Source-Modell von Google priorisiert die Anzeige der interessantesten Teile von Bildern
Welchen Inhalt im Bild werden Sie beim Betrachten eines Bildes zuerst beachten bzw. welche Bereiche im Bild werden Ihre Aufmerksamkeit zuerst erregen? Kann die Maschine diese Form der menschlichen Aufmerksamkeit erlernen? Laut einer Studie von Google kann ihr Open-Source-Aufmerksamkeitszentrumsmodell genau das leisten. Und das Modell kann im JPEG XL-Bildformat verwendet werden.
Das Bild unten zeigt beispielsweise einige Vorhersagebeispiele des Aufmerksamkeitszentrumsmodells, wobei der grüne Punkt der vorhergesagte Aufmerksamkeitszentrumspunkt des Bildes ist.
Das Bild stammt aus dem Kodak-Bilddatensatz: http://r0k.us/graphics/kodak/
Die Modellgröße des Aufmerksamkeitszentrums beträgt 2 MB und das Format ist TensorFlow Lite. Es nimmt ein RGB-Bild als Eingabe und gibt einen 2D-Punkt aus, der den vorhergesagten Aufmerksamkeitsschwerpunkt auf dem Bild darstellt.
Um ein Modell zur Vorhersage von Aufmerksamkeitszentren zu trainieren, benötigen Sie zunächst einige echte Daten von Aufmerksamkeitszentren. Einige Aufmerksamkeitspunkte können anhand eines Bildes mit einem Eyetracker erfasst oder durch Anklicken des Bildes mit der Maus angefahren werden. Diese Studie führt zunächst eine zeitliche Filterung dieser Aufmerksamkeitspunkte durch, wobei nur die anfänglichen Aufmerksamkeitspunkte beibehalten werden, und wendet dann eine räumliche Filterung an, um Rauschen zu entfernen. Schließlich wird das Zentrum der verbleibenden Aufmerksamkeitspunkte als Grundwahrheits-Aufmerksamkeitszentrum berechnet. Eine beispielhafte Darstellung des Prozesses zur Ermittlung des Wahrheitswerts ist unten dargestellt.
Projektadresse: https://github.com/google/attention-center
Das Attention-Center-Modell ist ein tiefes neuronales Netzwerk mit einem An-Bild wird als Eingabe verwendet und vorab trainierte Klassifizierungsnetzwerke wie ResNet und MobileNet werden als Rückgrat verwendet. Mehrere vom Backbone-Netzwerk ausgegebene Zwischenschichten werden als Eingaben für das Aufmerksamkeitszentrum-Vorhersagemodul verwendet. Diese verschiedenen Zwischenschichten enthalten unterschiedliche Informationen. Beispielsweise enthalten flache Schichten normalerweise Informationen auf niedrigerer Ebene wie Intensität/Farbe/Textur, während tiefere Schichten normalerweise höhere, semantischere Informationen wie Form/Objekt enthalten.
Die Aufmerksamkeitszentrumsvorhersage verwendet Faltungs- und Entfaltungsanpassungsoperatoren in Kombination mit Aggregations- und Sigmoidfunktionen, um eine Gewichtskarte des Aufmerksamkeitszentrums zu erstellen. Dann kann ein Operator (im Beispiel der Einstein-Summationsoperator) verwendet werden, um den Mittelpunkt aus dem gewichteten Diagramm zu berechnen. Als Trainingsverlust wird die L2-Norm zwischen dem vorhergesagten Aufmerksamkeitszentrum und dem wahren Aufmerksamkeitszentrum verwendet.
Darüber hinaus ist JPEG XL ein neues Bildformat, das es Benutzern ermöglicht, Bilder so zu kodieren, dass die interessanten Teile zuerst angezeigt werden. Dies hat den Vorteil, dass beim Durchsuchen von Bildern im Internet zuerst die attraktiven Teile des Bildes angezeigt werden können, also der Teil, den der Benutzer zuerst sieht Das Bild wird zuerst angezeigt. Andere Teile sind bereits vorhanden und dekodiert.
In JPEG XL wird das Bild normalerweise in eine Matrix der Größe 256 x 256 unterteilt. Der JPEG XL-Encoder wählt eine Startgruppe im Bild aus und generiert dann konzentrische Quadrate um diese Gruppe. Chrome hat seit Version 107 die progressive Dekodierung von JPEG XL-Bildern hinzugefügt. Derzeit ist JPEG XL noch ein experimentelles Produkt und kann durch die Suche nach jxl in chrome://flags aktiviert werden.
Um den Effekt des progressiven Ladens von JPEG XL-Bildern zu verstehen, können Sie die folgende URL aufrufen:
https://google.github.io/attention-center/
Das obige ist der detaillierte Inhalt vonDas Bild lässt sich längere Zeit nicht laden und ist ein Mosaik? Das Open-Source-Modell von Google priorisiert die Anzeige der interessantesten Teile von Bildern. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!