Heim >Technologie-Peripheriegeräte >KI >DetGPT, das Bilder lesen, chatten und modalübergreifendes Denken und Positionieren durchführen kann, ist hier, um komplexe Szenarien umzusetzen.

DetGPT, das Bilder lesen, chatten und modalübergreifendes Denken und Positionieren durchführen kann, ist hier, um komplexe Szenarien umzusetzen.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBnach vorne: 2023-05-11 23:28:051298Durchsuche

Menschen haben schon immer davon geträumt, dass Roboter Menschen bei der Bewältigung von Lebens- und Arbeitsangelegenheiten unterstützen können. „Bitte helfen Sie mir, die Temperatur der Klimaanlage herunterzudrehen“ und sogar „Bitte helfen Sie mir, eine Website für ein Einkaufszentrum zu schreiben“ wurden in den letzten Jahren alle mit Heimassistenten und Copilot umgesetzt, die von OpenAI veröffentlicht wurden.

Das Aufkommen von GPT-4 zeigt uns erneut das Potenzial multimodaler großer Modelle für das visuelle Verständnis. In Bezug auf Open-Source-Modelle kleiner und mittlerer Größe schneiden LLAVA und minigpt-4 gut ab. Sie können Bilder ansehen und chatten und auch Rezepte in Essensbildern für Menschen erraten. Allerdings stehen diese Modelle bei der tatsächlichen Umsetzung immer noch vor großen Herausforderungen: Sie verfügen nicht über präzise Positionierungsmöglichkeiten, können die spezifische Position eines Objekts im Bild nicht angeben und können komplexe menschliche Anweisungen zur Erkennung bestimmter Objekte nicht verstehen bestimmte Aufgaben ausführen. In tatsächlichen Szenarien stoßen Menschen auf komplexe Probleme. Wenn sie den intelligenten Assistenten bitten können, die richtige Antwort zu erhalten, indem sie ein Foto machen, ist eine solche „Foto-und-Fragen“-Funktion einfach cool.

Um die Funktion „Foto und Fragen“ zu realisieren, muss der Roboter über mehrere Fähigkeiten verfügen:

#🎜🎜 # 1. Fähigkeit zum Sprachverständnis: Fähigkeit, menschliche Absichten zuzuhören und zu verstehen

2. Fähigkeit zum visuellen Verständnis: Fähigkeit, die Objekte im Bild zu verstehen# 🎜 🎜#

3. Fähigkeit zum gesunden Menschenverstand: Fähigkeit, komplexe menschliche Absichten in präzise Ziele umzuwandeln, die lokalisiert werden können.

4 Fähigkeit: Kann entsprechende Objekte auf dem Bildschirm lokalisieren und erkennen. Forscher der Hong Kong University of Science and Technology und der Hong Kong University haben jedoch ein vollständig Open-Source-Modell DetGPT (vollständiger Name DetectionGPT) vorgeschlagen, das nur drei Millionen Parameter feinabstimmen muss, sodass das Modell problemlos über komplexe und lokale Argumente verfügen kann Objektpositionierungsfunktionen und können auf die meisten Szenen im großen Maßstab verallgemeinert werden. Dies bedeutet, dass das Modell menschliche abstrakte Anweisungen verstehen kann, indem es auf der Grundlage seines eigenen Wissens argumentiert, und Objekte von menschlichem Interesse in Bildern leicht identifizieren kann! Sie haben das Modell in eine „Foto- und Frage“-Demo umgewandelt. Sie können es gerne online erleben: https://detgpt.github.io/

DetGPT ermöglicht es Benutzern Verwenden Sie natürliche Sprache. Bedienen Sie alles ohne umständliche Befehle oder Schnittstellen. Gleichzeitig verfügt DetGPT auch über intelligente Argumentations- und Zielerkennungsfunktionen, die die Bedürfnisse und Absichten des Benutzers genau verstehen können. Wenn ein Mensch beispielsweise den verbalen Befehl „Ich möchte ein Kaltgetränk trinken“ sendet, sucht der Roboter zunächst in der Szene nach einem Kaltgetränk, findet es aber nicht. Also begann ich zu denken: „In der Szene gibt es kein kaltes Getränk, wo soll ich es finden?“ Durch das leistungsstarke Modell des gesunden Menschenverstandes dachte ich an den Kühlschrank, scannte also die Szene, fand den Kühlschrank und konnte den Ort des Getränks erfolgreich sperren!

Offener Quellcode: DetGPT, das Bilder lesen, chatten und modalübergreifendes Denken und Positionieren durchführen kann, ist hier, um komplexe Szenarien umzusetzen.