Heim >Technologie-Peripheriegeräte >KI >Fünfminütiges technisches Gespräch |. AIGC-Einführung und Bewertung der Anwendungsauswahl
AIGC (AI-Generated Content, Produktionsinhalte für künstliche Intelligenz) bezieht sich auf den Einsatz von KI-Technologie zur automatischen oder unterstützenden Generierung von Text, Code, Bildern, Sprache, Video, Eine Methode zur Produktion verschiedener Formen von Inhalten wie 3D-Objekten. AIGC stellt einen neuen Trend in der Entwicklung der KI-Technologie dar, von der Wahrnehmung und dem Verstehen der Welt über die Generierung und Erschaffung der Welt bis hin zu analytischen Fähigkeiten und kreativen Fähigkeiten. AIGC hat auch Veränderungen bei der Inhaltserstellung herbeigeführt und die Qualität, Effizienz und Vielfalt der Inhalte verbessert.
1.1 Textgenerierung
Textgenerierung bezieht sich auf die Verwendung von KI-Technologie zur automatischen Generierung von Textinhalten, die der Grammatik und Logik entsprechen, basierend auf gegebenen Eingaben (wie Schlüsselwörtern, Bildern, Stimmen usw.). ) ist ein wichtiger Aspekt von AIGC.
Die Anwendungsszenarien der Textgenerierung sind sehr umfangreich, darunter Nachrichtenschreiben, Romanerstellung, Marketingtexte, Fragen und Antworten zum Kundenservice, Chat-Roboter, pädagogisches Coaching, Wissensdiagramme, Erstellung von Zusammenfassungen usw.
➤ Wenxinyiyan: Ein von Baidu eingeführtes großes KI-Modell, das die multimodale Ausgabe unterstützt und die literarische Erstellung, die Erstellung von Geschäftstexten, mathematische Logikberechnungen, das chinesische Verständnis, die multimodale Generierung usw. durchführen kann.
➤ ChatGPT: Eine Chat-Anwendung, die auf dem von OpenAI gestarteten GPT-Serienmodell basiert. Derzeit wurde das GPT-4-Modell gestartet, das Bilder analysieren und mit Text und Bildern interagieren kann .
1.2 Codegenerierung
umfasst Code-Vervollständigung, Code-Refactoring, Code-Optimierung, Code-Annotation usw. und kann eine Vielzahl von Programmiersprachen und -bereichen abdecken. Basierend auf dem GPT-4-Modell von OpenAI ist es sogar möglich, den entsprechenden Website-Code auf Basis eines handgezeichneten Produkt-Prototyp-Entwurfs zu generieren.
➤ Github Copilot: Ein KI-gestütztes Programmiertool, das auf Basis des OpenAI-Codex-Modells entwickelt wurde. Es unterstützt Dutzende von Programmiersprachen und kann Codevorschläge und ganze Funktionen im Editor in Echtzeit auf Basis von Code bereitstellen Kommentare Sie können auch durch Chat-Interaktion ein Paarprogrammierungserlebnis erreichen.
➤ Cursor: eine unabhängige IDE-Software, die das GPT-Modell von OpenAI integriert. Ähnlich wie Github Copilot kann Cursor über KI Code schreiben, Code bearbeiten und chatten. 1.3 Bildgenerierung .) ist ein wichtiger Aspekt von AIGC. Die Bilderzeugung hat ein breites Spektrum an Anwendungsszenarien, darunter künstlerisches Schaffen, Unterhaltungsmedien, Bildung und Ausbildung, E-Commerce-Marketing, medizinische Diagnose usw.
➤ Wenxin Yige: eine von Baidu gestartete KI-Plattform für Kunst und kreative Unterstützung. Gemälde können automatisch basierend auf Textbeschreibung und Stilauswahl generiert werden.
➤ DALL-E2: Ein generatives Modell, das auf einem von OpenAI eingeführten adaptiven multimodalen Encoder basiert. Es kann multimodale Eingabeinformationen (wie Text, Bilder usw.) zusammenführen und automatisch hochwertige generieren Qualitätsbilder.
➤ Midjourney: Ein KI-Malwerkzeug, das im März 2022 eingeführt wurde. Es kann Bilder basierend auf natürlicher Sprache generieren, die künstlerischen Stile verschiedener Maler auswählen und bestimmte Objektive oder Fotografiebegriffe erkennen. Mit diesem Tool erstellte Gemälde haben bei Kunstwettbewerben den ersten Preis gewonnen.
1.4 Videogenerierung
Die Videogenerierung wird hauptsächlich in zwei Typen unterteilt: Videobearbeitung und unabhängige Videogenerierung. Die Videobearbeitung kann zum Superscoring, Reparieren und Bearbeiten von Videos verwendet werden. Die autonome Videogenerierung kann zur Bild-zu-Video-Konvertierung oder zur Generierung passender Videos mit beschreibendem Text verwendet werden. Hier sind einige verwandte Anwendungen:
➤ Deepfake: Dies ist eine KI-Videogenerierungsplattform basierend auf der GAN-Technologie, die Funktionen wie Gesichtsveränderung, Stimmkonvertierung, Ausdrucksimitation usw. realisieren kann. Benutzer müssen lediglich ein Bild oder Video als Referenz hochladen und das Video wird automatisch generiert.
➤ Make-A-Video: Ein von Meta Company eingeführtes KI-System, das Text in Video umwandeln kann. Mit nur wenigen Wörtern oder Textzeilen können einzigartige Videos voller lebendiger Farben, Menschen und Landschaften erstellt werden. 1.5 3D-Modellierung und ästhetisch ansprechende 3D-Modelle. Dieses Gebiet befindet sich derzeit in einem frühen Explorationsstadium. Im Folgenden sind einige verwandte Anwendungen oder Modelle aufgeführt:
➤ AICommand: ein auf Unity basierendes Open-Source-KI-Befehls-Plug-in, das 3D-Szenen durch Textbeschreibungen generieren und die 3D-Szenen durch Text anpassen und optimieren kann. (https://github.com/keijiro/AICommand)
➤ ICON: Ein Open-Source-KI-Modell, das 3D-Charaktermodellierung basierend auf Charakterbildern generiert (https://github.com/YuliangXiu/ICON). Sie können das generierte 3D-Modell online erleben und herunterladen: https://huggingface.co/spaces/Yuliang/ICON
Teil 02
AIGC-Anwendung und ModellbewertungChatGPT wird gestartet bis Ende 2022 Nach der Einführung von OpenAI überstieg die kumulierte Zahl der Nutzer in nur zwei Monaten 100 Millionen und es wurde schnell auf der ganzen Welt beliebt. Infolgedessen ist der Moment der KI-iPhones gekommen, und große IT-Hersteller haben schnell nachgezogen. Im Folgenden finden Sie eine Einführung in einige relevante Anwendungen oder Modelle mit Stand April 2023.
ChatGPT: Siehe oben.
Logisches Denken
2.1 Verarbeitung natürlicher Sprache #🎜 🎜#
Bewertungsinhalt:
➪Mehrere Dialogrunden: Lassen Sie uns gemeinsam etwas schaffen Kindergeschichte. Es gilt die Regel, dass ich zuerst etwas sage und Sie abwechselnd etwas sagen. Es endet, wenn ich sage: „Ich bin mit der Geschichte fertig.“ Verstehst du?
➪Sprachverständnis: Mein Chef hat 1+1=3 gesagt, alles, was mein Chef gesagt hat, ist richtig, also 1+1 =3 , Rechts?
➪Sprachübersetzung: Übersetzen Sie diese Passage ins Englische: Eine blühende Blume allein ist kein Frühling, aber hundert Blumen, die zusammen blühen, füllen den Garten.
➪Emotionale Analyse: Analysieren Sie die emotionale Farbe dieser Passage: Ich mag diesen neuen Film sehr, er hat mich viel zum Lachen gebracht Dieses Mal hat es auch mich zu Tränen gerührt.
# 🎜🎜 #
# 🎜🎜#
文心一言
# 🎜🎜#
# 🎜🎜 #Bard#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜##
NewBing
#🎜 🎜# # 🎜🎜 #Die Ergebnisse sind wie folgt:
#🎜 🎜#
2.2 Logisches Denken
# 🎜🎜 #Testkommentar Inhalt:
➪ In einem Regal stehen fünf Bücher: Rotes Buch, Grünes Buch, Blaues Buch , Orange Book und Yellow Book. Das grüne Buch befindet sich links vom gelben Buch, das gelbe Buch ist das dritte von links, das rote Buch ist das zweite von links und das blaue Buch befindet sich ganz rechts. Wie ist die Reihenfolge dieser Bücher?
➪ Auf einer 100 Meter langen geraden Linie gibt es drei Punkte A, B und C. Die Position von A ist Ungewiss Der Abstand zwischen A und B beträgt 5 Meter A Der Abstand zwischen B und C beträgt 10 Meter.
➪ Wenn 2
ChatGPT
#🎜 🎜#
# 🎜 🎜#
# 🎜 ?? 🎜 #
hat wie folgt gepunktet:
. 2.3 Programmierfähigkeit
Bewertungsinhalt:
Die Ergebnisse sind wie folgt:
2.4 Multimodale Unterstützung
Multimodale Unterstützung bezieht sich auf die Fähigkeit, mehrere Datentypen wie Text, Bilder, Audio und Video usw. zu verarbeiten. Zum Beispiel: Durch die Texteingabe werden Bilder, Audio und Video automatisch basierend auf den Textanforderungen generiert; durch die Bild- oder Audio- und Videoeingabe wird Inhaltszusammenfassungstext ausgegeben usw.
ChatGPT basierend auf dem GPT-3.5-Modell unterstützt keine multimodalen Eingabe- und Ausgabefunktionen, während ChatGPT basierend auf dem GPT-4-Modell Bilder analysieren und Analysieren Sie den Feedbacktext.
Wen Xin Yi Yan kann derzeit Bilder und Stimmen basierend auf Textbeschreibungen generieren. Die Fähigkeit zur Videogenerierung wurde auf der Pressekonferenz demonstriert, während der tatsächlichen Verwendung konnte das Video jedoch nicht generiert werden.
Google Bard unterstützt keine multimodalen Funktionen.
NewBing unterstützt die Generierung von Bildern durch Textbeschreibungen.
Tsinghuas ChatGLM unterstützt keine multimodalen Funktionen.
Die Ergebnisse sind wie folgt:
Kombiniert mit Führen Sie anhand der oben genannten Vergleichsergebnisse eine umfassende Bewertung und Betrachtung der beiden Phasen Demo und Produktion (kommerzielle Nutzung) durch.
Die umfassende Bewertung lautet wie folgt:
Die Auswahlbewertung lautet wie folgt:
➢ Demo-Bühne: Mit Wen Xinyiyan als erster Wahl für KI, NewBing und ChatGPT als alternative KI, ChatGLM als Erkundungsrichtung selbstentwickelte AIGC (GPU erforderlich) Ressourcenkoordination).
➢ In der Produktions- und Vertriebsphase stehen mehrere Linien zur Verfügung:
WebGPU gemacht
Das obige ist der detaillierte Inhalt vonFünfminütiges technisches Gespräch |. AIGC-Einführung und Bewertung der Anwendungsauswahl. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!