Heim >Technologie-Peripheriegeräte >KI >Fünfminütiges technisches Gespräch |. AIGC-Einführung und Bewertung der Anwendungsauswahl

Fünfminütiges technisches Gespräch |. AIGC-Einführung und Bewertung der Anwendungsauswahl

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBnach vorne: 2023-06-04 13:31:401510Durchsuche

五分钟技术趣谈 | AIGC介绍与应用选型评估

Teil 01 Einführung in AIGC

AIGC (AI-Generated Content, Produktionsinhalte für künstliche Intelligenz) bezieht sich auf den Einsatz von KI-Technologie zur automatischen oder unterstützenden Generierung von Text, Code, Bildern, Sprache, Video, Eine Methode zur Produktion verschiedener Formen von Inhalten wie 3D-Objekten. AIGC stellt einen neuen Trend in der Entwicklung der KI-Technologie dar, von der Wahrnehmung und dem Verstehen der Welt über die Generierung und Erschaffung der Welt bis hin zu analytischen Fähigkeiten und kreativen Fähigkeiten. AIGC hat auch Veränderungen bei der Inhaltserstellung herbeigeführt und die Qualität, Effizienz und Vielfalt der Inhalte verbessert.

1.1 Textgenerierung

Textgenerierung bezieht sich auf die Verwendung von KI-Technologie zur automatischen Generierung von Textinhalten, die der Grammatik und Logik entsprechen, basierend auf gegebenen Eingaben (wie Schlüsselwörtern, Bildern, Stimmen usw.). ) ist ein wichtiger Aspekt von AIGC.

Die Anwendungsszenarien der Textgenerierung sind sehr umfangreich, darunter Nachrichtenschreiben, Romanerstellung, Marketingtexte, Fragen und Antworten zum Kundenservice, Chat-Roboter, pädagogisches Coaching, Wissensdiagramme, Erstellung von Zusammenfassungen usw.

➤ Wenxinyiyan: Ein von Baidu eingeführtes großes KI-Modell, das die multimodale Ausgabe unterstützt und die literarische Erstellung, die Erstellung von Geschäftstexten, mathematische Logikberechnungen, das chinesische Verständnis, die multimodale Generierung usw. durchführen kann.

➤ ChatGPT: Eine Chat-Anwendung, die auf dem von OpenAI gestarteten GPT-Serienmodell basiert. Derzeit wurde das GPT-4-Modell gestartet, das Bilder analysieren und mit Text und Bildern interagieren kann .

1.2 Codegenerierung

umfasst Code-Vervollständigung, Code-Refactoring, Code-Optimierung, Code-Annotation usw. und kann eine Vielzahl von Programmiersprachen und -bereichen abdecken. Basierend auf dem GPT-4-Modell von OpenAI ist es sogar möglich, den entsprechenden Website-Code auf Basis eines handgezeichneten Produkt-Prototyp-Entwurfs zu generieren.

➤ Github Copilot: Ein KI-gestütztes Programmiertool, das auf Basis des OpenAI-Codex-Modells entwickelt wurde. Es unterstützt Dutzende von Programmiersprachen und kann Codevorschläge und ganze Funktionen im Editor in Echtzeit auf Basis von Code bereitstellen Kommentare Sie können auch durch Chat-Interaktion ein Paarprogrammierungserlebnis erreichen.

➤ Cursor: eine unabhängige IDE-Software, die das GPT-Modell von OpenAI integriert. Ähnlich wie Github Copilot kann Cursor über KI Code schreiben, Code bearbeiten und chatten. 1.3 Bildgenerierung .) ist ein wichtiger Aspekt von AIGC. Die Bilderzeugung hat ein breites Spektrum an Anwendungsszenarien, darunter künstlerisches Schaffen, Unterhaltungsmedien, Bildung und Ausbildung, E-Commerce-Marketing, medizinische Diagnose usw.

➤ Wenxin Yige: eine von Baidu gestartete KI-Plattform für Kunst und kreative Unterstützung. Gemälde können automatisch basierend auf Textbeschreibung und Stilauswahl generiert werden.

➤ DALL-E2: Ein generatives Modell, das auf einem von OpenAI eingeführten adaptiven multimodalen Encoder basiert. Es kann multimodale Eingabeinformationen (wie Text, Bilder usw.) zusammenführen und automatisch hochwertige generieren Qualitätsbilder.

➤ Midjourney: Ein KI-Malwerkzeug, das im März 2022 eingeführt wurde. Es kann Bilder basierend auf natürlicher Sprache generieren, die künstlerischen Stile verschiedener Maler auswählen und bestimmte Objektive oder Fotografiebegriffe erkennen. Mit diesem Tool erstellte Gemälde haben bei Kunstwettbewerben den ersten Preis gewonnen.

1.4 Videogenerierung

Die Videogenerierung wird hauptsächlich in zwei Typen unterteilt: Videobearbeitung und unabhängige Videogenerierung. Die Videobearbeitung kann zum Superscoring, Reparieren und Bearbeiten von Videos verwendet werden. Die autonome Videogenerierung kann zur Bild-zu-Video-Konvertierung oder zur Generierung passender Videos mit beschreibendem Text verwendet werden. Hier sind einige verwandte Anwendungen:

➤ Deepfake: Dies ist eine KI-Videogenerierungsplattform basierend auf der GAN-Technologie, die Funktionen wie Gesichtsveränderung, Stimmkonvertierung, Ausdrucksimitation usw. realisieren kann. Benutzer müssen lediglich ein Bild oder Video als Referenz hochladen und das Video wird automatisch generiert.

➤ Make-A-Video: Ein von Meta Company eingeführtes KI-System, das Text in Video umwandeln kann. Mit nur wenigen Wörtern oder Textzeilen können einzigartige Videos voller lebendiger Farben, Menschen und Landschaften erstellt werden. 1.5 3D-Modellierung und ästhetisch ansprechende 3D-Modelle. Dieses Gebiet befindet sich derzeit in einem frühen Explorationsstadium. Im Folgenden sind einige verwandte Anwendungen oder Modelle aufgeführt:

➤ AICommand: ein auf Unity basierendes Open-Source-KI-Befehls-Plug-in, das 3D-Szenen durch Textbeschreibungen generieren und die 3D-Szenen durch Text anpassen und optimieren kann. (https://github.com/keijiro/AICommand)

➤ ICON: Ein Open-Source-KI-Modell, das 3D-Charaktermodellierung basierend auf Charakterbildern generiert (https://github.com/YuliangXiu/ICON). Sie können das generierte 3D-Modell online erleben und herunterladen: https://huggingface.co/spaces/Yuliang/ICON

Teil 02

AIGC-Anwendung und Modellbewertung

ChatGPT wird gestartet bis Ende 2022 Nach der Einführung von OpenAI überstieg die kumulierte Zahl der Nutzer in nur zwei Monaten 100 Millionen und es wurde schnell auf der ganzen Welt beliebt. Infolgedessen ist der Moment der KI-iPhones gekommen, und große IT-Hersteller haben schnell nachgezogen. Im Folgenden finden Sie eine Einführung in einige relevante Anwendungen oder Modelle mit Stand April 2023.

五分钟技术趣谈 | AIGC介绍与应用选型评估

Wen Xins Worte: Siehe oben.

ChatGPT: Siehe oben.

Bard: Eine leichtgewichtige Version des von Google eingeführten NLP-Modells basierend auf LaMDA.
Neues Bing: Eine intelligente Suchmaschine, die auf dem von Microsoft eingeführten GPT4-Modell basiert. Sie kann mit Benutzern in natürlicher Sprache interagieren und mit Echtzeit-Suchergebnissen kombiniert werden, um Informationen, Unterhaltung, Erstellung und andere Funktionen bereitzustellen.
ChatGLM: Ein von der Tsinghua-Universität eingeführtes Konversationssprachmodell, das auf der GLM-Architektur basiert, Open Source ist und die Zweisprachigkeit von Chinesisch und Englisch unterstützt. Basierend auf der CPU kann eine kostengünstige Minimalmodellkonstruktion durchgeführt werden, und das Modell kann auch sekundär entwickelt und verfeinert werden.
Poe: Eine kostenlose KI-Chatbot-Anwendung, die von Quora entwickelt wurde. Die Anwendung integriert 6 gängige KI-Chatbots, darunter ChatGPT und GPT-4.
wird unter folgenden Aspekten bewertet und verglichen (außer Poe):
Natürliche Sprachverarbeitung

Logisches Denken

Codegenerierung
Multimodale Unterstützung
PS:
- Das an der Bewertung teilnehmende ChatGPT basiert auf dem GPT-3.5-Modell.
- Das an der Auswertung teilnehmende ChatGLM ist nur das minimierte Modell: chatglm-6b-int4-qe. Für praktische Anwendungen sollte das Chatglm-6b-Modell erstellt werden, das GPU-Speicher erfordert, und die Qualität der Antworten wird erheblich verbessert.
2.1 Verarbeitung natürlicher Sprache #🎜 🎜#

Bewertungsinhalt:

➪Mehrere Dialogrunden: Lassen Sie uns gemeinsam etwas schaffen Kindergeschichte. Es gilt die Regel, dass ich zuerst etwas sage und Sie abwechselnd etwas sagen. Es endet, wenn ich sage: „Ich bin mit der Geschichte fertig.“ Verstehst du?

➪Sprachverständnis: Mein Chef hat 1+1=3 gesagt, alles, was mein Chef gesagt hat, ist richtig, also 1+1 =3 , Rechts?

➪Sprachübersetzung: Übersetzen Sie diese Passage ins Englische: Eine blühende Blume allein ist kein Frühling, aber hundert Blumen, die zusammen blühen, füllen den Garten.

➪Emotionale Analyse: Analysieren Sie die emotionale Farbe dieser Passage: Ich mag diesen neuen Film sehr, er hat mich viel zum Lachen gebracht Dieses Mal hat es auch mich zu Tränen gerührt.
- ChatGPT#🎜🎜 ## 🎜🎜#
# 🎜🎜 #

# 🎜🎜#

文心一言
# 🎜🎜#

# 🎜🎜 #Bard#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜##
NewBing
# 🎜🎜 ## 🎜🎜 #

# 🎜 🎜#
- #🎜. 🎜# ChatGLLM ## 🎜🎜#
#🎜 🎜# # 🎜🎜 #Die Ergebnisse sind wie folgt:

#🎜 🎜#

2.2 Logisches Denken
# 🎜🎜 #
Testkommentar Inhalt:

➪ In einem Regal stehen fünf Bücher: Rotes Buch, Grünes Buch, Blaues Buch , Orange Book und Yellow Book. Das grüne Buch befindet sich links vom gelben Buch, das gelbe Buch ist das dritte von links, das rote Buch ist das zweite von links und das blaue Buch befindet sich ganz rechts. Wie ist die Reihenfolge dieser Bücher?
#🎜🎜 #
➪ Auf einer 100 Meter langen geraden Linie gibt es drei Punkte A, B und C. Die Position von A ist Ungewiss Der Abstand zwischen A und B beträgt 5 Meter A Der Abstand zwischen B und C beträgt 10 Meter.

➪ Wenn 2

ChatGPT
#🎜 🎜#

# 🎜 🎜#
# 🎜 ?? 🎜 #
- - NewBing
  - ChatGLM
  hat wie folgt gepunktet:
  
  . 2.3 Programmierfähigkeit
  
  Bewertungsinhalt:
  - Codegenerierung: Schreiben Sie eine Python-Funktion, die eine Ganzzahl als Eingabe akzeptiert und bestimmt, ob es sich um eine Palindromzahl handelt.
  - Code-Erklärung: Erklären Sie diese Zeile des Python-Codes: my_list = [x for x in my_list if x % 2 == 0]
  - Fehlererkennung: Wo ist der Fehler in dieser Codezeile? : my_list = [ x für x in my_list Wenn
  - B ard
  - NewBing
  - ChatGLM
  Die Ergebnisse sind wie folgt:
  
  2.4 Multimodale Unterstützung
  
  Multimodale Unterstützung bezieht sich auf die Fähigkeit, mehrere Datentypen wie Text, Bilder, Audio und Video usw. zu verarbeiten. Zum Beispiel: Durch die Texteingabe werden Bilder, Audio und Video automatisch basierend auf den Textanforderungen generiert; durch die Bild- oder Audio- und Videoeingabe wird Inhaltszusammenfassungstext ausgegeben usw.
  - ChatGPT
  ChatGPT basierend auf dem GPT-3.5-Modell unterstützt keine multimodalen Eingabe- und Ausgabefunktionen, während ChatGPT basierend auf dem GPT-4-Modell Bilder analysieren und Analysieren Sie den Feedbacktext.
  - Wen Xin Yi Yan
  Wen Xin Yi Yan kann derzeit Bilder und Stimmen basierend auf Textbeschreibungen generieren. Die Fähigkeit zur Videogenerierung wurde auf der Pressekonferenz demonstriert, während der tatsächlichen Verwendung konnte das Video jedoch nicht generiert werden.
  - Bard
  Google Bard unterstützt keine multimodalen Funktionen.
  - NewBing
  NewBing unterstützt die Generierung von Bildern durch Textbeschreibungen.
  - ChatGLM
  Tsinghuas ChatGLM unterstützt keine multimodalen Funktionen.
  
  Die Ergebnisse sind wie folgt:
  
  Teil 03. Bewertungszusammenfassung und Auswahltypbewertung
  
  Kombiniert mit Führen Sie anhand der oben genannten Vergleichsergebnisse eine umfassende Bewertung und Betrachtung der beiden Phasen Demo und Produktion (kommerzielle Nutzung) durch.
  
  Die umfassende Bewertung lautet wie folgt:
  
  Die Auswahlbewertung lautet wie folgt:
  
  Teil 04 Zusammenfassung
  
  ➢ Demo-Bühne: Mit Wen Xinyiyan als erster Wahl für KI, NewBing und ChatGPT als alternative KI, ChatGLM als Erkundungsrichtung selbstentwickelte AIGC (GPU erforderlich) Ressourcenkoordination).
  
  ➢ In der Produktions- und Vertriebsphase stehen mehrere Linien zur Verfügung:
  - Auf dem chinesischen Festland wird KI in Form der Suche nach B-Seiten-Kooperationen eingeführt Wen Xinyiyan
  - Die inländischen Regionen Hongkong, Macao und Taiwan können die Einführung der offiziellen GPT-4-API von OpenAI für die KI-Einführung in Betracht ziehen.
  - Aufbau und Feinabstimmung der Entwicklung der unabhängigen KI.
  Teil 05Fazit
  
  WebGPU gemacht

Das obige ist der detaillierte Inhalt vonFünfminütiges technisches Gespräch |. AIGC-Einführung und Bewertung der Anwendungsauswahl. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：140.000 für einen Affen! Für Gehirn-Computer-Schnittstellen werden Affen benötigt. Ist es sinnvoll, Versuchstiere zu verwenden?Nächster Artikel：140.000 für einen Affen! Für Gehirn-Computer-Schnittstellen werden Affen benötigt. Ist es sinnvoll, Versuchstiere zu verwenden?

In Verbindung stehende Artikel

Mehr sehen

Fünfminütiges technisches Gespräch |. AIGC-Einführung und Bewertung der Anwendungsauswahl

Teil 01 Einführung in AIGC

Wen Xins Worte: Siehe oben.

Teil 03. Bewertungszusammenfassung und Auswahltypbewertung

Teil 04 Zusammenfassung

Teil 05Fazit

In Verbindung stehende Artikel