„Ich dachte ursprünglich, dass der Korpus bereits knapp ist und es keinen Korpus für das Training großer Modelle gibt. Tatsächlich ist dies nicht der Fall. Die Daten sind noch lange nicht erschöpft.“ Als Unternehmer im Bereich Big Data seit mehr als zehn Jahren ist Sun Yuanhao, Gründer und CEO von „Starring Technology“, nicht mit der Aussage einverstanden, dass „große Modelle die menschlichen Internetdaten erschöpft haben“. Seiner Beobachtung zufolge sind die Daten in Unternehmen verschiedener Branchen noch lange nicht ausgeschöpft. Der Bestand an menschlichen Daten im Internet ist weitaus größer, als die aktuellen großen Modelle nutzen können. Mit diesen hochwertigen Daten aus verschiedenen Branchen können große Modelle die Genauigkeit basierend auf heutigen Standards erheblich verbessern. Die entscheidende Frage ist: Wie können wir diese Daten effizient entwickeln? Im Zeitalter großer Modelle ist die Entwicklung des Korpus auf neue Herausforderungen gestoßen. Sun Yuanhao teilte mit, dass die Daten in Unternehmen derzeit oft unstrukturiert, umfangreich, in unterschiedlicher Form und meist in kleinen Dateien vorliegen. Gleichzeitig bestehe eine hohe Schwelle für die Kennzeichnung und Korrektur dieser beruflichen Daten. Dies stellt neue Anforderungen an Dateisysteme, Wissensdatenbanksysteme, Korpusentwicklungssysteme usw. Angesichts des Problems großer Datenmengen bedeutet die Verarbeitung verschiedener Dokumente und PPTs innerhalb des Unternehmens höhere Anforderungen an Speicher- und Rechenressourcen im Hinblick auf Datenvielfalt und unterschiedliche Datentypen innerhalb des Unternehmens Dokumente wie Medienartikel, Regierungsdokumente, Designdokumente usw. müssen alle mithilfe von Trainingsmodellen erkannt und analysiert werden, was erfordert, dass Datenverarbeitungstools über leistungsstarke multimodale Datenverarbeitungsfunktionen verfügen. In Bezug auf Datensicherheit und Datenschutz stellt die Gewährleistung der Vertraulichkeit und Sicherheit interner Informationen im Unternehmen während des Schulungs- und Inferenzprozesses auch neue Anforderungen an die Sicherheitskontrolle von Tools für professionelle Datenanmerkungen Bei der Verarbeitung interner Daten innerhalb des Unternehmens handelt es sich häufig um Annotationen in Fachbereichen wie biomolekulare Formeln oder professionelle Finanzbegriffe. Für die Verarbeitung sind professionellere Datenannotationsexperten erforderlich. Um diese Herausforderungen zu bewältigen, teilte Sun Yuanhao einige Versuche von Starring Technology mit:
1. Aktualisieren Sie die Big-Data-Plattform: Aktualisieren Sie die Datenplattform Transwarp Data Hub, um vielfältigere Daten, einschließlich einer großen Anzahl von Dokumenten und kleinen Dateien, verarbeiten zu können. Durch die Rekonstruktion des Quelldatenverwaltungsknotens und das Hinzufügen von POSIX-Schnittstellen werden die Dateisystemunterstützungsfunktionen und die Datenspeichereffizienz verbessert. 2. Python-Schnittstelle hinzufügen: Python-Schnittstelle zum Datenhub hinzufügen und Python-Sprache und -Bibliotheken verteilen, damit die Python-Sprache zur Bereinigung bei der Korpusverarbeitung verwendet werden kann. Dies trägt dazu bei, die Effizienz und Flexibilität der Korpusverarbeitung zu verbessern. 3. Einführung der verteilten Python-Engine: Angesichts der Situation, in der das Korpusvolumen normalerweise Dutzende oder Hunderte von Tonnen beträgt, wird die verteilte Python-Engine eingeführt, um die Fähigkeit und Effizienz der Verarbeitung großer Korpusse zu verbessern . 4. Optimieren Sie die Vektordatenbank: Aktualisieren Sie die Vektordatenbank, um die Abrufgenauigkeit und die verteilte Leistung zu verbessern, damit sie die Verarbeitung und den Abruf umfangreicher Daten besser unterstützen kann. 5. Wissensgraph erstellen: Stellen Sie das Wissenstool Transwarp Knowledge Studio für LLM bereit, um einen Wissensgraphen zu erstellen, um die mangelnde Genauigkeit des Vektorabrufs auszugleichen. Beispielsweise werden im Gerätewartungsszenario die Anzahl der Gerätefehler, Nullungsberichte usw. in den Wissensgraphen importiert. Das große Modell kann bei der Beantwortung von Fragen Überlegungen zum Wissensgraphen anstellen und so genauere Antworten liefern. 6. Entwickeln Sie Korpusentwicklungstools: Starten Sie Korpusentwicklungstools, einschließlich Korpusanalyse, Klassifizierung, Bereinigung, Annotation, Erweiterung und andere Funktionen sowie die Erstellung von Frage- und Antwortpaaren und Sicherheitstestsätzen aus dem Korpus. Es wird verwendet, um verschiedene Dokumenttypen, Sprache und Video, automatisch oder halbautomatisch zu verarbeiten und in hochwertige Korpusse umzuwandeln, die für das Training großer Modelle verwendet werden können. 7. Bereitstellung einer Werkzeugkette für große Modelle: Stellen Sie eine vollständige Werkzeugkette für große Modelle bereit, einschließlich einer Reihe von Prozessen von der Korpusgenerierung bis zum Modelltraining, dem Aufbau von Wissensdatenbanken, der Anwendungsentwicklung, dem Aufbau von Agenten und der Planung der Datenverarbeitung Elektrowerkzeug. Dies trägt dazu bei, die Konstruktionseffizienz und die Verwaltungsfunktionen großer Modellanwendungen zu verbessern. 8. Erstellen Sie native KI-Anwendungen: Starten Sie native KI-Anwendungen wie Wuya·Wenzhi und Wuya·Wenshu, um den internen Informationsabruf und die Datenanalyse im Unternehmen zu realisieren und die Effizienz und den Komfort der Datenverarbeitung zu verbessern. 9. Unterstützen Sie mehrere Modelle und Datenquellen: Unterstützen Sie Modelle von Drittanbietern, ob Open Source oder kommerziell, und mehrere Datenquellen, einschließlich persönlicher Wissensdatenbank, Unternehmenswissensdatenbank, Finanzdatenbank, Rechts- und Regulierungsdatenbank usw ., um die Flexibilität und Anpassungsfähigkeit der Datenverarbeitung zu verbessern. Auf dieser Grundlage können Unternehmen verschiedene Arten von Informationen direkt hochladen und die Produkte werden schnell analysiert, um eine unternehmenseigene Wissensdatenbank zu bilden. Allerdings ist die Entwicklung und Freigabe weiterer interner Daten innerhalb des Unternehmens nicht das Ende. Sun Yuanhao ist davon überzeugt, dass die Verbesserung der Korpusqualität derzeit die größte Herausforderung bei der Verbesserung der Genauigkeit großer Modelle darstellt. „Nun ist die Modellstruktur kein Geheimnis für jedermann, und die Trainingsmethode ist kein Geheimnis, aber es gibt keinen Korpus. Korpus existiert an verschiedenen Orten, weil die Arbeit sehr groß ist, es ist ein riesiger physischer Aufwand Arbeit, Das ist die derzeit größte Herausforderung, gehört nicht dazu, das ist die größte Herausforderung .Darüber hinaus ist Sun Yuanhao davon überzeugt, dass die aktuellen Methoden zur Verbesserung der Modellgenauigkeit in der Praxis der Implementierung großer Modelle Folgendes umfassen: 1. Bauen Sie eine Plug-in-Wissensdatenbank auf: Integrieren Sie die Informationen und Artikel des Unternehmens Fügen Sie es nach dem Parsen in die Wissensdatenbank ein und lassen Sie das große Modell zum Schreiben oder Analysieren auf den Inhalt der Wissensdatenbank verweisen. Dies ist eine Möglichkeit, die Genauigkeit des Modells schnell zu verbessern. 2. Feinabstimmung des Modells: Durch die Feinabstimmung des großen Modells können die Kenntnisse und Sprachgewohnheiten eines bestimmten Bereichs erlernt werden, wodurch die Genauigkeit des Modells in diesem Bereich verbessert wird. 3. Kontinuierliche Schulung: Für Bereiche wie Finanzen ist es notwendig, große Modelle kontinuierlich mit einer großen Menge Korpus zu versorgen, um die Genauigkeit des Modells und seine Fähigkeit zur Beantwortung finanzieller Fragen zu verbessern. 4. Korpusentwicklungstools bereitstellen: Entwickeln Sie Korpusentwicklungstools, die Unternehmen dabei helfen, Korpus zu organisieren und zu bereinigen und in ein Format umzuwandeln, das für das Training großer Modelle geeignet ist, wodurch die Genauigkeit des Modells verbessert wird. 5. Kombination mehrerer Methoden: Sie können die oben genannten Methoden kombinieren, z. B. den Aufbau einer Plug-in-Wissensdatenbank während der Feinabstimmung oder das kontinuierliche Training des Modells, um die Genauigkeit des Modells weiter zu verbessern. Sun Yuanhao sagte metaphorisch, dass er im vergangenen Jahr gesagt habe, dass das große Modell ein „Student der freien Künste“ sei, weil es Xinghuans Ziel sei, das große Modell zu einem Studenten der Naturwissenschaften auszubilden. Ich hoffe, dass es mathematische Analysen durchführen und verschiedene Bereiche und Disziplinen der Naturwissenschaften verstehen kann. Mit dem KI-Infra-Tool von Xinghuan Technology können Unternehmen multimodale Korpusse aus mehreren Quellen präzise und effizient in hochwertiges Fachwissen umwandeln und so Wissensbarrieren aufbauen.
Das obige ist der detaillierte Inhalt vonStarring Technology Sun Yuanhao: Corpus ist bereits jetzt die größte Herausforderung für große Modelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!
Stellungnahme:Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn