


Absatzsortierung ist ein sehr wichtiges und herausforderndes Thema im Bereich des Informationsabrufs und hat in Wissenschaft und Industrie große Aufmerksamkeit erhalten. Die Wirksamkeit des Absatz-Ranking-Modells kann die Zufriedenheit der Suchmaschinennutzer verbessern und beim Informationsabruf bezogene Anwendungen wie Frage- und Antwortsysteme, Leseverständnis usw. unterstützen. In diesem Zusammenhang wurden einige Benchmark-Datensätze wie MS-MARCO, DuReader_retrieval usw. erstellt, um entsprechende Forschungsarbeiten zur Absatzsortierung zu unterstützen. Die meisten häufig verwendeten Datensätze konzentrieren sich jedoch auf englische Szenen. Bei chinesischen Szenen weisen die vorhandenen Datensätze Einschränkungen hinsichtlich der Datenskala, der feinkörnigen Benutzeranmerkung und der Lösung des Problems falsch negativer Beispiele auf. In diesem Zusammenhang haben wir einen neuen Benchmark-Datensatz für das chinesische Absatzranking erstellt, der auf echten Suchprotokollen basiert: T2Ranking.
T2Das Ranking setzt sich aus über 300.000 echten Suchanfragen und 2 Millionen Internetabsätzen zusammen. Und Es umfasst eine 4-stufige, feinkörnige Korrelationsannotation, die von professionellen Annotatoren bereitgestellt wird. Die aktuellen Daten und einige Basismodelle wurden auf Github veröffentlicht und die relevanten Forschungsarbeiten wurden von SIGIR 2023 als Ressourcenpapier akzeptiert.
- Papier Informationen :Xiaohui Xie, Qian Dong, Bingning Wang, Feiyang Lv, Ting Yao, Weinan Gan, Zhijing Wu, Xiangsheng Li, Haitao Li, Yiqun Liu und Jin Ma. T2Ranking: Ein groß angelegter chinesischer Benchmark. #🎜🎜 #
- Papieradresse: https://arxiv.org/abs/2304.03679#🎜🎜 #
- Github-Adresse: https://github.com/THUIR/T2Ranking Hintergrund und verwandte Arbeiten#🎜🎜 #
Das Ziel der Absatzranking-Aufgabe besteht darin, Kandidatenabsätze aus einer umfangreichen Absatzsammlung basierend auf einem bestimmten Abfragebegriff abzurufen und zu sortieren und eine Absatzliste in der Reihenfolge von hoher bis niedriger Relevanz zu erhalten. Das Sortieren von Absätzen besteht im Allgemeinen aus zwei Schritten: Abruf abrufen und Neuanordnen von Absätzen.
Zur Unterstützung der Absatzsortieraufgabe werden mehrere Datensätze zum Trainieren und Testen von Absatzsortieralgorithmen erstellt. Die meisten der am häufigsten verwendeten Datensätze konzentrieren sich auf englische Szenarien. Der am häufigsten verwendete Datensatz ist beispielsweise der MS-MARCO-Datensatz, der mehr als 500.000 Abfragebegriffe und mehr als 8 Millionen Absätze enthält. Für jeden Abfragebegriff rekrutierte das MS-MARCO-Datenfreigabeteam Annotatoren, die Standardantworten bereitstellen. Basierend darauf, ob ein bestimmter Absatz die manuell bereitgestellten Standardantworten enthält, wird beurteilt, ob dieser Absatz mit dem Abfragebegriff zusammenhängt.
Im chinesischen Szenario gibt es auch einige Datensätze, die zur Unterstützung von Absatzsortierungsaufgaben erstellt wurden. Beispielsweise ist mMarco-Chinesisch die chinesische Übersetzungsversion des MS-MARCO-Datensatzes, und der DuReader_retrieval-Datensatz verwendet dasselbe Paradigma wie MS-MARCO, um Absatzbeschriftungen zu generieren, dh die Korrelation des Abfragewort-Absatz-Paares gegeben aus den von Menschen bereitgestellten Standardantworten. Das Multi-CPR-Modell enthält Absatzabrufdaten aus drei verschiedenen Bereichen (E-Commerce, Unterhaltungsvideos und Medizin). Basierend auf den Protokolldaten der Sogou-Suche wurden auch Datensätze wie Sogou-SRR, Sogou-QCL und Tiangong-PDR vorgeschlagen.
Abbildung 1: Statistik häufig verwendeter Datensätze in Absatzsortieraufgaben# 🎜 🎜#Obwohl vorhandene Datensätze die Entwicklung von Anwendungen zum Sortieren von Absätzen gefördert haben, müssen wir auch einige Einschränkungen beachten: # 🎜🎜#
1) Diese Datensätze sind nicht umfangreich oder die Relevanzbezeichnungen werden nicht manuell mit Anmerkungen versehen, insbesondere im chinesischen Szenario. Sogou-SRR und Tiangong-PDR enthalten nur eine kleine Menge an Abfragedaten. Obwohl mMarco-Chinesisch und Sogou-QCL einen größeren Umfang haben, basiert ersteres auf maschineller Übersetzung und letzteres verwendet Relevanzbezeichnungen als Benutzerklickdaten. Kürzlich wurden zwei relativ große Datensätze, Multi-CPR und DuReader_retrieval, erstellt und veröffentlicht.
2) Vorhandene Datensätze verfügen nicht über feinkörnige Korrelationsannotationsinformationen. Die meisten Datensätze verwenden binäre Korrelationsannotationen (grobkörnig), dh relevant oder irrelevant. Bestehende Arbeiten haben gezeigt, dass feinkörnige Korrelationsannotationsinformationen dabei helfen können, die Beziehungen zwischen verschiedenen Entitäten zu ermitteln und genauere Ranking-Algorithmen zu erstellen. Dann gibt es vorhandene Datensätze, die keine oder nur eine geringe Menge an feinkörnigen Anmerkungen auf mehreren Ebenen bereitstellen. Beispielsweise bieten Sogou-SRR oder Tiangong-PDR nur feinkörnige Anmerkungen mit maximal 100.000.
3) Das Problem falsch negativer Beispiele beeinträchtigt die Genauigkeit der Bewertung. Bestehende Datensätze sind vom Problem falsch negativer Beispiele betroffen, bei dem eine große Anzahl relevanter Dokumente als irrelevant markiert wird. Dieses Problem wird durch die geringe Anzahl manueller Anmerkungen in großen Datenmengen verursacht, die die Genauigkeit der Auswertung erheblich beeinträchtigen. Beispielsweise wird in Multi-CPR für jeden Suchbegriff nur ein Absatz als relevant markiert, während die anderen als irrelevant markiert werden. DuReader_retrieval versucht, das Problem falsch-negativer Ergebnisse zu lindern, indem der Annotator den ersten Satz von Absätzen manuell prüfen und erneut kommentieren lässt.
Um Absatzsortierungsmodelle für qualitativ hochwertige Schulung und Bewertung besser zu unterstützen, haben wir einen neuen Benchmark-Datensatz zum Abrufen chinesischer Absätze erstellt und veröffentlicht – T# 🎜🎜# 2Ranking.
DatensatzkonstruktionsprozessDer Datensatzkonstruktionsprozess umfasst Abfragewort-Sampling, Dokumentenabruf, Absatzextraktion und feinkörnige Relevanzanmerkung. Gleichzeitig haben wir auch mehrere Methoden entwickelt, um die Qualität des Datensatzes zu verbessern, einschließlich der Verwendung modellbasierter Absatzsegmentierungsmethoden und Clustering-basierter Absatzdeduplizierungsmethoden, um die semantische Integrität und Vielfalt der Absätze sicherzustellen, sowie die Verwendung aktiver Lernmethoden. basierte Annotationsmethoden zur Verbesserung der Effizienz und Qualität der Annotation usw.
1) Gesamtprozess
- Abfragewort Stichprobenerhebung: Wir haben von echten Benutzern übermittelte Abfragebegriffe aus den Suchprotokollen der Sogou-Suchmaschine abgetastet und nach Deduplizierung und Normalisierung den ersten Satz von Abfragebegriffen erhalten. Als Nächstes verwenden wir den Absichtsanalysealgorithmus, um pornografische Abfragen, Nicht-Frage-Abfragen, Ressourcenanwendungsabfragen und Abfragen, die möglicherweise Benutzerinformationen enthalten, zu entfernen und so sicherzustellen, dass der endgültige Abfragedatensatz nur hochwertige Abfragen mit Frageattributen enthält.
- Dokumentenrückruf: Basierend auf den Stichproben von Suchbegriffen haben wir Dokumentenkandidatensätze aus mehreren Mainstream-Suchmaschinen wie Sogou, Baidu und Google abgerufen und diese Suchvorgänge vollständig in die Suchmaschine integriert Fähigkeit, Dokumente zu indizieren und zu sortieren. Da diese Suchmaschinen in der Lage sind, verschiedene Teile der Internetdaten abzudecken und unterschiedliche Dokumentergebnisse zurückzugeben, können sie die Vollständigkeit des Dokumentkandidatensatzes verbessern und das Problem falscher Negative bis zu einem gewissen Grad lindern.
- Absatzextraktion: Der Absatzextraktionsschritt umfasst die Absatzsegmentierung und Deduplizierung. Anstatt heuristische Methoden zum Segmentieren von Absätzen in Dokumenten zu verwenden (z. B. die herkömmliche Bestimmung des Anfangs und Endes eines Absatzes durch Zeilenumbrüche), trainieren wir ein Absatzsemantikmodell, um eine Absatzsegmentierung durchzuführen, um die semantische Integrität jedes Absatzes so weit wie möglich sicherzustellen. Darüber hinaus führen wir eine auf Clustering basierende Technologie ein, um die Effizienz der Anmerkungen zu verbessern und die Vielfalt der mit Anmerkungen versehenen Absätze sicherzustellen. Mit dieser Technologie können sehr ähnliche Absätze effektiv entfernt werden.
- Feinkörnige Korrelationsannotation: Die eingestellten Annotatoren sind Experten für die Suche nach relevanten Annotationsaufgaben und beschäftigen sich seit langem mit der Annotationsarbeit. Für jedes Abfrage-Absatz-Paar stellen mindestens drei Annotatoren Anmerkungen bereit. Wenn die Annotationsergebnisse der drei Annotatoren inkonsistent sind, werden wir zusätzliche Annotatoren für die Annotation einführen. Wenn die Ergebnisse der vier Annotatoren inkonsistent sind, denken wir tendenziell, dass das Wort-Absatz-Paar der Abfrage zu vage, von geringer Qualität und inkonsistent ist auch in der Lage, die erforderlichen Informationen zu ermitteln, wodurch das Abfragebegriff-Absatz-Paar aus dem Datensatz ausgeschlossen wird. Die endgültige Relevanzbezeichnung legen wir durch Mehrheitsentscheidung fest. Die von uns übernommene 4-stufige Relevanzanmerkungsrichtlinie steht im Einklang mit dem TREC-Benchmark.
- Stufe 0: Es besteht keine Korrelation zwischen dem Suchbegriff und dem Absatzinhalt
- Stufe 1: Absatzinhalt Relevant für den Suchbegriff, erfüllt aber nicht den Informationsbedarf des Suchbegriffs
- Stufe 2: Der Absatzinhalt ist für den Suchbegriff relevant und kann teilweise den Informationsbedarf des Suchbegriffs erfüllen#🎜🎜 # Stufe 3: Der Absatzinhalt kann den Informationsbedarf des Suchbegriffs vollständig erfüllen und enthält genaue Antworten.
Abbildung 2: Beispiel einer Wikipedia-Seite. Das vorgelegte Dokument enthält klar definierte Absätze.
2) Modellbasierte Methode zur Absatzsegmentierung
In vorhandenen Datensätzen werden Absätze in der Regel anhand natürlicher Absätze (Zeilenumbrüche) oder durch Schiebefenster mit fester Länge aus Dokumenten segmentiert. Beide Methoden können jedoch dazu führen, dass Absätze semantisch unvollständig oder zu lang sind und mehrere unterschiedliche Themen enthalten. In dieser Arbeit haben wir eine modellbasierte Methode zur Absatzsegmentierung übernommen. Als Trainingsdaten haben wir insbesondere die Sogou-Enzyklopädie, die Baidu-Enzyklopädie und die chinesische Wikipedia verwendet, da die Struktur dieses Teils des Dokuments relativ klar ist und auch die natürlichen Absätze erhalten werden eine bessere Definition. Wir haben ein Segmentierungsmodell trainiert, um zu bestimmen, ob ein bestimmtes Wort ein Segmentierungspunkt sein muss. Wir haben die Idee von Sequenzmarkierungsaufgaben genutzt und das letzte Wort jedes natürlichen Segments als positives Beispiel zum Trainieren des Modells verwendet. 3) Auf Clustering basierende Methode zur Deduplizierung von Absätzen Basierend auf der Methode zur Deduplizierung von Absätzen, um die Effizienz der Anmerkung zu verbessern. Insbesondere verwenden wir Ward, einen hierarchischen Clustering-Algorithmus, um ein unbeaufsichtigtes Clustering ähnlicher Dokumente durchzuführen. Absätze in derselben Klasse gelten als sehr ähnlich, und wir stichprobenartig einen Absatz aus jeder Klasse zur Relevanzanmerkung. Es ist zu beachten, dass wir diesen Vorgang nur am Trainingssatz durchführen. Für den Testsatz werden wir alle extrahierten Absätze vollständig mit Anmerkungen versehen, um die Auswirkungen falsch negativer Beispiele zu verringern. Abbildung 3: Sampling-Annotation-Prozess basierend auf aktivem Lernen Alle Trainingsbeispiele können die Leistung des Ranking-Modells weiter verbessern. Für Trainingsbeispiele, die das Modell genau vorhersagen kann, ist die Trainingshilfe für nachfolgende Modelle begrenzt. Daher haben wir die Idee des aktiven Lernens übernommen, um dem Modell die Auswahl informativerer Trainingsbeispiele für die weitere Annotation zu ermöglichen. Konkret haben wir zunächst ein auf dem Cross-Encoder-Framework basierendes Neuordnungsmodell für Abfragen trainiert. Anschließend haben wir dieses Modell verwendet, um andere Daten vorherzusagen und übermäßige Konfidenzwerte (Informationsgehalt (niedrig)) zu entfernen Ermitteln Sie einen niedrigen Konfidenzwert (verrauschte Daten), kommentieren Sie die beibehaltenen Absätze weiter und wiederholen Sie diesen Prozess.
DatensatzstatistikT2
Das Ranking besteht aus über 300.000 echten Suchanfragen und 2 Millionen Internetabsätzen. Darunter enthält der Trainingssatz etwa 250.000 Abfragewörter und der Testsatz etwa 50.000 Abfragewörter. Suchbegriffe können bis zu 40 Zeichen lang sein, wobei die durchschnittliche Länge etwa 11 Zeichen beträgt. Gleichzeitig decken die Abfragewörter im Datensatz mehrere Bereiche ab, darunter Medizin, Bildung, E-Commerce usw. Wir haben auch den Diversity Score (ILS) der Abfragewörter berechnet und unsere Abfragevielfalt mit vorhandenen Datensätzen verglichen ist höher. Aus 1,75 Millionen Dokumenten wurden mehr als 2,3 Millionen Absätze ausgewählt, und jedes Dokument war im Durchschnitt in 1,3 Absätze unterteilt. Im Trainingssatz wurden durchschnittlich 6,25 Absätze pro Abfragebegriff manuell mit Anmerkungen versehen, während im Testsatz durchschnittlich 15,75 Absätze pro Abfragebegriff manuell mit Anmerkungen versehen wurden.
Abbildung 4: Domänenverteilung von Abfragewörtern im Datensatz
Abbildung 5: Relevanzannotationsverteilung
Experimentelle Ergebnisse häufig verwendeter Modelle
Wir haben die Leistung einiger häufig verwendeter Absatzsortierungsmodelle anhand des erhaltenen Datensatzes getestet. Wir haben auch die Leistung vorhandener Absätze in zwei Stufen bewertet des Abrufs und der Neuordnung von Absätzen.
1) Absatz-Recall-Experiment
Vorhandene Absätze Recall-Modelle kann grob in Sparse-Recall-Modelle und Dense-Recall-Modelle unterteilt werden.
- Sparse-Recall-Modelle konzentrieren sich auf exakt passende Signale, um Relevanzbewertungsfunktionen zu entwerfen. BM25 ist beispielsweise das repräsentativste Benchmark-Modell.
- Das dichte Rückrufmodell verwendet ein tiefes neuronales Netzwerk, um niedrigdimensionale dichte Vektoren zu lernen, um Abfragewörter und Absätze darzustellen. Wir haben die Leistung der folgenden Rückrufmodelle getestet: (Abfragewahrscheinlichkeit): QL ist ein repräsentatives statistisches Sprachmodell, das die Relevanz basierend auf der Wahrscheinlichkeit bewertet, dass ein Absatz einen bestimmten Abfragebegriff generiert.
BM25: Ein häufig verwendetes Sparse-Recall-Benchmark-Modell.
- DE mit BM25 Neg: DPR-Modell, Dual-Tower-Encoder-Struktur (Dual-Encoder), dieses Modell ist das erste, das ein vorab trainiertes Sprachmodell verwendet Das Rückgrat Ein gerahmtes Absatzrückrufmodell.
- DE w/Mined Neg: Dual-Encoder-Struktur, die die Leistung des DPR-Modells verbessert, indem harte negative Beispiele aus dem gesamten Korpus abgerufen werden.
- DPTDR: Das Rückrufmodell für den ersten Absatz mit Prompt-Tuning.
- Unter diesen Modellen sind QL und BM25 spärliche Rückrufmodelle und die anderen Modelle sind dichte Rückrufmodelle. Wir verwenden gängige Indikatoren wie MRR und Recall, um die Leistung dieser Modelle zu bewerten. Die experimentellen Ergebnisse sind in der folgenden Tabelle dargestellt: Abbildung 6: Leistung des Absatzrückrufmodells auf dem Testsatz #🎜 🎜#
- Aus den experimentellen Ergebnissen geht hervor, dass das Dense-Retrieval-Modell im Vergleich zum herkömmlichen Sparse-Sorting-Modell eine bessere Leistung erzielte. Gleichzeitig ist die Einführung von schwer zu negativen Beispielen auch hilfreich, um die Leistung des Modells zu verbessern. Es ist erwähnenswert, dass die Rückrufleistung dieser experimentellen Modelle in unserem Datensatz schlechter ist als in anderen Datensätzen. Beispielsweise beträgt der Recall@50 von BM25 in unserem Datensatz 0,492, während er in MS-Marco und Dureader_retrieval 0,601 und 0,700 beträgt . Dies kann auf die Tatsache zurückzuführen sein, dass wir im Testsatz mehr Absätze haben, die manuell mit Anmerkungen versehen wurden. Wir haben durchschnittlich 4,74 relevante Dokumente pro Abfragebegriff, was die Rückrufaufgabe anspruchsvoller macht und falsch-negative Ergebnisse bis zu einem gewissen Grad reduziert . Problem. Dies zeigt auch, dass es sich bei T2Ranking um einen anspruchsvollen Benchmark-Datensatz handelt, der großes Verbesserungspotenzial für zukünftige Recall-Modelle bietet.
2) Experiment zur Neuordnung von Absätzen
Abbildung 7: Leistung des interaktiven Encoders bei der Aufgabe zur Neuordnung von Absätzen
Die experimentellen Ergebnisse zeigen, dass bei der Twin-Tower-Kodierung eine Neuanordnung auf der Grundlage der von Dual-Encoder abgerufenen Absätze bessere Ergebnisse erzielen kann als eine Neuanordnung auf der Grundlage der von BM25 abgerufenen Absätze steht im Einklang mit den experimentellen Schlussfolgerungen bestehender Arbeiten. Ähnlich wie beim Recall-Experiment ist die Leistung des Reranking-Modells in unserem Datensatz schlechter als in anderen Datensätzen, was möglicherweise an der feinkörnigeren Annotation und der höheren Abfragewortvielfalt unseres Datensatzes liegt ist anspruchsvoll und kann die Modellleistung genauer widerspiegeln.
Einführung in das Datensatzveröffentlichungsteam
Der Datensatz wurde gemeinsam von der Information Retrieval Research Group (THUIR) der Fakultät für Informatik der Tsinghua-Universität und dem Team des QQ Browser Search Technology Center von Tencent veröffentlicht und von unterstützt das Tiangong Intelligent Computing Research Institute der Tsinghua-Universität. Die THUIR-Forschungsgruppe konzentriert sich auf die Forschung zu Such- und Empfehlungsmethoden und hat typische Ergebnisse bei der Modellierung des Benutzerverhaltens und erklärbaren Lernmethoden erzielt. Zu den Erfolgen der Forschungsgruppe gehören der WSDM2022 Best Paper Award, der SIGIR2020 Best Paper Nomination Award und der CIKM2018 Best Paper eine Reihe akademischer Auszeichnungen, darunter der erste Preis der Chinesischen Informationsgesellschaft „Qian Weichang Chinese Information Processing Science and Technology Award“ 2020. Das Team des QQ Browser Search Technology Center ist für die Suchtechnologieforschung und -entwicklung der Tencent PCG Information Platform und Service Line verantwortlich. Es stützt sich auf das Content-Ökosystem von Tencent und treibt Produktinnovationen durch Benutzerforschung voran, um Benutzern Grafiken, Informationen, Romane usw. zur Verfügung zu stellen und kurze Videos, Dienstleistungen usw. Der Orientierungsinformationsbedarf wird gedeckt.
Das obige ist der detaillierte Inhalt vonVeröffentlichter Benchmark-Datensatz für die Sortierung chinesischer Absätze: basierend auf 300.000 echten Abfragen und 2 Millionen Internetabsätzen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Der Begriff "AI-fähige Belegschaft" wird häufig verwendet, aber was bedeutet das in der Lieferkettenindustrie wirklich? Nach Abe Eshkenazi, CEO des Association for Supply Chain Management (ASCM), bedeutet dies Fachkräfte, die kritisch sind

Die dezentrale KI -Revolution gewinnt leise an Dynamik. An diesem Freitag in Austin, Texas, markiert der Bittensor Endgame Summit einen entscheidenden Moment, in dem die dezentrale KI (DEAI) von Theorie zu praktischer Anwendung übergeht. Im Gegensatz zum glitzernden Werbespot

Enterprise KI steht vor der Datenintegrationsprobleme Die Anwendung von Enterprise KI steht vor einer großen Herausforderung: Aufbau von Systemen, die die Genauigkeit und Praktikabilität durch kontinuierlich lernende Geschäftsdaten aufrechterhalten können. NEMO Microservices lösen dieses Problem, indem er das erstellt, was NVIDIA als "Datenschwungrad" beschreibt und KI -Systemen durch kontinuierliche Exposition gegenüber Unternehmensinformationen und Benutzerinteraktion relevant bleibt. Dieses neu gestartete Toolkit enthält fünf wichtige Microservices: Nemo Customizer behandelt die Feinabstimmung großer Sprachmodelle mit höherem Trainingsdurchsatz. NEMO Evaluator bietet eine vereinfachte Bewertung von KI -Modellen für benutzerdefinierte Benchmarks. NEMO -Leitplanken implementiert Sicherheitskontrollen, um die Einhaltung und Angemessenheit aufrechtzuerhalten

AI: Die Zukunft von Kunst und Design Künstliche Intelligenz (KI) verändert das Kunst- und Designgebiet auf beispiellose Weise, und seine Auswirkungen beschränken sich nicht mehr auf Amateure, sondern beeinflussen jedoch die Fachkräfte. Kunstwerke und Designschemata, die von KI erzeugt wurden, ersetzen traditionelle materielle Bilder und Designer in vielen Transaktionsdesignaktivitäten wie Werbung, Social -Media -Bildgenerierung und Webdesign schnell. Professionelle Künstler und Designer finden jedoch auch den praktischen Wert von KI. Sie verwenden AI als Hilfsmittel, um neue ästhetische Möglichkeiten zu erforschen, verschiedene Stile zu mischen und neuartige visuelle Effekte zu erzeugen. KI hilft Künstlern und Designer, sich wiederholende Aufgaben zu automatisieren, verschiedene Designelemente vorzuschlagen und kreative Eingaben zu leisten. AI unterstützt den Stiltransfer, der einen Bildstil anwenden soll

Zoom, ursprünglich für seine Video -Konferenz -Plattform bekannt, führt eine Revolution am Arbeitsplatz mit der innovativen Nutzung der Agenten -KI. Ein aktuelles Gespräch mit Zooms CTO, XD Huang, enthüllte die ehrgeizige Vision des Unternehmens. Definieren von Agenten AI Huang d

Wird AI die Bildung revolutionieren? Diese Frage führt zu ernsthafter Reflexion unter Pädagogen und Stakeholdern. Die Integration von KI in Bildung bietet sowohl Chancen als auch Herausforderungen. Wie Matthew Lynch von The Tech Edvocate bemerkt, Universität

Die Entwicklung wissenschaftlicher Forschung und Technologie in den Vereinigten Staaten kann vor Herausforderungen stehen, möglicherweise aufgrund von Budgetkürzungen. Nach der Natur stieg die Zahl der amerikanischen Wissenschaftler, die sich für Arbeitsplätze in Übersee bewerben, von Januar bis März 2025 im Vergleich zum gleichen Zeitraum von 2024 um 32%. Eine frühere Umfrage ergab, dass 75% der untersuchten Forscher über die Suche nach Arbeitsplätzen in Europa und Kanada in Betracht gezogen wurden. In den letzten Monaten wurden Hunderte von NIH- und NSF-Zuschüssen beendet, wobei die neuen Zuschüsse von NIH in diesem Jahr um etwa 2,3 Milliarden US-Dollar gesunken sind, ein Rückgang von fast einem Drittel. Der durchgesickerte Haushaltsvorschlag zeigt, dass die Trump -Administration mit einer möglichen Reduzierung von um bis zu 50%ein starkes Budget für wissenschaftliche Institutionen in Betracht zieht. Die Turbulenzen auf dem Gebiet der Grundlagenforschung haben sich auch auf einen der Hauptvorteile der Vereinigten Staaten ausgewirkt: die Gewinnung von Talenten in Übersee. 35

OpenAI enthüllt die leistungsstarke GPT-4.1-Serie: eine Familie von drei fortschrittlichen Sprachmodellen für reale Anwendungen. Dieser signifikante Sprung nach vorne bietet schnellere Reaktionszeiten, verbessertes Verständnis und drastisch reduzierte Kosten im Vergleich t t


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

EditPlus chinesische Crack-Version
Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

Herunterladen der Mac-Version des Atom-Editors
Der beliebteste Open-Source-Editor

MinGW – Minimalistisches GNU für Windows
Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

Dreamweaver CS6
Visuelle Webentwicklungstools

SecLists
SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.
