Heim >Betrieb und Instandhaltung >Betrieb und Wartung von Linux >So entfernen Sie doppelte Statistiken unter Linux
Die Linux-Befehlszeile bietet sehr leistungsstarke Textverarbeitungsfunktionen, und viele leistungsstarke Funktionen können durch die Kombination von Linux-Befehlen erreicht werden. Dieser Artikel enthält ein Beispiel für die Verwendung der Linux-Befehlszeile, um Text zeilenweise zu deduplizieren und nach der Anzahl der Wiederholungen zu sortieren. Die wichtigsten verwendeten Befehle sind sort, uniq und cut. Unter diesen besteht die Hauptfunktion von sort darin, zu sortieren, und die Hauptfunktion von uniq besteht darin, die Deduplizierung benachbarter Textzeilen zu realisieren, und cut kann die entsprechenden Textspalten aus den Textzeilen extrahieren (einfach ausgedrückt besteht es darin, die Textzeilen zu bearbeiten). nach Spalten).
Textzeilen werden dedupliziert und nach der Anzahl der Wiederholungen sortiert
Beispiel:
Deduplizieren Sie zunächst die Textzeilen und zählen Sie die Anzahl der Wiederholungen (durch Hinzufügen der Option -c zum Befehl uniq kann die Anzahl der Wiederholungen gezählt werden).
$ sort test.txt | uniq -c 2 Apple and Nokia. 4 Hello World. 1 I wanna buy an Apple device. 1 My name is Friendfish. 2 The Iphone of Apple company.
Textzeilen nach der Anzahl der Wiederholungen sortieren.
sort -n kann die Zahl am Anfang jeder Zeile identifizieren und die Textzeilen nach ihrer Größe sortieren. Standardmäßig wird in aufsteigender Reihenfolge sortiert. Wenn Sie in absteigender Reihenfolge sortieren möchten, fügen Sie die Option -r (sort -rn) hinzu.
$ sort test.txt | uniq -c | sort -rn 4 Hello World. 2 The Iphone of Apple company. 2 Apple and Nokia. 1 My name is Friendfish.
Die Anzahl der gelöschten Duplikate vor jeder Zeile. Mit dem Befehl
Ausschneiden können Textzeilen spaltenweise bearbeitet werden. Es ist ersichtlich, dass die vorherige Anzahl von Wiederholungen 8 Zeichen einnimmt. Daher können Sie den Befehl cut -c 9- verwenden, um das 9. und die folgenden Zeichen jeder Zeile zu entfernen.
$ sort test.txt | uniq -c | sort -rn | cut -c 9- Hello World. The Iphone of Apple company. Apple and Nokia. My name is Friendfish. I wanna buy an Apple device.
Das obige ist der detaillierte Inhalt vonSo entfernen Sie doppelte Statistiken unter Linux. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!