cari
RumahTutorial sistemLINUXKeperluan analisis data Linux: 9 arahan praktikal

Keperluan analisis data Linux: 9 arahan praktikal

Feb 14, 2024 pm 08:18 PM
linuxtutorial linuxsistem linuxarahan linuxfail csvskrip shellembeddedlinuxBermula dengan linuxpembelajaran linux

Analisis data ialah salah satu kemahiran paling popular hari ini. Ia boleh membantu kami mengekstrak maklumat berharga daripada sejumlah besar data untuk menyokong pembuatan keputusan dan inovasi. Walau bagaimanapun, untuk menjalankan analisis data yang berkesan, kita bukan sahaja perlu menguasai teori dan kaedah yang berkaitan, tetapi juga perlu mahir dalam menggunakan beberapa alat dan platform. Sistem Linux ialah salah satu sistem pengendalian yang biasa digunakan oleh penganalisis data Ia menyediakan banyak arahan yang berkuasa dan fleksibel yang boleh membantu kami menangani pelbagai masalah data. Artikel ini akan memperkenalkan anda kepada 9 arahan yang biasa digunakan untuk analisis data di bawah sistem Linux, serta fungsi dan penggunaannya. Sama ada anda baru menggunakan Linux atau veteran, arahan ini akan menjadikan analisis data anda berfungsi dengan lebih cekap dan mudah.

Keperluan analisis data Linux: 9 arahan praktikal

1. Kepala dan ekor

Pertama, mari kita mulakan dengan pemprosesan fail. Apakah kandungan dalam fail itu? Apakah formatnya? Anda boleh menggunakan arahan kucing untuk memaparkan fail dalam terminal, tetapi ia jelas tidak sesuai untuk memproses fail dengan kandungan yang panjang.

Masukkan kepala dan ekor, yang boleh memaparkan sepenuhnya bilangan baris yang ditentukan dalam fail. Jika anda tidak menyatakan bilangan baris, 10 daripadanya akan dipaparkan secara lalai.

1. $ tail -n 3 jan2017articles.csv
2. 02 Jan 2017,Article,Scott Nesbitt,3 tips for effectively using wikis for documentation,1
,/article/17/1/tips-using-wiki-documentation,"Documentation, Wiki",710
3. 02 Jan 2017,Article,Jen Wike Huger,The Opensource.com preview for January,0,/article/17
/1/editorial-preview-january,,358
4. 02 Jan 2017,Poll,Jason Baker,What is your open source New Year's resolution?,1,/poll/1
7/1/what-your-open-source-new-years-resolution,,186

Dalam tiga baris terakhir, saya dapat mencari tarikh, nama pengarang, tajuk dan beberapa maklumat lain. Walau bagaimanapun, disebabkan kekurangan pengepala lajur, saya tidak tahu maksud khusus setiap lajur. Lihat tajuk khusus untuk setiap lajur di bawah:

1. $ head -n 1 jan2017articles.csv
2. Post date,Content type,Author,Title,Comment count,Path,Tags,Word count

Sekarang semuanya sangat jelas, kita dapat melihat tarikh penerbitan, jenis kandungan, pengarang, tajuk, bilangan penyerahan, URL berkaitan, tag untuk setiap artikel, dan jumlah perkataan.

二、wc

Tetapi bagaimana jika anda perlu menganalisis ratusan atau bahkan ribuan artikel Di sini anda perlu menggunakan arahan wc - yang merupakan singkatan daripada "bilangan perkataan". wc boleh mengira bait, aksara, perkataan atau baris fail. Dalam contoh ini, kami ingin mengetahui bilangan baris dalam artikel.

  1. $ wc -l jan2017articles.csv 93 jan2017articles.csv

Fail ini mempunyai 93 baris secara keseluruhannya Memandangkan baris pertama mengandungi tajuk fail, boleh dibuat spekulasi bahawa fail ini ialah senarai 92 artikel.

Tiga, grep

Persoalan baharu ditimbulkan di bawah: Berapa banyak daripada artikel ini berkaitan dengan topik keselamatan Untuk mencapai matlamat, kami menganggap bahawa artikel yang diperlukan akan menyebut perkataan keselamatan dalam tajuk, teg atau kedudukan lain. Pada masa ini, alat grep boleh digunakan untuk mencari fail mengikut aksara tertentu atau melaksanakan corak carian lain. Ini adalah alat yang sangat berkuasa kerana kami juga boleh mencipta corak padanan yang sangat tepat menggunakan ungkapan biasa. Tetapi di sini, kita hanya perlu mencari rentetan yang mudah.

1. $ grep -i "security" jan2017articles.csv
2. 30 Jan 2017,Article,Tiberius Hefflin,4 ways to improve your security online right now,3,
/article/17/1/4-ways-improve-your-online-security,Security and encryption,1242
3. 28 Jan 2017,Article,Subhashish Panigrahi,How communities in India support privacy and 
software freedom,0,/article/17/1/how-communities-india-support-privacy-software-freedom,Security and encryption,453
4. 27 Jan 2017,Article,Alan Smithee,Data Privacy Day 2017: Solutions for everyday privacy
,5,/article/17/1/every-day-privacy,"Big data, Security and encryption",1424
5. 04 Jan 2017,Article,Daniel J Walsh,50 ways to avoid getting hacked in 2017,14,/article
/17/1/yearbook-50-ways-avoid-getting-hacked,"Yearbook, 2016 Open Source Yearbook, Security and encryption, Containers, Docker,
 Linux",2143

我们使用的格式为grep加-i标记(告知grep不区分大小写),再加我们希望搜索的模式,最后是我们所搜索的目标文件的

位置。最后我们找到了

4 artikel berkaitan keselamatan. Jika skop carian lebih khusus, kita boleh menggunakan paip - ia boleh menggabungkan grep dengan arahan wc untuk mengetahui berapa banyak baris yang menyebut kandungan keselamatan.

$ grep -i "security" jan2017articles.csv | wc -l 4

Dengan cara ini, wc akan mengekstrak keluaran arahan grep dan menggunakannya sebagai input. Jelas sekali bahawa gabungan ini, ditambah dengan sedikit skrip shell, serta-merta mengubah terminal menjadi alat analisis data yang berkuasa.

Empat, tr

Dalam kebanyakan senario analisis, kami akan menghadapi fail CSV - tetapi bagaimana kami menukarnya kepada format lain untuk kaedah aplikasi yang berbeza Di sini, kami menukarnya kepada bentuk HTML untuk kegunaan data melalui jadual? Perintah tr boleh membantu anda mencapai matlamat ini, ia boleh menukar satu jenis aksara kepada jenis lain. Begitu juga, anda juga boleh menggunakan arahan paip untuk mencapai dok output/input.

Seterusnya, mari cuba satu lagi contoh berbilang bahagian, iaitu mencipta fail TSV (nilai dipisahkan tab) yang hanya mengandungi artikel yang diterbitkan pada 20 Januari.

=$ grep "20 Jan 2017" jan2017articles.csv | tr ',' '/t' > jan20only.tsv

Pertama, kami menggunakan grep untuk pertanyaan tarikh. Kami menyalurkan hasil ini kepada arahan tr dan menggunakan yang terakhir untuk menggantikan semua koma dengan tab (diwakili sebagai '/t'). Tetapi ke manakah hasilnya? Di sini kita menggunakan > aksara untuk mengeluarkan hasil ke fail baharu dan bukannya ke skrin. Dengan cara ini, kami boleh memastikan bahawa fail dqywjan20only.tsv mengandungi data yang dijangkakan.

$ cat jan20only.tsv 20 Jan 2017 Article Kushal Das 5 ways to expand your project's 
contributor base 2 /article/17/1/expand-project-contributor-base Getting started 690 20 Jan 2017 Article D Ruth Bavousett How to write web apps 
in R with Shiny 2 /article/17/1/writing-new-web-apps-shiny Web development 218 20 Jan 2017 Article Jason Baker "Top 5: Shell scripting the
 Cinnamon Linux desktop environment and more" 0 /article/17/1/top-5-january-20 Top 5 214 20 Jan 2017 Article Tracy Miranda How is your community promoting 
diversity? 1 /article/17/1/take-action-diversity-tech Diversity and inclusion 1007

五、sort

如果我们先要找到包含信息最多的特定列,又该如何操作?假设我们需要了解哪篇文章包含最长的新文章列表,那么面对之前得出的1月20日文章列表,我们可以使用sort命令对列字数进行排序。在这种情况下,我们并不需要使用中间文件,而可以继续使用pipe。不过将长命令链拆分成较短的部分往往能够简化整个操作过程。

  1. ‘/t’ -k8 jan20only.tsv | head -n 1
  2. 20 Jan 2017 Article Tracy Miranda How is your community promoting diversity? 1 /article/17/1/take-action-diversity-tech Diversity and inclusion 1007

以上是一条长命令,我们尝试进行拆分。首先,我们使用sort命令对字数进行排序。-nr选项告知sort以数字排序,并将结果进行反向排序(由大到小)。此后的-t则告知其中的分隔符为。其中的要求此shell为一条需要处理的字符串,并将/n返回为tab。而-k8部分则告知sort命令使用第八列,即本示例中进行字数统计的目标列。

最后,输出结果被pipe至head,处理后在结果中显示此文件中包含最多字数的文章标题。

六、sed

大家可能还需要在文件中选择特定某行。这里可以使用sed。如果希望将全部包含标题的多个文件加以合并,并只为整体文件显示一组标题,即需要清除额外内容; 或者希望只提取特定行范围,同样可以使用sed。另外,sed还能够很好地完成批量查找与替换任务。

下面立足之前的文章列表创建一个不含标题的新文件,用于同其他文件合并(例如我们每月都会定期生成某个文件,现在需要将各个月份的内容进行合并)。

  1. $ sed ‘1 d’ jan2017articles.csv > jan17no_headers.csv

其中的“1 d”选项要求sed删除第一行。

七、cut

了解了如何删除行,那么我们该如何删除列?或者说如何只选定某一列?下面我们尝试为之前生成的列表创建一份新的作者清单。

  1. $ cut -d’,’ -f3 jan17no_headers.csv > authors.txt

在这里,通过cut与-d相配合代表着我们需要第三列(-f3),并将结果发送至名为authors.txt的新文件。

八、uniq

作者清单已经完成,但我们要如何知悉其中包含多少位不同的作者?每位作者又各自编写了多少篇文章?这里使用unip。下面我们对文件进行sort排序,找到唯一值,而后计算每位作者的文章数量,并用结果替换原本内容。

  1. sort authors.txt | uniq -c > authors.txt

现在已经可以看到每位作者的对应文章数,下面检查最后三行以确保结果正确。

  1. $ tail -n3 authors-sorted.txt
  2. 1 Tracy Miranda
  3. 1 Veer Muchandi
  4. 3 VM (Vicky) Brasseur

九、awk

最后让我们了解最后一款工具,awk。awk是一款出色的替换性工具,当然其功能远不止如此。下面我们重新回归1月12日文章列表TSV文件,利用awk创建新列表以标明各篇文章的作者以及各作者编写的具体字数。

  1. $ awk -F “/t” ‘{print NF}’ jan20only.tsv
  2. Kushal Das 690
  3. D Ruth Bavousett 218
  4. Jason Baker 214
  5. Tracy Miranda 1007

The -F "/t" digunakan untuk memberitahu awk bahawa ia sedang memproses data yang dipisahkan oleh tab. Di dalam pendakap kerinting, kami menyediakan awk dengan kod pelaksanaan. bermakna ia akan mengeluarkan baris ketiga, manakala NF bermaksud ia akan mengeluarkan baris terakhir (iaitu singkatan 'bilangan medan'), dan menambah dua ruang antara dua keputusan untuk pembahagian yang jelas.

Walaupun contoh yang disenaraikan di sini berskala kecil dan nampaknya tidak memerlukan penggunaan alatan di atas, jika skop dikembangkan kepada fail yang mengandungi 93,000 baris, maka jelas sukar untuk menggunakan program hamparan untuk diproses.

Menggunakan alatan mudah dan skrip kecil ini, anda boleh mengelak daripada menggunakan alatan pangkalan data dan menyelesaikan sejumlah besar kerja statistik data dengan mudah. Sama ada anda seorang profesional atau amatur, peranannya tidak boleh diabaikan.

Melalui artikel ini, anda telah mengetahui tentang 9 arahan yang biasa digunakan untuk analisis data di bawah sistem Linux, serta fungsi dan penggunaannya. Perintah ini meliputi operasi fail, pengurusan direktori, ubah hala keluaran, paip, pautan, dsb., dan boleh membantu anda melaksanakan pelbagai pemprosesan dan analisis data di bawah sistem Linux. Sudah tentu, arahan ini hanyalah sebahagian daripada banyak arahan yang disediakan oleh sistem Linux Jika anda ingin mengetahui lebih lanjut tentang sistem Linux dan analisis data, anda masih perlu terus meneroka dan berlatih. Saya harap artikel ini boleh membantu anda untuk belajar dan bekerja. Anda juga dialu-alukan untuk berkongsi arahan Linux praktikal lain yang anda gunakan atau temui.

Atas ialah kandungan terperinci Keperluan analisis data Linux: 9 arahan praktikal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:良许Linux教程网. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Adakah sukar untuk belajar Linux?Adakah sukar untuk belajar Linux?Apr 18, 2025 am 12:23 AM

Pembelajaran Linux tidak sukar. 1.Linux adalah sistem operasi sumber terbuka berdasarkan UNIX dan digunakan secara meluas dalam pelayan, sistem tertanam dan komputer peribadi. 2. Memahami sistem fail dan pengurusan kebenaran adalah kunci. Sistem fail adalah hierarki, dan keizinan termasuk membaca, menulis dan melaksanakan. 3. Sistem pengurusan pakej seperti APT dan DNF menjadikan pengurusan perisian mudah. 4. Pengurusan proses dilaksanakan melalui PS dan arahan teratas. 5. Mula belajar dari arahan asas seperti MKDIR, CD, Touch dan Nano, dan kemudian cuba penggunaan lanjutan seperti skrip shell dan pemprosesan teks. 6. Kesilapan umum seperti masalah kebenaran dapat diselesaikan melalui sudo dan chmod. 7. Cadangan Pengoptimuman Prestasi termasuk menggunakan HTOP untuk memantau sumber, membersihkan fail yang tidak perlu, dan menggunakan SY

Apakah gaji Pentadbir Linux?Apakah gaji Pentadbir Linux?Apr 17, 2025 am 12:24 AM

Purata gaji tahunan pentadbir Linux ialah $ 75,000 hingga $ 95,000 di Amerika Syarikat dan € 40,000 hingga € 60,000 di Eropah. Untuk meningkatkan gaji, anda boleh: 1. Secara berterusan mempelajari teknologi baru, seperti pengkomputeran awan dan teknologi kontena; 2. Mengumpulkan pengalaman projek dan menubuhkan portfolio; 3. Mewujudkan rangkaian profesional dan mengembangkan rangkaian anda.

Apakah tujuan utama Linux?Apakah tujuan utama Linux?Apr 16, 2025 am 12:19 AM

Penggunaan utama Linux termasuk: 1. Sistem Operasi Pelayan, 2. Sistem Terbenam, 3. Linux cemerlang dalam bidang ini, menyediakan kestabilan, keselamatan dan alat pembangunan yang cekap.

Adakah Internet berjalan di Linux?Adakah Internet berjalan di Linux?Apr 14, 2025 am 12:03 AM

Internet tidak bergantung pada sistem operasi tunggal, tetapi Linux memainkan peranan penting di dalamnya. Linux digunakan secara meluas dalam pelayan dan peranti rangkaian dan popular untuk kestabilan, keselamatan dan skalabiliti.

Apakah operasi Linux?Apakah operasi Linux?Apr 13, 2025 am 12:20 AM

Inti sistem pengendalian Linux adalah antara muka baris arahannya, yang boleh melakukan pelbagai operasi melalui baris arahan. 1. Operasi Fail dan Direktori Gunakan LS, CD, MKDIR, RM dan arahan lain untuk menguruskan fail dan direktori. 2. Pengguna dan Pengurusan Kebenaran Memastikan keselamatan sistem dan peruntukan sumber melalui UserAdd, Passwd, CHMOD dan arahan lain. 3. Pengurusan proses menggunakan PS, membunuh dan arahan lain untuk memantau dan mengawal proses sistem. 4. Operasi rangkaian termasuk PING, IFCONFIG, SSH dan arahan lain untuk mengkonfigurasi dan menguruskan sambungan rangkaian. 5. Pemantauan sistem dan penyelenggaraan sistem seperti TOP, DF, DU untuk memahami status operasi sistem dan penggunaan sumber.

Meningkatkan Produktiviti dengan Pintasan Perintah Custom Menggunakan Linux AliasesMeningkatkan Produktiviti dengan Pintasan Perintah Custom Menggunakan Linux AliasesApr 12, 2025 am 11:43 AM

Pengenalan Linux adalah sistem operasi yang kuat yang disukai oleh pemaju, pentadbir sistem, dan pengguna kuasa kerana fleksibiliti dan kecekapannya. Walau bagaimanapun, kerap menggunakan arahan panjang dan kompleks boleh membosankan dan er

Apa yang sebenarnya Linux?Apa yang sebenarnya Linux?Apr 12, 2025 am 12:20 AM

Linux sesuai untuk pelayan, persekitaran pembangunan, dan sistem tertanam. 1. Sebagai sistem pengendalian pelayan, Linux stabil dan cekap, dan sering digunakan untuk menggunakan aplikasi konkurasi tinggi. 2. Sebagai persekitaran pembangunan, Linux menyediakan alat arahan dan sistem pengurusan pakej yang cekap untuk meningkatkan kecekapan pembangunan. 3. Dalam sistem tertanam, Linux ringan dan disesuaikan, sesuai untuk persekitaran dengan sumber yang terhad.

Alat dan kerangka penting untuk menguasai penggodaman etika di LinuxAlat dan kerangka penting untuk menguasai penggodaman etika di LinuxApr 11, 2025 am 09:11 AM

Pengenalan: Mengamankan sempadan digital dengan penggodaman etika berasaskan Linux Di dunia yang semakin saling berkaitan, keselamatan siber adalah yang paling penting. Ujian penggodaman dan penembusan etika adalah penting untuk mengenal pasti dan mengurangkan keruntuhan secara proaktif

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Versi Mac WebStorm

Versi Mac WebStorm

Alat pembangunan JavaScript yang berguna

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

Dreamweaver Mac版

Dreamweaver Mac版

Alat pembangunan web visual