歡迎光臨
每天分享高質量文章

資料科學家的命令列技巧

來自:開源中國社區

鏈接:https://www.oschina.net/translate/cli-4-ds

原文:http://kadekillary.work/post/cli-4-ds/


對於許多資料科學家來說,資料操作起始於Pandas或Tidyverse。從理論上看,這個概念沒有錯。畢竟,這是為什麼這些工具首先存在的原因。然而,對於分隔符轉換等簡單任務來說,這些選項通常可能是過於重量級了。

有意掌握命令列應該在每個開發人員的技能鏈上,特別是資料科學家。學習shell中的來龍去脈無可否認地會讓你更高效。除此之外,命令列還在計算方面有一次偉大的歷史記錄。例如,awk – 一種資料驅動的腳本語言。Awk首次出現於1977年,它是在傳奇的K&R;一書中的K,Brian Kernighan的幫助下出現的。在今天,大約50年之後,awk仍然與每年出現的新書保持相關聯! 因此,可以肯定的是,對命令列技術的投入不會很快貶值的。

我們會談及的內容


  • ICONV

  • HEAD

  • TR

  • WC

  • SPLIT

  • SORT & UNIQ

  • CUT

  • PASTE

  • JOIN

  • GREP

  • SED

  • AWK


ICONV


檔案編碼總是棘手的問題。目前大部分檔案都是採用的 UTF-8 編碼。要想瞭解 UTF-8 的魔力,可以看看這個優秀的視頻。儘管如此,有時候我們還是會收到非 UTF-8 編碼的檔案。這種情況下就需要嘗試轉碼。iconv 就是這種狀況下的救世主。

iconv 是一個簡單的程式,可以輸入某種編碼的文本,然後以另一種編碼輸出。

# Converting -f (from) latin1 (ISO-8859-1)
# -t (to) standard UTF_8

iconv -f ISO-8859-1 -t UTF-8  output.txt

  • 有用的選項:

    • head -n 輸出指定行

    • head -c 輸出指定的位元組

HEAD


如果你是重度Pandas的用戶,那麼你會對head很熟悉。通常在處理新資料時,我們想要做的第一件事就是瞭解究竟存在那些東西。這會引起Panda啟動,讀取資料,然後呼叫df.head() – 很費勁,至少可以說。head,不需要任何標誌,將輸出檔案的前10行。head真正的能力在於徹查清除操作。 例如,如果我們想將檔案的分隔符從逗號改變為pipe通配符。一個快速測試將是:head mydata.csv | sed ‘s/,/|/g’


# Prints out first 10 lines
head filename.csv
# Print first 3 lines
head -n 3 filename.csv


  • 有用的選項:

    • head -n 輸出指定行

    • head -c 輸出指定的位元組


TR命令


Tr類似於翻譯,它是基於檔案清理的一個強大使用的工具。一個理想的用法是替換檔案中的分隔符。

#將檔案中的製表符分割轉換成逗號
cat tab_delimited.txt | tr "" "," comma_delimited.csv


Tr的另一個特性是在你的處理中設置上所有的[:class:]變數。包括:

[:alnum:] 所有字母和數字
[:alpha:] 所有字母
[:blank:] 所有水平空白
[:cntrl:] 所有控制字符
[:digit:] 所有數字
[:graph:] 所有可打印的字符,不包括空格
[:lower:] 全部小寫字母
[:print:] 所有可打印的字符,包括空格
[:punct:] 所有標點符號
[:space:] 所有的水平或垂直空格
[:upper:] 全部大寫字母
[:xdigit:] 所有十六進制數字


可以將這些多樣化的變數鏈接在一起,組成一個強大的程式。下麵是一個基於字數統計的程式,用來檢查你的README檔案是否使用過度。


cat README.md | tr "[:punct:][:space:]


另外一個例子用於正則運算式


# 將所有的大寫字母轉換成小寫
cat filename.csv | tr '[A-Z]' '[a-z]'

  • 有用的選項:

    • tr -d刪除字符

    • tr -s壓縮字符

    • 退格

    • 換頁

    • 垂直選項卡

    • NNN八進制值為NNN的字符


WC


字數統計。它的價值主要體現在使用 -l 引數可以進行行數統計。


# Will return number of lines in CSV
wc -l gigantic_comma.csv

個用這個工具來驗證各個命令的輸出實在方便。因此,如果我們要在檔案中轉換分隔符,然後運行 wc -l,驗證總行數是相同的。如果不同,我們就知道一定是哪裡出錯了。


  • 常用選項:

    • wc -c 打印位元組數

    • wc -m 打印字符數

    • wc -L 打印最長一行的長度

    • wc -w 打印字數

SPLIT命令


檔案大小可以有顯著變化。根據工作的不同,拆分檔案是有益的,就像split。基本用法如下:

#我們拆分這個CSV檔案,每500行分割為一個新的檔案new_filename

split -l 500 filename.csv new_filename_

# filename.csv
# ls output
# new_filename_aaa
# new_filename_aab
# new_filename_aac


兩個地方很奇怪:一個是命名方式,一個是缺少擴展名。後綴約定可以通過-d標識來數字化。添加檔案擴展名,你需要執行下麵這個find命令。他會給當前檔案夾下的所有檔案追加.csv後綴,所以需要小心使用。


find . -type f -exec mv '{}' '{}'.csv ;

# ls output
# filename.csv.csv
# new_filename_aaa.csv
# new_filename_aab.csv
# new_filename_aac.csv

  • 有效的選項:

    • split -b按特定位元組大小拆分

    • split -a生成長度為N的後綴

    • split -x使用十六進制後綴分割


SORT & UNIQ


前面的命令是顯而易見的:他們按照自己說的做。這兩者提供了最重要的一擊(即去重單詞計數)。這是由於有uniq,它只處理重覆的相鄰行。因此在管道輸出之前進行排序。一個有趣的事情是,sort -u將獲得與sort file.txt | uniq相同的結果。


Sort確實對資料科學家來說是一種很有用的小技巧:能夠根據特定的列對整個CSV進行排序。


# Sorting a CSV file by the second column alphabetically
sort -t"," -k2,2 filename.csv
# Numerically
sort -t"," -k2n,2 filename.csv
# Reverse order
sort -t"," -k2nr,2 filename.csv

這裡的-t選項是指定逗號作為分隔符。通常假設是空格或製表符。此外,-k標誌是用來指定我們的鍵的。它的語法是-km,n,m是起始欄位,n是最後一個欄位。


  • 有用的選項:

    • sort -f 忽略大小寫

    • sort -r 逆序

    • sort -R 亂序

    • uniq -c 計算出現次數

    • uniq -d 只打印重覆行


CUT命令


cut用於刪除列。舉個慄子,如果我們只想要第一列和第三列。


cut -d-f 1,3 filename.csv


選擇除了第一列以外的所有列


cut -d-f 2- filename.csv


與其他的命令組合使用,cut命令作為過濾器

#打印存在“some_string_value”的第1列和第3列的前10

head filename.csv | grep "some_string_value" | cut -d, -f 1,3


找出第二列中唯一值的數量。


cat filename.csv | cut -d, -f 2 | sort | uniq | wc -l
# 計算唯一值出現的次數,限制輸出前10個結果
cat filename.csv |
 cut -d, -f 2 | sort | uniq -c | head


PASTE


paste 是個有趣的小命令。如果你想合併兩個檔案,而這兩個檔案的內容又正好是有序的,那 paste 就可以這樣做。

# names.txt
adam
john
zach

# jobs.txt
lawyer
youtuber
developer

# Join the two into a CSV

paste -d ',' names.txt jobs.txt > person_data.txt

# Output
adam,lawyer
john,youtuber
zach,developer

關於更多 SQL_-esque 變體,請看下麵。


JOIN


Join是一種簡單的、準切向的SQL。最大的區別在於Join將傳回所有列,匹配可能只發生在一個欄位上。預設情況下,join將嘗試使用第一列作為匹配鍵。對於不同的結果,需要以下語法:

# Join the first file (-1) by the second column
# and the second file (-2) by the first

join -t"," -1 2 -2 1 first_file.txt second_file.txt

標準連接是一個內部連接。然而,外部連接也可以通過-af滯後來實現。另一個值得註意的是-e標誌,如果發現有欄位丟失,它可以用來替換成其他值。


# Outer joinreplace blanks with NULL in columns 1 and 2
# -o which fields to substitute - 0 is key, 1.1 is first column, etc...

join -t"," -1 2 -a 1 -a2 -e ' NULL' -o '0,1.1,2.2' first_file.txt second_file.txt

雖然它不是最容易使用的命令,但是在絕望的時刻,它就是唯一可用的措施。


  • 常用的選項:

    • join -a 打印未成對的行

    • join -e 替換缺失欄位

    • join -j 等同於 -1 FIELD -2 FIELD

GREP


全域性搜索正則運算式並輸出,或使用grep;可能是最知名的命令,並且有很好的理由。 Grep具有很強的能力,特別是在大型代碼庫中查找方法。在資料科學領域,它充當了其他命令的改進機制。但其標準用法也很有用。

# 遞迴搜索併列出當前目錄下包含'word'的所有檔案
grep -lr 'word' .

# 列出包含word的檔案數目
grep -lr 'word' . | wc -l

對包含word/pattern的行數進行計數


grep -c 'some_value' filename.csv

# 同樣的功能,但是按照檔案名列出當前目錄下所有包含該關鍵詞的檔案

grep -c 'some_value' *

Grep使用or運算子- |來檢索多個值.


grep "first_value|second_value" filename.csv

  • 有用的選項

    • alias grep=”grep –color=auto” 使grep支持彩色輸出

    • grep -E 使用擴展正則運算式

    • grep -w 僅匹配完整單詞

    • grep -l 打印匹配檔案的名稱

    • grep -v 倒序匹配


大殺器


Sed和Awk是本文兩個最有用的命令。為了簡潔,我不會討論那些令人費解的細節。相反,我會討論各種各樣的命令來證明他們令人印象深刻的實力。如果你想瞭解的更多,這本書就可以。


SED


在內核中sed是一個流編輯器。它擅長替換,但是也可以用來重構。


最基本的sed命令包含了s/old/new/g。也就是全域性搜索舊值,替換新值。沒有/g 我們的命令可能在第一次出現舊值就會終止。


為了儘快瞭解它的能力,我們來看一個例子。在這個情況你會拿到下麵的檔案:

balance,name
$1,000,john
$2,000,jack


我們要做的第一件事就是移除美元符。-i 標識表示就地修改。”就是代表一個零長度檔案擴展,因此重寫我們的初始檔案。理想情況下,你會單獨測試這些並輸出到一個新檔案。


sed -i '' 's/$//g' data.txt

# balance,name
# 1,000,john
# 2,000,jack


下一步,我們的balance列的逗號。

sed -i '' 's/([0-9]),([0-9])//g' data.txt

# balance,name
# 1000,john
# 2000,jack


最終,Jack有一天起來並準備辭職了。所以,再見吧,我的朋友。


sed -i '' '/jack/d' data.txt

# balance,name
# 1000,john


就像你所看到的,sed功能強大,但是樂趣不止於此。

AWK


最好的放最後。Awk不僅是一個簡單的命令:它是一個成熟的語言。在本文中包含的每一個命令中,awk目前是最酷的。如果你發現它令你印象深刻,這有大量的資源- 看這,這,和這。


awk包含的常用案例:


  • 文本處理

  • 格式化文本報告

  • 執行計算操作

  • 執行字串操作


Awk在其最初雛形可以與grep平行。


awk '/word/' filename.csv


或者多使用一點魔法,讓grep和cut結合。在這,awk對所有行通過word打印了以tab分隔的第三和第四列。-F,只是將分隔符變為逗號。

awk -F, '/word/ { print $3 "" $4 }' filename.csv


Awk具有大量有用的內置變數。例如, NF -欄位數 – 和NR – 記錄數。為了獲取檔案中這53個記錄:


awk -F, 'NR == 53' filename.csv


添加一個小竅門可以基於一個值或者多個值過濾。下麵的第一個例子,會打印這些記錄中第一列為string的行數和列。


awk -F, $1 == "string" { print NR, $0 } ' filename.csv
# Filter based off of numerical value in second column
awk -F, $2 == 1000 { print NR, $0 } ' filename.csv


多數值運算式:


# Print line number and columns where column three greater
# than 2005 and column five less than one thousand

awk -F, $3 >= 2005 && $5 <= 1000 { print NR, $0 } ' filename.csv

計算第三列之和:


awk -F, '{ x+=$3 } END { print x }' filename.csv


計算那些第一列值為“something”的第三列之和。


awk -F, '$1 == "something" { x+=$3 } END { print x }' filename.csv

獲取檔案的行數列數:


awk -F, 'END { print NF, NR }' filename.csv

# Prettier version

awk -F, '
BEGIN { print "COLUMNS""ROWS" }; END { print NF, NR }' filename.csv


打印出現過兩次的行:


awk -F, '++seen[$0] == 2' filename.csv


移除多行:

# Consecutive lines
awk 'a !~ $0; {a=$0}']

# Nonconsecutive lines
awk '! a[$0]++' filename.csv

# More efficient
awk '!($0 in a) {a[$0];print}


使用內置函式gsub()替換多個值。


awk '{gsub(/scarlet|ruby|puce/, "red"); print}'


這個awk命令合併了多個CSV檔案,忽略頭併在結尾追加。


awk 'FNR==1 && NR!=1{next;}{print}' *.csv > final_file.csv


需要精簡一個大檔案?好的,awk可以在sed的幫助下完成這件事。具體來說,基於一個行數,這個命令將一個大檔案分為多個小檔案。這個一行檔案也會添加一個擴展名。


sed '1d;$d' filename.csv | awk 'NR%NUMBER_OF_LINES==1{x="filename-"++i".csv";}{print > x}'

# Example: splitting big_data.csv into data_(n).csv every 100,000 lines

sed '1d;$d' big_data.csv | awk 'NR%100000==1{x="data_"++i".csv";}{print > x}'


結束前


命令列擁有無窮的力量。本文所涵蓋的命令列知識足以讓你從零基礎到入門。除了這些已涉及的內容外,針對日常資料操作還有需要可考慮的實用程式。Csvkit, xsv和q是其中三個值得關註的。如果你希望進一步深入到命令列的資料科學領域,那麼請看此書。它也可以在此免費獲得!


●編號562,輸入編號直達本文

●輸入m獲取文章目錄

推薦↓↓↓

大資料與人工智慧

更多推薦18個技術類公眾微信

涵蓋:程式人生、演算法與資料結構、黑客技術與網絡安全、大資料技術、前端開發、Java、Python、Web開發、安卓開發、iOS開發、C/C++、.NET、Linux、資料庫、運維等。

赞(0)

分享創造快樂