河(hé)北(běi)水(shuǐ)德_石家(jiā)莊軟件(jiàn)開(kāi)發這(zhè)裡(lǐ)有(yǒu)一(yī)個(gè)簡單實用(yòng)的(de)清洗代碼集

這(zhè)裡(lǐ)有(yǒu)一(yī)★α↕‍個(gè)簡單實用(yòng)的(de)清洗代碼集

TIME: 2019-01-26

現(xiàn)實世界中的(de)數(shù)據通(tōng)常質量不(bù)∏€"&高(gāo)，作(zuò)為(wèi)一(y∏βγī)名數(shù)據科(kē)學家(jiδ©ā)，有(yǒu)時(shí)也(yě)需要(yào)承擔一(yī)部分(Ω☆fēn)數(shù)據清洗的(de)工(gōng)作(zuò)，這(z≠∞↕≥hè)要(yào)求數(shù)據科(kē)學家(jiā)們應該能(néng β£)夠在進行(xíng)數(shù)據分(fēn)析或建模工(gōng)作(zΩ>uò)之前執行(xíng)數(shù)據清φ‍ ←洗步驟，從(cóng)而确保數(shù)據的(de)質量最佳。

不(bù)過長(cháng)話(huà)短(λ♥αβduǎn)說(shuō)，在數(shù)據科(kē)學<∏σ領域工(gōng)作(zuò)了(le)很(hěn)長♦±(cháng)一(yī)段時(shí)間(jλ™≤✘iān)後，我切實感受到(dào)了(le)在進行(xíng)數(shù)λ∏據分(fēn)析、可(kě)視(shì)化(h↕§>φuà)和(hé)建模工(gōng)作(zuò)之前，進行(xíng♠↔)數(shù)據清洗工(gōng)作(zuò)是(shì)多ασ ©(duō)麽痛苦。

不(bù)管你(nǐ)承不(bù)承認，數(shù)據清洗著(zh®λδ>e)實不(bù)是(shì)一(yī)件(jiàn)簡單的(de♠≠'©)任務，大(dà)多(duō)數(shù)情況下(xià)這(zhè)項工(gγ♦ōng)作(zuò)是(shì)十分(fēn)耗時(sγα÷hí)而乏味的(de)，但(dàn)它又(yòu)是(shì)十分(fēn)重•"¶€要(yào)的(de)。

如(rú)果你(nǐ)經曆過數(shù)據清洗的(de♥☆)過程，你(nǐ)就(jiù)會(huì)明(míng)•±白(bái)我的(de)意思。而這(zhè)正是(shì)撰寫這(₩☆>¥zhè)篇文(wén)章(zhāng)的(∑ ♦de)目的(de)—&mdaε$‍÷sh;讓讀(dú)者更輕松地(dì)進行(xíng)數α<(shù)據清洗工(gōng)作(zuò)。

事(shì)實上(shàng)，我在不(bù)久前意識到(dào)，βδ±在進行(xíng)數(shù)據清洗時(shí)，有(yǒu)一(yī§↓↔)些(xiē)數(shù)據具有(yǒu)$←相(xiàng)似的(de)模式。也(yě)↔®✘₹正是(shì)從(cóng)那(nà)時(shí)起，我開(k•★'←āi)始整理(lǐ)并編譯了(le)一(yī)些(xiē)數(shù)據清÷>¶≠洗代碼(見(jiàn)下(xià)文(wén))，我認為>π ‌(wèi)這(zhè)些(xiē)代碼也(yě)适用(yòng)于其它的(dΩ±∑e)常見(jiàn)場(chǎng)景。

由于這(zhè)些(xiē)常見(jiàn)的(de)÷β§場(chǎng)景涉及到(dào)不(bù)同類型的(de)數(<σ↓¥shù)據集，因此本文(wén)更加側重于展示和(hé)解釋這(zhè)些(σ↔φxiē)代碼可(kě)以用(yòng)于完成哪些(xiē)工(gōng)作↕←≤∑(zuò)，以便讀(dú)者更加方便地(dì)使用(yòng)它們。

我的(de)數(shù)據清洗小(xiǎo)工(gōng)具箱¥←₹

在下(xià)面的(de)代碼片段中，數(shù≤¶)據清洗代碼被封裝在了(le)一(yī)些(xiē)函數(shù)中，代碼∞§§的(de)目的(de)十分(fēn)直觀。你(nǐ)可(kě)€§↓δ以直接使用(yòng)這(zhè)些(xiē)代碼，無需£₹将它們嵌入到(dào)需要(yào)進行(xíng)少(shǎo÷>)量參數(shù)修改的(de)函數(shù)中。

1. 删除多(duō)列數(shù)據

def drop_multiple_col(col_names↑★¶π_list, df):&nbsπ‍™p;
''‌™α;'
A‍£☆™IM &n♥ δbsp;-> Drop&nb÷₽sp;multiple columns&β☆nbsp;based on δλ♦€their column name ÷λs
INPλ✘↕±UT -> List ofδγσ column names, df&nbs↔ ↓p;
OUTPUT ÷δ -> updated ‍>df with dropped ★♣•;columns
-¥↕≤→-----
''&#≠ ☆39;
df.d•♥≠rop(col_names_list,&nb≤‌sp;axis=1, inplace=True)
return df&φ₽nbsp;

有(yǒu)時(shí)，并不(bù)是(shì)所φλ有(yǒu)列的(de)數(shù)據都(dōu)對(duì)我們$✘φ♥的(de)數(shù)據分(fēn)析工(gōn♠γλ♥g)作(zuò)有(yǒu)用(yòng)。因此，「df.d'Ω₹rop」可(kě)以方便地(dì)删掉你(nǐ)選定的±φ☆(de)列。

2. 轉換 Dtypes

def change_dtypes(col_int, ₩↕ col_float, df):&nbs₽↑×p;
&#ε¥39;''
A$ε≈IM -> C↕ε∑hanging dtypes&≠₽♣βnbsp;to save&nbs<×∑p;memory
INPUT ₹¥; -> Lisδδt of column names≤¶ (int, float), φ÷☆;df
OUTPUT -&•≈☆gt; updated df∞γ with smaller memor±βσ∏y
&nbs¥₹&p;------
'♣ ≠®;''
df[col_int]&n≈Ωbsp;= df[col_int].astype(&#∞δ×™39;int32')
df[col_floa<✔™t] = df[col↓>$_float].astype('float32←€')

當我們面對(duì)更大(dà)的(de)數(shù)據集時(shí)，≤♥♣♦我們需要(yào)對(duì)「dtypes」進行(xíΩ↑ng)轉換，從(cóng)而節省內(nèi)存。如(r©★<ú)果你(nǐ)有(yǒu)興趣學習(xí)如(rú)何使用(yòng÷δ←)「Pandas」來(lái)處理(lǐ)大(dà)數(sh∞ΩΩπù)據，我強烈推薦你(nǐ)閱讀(dú)「Why and How to ✘≤Use Pandas with Large Data」這(zhè)篇文≤β'ε(wén)章(zhāng)

(https://towardsdatascience.c←€om/why-and-how-to-use-pandas γ-with-large-data-9594dda2ea4c)γ&≥。

3. 将分(fēn)類變量轉換為(wèi)數(shù)值變量

def convert_cat2num(df):
# Con" ↔vert categorical&¶£nbsp;variable to&nΩ≠"bsp;numerical variable∞•$
n→$um_encode = ±©'{'col_1' :&nb★"λ$sp;{'YES':1,∞£♦ 'NO':0}, σ₹
☆δ; &n∞↕×bsp; &nbs★∑δp; 'col_2' ‌σ; : {'WON':1±‍>π, 'LOSE':0, π$β€9;DRAW':0}}
df.replace(nΩ★±•um_encode, inplace=Tr££ue)

有(yǒu)一(yī)些(xiē)機(jī)器(qì)學習(xí)模型要(yà↓♦←o)求變量是(shì)以數(shù)值形式存在的(↓±‍de)。這(zhè)時(shí)，我們就(jiù)需要(•♣™>yào)将分(fēn)類變量轉換成數(shù)值變量然後再将它們作(zuò)為 ♥™≤(wèi)模型的(de)輸入。對(duì)于數(shù)據可(kαΩ$✔ě)視(shì)化(huà)任務來(lái)說(shuō)，我建議(yì)大(‍∏"dà)家(jiā)保留分(fēn)類變量，從(cóng)而讓可(kě)視(s "hì)化(huà)結果有(yǒu)更明(míng)确的(de)解釋，便于理(l"$ǐ)解。

4. 檢查缺失的(de)數(shù)據

def check_missing_data(df>β÷):
#≤™₩ check for&nbs♣↔‌p;any missing data ≤↔♥&in the df (display&nbs ★★♦p;in descending order)
return↓± df.isnull().sum()≠↔.sort_values(ascendingπα©δ=False)

如(rú)果你(nǐ)想要(yào)檢查每一(yī)列中有(yǒu∏₹α)多(duō)少(shǎo)缺失的(de)數(shù)據π&，這(zhè)可(kě)能(néng)是(shì)最快↓‍≠(kuài)的(de)方法。這(zhè)種方法可(kě)以讓你‍₹(nǐ)更清楚地(dì)知(zhī)道(dào)哪些(xiē)列有(yǒu)更γε$φ多(duō)的(de)缺失數(shù)據，幫助→®β你(nǐ)決定接下(xià)來(lái)在數(shù)據清洗和(hé)數(sh ₩©≈ù)據分(fēn)析工(gōng)作(zuò)中應該→‍®采取怎樣的(de)行(xíng)動。

5. 删除列中的(de)字符串

def remove_col_str(df):∏φ₩↓
df['c✔Ωol_1'].replace('n', ∞ £'', regex=Tφ"∞•rue, inplace=True) ¶∞"
®ε;# remove all&nbs$∏p;the characters&nb"§δsp;after &# (incl↓>←βuding &#) ✔Ω§<;for column - σ¥col_1
df[& #39;col_1'].replace(' &amδ™♥p;#.*', 'ε&$ε9;, regex=True, inplace=True∏≥ ™)

有(yǒu)時(shí)你(nǐ)可(kě)能(nén←$g)會(huì)看(kàn)到(dào)一(yī)行(xγ✔♠≈íng)新的(de)字符，或在字符串列中看(kà ★n)到(dào)一(yī)些(xiē)奇怪的(de)符号。你(nǐ)可(k↕€✘ě)以很(hěn)容易地(dì)使用(yòng) df['col_1± "'].replace 來(lái)處理(lǐ)該問(wèn)題，其₹®α中「col_1」是(shì)數(shù)據幀 df 中的(de)一(©✘yī)列。

6. 删除列中的(de)空(kōng)格

def remove_col_whi←•πte_space(df):
&nb±≥σsp;# remove >‍★ ;white space at&n¥☆bsp;the beginning of ×Ω∏string

當數(shù)據十分(fēn)混亂時(sh≤"≠≈í)，很(hěn)多(duō)意想不(bùσ"γ)到(dào)的(de)情況都(dōu)會(huì)發生(shēn✔¥g)。在字符串的(de)開(kāi)頭有(€ yǒu)一(yī)些(xiē)空(kōng)格是(shì)很(hěn)® ₩≤常見(jiàn)的(de)。因此，當你(nǐ)想要¥₽φ'(yào)删除列中字符串開(kāi)頭的(de)空σφ>(kōng)格時(shí)，這(zhè)£©∞種方法很(hěn)實用(yòng)。

7. 将兩列字符串數(shù)據(在一(yī)定條件(₩←jiàn)下(xià))拼接起來(lái)

def concat_col_str_ε★σcondition(df):
# conc♥∏®at 2 columns wiββth strings ♥≠<‌;if the la"εst 3 letters of the • first column are&n&★bsp;'pil'
mask&nb↑♠sp;= df['col_1&#✔ Ω39;].str.endswith('pilΩ¶£σ9;, na=False)
col_☆∏new = df[mask][&#"α39;col_1'] +&δ∏± nbsp;df[mask]['col_2']&→∏nbsp;
col_new.re"β'place('pil',&n φbsp;' ',&λδ£×nbsp;regex=True, inpl©€₩ace=True) # replace&nbsπ₩↓‌p;the 'pil' with&★φ nbsp;emtpy space

當你(nǐ)希望在一(yī)定條件(jiàn)下££(xià)将兩列字符串數(shù)據組合在一(yī)起時(±♥ shí)，這(zhè)種方法很(hěn)有(yǒu)用(yòn'♦g)。例如(rú)，你(nǐ)希望當第一(yī)♠↕♦‌列以某些(xiē)特定的(de)字母結尾時(shí)ε± $，将第一(yī)列和(hé)第二列數(shù)據拼接在一$∏♠‍(yī)起。根據你(nǐ)的(de)需要(yào)，還(hái)可∞(kě)以在拼接工(gōng)作(zuò)₩✘♦完成後将結尾的(de)字母删除掉。

8. 轉換時(shí)間(jiān)戳(從(cóng)字符串類型轉換←€↓為(wèi)日(rì)期「DateTime↔ Ω♠」格式)

def convert_str_datetime☆®§(df):
'&#₩‍‌≈39;'
AIM&★♦‌βnbsp; ->€<; Convert d♦λλatetime(String) to dβ±δ♠atetime(format w¶φ✔e want)
&nb$∑sp;OUTPUT ->≤∞↕ updated df with&π‌nbsp;new datetime&n♣←bsp;format
--≥----
'&# ¥∞Ω39;'
✘‍×;df.insert(loc=2, column=&#δσ♣↑39;timestamp',&nbφ sp;value=pd.to_datetime(df.transdat≥★₽e, format='%Y-%m-%dπ♠← %H:%M:%S.%f'))

在處理(lǐ)時(shí)間(jiān)序列數(shù)據時(shí↔φ•♥)，你(nǐ)可(kě)能(néng)會(huì)遇到(dào)字×γ★符串格式的(de)時(shí)間(jiā₹™Ω≈n)戳列。這(zhè)意味著(zhe)我們可(kě)能 ₽δ(néng)不(bù)得(de)不(bù)将字符串格→π式的(de)數(shù)據轉換為(wèi)根據我們的(de)需求→βα指定的(de)日(rì)期「datetime」格式，以便使用(yòng)這(✘☆''zhè)些(xiē)數(shù)據進行(xíng)有(yǒu)意義的(de)分↓£≈₹(fēn)析和(hé)展示。

上(shàng)一(yī)篇：2019年(nián)Web應用(yòng)開(kāi)發的≤‍∏♠(de)6大(dà)趨勢轉變！
下(xià)一(yī)篇：軟件(jiàn)開(kāi)發中産品的(de)設計(j♣±ì)考慮的(de)事(shì)兒(ér)

我們一(yī)直在路(lù)上(shàng)，隻為(wèi)更優α≥≤β質的(de)服務

這(zhè)裡(lǐ)有(yǒu)一(yī)★α↕‍個(gè)簡單實用(yòng)的(de)清洗代碼集