數(shù)據(jù)是數(shù)字化的根基,數(shù)據(jù)清理是數(shù)字化最基礎(chǔ)的技術(shù)之一,各個(gè)行業(yè)都會用到它。供應(yīng)鏈管理活動會處理大量數(shù)據(jù),有許多數(shù)據(jù)清理的場景,今天就來聊一聊這個(gè)話題。
相信許多小伙伴都聽過這樣一句話“Garbage in, Garbage out”,中文的意思是“輸入數(shù)據(jù)是垃圾,輸出的結(jié)果也是垃圾”。這個(gè)垃圾不是我們?nèi)粘I钪械膹U棄物,特指無用的、錯(cuò)誤的數(shù)據(jù)。為什么會是這樣?這需要從數(shù)據(jù)處理的過程說起。
當(dāng)我們從外部數(shù)據(jù)源獲得數(shù)據(jù)后,根據(jù)一定的公式和模型對數(shù)據(jù)進(jìn)行分析處理。源頭是輸入input,輸出結(jié)果就是output。
我們可以把整個(gè)計(jì)算過程想象成一個(gè)函數(shù)公式,有些是無比復(fù)雜的計(jì)算,比如物料需求計(jì)算,已經(jīng)不能依靠手工計(jì)算,必須依賴于MRP系統(tǒng)。
還有一些簡單的線性函數(shù),比如計(jì)算運(yùn)輸費(fèi)用,一般會有一個(gè)基礎(chǔ)起步價(jià),然后根據(jù)距離乘以每公里的收費(fèi)標(biāo)準(zhǔn),得出這趟的運(yùn)費(fèi)是多少。
在這過程中,A點(diǎn)和B點(diǎn)之間的距離是一個(gè)變量X,根據(jù)計(jì)算公式得出費(fèi)用Y的值。如果我們獲得的X值是錯(cuò)誤的,那么計(jì)算出的Y值肯定也是錯(cuò)誤的。輸入的源頭數(shù)據(jù)是錯(cuò)的,輸出的結(jié)果必然也是沒用的,這就是Garbage in, Garbage out的意思。
數(shù)據(jù)錯(cuò)誤的情況在供應(yīng)鏈日常工作中比比皆是,比如盤點(diǎn)的時(shí)候清點(diǎn)錯(cuò)了,輸入了錯(cuò)誤的庫存數(shù)量,那么庫存總數(shù)和金額就是錯(cuò)的。我列舉了幾種典型的錯(cuò)誤類型,歡迎大家對號入座。
1.錯(cuò)誤的數(shù)值
表格中的無效值,比如加了空格和句號。有時(shí)候數(shù)據(jù)還會出現(xiàn)負(fù)值,例如庫存,它怎么會是負(fù)數(shù)呢?可能是扣賬的時(shí)候有一筆收貨沒有入庫,就出現(xiàn)了負(fù)值。
有些數(shù)值出現(xiàn)在了文本單元格里,自然就不能被統(tǒng)計(jì)到。還有合并單元格,會導(dǎo)致數(shù)據(jù)統(tǒng)計(jì)錯(cuò)誤或缺失。
2.重復(fù)項(xiàng)
有些編號應(yīng)該是唯一的,比如貨物追蹤號,一票貨對應(yīng)的是一個(gè)追蹤號碼,是一對一的關(guān)系。我們得檢查有沒有出現(xiàn)重復(fù)的情況。
3.人為操作錯(cuò)誤
只要是手工輸入的,就存在一定出錯(cuò)的概率。輸入數(shù)據(jù)的人手指一滑,碰到了其他的鍵,就輸錯(cuò)了。或是在排序的時(shí)候沒有全部選中單元格,還有可能是在用公式的時(shí)候輸錯(cuò)了。
4.其他
有些數(shù)據(jù)和大部分?jǐn)?shù)據(jù)差距過大,比如在一個(gè)產(chǎn)品系列中,大多數(shù)產(chǎn)品單價(jià)在0.5元至10元之間,突然出現(xiàn)了一些超過100元的數(shù)據(jù)就很可疑。可能是系統(tǒng)里的報(bào)價(jià)前者是美元,后者是日元。
我們需要仔細(xì)地查看數(shù)據(jù),每次可能都有新發(fā)現(xiàn),那種感覺就像是哥倫布發(fā)現(xiàn)新大陸一樣,總會給人驚喜。
找出錯(cuò)誤數(shù)據(jù)就像是在大海里撈針,如果沒有合適的方法,可能看了半天數(shù)據(jù)只會看到滿天的小星星。這里介紹幾種方法供大家參考。
1.使用公式
首先要確保數(shù)據(jù)是有效的,因此要做一次的大排查,把數(shù)據(jù)中的無效值找出來。比如我們可以用求和或是查找的公式快速查看,根據(jù)公式結(jié)果判斷是否有無效值。當(dāng)一列數(shù)據(jù)求和結(jié)果為零時(shí),說明這些數(shù)據(jù)格式不是數(shù)字。
如果想要把無效值抓出來,在Excel中可以用vlookup公式,如果返回值是“#N/A”,說明這個(gè)記錄有問題,可能是輸入錯(cuò)誤,或是有空格。
2.使用目視化圖表
用圖表可以快速查看是否存在異常數(shù)據(jù),比如用散點(diǎn)圖和柱狀圖目測是否有特別離譜的數(shù)值。
在上圖中,在Y軸上方有幾個(gè)游離在大部隊(duì)之外的數(shù)值需要重點(diǎn)看一看。
3.使用數(shù)據(jù)透視表
數(shù)據(jù)透視表匯總看異常,Excel中的pivot table也就是數(shù)據(jù)透視表是個(gè)很好用的工具。拖拽起來方便,而且容易理解。
上圖中,從左邊的原始表格匯總出來的數(shù)據(jù)存在兩個(gè)錯(cuò)誤點(diǎn)。首先是兩個(gè)產(chǎn)品號ABC50535沒有被匯總,說明其中一個(gè)的產(chǎn)品件號存在無效值。
其次,產(chǎn)品ABC35816匯總數(shù)量為零,但是左側(cè)沒有為零的數(shù)值,說明這個(gè)產(chǎn)品的庫存數(shù)量單元格存在錯(cuò)誤,可能是格式問題。
4.分析變異系數(shù)
使用變異系數(shù)反映數(shù)據(jù)離散程度,也叫離散系數(shù)。簡單地說,在進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析時(shí),如果變異系數(shù)大于一定程度,比如大于1,意味著數(shù)據(jù)變化較大。這是進(jìn)階的內(nèi)容,屬于概率和統(tǒng)計(jì)分析的概念,具體就不在這里展開了。
找到數(shù)據(jù)問題點(diǎn)后,最后就是要做數(shù)據(jù)清理了。具體的方法有許多種,每個(gè)人都有自己擅長的方式。在這里我們就討論一下通用性的原則。
1.先備份
以前我在打電腦游戲的時(shí)候,一般在和大BOSS決戰(zhàn)之前都要先存檔,萬一打輸了就調(diào)檔,這樣我就不會Game Over。
我們做數(shù)據(jù)清理之前也要先備份存檔,萬一沒處理好,至少還有原始數(shù)據(jù),否則后果不堪設(shè)想。
在做改動之前,我們一定要先把舊的文件存好,在Excel里另存或是復(fù)制。我們修改過什么,也要留下記錄。
如果發(fā)現(xiàn)可疑數(shù)據(jù),在清洗之前,需要和相關(guān)人員確認(rèn)一下。比如價(jià)格匯率到底是美元還是日元,找到相關(guān)采購員問一下,確認(rèn)后再進(jìn)行修改。
盤點(diǎn)庫存的時(shí)候發(fā)現(xiàn)可疑數(shù)據(jù),先不要急著改,再去現(xiàn)場盤點(diǎn)一次,然后再根據(jù)實(shí)際情況修改。萬一自己是錯(cuò)的,把數(shù)據(jù)改了豈不是太過草率?
2.做記錄
一定要把我們發(fā)現(xiàn)的問題和采取的措施完完全全地記錄下來。對于所有的改動,我們都要確保能解釋清楚。
人的記憶力沒那么好,好記性不如爛筆頭,記錄一下也沒什么損失。以后萬一有需要,我們還可以隨時(shí)找到改動過的地方,撤銷改動。所以說原始數(shù)據(jù)永遠(yuǎn)不要刪,把它們復(fù)制一份保存好,把清理過后的數(shù)據(jù)用于以后的分析。
原始的數(shù)據(jù)絕沒有我們想象中那樣干凈,需要花點(diǎn)時(shí)間進(jìn)行清洗,然后才能用于下一步的整理、匯總和分析,并進(jìn)一步提煉出洞察。我們要時(shí)刻對外部數(shù)據(jù)持有懷疑態(tài)度,警惕地觀察一切不合理的數(shù)據(jù)。
DeepSeek火出圈,AI和大模型將如何改變物流行業(yè)?
2866 閱讀智航飛購?fù)瓿商焓馆喨谫Y
2534 閱讀800美元不再免稅,T86清關(guān)作廢,跨境小包何去何從?
2037 閱讀凈利潤最高增長1210%、連虧7年、暴賺暴跌……物流企業(yè)最賺錢最虧錢的都有誰
2041 閱讀AI紅利來襲!你準(zhǔn)備好成為第一批AI物流企業(yè)了嗎?
1772 閱讀物流職場人性真相:馬斯洛需求的顛覆與掌控
1500 閱讀供應(yīng)鏈可視化:從神話到現(xiàn)實(shí)的轉(zhuǎn)變之路
1238 閱讀物流職場人性真相:鷹鴿博弈下的生存法則
1170 閱讀運(yùn)輸管理究竟管什么?
1063 閱讀2024中國儲能電池TOP10出爐
1011 閱讀