我們經(jīng)常會聽到“建模”這個詞,供應鏈中會涉及到許多的模型應用,比如預測,庫存之類,這些都可以通過建立數(shù)學模型,經(jīng)過分析后告訴我們:
發(fā)生了什么?(庫存為什么這么多?)
將來會怎么樣?(庫存什么時候會降下去?)
我們該怎么辦?(以后該如何合理下訂單?)
這些都是基本的供應鏈模型。今天我來介紹線性回歸模型,它可以用來預測未來,是預測性模型。我會用預測運輸費用的場景,為大家介紹這個模型。
線性回歸是高中時候學的,知識早就還給老師了,好在原理并不復雜。我能整明白,相信大家也可以,所以請堅持看完本文。
線性回歸在供應鏈中有許多的應用場景,比如說是預測運輸費用。假設一家跨境電商K公司打算開拓一個新的海外市場,把貨物從中國運到法國銷售,每次都是用拼柜LCL出口,想要了解海運成本大概是多少。
由于是新的市場,K公司沒有運費的歷史數(shù)據(jù)供參考,好在K公司已在德國設立倉庫運營了,所以有一些運費的數(shù)據(jù)。由于K公司的貨物都是體積大但是重量輕的貨物,需要根據(jù)貨物立方數(shù)算運費。
運費是從中國工廠提貨,到送至海外倉庫的全部費用,其中包括了內陸卡車、海上集裝箱運輸、碼頭操作和進出口手續(xù)費等。
法國距離德國很近,因此K公司可以使用現(xiàn)有的數(shù)據(jù)來預測新市場的運輸成本。此時,我們就可以使用線性回歸模型來預測運費了。
先來講講什么是回歸,它的全名是Regression towards the mean,也就是向平均數(shù)回歸。
這又是什么概念呢?如果我們把K公司現(xiàn)有的出口德國的50條海運數(shù)據(jù)拿出來,橫軸是貨物的立方數(shù),縱軸是對應的運輸費用,用散點圖來表示出來,看到的就是下圖的效果。
看著這張圖,直覺告訴我們,似乎有一條直線,可以穿過所有的點。回歸就是通過這堆點,來找一條盡可能地在所有點中間的線的過程。
這條紅色的直線就是我們要尋找的目標,然后根據(jù)它來預測未來運輸?shù)椒▏倪\費。線性回歸就是根據(jù)已知,預測未知的模型。
我們看到實際發(fā)生的運費分布在紅線的上下,造成差異的原因可能是運費波動,或是因為貨物較重,也有其他的可能性,我們不必糾結細節(jié),只需要關注這條紅線的整體趨勢,這樣就能更快捷地預測出未來的運費情況了。
散亂的點不能體現(xiàn)出趨勢,而回歸的線可以預測未來。回歸就是通過一堆看不出具體關系的點,來找一條盡量出現(xiàn)在所有點中間的線,進而讓整體關系更加清晰可見,為我們提供洞察。
解釋過了回歸,再來說一下線性,這個概念是初中時就學過的,就更加簡單了,相信大家應該還有印象。
舉個例子,出租車計費由兩部分組成,首先是固定的起步價,比如16元,哪怕你打車只是去前面200米的地方買份早餐,司機也收你16元,這是最低收費Minimum charge。其次是每公里車費,比如每公里收費2元,距離越遠,收費越高。出租車計費的公式就是:車費=2元×公里數(shù)+16元
這就是一個經(jīng)典的線性函數(shù)公式:Y=A×X+B
當X為零時,Y的值是16,這就是最低收費的起步價16元了。“線性”是那條直線,找到那條直線的過程就是“線性回歸”。
現(xiàn)在我們理解了,所謂線性回歸,就是在一堆散點中找出一條含有趨勢性的直線,然后根據(jù)這種趨勢預測未來情況。
1.統(tǒng)計分析
搞清楚概念后,我們就要開始找出運輸費用中的這條直線了。在K公司的案例中,現(xiàn)有的數(shù)據(jù)只有2組,分別是每票海運的貨物立方數(shù)和每票貨物的運費,其中包括門到門的運費、港口操作費和進出口費用等。
這兩組數(shù)值就是函數(shù)中的參數(shù),我們要使用它們來找到直線,求解線性函數(shù)中的A和B的值。
A是一個系數(shù),在它的影響下,運費會隨著貨量增加而上漲,這很容易理解,運輸?shù)呢浟吭酱螅召M就越高,成正比關系。
A在線性函數(shù)中的名字是斜率,意思是每增加一個單位的貨量,會增加多少的運費。
B也是一個系數(shù),就像是前文中的出租車起步價一樣,運費里也有最低收費,包括了海上和內陸運輸?shù)钠鸩絻r,另外還有進出口和港口操作的固定收費。
B在線性函數(shù)中的名字是截距,也就是當X為零時Y的數(shù)值。在現(xiàn)實情況中,出貨量不可能為零,X一定是大于零的數(shù)。
貨物立方數(shù)叫做自變量,就是X。運輸費用是隨著貨量而變動的,所以叫做因變量,也就是Y。
整個的公式就等于:海運拼箱運輸費用=A×貨物立方數(shù)+B
只要求出了A和B這兩個系數(shù)的值,就可以把任何的X值——貨物立方數(shù)代入公式,算出運輸費用了。
K公司運輸?shù)膮R總統(tǒng)計數(shù)據(jù)如下表。
2.相關性分析
除了常規(guī)的統(tǒng)計外,我增加了一項,就是最后一行的相關性Correlation分析。運輸費用和貨量是兩個變量,它們之間可能存在著一定的相關性。
根據(jù)我們的常識,運輸?shù)呢浟吭酱螅\費也就越高,它們之間應該是正相關性,也就是運費隨著貨量的增加而增加。為了證明這點,我們需要使用相關性分析來驗證一下。
在Excel中,使用公式=CORREL(數(shù)組,數(shù)組)就可以求得解。相關性的結果是在-1和+1之間。
當相關性為-1時,數(shù)組之間是負相關,X的值越高,Y的值越低。比方說天氣越熱,羽絨服越是賣不出去。
當相關性為0時,數(shù)組之間沒半毛錢關系。就像是誰是中國首富和我沒一丁點兒關系,因為我成不了中國首富,你們愛誰誰。
當相關性為+1,數(shù)組就是正相關性,也就是我們運費案例中的情況了。
CORREL(海運拼箱運輸費用,海運拼箱運輸費用)為1,因為是同一個數(shù)組之間分析,結果自然是1。
CORREL(海運拼箱運輸費用,貨物立方數(shù))是0.81,比較趨向于1了,這個結果告訴我們,兩組數(shù)據(jù)之間的相關性很強,值得進一步分析,來計算出A和B的值。
3.求解過程
求解過程略有點復雜,如果要解釋清楚,估計還要花上不少篇幅,所以我就先一筆帶過。強大的Excel可以幫我們很快地計算出結果,具體的方法是在“Data—Data analysis”中選擇“Regression”回歸即可。
如果還沒有安裝Data analysis模塊的朋友,可以在網(wǎng)上搜索一下安裝的方法,在此就不做介紹了。如果無法安裝,可能是Excel版本的問題,需要進行升級。
求解過程很簡單,如上圖所示,只需要在“Input Y Range”中,把Y值的數(shù)組,也就是運輸費用選中,然后在“Input X Range”中,把X值的貨物立方數(shù)選中,點擊“OK”就可以迅速地算出結果。
4.評估模型
在Excel的幫助下,我們可以很輕松地獲得模型,但最重要的工作隨之而來,就是要評估和驗證模型。我們想要確保這個模型是合理的,而且在統(tǒng)計學上是有效的。
根據(jù)K公司的50組數(shù)據(jù),可以得出這樣的結果,里面的信息量較多,由于篇幅有限,本文只解釋其中最重要的幾個輸出Output。
(1) 模型的擬合程度
首先,我們要評估模型的擬合程度,它是回歸直線與實際情況的匹配度,也被稱為決定系數(shù)。在輸出結果中,我們重點要關注“調整的R平方(Adjusted R Square)”的值。
R平方可以理解為模型能夠解釋實際情況的百分比。由于要去除自變量個數(shù)對R平方的影響,所以叫做調整的R平方,這個數(shù)值在0到1之間,數(shù)值越大,說明模型的擬合程度越好,越是能夠說明問題;如果數(shù)值為零,這個模型啥也不是。
在上圖中,調整的R平方是65%,說明擬合程度還不錯,可以解釋65%發(fā)生的情況,值得我們進一步分析下去。
(2)A、B系數(shù)
看過了整體的擬合程度后,我們要看看單個的系數(shù)情況怎么樣。在本案例中只有兩個系數(shù),是很簡單的場景,但在現(xiàn)實情況中肯定會大于這個數(shù)量。
還是以出租車為例,計費中有一項是時長費,這是根據(jù)行駛時間收費的項目,另外還可能有額外的司機獎勵費,比如在春節(jié)期間每單要加6元。
為了便于說明,在這里我使用最少的變量進行分析。根據(jù)求解結果,我們可以把A和B的值代入公式:
海運拼箱運輸費用=
156.41×貨物立方數(shù)+664.52
假設貨物立方數(shù)為零時(實際上不可能),運費是664.52,這就是截距。當貨物是4個立方,運費就是1290.18。就這樣,我們找到了那條直線,只要輸入3至15之間的任何一個數(shù),就能夠得出運費。
(3) 驗證系數(shù)
我們還需要對系數(shù)進行驗證,看看它們是否有效且合理,這里主要是看P值,它是用來判定假設檢驗結果的一個參數(shù),P值越小,比如小于0.01,說明系數(shù)越是不可能為零。
系數(shù)如果是零,說明該系數(shù)是無意義的。截距的P值是0.000093,已經(jīng)足夠小了,說明這個系數(shù)是可用的,而斜率的P值更小,那就更好了。
(4) 上下限的值
最后是A、B系數(shù)上下限的值,這里使用的是模型默認的95%的置信區(qū)間情況下的值。
貨物立方數(shù)系數(shù)的下限是123.32,上限是189.51,截距的下限是351.39,上限是977.66。在95%的置信區(qū)間里,系數(shù)的上下限就在這個范圍內。
這里需要注意的是上下限值不能小于零,否則系數(shù)就沒意義了。如果系數(shù)A是負的,那意味著運輸?shù)呢浟吭礁撸\費反而更低,這是不合理,也是不可能的。因為兩個系數(shù)的P值都是小于0.01,所以也不會出現(xiàn)上述的情況。
至此,我把這個簡單的線性回歸模型介紹完畢,本來想著盡量簡化內容,但實際看來,里面包含的知識點是很多的,一篇短文恐怕難以講清楚所有的內容。若有解釋不清楚的地方,還請多見諒。
從模型構建和使用的角度,我們需要重點關注這幾個方面。
1.選擇模型的自變量
在建模之前,我們可能會有多個自變量X,此時就要想一想,該使用哪些?
我在本文中用了一個最簡單的場景,所以只有1個自變量。在實際情況中我們會遇到多個自變量的情況,如果距離、重量等等,需要根據(jù)經(jīng)驗來判斷、選擇合適的自變量。
決定以后,我們要收集自變量的數(shù)據(jù),但有些數(shù)據(jù)可能是缺失的,因此現(xiàn)實情況會更復雜一些,要做好心理準備。選擇自變量是建模過程中最難的環(huán)節(jié),需要我們對問題有充分的認知。
2.簡單就是最好的
根據(jù)經(jīng)驗,在模型中盡量少用一些自變量,只要能解釋問題就可以了,自變量越多,模型就越復雜。雖然調整的R平方會很高,卻是人為“調”出來的,距離現(xiàn)實情況反而更遠了。模型最終要在現(xiàn)實中驗證,過度擬合可能會偏離實際情況。
3.模型驗證
由于Excel可以快速運行分析,計算過程已成為最容易的一步。這導致我們可能想要盡快看到模型結果,忽視了前期思考和選擇的過程。
因此,驗證模型就更加重要了。調整的R平方、P值和置信區(qū)間的上下限,這三個是最重要的點,我們需要用常識和經(jīng)驗去判斷它們是否合理。
總結一下,線性回歸模型是供應鏈經(jīng)常會使用的工具,聽起來很高大上,但是原理并不復雜,使用Excel就能搭建模型。掌握基本的建模技能,可以幫助我們提高邏輯思考和數(shù)據(jù)分析能力,增加職場競爭力。
中郵無人機(北京)有限公司揭牌
2615 閱讀智能倉儲企業(yè)“智世機器人”完成數(shù)千萬元A輪融資
2544 閱讀這家老牌物流巨頭被整合重組,四千多名員工將何去何從?
1956 閱讀2024最值錢的物流上市企業(yè)是誰?哪些物流企業(yè)被看好,哪些被看跌?
1422 閱讀地緣政治重塑下的全球供應鏈:轉型、挑戰(zhàn)與新秩序
1200 閱讀物流供應鏈領域“吸金”不力,但能給投融資事件頒幾個獎
1161 閱讀2024LOG供應鏈物流?突破創(chuàng)新獎候選案例——準時達國際供應鏈管理有限公司
1008 閱讀仿生學:蜂巢帶給供應鏈管理的啟示
990 閱讀16連冠背后,日日順助力智家工廠物流降本增效
1015 閱讀中遠海運回應被美國國防部列入“中國軍事企業(yè)”清單
938 閱讀