在預測案例1,我們依據渠道業務管理和代理商行為特征,以時間序列分析方法,為成熟渠道行業業務搭建了"渠道業務的自適應預測模型"。
這個預測模型,針對的是整體業績預測,而并非直接導出供應鏈所需的產品預測。這是由于,成熟的渠道業務其產品需求結構也是相對穩定的,所以,產品預測可以直接依據整體業績預測等比例換算即可。
如果業務市場不夠成熟,例如行業占有有限、客戶數量有限,那么產品需求結構的穩定度就完全依賴于行業、客戶需求變化的同步性。不考慮到這一點,而單純按照預測案例1去照貓畫虎,就很有可能帶來較大的預測偏差。
這種情況,需要不同的分析處理和預測模型。下面請看案例2。
****************************************
現有產品型號數量>500。已知產品結構樹如下:
同時,現有17家客戶,過去兩年的客戶需求記錄如下:
我們是否可以搭建合適模型,用于預測未來?
****************************************
很明顯,預測模型的質量首先取決于我們對這17家客戶需求特征的把握。
雖然客戶數量只有17個,并且通常也會有比較清晰的業務人員負責每一個客戶的業務發展,但是,如果我們寄希望于業務人員能夠講清楚每個客戶對這數百顆物料的后續月度需求,那也幾乎是完全不現實的事情。
如果能夠搭建一個有效的模型來描述需求結構和變化,就可以很好地提高供應鏈與業務人員的溝通質量和溝通效率,進而得到更好的預測質量。
為了完成這個目標,我們需要的是“聚類分析”。
(知識點:聚類分析 cluster analysis,是一組將研究對象分為相對同質的組群的統計分析技術。 這是現代數據挖掘、數據分析技術中的一個重要內容。通過對研究對象特征的梳理和定義,進行合理分類,它可以有效減少需要討論的對象數目,有利于對研究對象的整體描述。)
對案例2而言,所謂“聚類分析”,就是將行為特征比較相似的客戶歸為一組。不同組別的客戶,意味著會有不同的行為特征。
第一個問題,哪些行為特征是我們需要關心的呢?
首先,產品需求結構;其次,需求趨勢。
把握了這兩點,我們就能夠把握未來產品需求。
以產品需求結構特征為例,我們來看看如何進行聚類分析。
應用數據透視表,我們可以得到客戶需求的分類匯總如下:
也就是說,我們得到了17家客戶的產品需求結構特征。每個客戶都擁有各自的一維數組(或者說一維向量),代表各自在過去兩年的實際需求結構。我們需要把結構相似的客戶歸為同類。
第二個問題,如何定量評價相似性?
(知識點:聚類分析技術,計算相似度主要有以下幾種方法:
1. (向量視角的)夾角余弦、
2. (概率視角的)杰卡德相似系數、
3. (統計視角的)相關系數 )
其中,相關系數是最適合于Excel計算、同時也最直觀的一種計算方法。
首先,建立相關系數矩陣。
基于之前我們曾經分享的“數據處理技巧:幾個有用的Excel函數”,使用INDEX和MATCH函數為相關系數CORREL函數提供輸入,可以很容易地搭建計算公式,如下圖
請注意,所用公式的"$"鎖定技巧,對于后續的分析處理極為有用。后續需要持續調整矩陣的行、列,這個公式寫法,可以確保調整過程中計算結果總是有效。
這里以顏色直觀表現相關系數的高低:深綠色>0.9,綠色0.7~0.9,淺綠色0.5~0.7。
這個相關系數矩陣,也叫“協相關矩陣”,實際上就是每兩個客戶的產品需求結構之間的相關系數。行標題和列標題,就是客戶編號。所以,矩陣對角線(左上-右下)上的相關系數均為1。
其次,聚類過程(1)——相關系數矩陣調整和初步分組。這是一個圖上作業。我們的目標是將最多的綠色集中在對角線上,實現的方式,是調整行、列的順序,也即不停地剪切、插入。實現了這一點,也就將高相關性的客戶集中到了一起。
調整結果如下圖:
請注意,在調整過程中,一定要保持行、列同步調整,也即行、列的客戶順序永遠一致。
圖中的方框,就是依據相似度的分組,每個框內的客戶都是高度相似的。
由于目前得到的結果存在很多交叉相關(方框交疊),這個結果還不是聚類的最終結果。我們還需要解開這些交叉。
再次,聚類過程(2)——分組檢驗及合并。
將上圖中各個方框內相應客戶合并,一共得到七個分組G01~G07。然后計算這七個分組與所有客戶的相關系數矩陣。結果如下圖:
請注意:為了呈現方便,這里隱藏了客戶列。實際上,這里的計算公式仍然如前圖類似。
上圖中可以很清晰地看到,G02、G03、G04之間,G05、G06、G07之間,所覆蓋的客戶群非常接近。
因此,我們可以嘗試將其合并,G11包含所有G02、G03、G04的客戶,G12包含所有G05、G06、G07的客戶。計算合并后的三個分組(G01未受影響)與所有客戶的相關系數矩陣,結果如下圖:
請注意,視實際分組效果,這個過程有可能需要重復進行多次,如果合并分組效果不好,還需要退回重新嘗試其它合并方案。
這個分組結果顯然更清晰。由于這個結果中的G11、G12仍然存在著部分客戶重疊,因此,我們還需要最后整理和檢驗一下。
最后,聚類過程(3)——最終分組及檢驗。
以相關性更高為標準,我們將所有客戶都強制劃分唯一組別,并計算新分組與所有客戶的相關系數矩陣,以檢驗分組質量。如下圖:
可見,所有客戶都已經被唯一分組所很好覆蓋。這就是我們可接受的產品需求結構分組的最終結果。
還有客戶需求趨勢特征需要分析,這是另一個聚類分析工作。
分析的對象,是各個客戶的月度需求走勢。分析過程同上。對所有客戶的月度需求記錄進行相關系數矩陣分析,然后調整矩陣、嘗試分組并調整、檢驗。最終得到可接受的需求趨勢分組。
具體過程不再重復,這里僅展示分析結果如下:
請注意,這一客戶分組與前一分組并不一致,這是很正常的結果。
將兩個特征綜合,我們就得到了下面的客戶分類矩陣:
每一個分組內的客戶之間,產品需求結構和需求趨勢都是相似的。
總共有5個有效分組。
第三個問題,聚類分析結果的實際意義是什么?
(知識點:聚類分析作為監督學習,其結果對于特征選擇是比較敏感的。例如,產品結構層次(產品大類or細分類別)、主要產品類別(例如ABC中是否放棄C類)的取舍等,都會影響到聚類分析結果。)
有鑒于聚類分析的敏感性,我們必須討論聚類分析結論的實際意義,這既可以避免我們誤入歧途,同時也是理解現實的必需步驟。畢竟,我們的分析過程以及模型搭建,都是要用來與業務有效溝通的。
這一過程,我們留待下一篇深入討論。這里僅展示未經討論的初步結果,如下圖。
請注意:
(1) 藍色百分比數字,是該組別的業績占比;
(2) 需求趨勢上,CG_A和CG_B有明顯不同的旺季;
(3)需求結構上,各組別的產品側重完全不同。請格外留意PG_B的縱軸高度是另外兩個的三倍。
對于有限客戶/行業的案例2,通過聚類分析,可以注意到案例中包含有5組不同客戶,每組客戶都有著不同的產品需求結構和需求趨勢。
這種結構性的差異,對于我們理解和把握需求是重要的。基于客戶的合理分組,我們就有希望避免同步性差異所帶來的預測偏差。
(本篇完)
下一篇我們將繼續從現實方向討論案例2。
所有數據挖掘結論,都需要探討其現實意義,并且以此作為其價值的判斷依據。這將是我們下一篇的重點。
下周日再見~~
中郵無人機(北京)有限公司揭牌
2650 閱讀智能倉儲企業“智世機器人”完成數千萬元A輪融資
2593 閱讀這家老牌物流巨頭被整合重組,四千多名員工將何去何從?
1991 閱讀2024最值錢的物流上市企業是誰?哪些物流企業被看好,哪些被看跌?
1499 閱讀地緣政治重塑下的全球供應鏈:轉型、挑戰與新秩序
1235 閱讀物流供應鏈領域“吸金”不力,但能給投融資事件頒幾個獎
1245 閱讀16連冠背后,日日順助力智家工廠物流降本增效
1022 閱讀1745億件,快遞業務量增速超預期
966 閱讀中遠海運回應被美國國防部列入“中國軍事企業”清單
959 閱讀扎根供應鏈創新25年,一家“耐力長跑型”企業的破局啟示
914 閱讀