收藏我們
Company Dynamics
從事物流系統設計,物流園區規劃,首先就要進行數據分析,這一觀點逐漸為行業所接受。數據分析分析什么,已經有專門的教科書進行講解,不是本文的重點。本文重點是談數據背后的邏輯問題。
對于數據分析,大家普遍感到困惑的是分析的是否正確有用和如何使用,哪些數據是不對的和失真的,哪些數據需要修正,哪些數據需要補充。對這些問題的回答,核心問題是探討數據背后的邏輯,理清數據關系,才能正本清源,數據分析的結果才有意義。
數據失真是一種客觀存在
數據作為反映客觀世界的一種方式,有時會失真,從而使真實世界發生扭曲。失真的原因很多,主要有以下幾種:其一是數據記錄問題,數據記錄有記錯和數據丟失,這一問題發生的可能性非常大。數據不管是記錄在何種載體上,由于記錄手段問題,接口問題,傳感器問題,存儲媒介問題以及環境問題,錯誤和丟失在所難免;其二是人為造假,這個更為普遍。造假是人類不可杜絕的一個現象,每個時期,每個國家,每個地方,每個角落都存在。無論是處于何種動機,造假的代價之一就是使真實世界不再真實,這是十分令人痛惜的;其三是偶發數據,雖然可能是真實反映,但又非常態,或者是經過調整后的數據,并非第一手數據。
人們有時候調侃,歷史沒有真相。是指歷史上的很多事件,真真假假,其真相成為永遠的迷。這里既有歷史事件記載者的故意,也有以訛傳訛的原因。有的真相很簡單,但如果當事人或傳播者故意誤導,可能真相真的就成為歷史之謎,再也無人知曉。
現實中的實例也不勝枚舉。比如國民經濟統計,看起來很簡單的一件事,但實際就很難做到十分真實準確,有時還相差甚遠。物流行業數據統計也是如此。我們到現在也沒有一個權威的統計數據,告訴人們每年的堆垛機的產量,輸送機的產量,分揀機的產量,貨架的產量等,都只是一個大概估計。
總之,數據失真,既有技術原因,也有人為因素,人的因素又分為主觀故意、無心之失或能力所不能及。這是一種客觀的存在,誰也改變不了。
數據之間的邏輯關系
面對一個不真實數據所描述的世界,人們往往難以分辨數據真假。其實,熟悉數據分析的人,一般會從數據之間的邏輯關系中判斷出數據的可信程度。雖然我們不知道真相的具體細節,但通過邏輯分析和比對,會基本還原真實世界大致的情況。
一句謊話,往往要10句謊話去掩蓋。這句俗語說明了一個基本事實,就是事物之間是有千絲萬縷的聯系的。反映到數據,就是數據之間是具有邏輯關聯性的。這一事實為人們甄別數據的真偽提供了參考和方法,但有時也不是萬能的。
對物流數據分析來說,年銷售額、箱單價、日收貨量、日發貨量、庫存量、退貨量、庫存周轉天數等這幾個數據是互相影響的,所以我們可以從彼此的關系中,發現問題所在,可以判斷數據是否真實可靠。
特別是在大數據時代,對事物的真相判斷會更加準確。因為大數據會從多個角度去描述同一件事情。比如一家企業的運營狀況,可以從員工人數、營業額、收入、納稅額、工資、獎金、辦公開銷、投資、研發經費、宣傳費、差旅費、按月度計算的流水等多個維度進行分析,還可以從行業平均利潤分析其利潤額合理性等。一旦某些數據出現大的偏差,則可以判斷其數據真實性值得懷疑。
對一個物流中心來說,很多數據之間具有強相關的邏輯性。比如銷售額與發貨量的匹配,輸送線的輸送能力與系統產能的匹配,庫存與銷售的匹配,發貨區、發貨月臺與發貨量的匹配等,其中的邏輯關系其實并不復雜。然而,對一些用戶來說,并不完全知曉這些關系,從而對系統的能力產生認知上的錯誤。
有了數據間的邏輯,就為我們處理數據提供了參考。有些數據需要刪除,有些需要修正,有些則需要補充。
數據的偶然性與必然性
數學證明上有一個非常重要的證明方法-反證法。即要證明一個命題是否正確,只要證明其反命題不正確即可。而要證明一個命題不正確,則只需舉例一個反例即可。比如要證明是無理數,只要證明其反命題,即是有理數這個命題是錯誤的即可。這一方法對于數據分析也是非常有用的。
大千世界,變幻萬千。對數據分析者而言,識別數據的真偽是一方面,而如何正確的分析,則是更為重要的方面。數據分析為我們描述了一個歷史現狀作為前提。因此,不要站在一個錯誤的前提下,對未來進行預測,那樣會毫無意義,且非常危險。
如何去偽存真,不是一件容易的事情,尤其對于初學者而言。比如要如何篩選和修正一些歷史的數據,就是一項復雜且繁瑣的工作。有些數據是客觀存在的,也是真實的反映,但卻不具有普遍性,是一種偶然,一種異常。對這些數據的處理,即要求對偶然和必然的事件要有一個分析和判斷。
我們常常看到,某一天的物流數據非常異常,但卻是客觀存在。比如某一商品銷量很大,或某一天的發貨量很大等,就可能是因為某一偶然事件所引起。而這一事件有時并不具備普遍性。有點類似于電信號中的干擾信號。對這一類數據的過濾和修正是必要的。不要一葉障目,不見泰山。
另一方面,也不要輕易放過偶發事件背后的邏輯分析,有時甚至會有意外的發現和作用。如對“雙十一”數據的分析,或對某一網紅帶貨事件的分析等,就會指導物流設計在面對此類現象時,如何有效處理。
在數據分析時,一旦遇到特殊的數據,既不能視而不見,也不能簡單的刪除。而是要做進一步的甄別。這一點考驗著分析師的敏銳和耐心。
有很多數學方法可以用于辨別偶然性和必然性,過濾一些干擾數據。比如,為了避免算術平均值法給人的一種假象,可以用階梯算術平均來修正,或采用均方差來評估數據分布的偏離程度。我們在統計個人收入時,經??吹狡骄鶖涤袝r沒有多大意義,而階梯分析的數據更加容易看清楚數據的真相,如分析1%的高收入人群,其對財富的占比等。階梯算術平均法在分析物流數據時,很容易得到庫存和發貨的ABC分布結果。更加深入細致的分析,還可以進一步對標準差進行分析,從而有助于確定設計指標。例如在一個物流中心的設計中,人們常常需要一個較合適的設計目標。這一目標的確定就跟標準差有關。最簡單的做法是,約70%天數的作業在常規時間完成,其它30%天數的作業通過加班完成,這可能是一個比較合理的尺度。
物流數據背后的邏輯
在實際應用中,抽樣統計在統計中有非常大的作用。比如市場調查和輿情調查,目前還基本采用這一方法。我們在物流作業中,往往也采用隨機抽樣的方法,對產品質量進行評估。為什么1%甚至更低的隨機抽樣會大致反映真實情況呢?這就是概率論給我們帶來的啟示。其實,我們在做物流數據分析時,隨機抽樣仍然不失為一種有效的方法。
對很多系統來說,數據反映的往往只是表象。比如,人們對于一個物流中心的評估,每年的發貨量反映的其實只是一個非常粗略的總數,背后隱藏的真相往往大相徑庭,兩個具有同樣發貨能力的物流中心,往往不具有可比性。因為差異是多方面的。
1)工作時間
從大的方面講,工作時間可能是單班、雙班和三班,其差異已經是非常大的了。而進一步分析,每個班次有的只有4~5小時,有的會有9~10小時,差異也很大。有的年工作360天,有的只有200多天。這些差異,會導致分析的結果出入很大。
2)單元貨物的價值
單箱價格也是影響非常大的因素。物流系統能夠比較的是物流量而非銷售額。但往往被人們忽視。就如同錯把物流費用與GDP做比較,不考慮產業結構、地域、道路收費、工資等差異,從而得出我國物流技術水平低的結論一樣,其實是不真實的。一個以日用、食品配送為主的配送中心,其單件價格只有幾十元,而一件藥品會高達上千元甚至幾千元,即使是同類商品,因為構成品質不一致,產地不一樣,價格也會相差很大。比如進口產品和國產的比較。
3)業務的均衡性
有的配送中心,其業務波動性大,隨季節變化幅度非常大,而有的會比較均勻。這在數據分析時容易被忽視。但其影響巨大,比如圖書與醫藥。圖書,尤其是教材教輔類圖書表現出明顯的季節性,而藥品的季節性影響就要低很多。如果再細分到每一天,每一周,每一個月和每一季度的話,會得到非常驚人的結果。如何均衡業務,其實對于提升物流系統的處理能力有非常大的作用。這就是物流反過來促進管理,促進市場的典型例子。與此類似的還有庫存周期和庫存量,這兩個指標其實決定了物流中心處理能力的天花板,但又不是物流系統本身所能解決的問題,必須要與采購策略進行聯動??傮w來說,我國很多行業的物流管理還是粗放的,可以優化的方面很多,而業務均衡性則是一個有很大潛力的優化目標。
4)拆零比
隨著電子商務的興起,拆零作業在物流配送中心的比重越來越大,也嚴重影響了物流作業的效率。一方面,人們看到定制化帶來的服務提升,另一方面,配送成本也隨之大幅度提升。特別是最近幾年,圍繞拆零揀選的技術投入大幅度提升。面對這一現狀,對于toB業務,是否可以從提高整件配送比例出發,降低物流成本,成為一個新的課題。即使對于拆零揀選,如何采用單元化技術,使揀選更高效,其意義是多方面的,未來肯定會成為企業關注的方向。
除此之外,可比較的方面還有很多,如作業人員的數量,設備的投入,自動化水平等,均影響物流配送中心的作業和業績,有些還互相關聯和影響。而這些都是表面數據看不到的,或表現不出來的。
總之,數據分析不是簡單的數據堆砌和結果呈現,而是要挖掘其背后隱藏的真相。數據分析的價值在于發現數據背后的邏輯和特征,找出普遍性和規律性的東西,找出導致問題發生的根本原因和改進方向,從而指導未來進行的科學預測和規劃。
部分圖片來源于網絡