近日,極智嘉副總裁、AI研究院院長譚文哲博士受邀出席中國物流科技年度盛會“2022全球物流技術(shù)大會”,在“運(yùn)籌學(xué)物流應(yīng)用論壇”上發(fā)表主題演講,分享運(yùn)籌學(xué)在智能物流機(jī)器人中的應(yīng)用,并在圓桌討論環(huán)節(jié)與阿里巴巴、華為及頂尖高校專家學(xué)者,共探運(yùn)籌學(xué)在企業(yè)應(yīng)用中的經(jīng)驗(yàn)。
“2022全球物流技術(shù)大會”由中國物流與采購聯(lián)合會主辦,作為業(yè)內(nèi)前沿技術(shù)創(chuàng)新的風(fēng)向標(biāo),本屆大會云集了全球的學(xué)術(shù)泰斗和專家,共話最新技術(shù)成果和未來研發(fā)方向。
在運(yùn)籌學(xué)論壇上,普林斯頓大學(xué)榮譽(yù)退休教授Warren B. Powell和清華大學(xué)工業(yè)工程系趙磊教授均強(qiáng)調(diào),運(yùn)籌學(xué)中的序貫決策模型(Sequential Decision Model)已成為當(dāng)前物流管理中一種有效的建模與分析手段。隨后,極智嘉譚文哲博士著重展開介紹了序貫決策模型在機(jī)器人智能物流中的應(yīng)用,并且通過數(shù)據(jù)驅(qū)動的方式不斷提升系統(tǒng)決策的智能性,有效助力客戶降本增效。
▲ 極智嘉譚文哲博士分享運(yùn)籌學(xué)在智能物流中的應(yīng)用
序貫決策在極智嘉的應(yīng)用
基于機(jī)器人的智能倉可以建模成典型的序貫決策模型(圖1),每個時刻系統(tǒng)都可以收集諸如訂單、工作站、庫存、機(jī)器人等信息,同時基于這些信息做出諸如派單命中、任務(wù)分派、路徑規(guī)劃調(diào)度等系列決策,而下一時刻的環(huán)境信息又是基于這些決策產(chǎn)生新的變化。
▲ 圖1 智能倉中的序貫決策問題
這個過程不斷循環(huán),最終完成智能倉儲系統(tǒng)功能。每個時間片都面臨著海量的信息,需要做出非常復(fù)雜的涉及各個系統(tǒng)的決策,極智嘉將系統(tǒng)解耦成幾個關(guān)鍵的步驟分步攻克。
任務(wù)分派和派單命中是其中最典型的兩個問題。任務(wù)分派(如圖2)指的是倉庫中貨架搬運(yùn)任務(wù)與機(jī)器人之間的分配問題,旨在建立多任務(wù)與多機(jī)器人的映射關(guān)系,這是一個非常經(jīng)典的運(yùn)籌優(yōu)化問題。
▲ 圖2 任務(wù)分派示意圖
第二種是智能倉中面臨的派單命中問題,旨在建立訂單-工作站-庫存三者之間的決策匹配關(guān)系(如圖3)。這兩個典型問題以往的決策現(xiàn)場往往僅考慮當(dāng)時的情況并基于人工設(shè)定規(guī)則,如果考慮決策對后續(xù)過程帶來的影響是否有更好的決策表現(xiàn)呢?在譚文哲博士的報告中展開介紹了極智嘉對任務(wù)分派序貫決策的系列探索。
▲ 圖3 派單命中示意圖
探索一:歷史數(shù)據(jù)驅(qū)動的任務(wù)分派
▲ 圖4 任務(wù)分派
任務(wù)分派是極智嘉無人倉運(yùn)行的基礎(chǔ),任務(wù)分配決策的好壞直接決定了現(xiàn)場的訂單完成時間、機(jī)器人利用率等效率指標(biāo)(圖4)。為了兼顧各方面的需求,極智嘉通常考慮現(xiàn)場交通、訂單優(yōu)先級、貨架熱度等多重因素進(jìn)行分配。在不斷落地的實(shí)踐中,極智嘉也持續(xù)在思考一個問題:倉庫現(xiàn)場面臨著時刻不同的不確定性,不同倉庫、不同工作站排隊(duì)情況、甚至不同的揀貨速度下,任務(wù)的價值是否也應(yīng)該不同?
▲ 圖5 使用貝爾曼方程為智能倉任務(wù)分派問題建模
極智嘉通過豐富的場景落地和持續(xù)的技術(shù)創(chuàng)新,提出了數(shù)據(jù)驅(qū)動的全局智能任務(wù)分派模型(圖5)。算法首先收集了不同倉庫、不同時刻、不同場景的大量歷史數(shù)據(jù),并對其當(dāng)時的情形進(jìn)行回顧性挖掘分析,生成預(yù)期價值函數(shù)。而在實(shí)時運(yùn)行過程中,算法又將實(shí)時計(jì)算當(dāng)前時刻的即時價值并綜合考慮通過預(yù)期價值函數(shù)生成的預(yù)期價值,最后的匹配中使系統(tǒng)獎勵值最大的方案將被采用。
運(yùn)行數(shù)據(jù)將積累入歷史數(shù)據(jù)庫中,更新訓(xùn)練價值函數(shù),形成算法優(yōu)化的閉環(huán),且不需要實(shí)施人員專門針對特定倉庫進(jìn)行預(yù)先的規(guī)則設(shè)定,完全由數(shù)據(jù)驅(qū)動自適應(yīng)倉庫的特點(diǎn),大幅減少了項(xiàng)目的實(shí)施周期。新的綜合價值綜合考慮了當(dāng)前的狀態(tài)與預(yù)期的影響,有助于更好地感知不同時刻任務(wù)狀態(tài)與時序預(yù)期狀態(tài),在抽樣場景中實(shí)現(xiàn)了相同條件下效率15%以上的提升(圖6)。
▲ 圖6 抽樣場景中相同條件下效率提升15%以上
探索二:自適應(yīng)價值函數(shù)驅(qū)動的任務(wù)分派算法
探索1成功帶來了可觀的效率提升,同時引發(fā)了極智嘉進(jìn)一步的思考,任務(wù)的價值函數(shù)是否可感知訂單和機(jī)器人密度等環(huán)境信息,并隨著系統(tǒng)運(yùn)行自適應(yīng)改變?
針對上述問題,極智嘉提出了全新的自適應(yīng)價值函數(shù)驅(qū)動的任務(wù)規(guī)劃算法。算法在任務(wù)分配過程中進(jìn)一步考慮路徑規(guī)劃的影響,使用在線強(qiáng)化學(xué)習(xí)(Online Reinforcement Learning)方法挖掘訂單需求特點(diǎn),并自適應(yīng)調(diào)整任務(wù)分配策略,實(shí)現(xiàn)對全局效率瓶頸的精準(zhǔn)感知,使優(yōu)化過程更具有針對性、實(shí)時性,從而提高了AMR的運(yùn)行效率。
如圖7所示,整個算法流程分為四個步驟:信息收集、模型訓(xùn)練、任務(wù)選擇、路徑規(guī)劃。首先,算法收集揀貨員、AMR和貨架的時空信息(例如揀貨員的揀貨時間、貨架的任務(wù)預(yù)計(jì)完成時間、AMR的位置信息等)。收集完成后,自適應(yīng)規(guī)劃模塊基于馬爾可夫決策過程模型(Markov Decision Process, MDP)對時空信息建模,并使用強(qiáng)化學(xué)習(xí)中的Q-Learning方法訓(xùn)練價值函數(shù)。之后,算法基于價值函數(shù)選擇合適的任務(wù)分配給AMR,最后基于選擇方案為AMR規(guī)劃路徑。
▲ 圖7 完整算法流程圖
其中序貫決策模型中的狀態(tài)定義中綜合考慮了貨架和揀貨員的工作狀態(tài),該建模方法有助于讓強(qiáng)化學(xué)習(xí)智能體(Agent)更好地感知從搬運(yùn)到揀貨全流程中的效率瓶頸。此外,采用在線學(xué)習(xí)的方法及時更新狀態(tài)-動作價值函數(shù),進(jìn)一步提高了算法的自適應(yīng)性。
▲ 圖8 效率瓶頸隨時間在不同階段變化的現(xiàn)象
一直以來,極智嘉都在積極探索在任務(wù)分派模型的算法上的創(chuàng)新,目前同場景數(shù)字孿生環(huán)境下已帶來20%以上的提升。未來,極智嘉將堅(jiān)持初心,不斷優(yōu)化提升,更好地為智慧物流賦能。
中郵無人機(jī)(北京)有限公司揭牌
2174 閱讀智能倉儲企業(yè)“智世機(jī)器人”完成數(shù)千萬元A輪融資
1606 閱讀聊聊2025年物流企業(yè)如何做營銷規(guī)劃
1555 閱讀這家老牌物流巨頭被整合重組,四千多名員工將何去何從?
1515 閱讀物流供應(yīng)鏈領(lǐng)域“吸金”不力,但能給投融資事件頒幾個獎
944 閱讀極兔速遞2024年第四季度包裹量增長32.5% 全球日均單量超8000萬件
972 閱讀京東緊急馳援西藏震區(qū),首批救援物資已由專車送出
962 閱讀2024LOG供應(yīng)鏈物流?突破創(chuàng)新獎候選案例——準(zhǔn)時達(dá)國際供應(yīng)鏈管理有限公司
875 閱讀仿生學(xué):蜂巢帶給供應(yīng)鏈管理的啟示
857 閱讀人民日報“晚安短信計(jì)劃”關(guān)注電商西進(jìn):拼多多新農(nóng)人傳遞溫暖
884 閱讀