近日,自動化學(xué)院楊曉飛副教授“自主智能無人系統(tǒng)”團隊在未來混合交通體系下的無人艇智能航行和安全避碰研究方向取得新進展。團隊研究成果“A Balanced Collision Avoidance Algorithm for USVs in Complex Environment: A Deep Reinforcement Learning Approach”和“Design and Field Test of Collision Avoidance Method With Prediction for USVs: A Deep Deterministic Policy Gradient Approach”先后在人工智能和智能交通領(lǐng)域的國際頂級期刊《IEEE Internet of Things Journal》和《IEEE Transactions on Intelligent Transportation Systems》上發(fā)表。兩篇論文的第一作者均為自動化學(xué)院2022級碩士研究生婁猛猛,楊曉飛副教授為論文唯一通訊作者,江蘇科技大學(xué)為第一完成單位。論文的共同作者還包括自動化學(xué)院2022級碩士研究生胡家寶、江蘇科技大學(xué)朱志宇教授、安徽工業(yè)大學(xué)沈浩教授、南京理工大學(xué)向崢嶸教授和美國南卡羅來納大學(xué)張斌教授。
隨著智能技術(shù)的發(fā)展,未來將形成有人和無人船舶共存的混合交通體系。在該體系中,無人船舶如何與有人船舶和諧共存,并按照人類的航行規(guī)則進行安全航行是值得研究和探討的問題。因此,實時安全避碰對于復(fù)雜環(huán)境中的水面無人艇(USV)至關(guān)重要。針對傳統(tǒng)方法難以保證控制決策安全性和實用性的平衡問題,團隊提出了一種基于互補原理的兩級激勵獎勵機制,并構(gòu)建了基于深度強化學(xué)習(xí)的安全避碰算法框架。同時,為了解決深度確定性策略梯度(DDPG)的稀疏獎勵問題,團隊參考動態(tài)窗口算法(DWA)的軌跡評價函數(shù),構(gòu)建了主要獎勵策略,并基于速度障礙(VO)設(shè)計次級激勵獎勵,以篩除潛在的碰撞風(fēng)險。在提高訓(xùn)練效率方面,團隊利用電子海圖(EC)和Unity3D構(gòu)建了一個沉浸式仿真平臺,并通過該平臺開展算法仿真和驗證。此外,通過現(xiàn)場實驗測試了算法在多種遭遇場景下的有效性。


此外,為了解決當(dāng)前基于深度強化學(xué)習(xí)(DRL)的無人艇避碰研究大多依賴固定數(shù)量障礙物假設(shè)、忽視碰撞預(yù)測重要性的問題,團隊提出了一種基于DDPG的新型“預(yù)測-決策”避碰模型。該模型首先設(shè)計和構(gòu)造了輻射形狀態(tài)空間,使得DDPG方法能夠用于具有隨機障礙物的時變場景,同時將速度障礙(VO)與狀態(tài)空間相結(jié)合以實現(xiàn)碰撞預(yù)測,使用獎勵塑形技術(shù)設(shè)計獎勵函數(shù),以提高安全性和訓(xùn)練效率。虛擬仿真實驗和現(xiàn)場測試驗證了該算法的有效性,顯示出所提方法不僅使無人艇在未知環(huán)境中能夠安全避碰,而且具有較強的泛化能力。


《IEEE Transactions on Intelligent Transportation Systems》是智能交通領(lǐng)域的國際頂級期刊(影響因子7.9),《IEEE Internet of Things Journal》是人工智能與物聯(lián)網(wǎng)領(lǐng)域的國際頂級期刊(影響因子8.2),兩者均屬于中科院SCI一區(qū)TOP期刊。
論文鏈接:
https://ieeexplore.ieee.org/document/10715732
https://ieeexplore.ieee.org/document/10733753
(撰稿:楊曉飛 初審:羅文 二審:夏志平 終審:張強 編輯:羅文)



