我并不是“一個人在戰斗”:這是工業大數據開拓者們的故事

2019-09-02 王樂樂 IT之家
瀏覽

2019年7月22-23日,由工業和信息化部指導,中國信息通信研究院主辦的第三屆“中國工業大數據創新競賽”(以下簡稱為“競賽”)決賽現場答辯及頒獎儀式在北京遼寧大廈落下帷幕。作為首個由政府主管部門指導的工業大數據領域的權威性全國賽事,競賽已累計吸引產學研各界超過6000人參賽,開發出許多聚焦行業細分領域的算法模型,解決諸多傳統工業領域中的“老大難”問題。此次,InfoQ 專訪第三屆工業大數據競賽冠軍團隊胡翔,以及來自首爾大學的國際團隊 tea ,深入解讀在工業大數據與智能制造領域中這群開拓者的故事。

我并不是“一個人在戰斗”

作為決賽中唯一的個人參賽者,當提起“以一敵百”取得冠軍的榮耀時刻時,胡翔調侃道,“實際上我并不是‘一個人在戰斗’。”

面對著競賽數十只支多人隊伍同場競技,胡翔表示單人參賽既有優勢又有劣勢。其中,優勢在于個人對比賽工作的安排更加自由靈活,同時也會更加專注,對于每一個想法都能親自嘗試與驗證,這使得自己對問題的理解能更加的透徹、深入。

但是,“人多力量大”這句老話也確有道理,單人參賽相比于多人團隊,需要去做更多的分析工作,也更加有壓力。畢竟個人的理解能力比較單一,缺乏不同思路的碰撞,思路會更容易陷入壁壘。“但很幸運的是在因聯科技,我身邊的同事給了我很多幫助,他們對這個問題的理解和思路給了我很多啟發,實際上我并不是‘一個人在戰斗’,在這里向他們表示感謝。”

2018 年,胡翔碩士畢業于西安交通大學機械工程學院,入職于西安因聯信息科技,正式成為了一名工業算法工程師。持續關注工業大數據相關信息的他,在看到第三屆工業大數據競賽報名的信息后,毅然決定“單槍匹馬大練兵”。

對于“練兵”的含義,胡翔笑著說:“練兵有兩層含義,一是為了鍛煉自己解決工業預測性維護問題的能力。二是在工業預測性維護領域工作一年多后,以比賽這種形式去解決實際問題,對于自我業務能力的提升,是一個非常好的機會。畢竟比賽的水平是非常高的,還能認識非常多優秀的同行。”

第三屆工業大數據創新競賽冠軍 胡 翔

合適的解題思路是解決問題的“靈魂”所在

工業大數據創新競賽自 2017 年首屆舉辦以來,每一屆競賽都為參賽者提供著基于真實工業場景的數據資源,并為工業大數據領域的相關研究人員和創業者們提供了成果轉移轉化的交流平臺。

“實際上本次競賽的數據,均來源于沈鼓大型高速旋轉機組實際運行中的真實數據,故障案例非常寶貴,”胡翔對記者說道。據了解,胡翔的工作主要集中在振動速度和加速度數據的分析上,之前從未獲取過這么大量的大機組振動位移數據進行分析,當記者詢問胡翔拿到賽題與數據后的第一反映,胡翔表示“十分驚喜”。

早在 2019 大數據產業峰會,中國通信研究院就發布了首道主賽區賽題——由沈陽鼓風機集團測控技術有限公司提供的《大型旋轉機組轉子部件脫落故障預測》。但看到賽題后的胡翔,并未著急著手“解題”,而是先確定了一個合適的解題思路后,再進行攻克。

“我個人認為解題思路實際是解決問題的“靈魂”所在。不論是在這次的比賽中還是日常工作中,所有問題的解決都是依賴于正確的解題思路。”胡翔總結道,只有在深入理解賽題目標和數據的基礎上,才能確定一個合適的解題思路,合適的解題思路會對數據分析和特征提取提供非常好的方向。

比如對于工業領域的數據挖掘比賽,很多選手一開始就確立的是純數據的分析和挖掘,很少結合機理分析,僅僅是提取了數據各個統計特征,并且使用了多個模型對結果進行融合。雖然這也許能得到非常好的結果,但這種模型并沒有“洞察力”,首先特征對于模型結果的解釋力并不強,其次這種模型很難與人建立信任,最終雖然訓練出一個準確率為 99% 的模型,但卻難以成功在工業實際場景中落地實踐。

打破專家定論——新方法解決老問題

本次競賽賽題《大型旋轉機組轉子部件脫落故障預測》屬于工業領域典型的異常檢測和故障診斷問題。旋轉類機械設備的故障診斷問題在實際的工業場景中非常常見,轉子部件脫落更是一個老問題。

據了解,比賽數據提供方沈鼓負責人曾在阿爾斯通的時候就遇到過這個問題,并就該問題與歐美專家進行討論,當時的結論是不可能通過傳感器的信號預測出故障。但讓人驚喜的是,在比賽中非常多優秀的選手和解決方案,用不同的方法實現轉子部件脫落的故障預測,打破了當時專家的定論。其中最讓在場專家評審印象深刻的要屬冠軍團隊胡翔的解決方案。

要說胡翔的解決方案,重中之重就是在拿到賽題數據后,對原始工業數據進行了包括數據的整合和數據的可視化的預處理。由于工業數據的復雜性,數據集存在數據測點名稱與測點數據不一致的問題,所以第一步他先對數據進行了標準化整理,將測點名稱標準化;第二步是對振動位移數據進行可視化分析,考慮到大機組的振動采樣特性,以及典型的位移振動分析方法特點,通過總采樣點與轉子旋轉周數相除,得到了采樣頻率為每轉 32 點(等角度采樣)。

在獲取采樣頻率后,利用 FFT 變換獲取位移振動階次譜,并觀察故障樣本和正常樣本階次譜的區別差異,為特征提取提供方向。競賽中,胡翔在階次譜中提取了 1 倍轉頻,2 倍轉頻,3 倍轉頻等特征,并觀察這些特征在有故障機組和無故障機組中歷史趨勢,進而選擇有效特征。同時根據轉子 X 向和 Y 向位移,合成軸心軌跡,發現無故障機組的軸心軌跡在各個時段變幾乎沒有較大變化(如圖 1),而轉子部件脫落故障的機組的軸心軌跡在各個時段經歷較大變化(如圖 2)。

圖 1 無故障機組各時段典型軸心軌跡

圖 2 故障機組各時段典型軸心軌跡

此后,胡翔別出心裁地把賽題拆解為“轉子部件是否脫落”與“脫落故障征兆強度識別”兩個部分,并通過解決二分類問題與分類概率大小排序問題,分別解決賽題的兩大難點。

其中,解決二分類問題所面臨的挑戰在于數據集的劃分,如何選取訓練數據集,對結果的影響非常之大。由于理論上轉子部件脫落故障征兆在最接近故障發生時刻表現最強,最接近故障時間的數據與實際故障數據也是最相似的,所以胡翔在解題中選取了最接近故障時間的數據作為二分類的正例數據進行訓練。

在分類概率大小排序問題中,最大的挑戰莫過于如何篩選特征,因為特征選擇關系到模型的性能結果和泛化能力。考慮到賽題目標是區分故障征兆強度,對于機械部件故障來說,越接近故障發生時刻,征兆的表現也就越強,因此特征若是與故障時間呈現較強的單調性,它能區分故障的能力也就越強,也越能區分故障處于哪個階段。綜合上述分析,選擇故障數據中單調性更強的特征進行建模和預測為最佳解決方案。最終都取得了比較好的結果,胡翔的這些思路和方案在答辯中也得到了多位評委的認可和贊許。

但胡翔也表示他的算法模型還有一些不足需要改進與完善,算法模型的精度上還需要提升,以滿足工業應用的更高要求。算法模型也需要考慮除“轉子部件脫落故障”之外的其余故障對算法模型的影響,只有解決了這個關鍵問題,算法模型才有可能在工業實際中得到應用。

全球參賽選手同臺競技,各領風騷

第三屆工業大數據創新競賽已順利落下帷幕。但值得注意的是,本屆競賽可謂是一場真正意義上的全球競技,中國信息通信研究院作為全球工業大數據領域頂尖活動—— PHM 亞太學術論壇(www.phmap.cn)主辦方之一,賽題也有全球參賽選手和國內參賽者同臺 PK,而來自首爾大學的參賽團隊“ tea ”更是取得了第三名的好成績。

tea 小組是由來自首爾國立大學機械工程系的研究生 Yongjin Shin、Jongmin Park 與 Yongjin Shin 共同組成。在接受記者采訪時,tea 小組的成員們談起這段參賽經歷時,感嘆道:"Since we are students in the lab, we often use experimental data or refined data. However, it was a good experience to analyze and build the model by directly using the data measured in the industrial field without any filtering. (由于我們是實驗室的學生,使用到的通常為實驗數據或處理后的數據。直接使用工業領域中測量的未經處理的數據來分析和建模是一段很好的經歷。)"

第三屆工業大數據創新競賽韓國參賽團隊 tea 小組

據了解,這也是 tea 小組第一次來中國參加此類比賽。對于他們來說,本次競賽的最大挑戰在于,給定的數據集是在轉子部件脫落故障之前采集的。因此,在分析數據的過程中,很難檢測到故障發生的特征,并確定未故障到接近故障的順序。而為了更清晰的判斷,tea 小組在解題初期也想過使用機器學習或其他模型(實際上一些成員的主要研究方向是 PHM 領域的深度學習),但由于標簽信息可能會由于上訴問題變得不清晰,tea 小組設定了自己的標準,以確定是否故障及故障的順序。

同樣,為了實現在實際工業場景中的應用,tea 小組表示,他們還需對給定目標系統(的特定故障)設置更合適的故障標準或閾值,算法模型也要從目標系統中同時獲取正常和故障的數據,并設置明確標準以區分是正常還是故障,實現模型的進一步優化與改進。

近年來,在工業 4.0 的發展趨勢下,韓國和中國一樣,隨著高附加值技術重要性的增強,過程自動化以及相關的自動故障診斷和預測系統也將變得十分重要。

寫在最后

智能制造和工業互聯網是密不可分的關系。正如胡翔所說,預測性維護是工業互聯網應用的“皇冠上的明珠”。當然遠遠不止如此,大數據和智能制造給傳統工業帶來了巨大沖擊,強大的工業數據分析服務將成為制造企業數字化戰略的重要組成部分,工業互聯網將顯現出更大的戰略價值。可以預見,工業大數據應用將帶來工業企業創新和變革的新時代。