從海量金融文本中挖掘價值信息,華為云助力企業風控與輿情分析

近日,在2019 CCF大數據與計算智能大賽(CCF Big Data & Computing Intelligence Contest,簡稱CCF BDCI)決賽中,華為云語音語義創新Lab獲得金融實體級情感分析大賽冠軍,體現了在文本情感分析和知識圖譜領域的實力。
華為云獲2019CCF BDCI金融信息負面及實體判定大賽冠軍
CCF BDCI是由教育部高等學校計算機類專業教學指導委員會、國家自然科學基金委員會信息科學部及鄭州市人民政府指導,中國計算機學會主辦的重量級大賽,今年已經是第七屆。本次大賽共吸引了來自全球25個國家,1500余所高校及科研院所,1800余所企事業單位的60000余人參加。
隨著互聯網的飛速進步和全球金融的高速發展,金融信息呈現出爆炸式增長的態勢。如何從海量的金融文本中快速準確地挖掘出關鍵信息一直是金融領域研究的熱點,其效果好壞對投資者和決策者有至關重要的影響,其難點在于如何識別出海量文本中針對不同實體的報道的正負面,核心技術是實體級情感分析,而這也成為了本次大賽“金融信息負面及實體判定”賽道的重點解決問題。
本賽題關注金融文本中信息主體的挖掘和面向主體的負面消息檢測,在風控和輿情分析等領域有較大現實意義,如及時發現對企業的負面報道,然后及時客服跟進或采取改進措施,對企業有非常大的幫助。
挑戰情感分析技術高點
該任務分為兩個子任務:給定金融文本和文本中出現的金融實體列表,
負面信息判定:判定該文本是否包含金融實體的負面信息。如果該文本不包含負面信息,或者包含負面信息但負面信息未涉及到金融實體,則負面信息判定結果為0。
負面主體判定:如果任務1中包含金融實體的負面信息,繼續判斷負面信息的主體對象是實體列表中的哪些實體。
實際上,該問題屬于NLP情感分析領域的一個技術分支——實體級情感分析。傳統情感分析任務都是文本級的,即只判定一個文本整體的正負面,不涉及具體的正負面評價的對象或實體,但基于這種方式有時并不能作出準確判斷。如圖2的新聞報道,對實體“A公司”和“B公司”來說是正面的,但是對實體“C公司”則是負面的。
圖2實體級情感分析
本次大賽華為云聯合武漢大學、重慶郵電大學,設計了三種基于深度學習技術的方案:
方案一:將問題轉化為一個二分類問題,通過合并文本和實體構造新樣本,判斷該實體是否為文本的負面實體;
方案二:先判斷文本是否是負面文本,再在負面文本樣本中針對每個實體判定該文本是否針對該實體;
方案三:采用多任務模型,將情感分析與實體判別同時訓練優化。
最終,通過情感校驗和模型融合三個方案獲得的最終結果為F值0.959,獲得該賽道的冠軍。
持續在語音語義領域創新
實際上,華為云語音語義創新Lab長期在自然語言基礎(如詞法、句法等)、語言理解、語言生成、知識圖譜等進行持續的研究創新,并將成果以云服務的形式呈現出來,為客戶服務。2019年,華為云推出了知識計算即服務(KaaS)框架,助力政企客戶破解大型企業和政府機構的智能化知識挖掘和管理難題,實現知識化轉型。
具體來說,基于在自然語言處理、知識圖譜、深度學習、圖計算等領域的技術積累和實踐,該框架能夠以知識計算云服務形式提供全棧知識計算流水線平臺,能夠針對不同行業多源異構數據進行分析和處理,通過流水線平臺幫助客戶構建知識獲取、知識建模、知識管理和知識應用的全套知識管理體系。基于知識圖譜底座,衍生出各種知識增強的自然語言處理服務,如分詞、命名實體識別、句子級情感分析、屬性級情感分析、對話機器人服務、機器翻譯等。
在2019年華為全聯接大會上,華為就攜手中石油聯合發布了勘探開發人工智能平臺。基于KaaS框架,華為云助力中石油進行勘探開發知識體系的構建、計算和應用,為油氣勘探開發科研、生產管理提供智能化分析手段,實現油氣行業的知識化轉型。
今年5月,憑借創新性和技術先進性,“華為云知識計算云服務”獲得了行業權威獎項“2019數博會領先科技成果獎”。在不久前的全國知識圖譜及語義計算大會(CCKS 2019)上,華為云也獲得了中文知識圖譜問答大賽“創新技術獎”、DigSci科學數據挖掘大賽冠軍。
目前,華為云語音語義相關服務已經成功應用于政務、金融、油氣、醫療、汽車、物流、保險、電商、稅務、媒體等領域,為客戶提供智能客服、對話助手、知識圖譜等產品服務。相關服務歡迎到“EI體驗空間”小程序體驗。