歡迎光臨
每天分享高質量文章

福利|免費公開課《自然語言處理在證券行業中的應用》

文末有彩蛋:免費公開課《自然語言處理在證券行業中的應用》,本期我們特別邀請了NLP領域專家Sherlock Ho結合一線經驗給大家講述自然語言理解技術在金融領域中的工業級應用。 

 

為什麼說自然語言處理技術對證券行業尤為重要?


人工智慧技術已經全面打入了金融領域,其中以自然語言處理技術在該垂直行業的突破最為顯著。這其中表現最為突出的是證券行業的應用場景。眾所周知,證券行業充滿著博弈,任何的投資決策都需要經過大量的信息搜集和處理過程。就量化投資而言,我首先需要的就是建模,所謂建模就是需要各種結構化的信號。信號一部分可能來自於量價信息,另一部分則可能來自於技術面或者基本面;對於主觀分析來說,為了瞭解一個公司或者行業,分析師往往需要去搜集和查閱各種相關研報、新聞、公告、基本面等資料,隨後通過一系列的方法論來找出資料間的相關性,最後對未來趨勢做預測。

 

隨著近幾年NLP技術在金融垂直行業的落地,我們驚喜的發現AI技術與證券行業的結合為我們帶來了這四大優勢:

1、在大資料時代,我們所面臨的資料量是幾乎以指數增長的。其中,絕大部分屬於非結構化信息,比如文本、圖片、音頻、視頻等。包含大量文本資料的新聞、股吧、論壇、微博其實跟投資決策都有一定的關係,但現階段並沒有很好地被利用,甚至被忽略,主要是源於技術的壁壘和領域的新穎性。在未來的幾年內,隨著移動互聯網的持續發展,非結構化資料仍然會以驚人的速度增加。


2、目前的量化建模主要依賴於結構化資料。在這基礎上,當我們把非結構化文本轉換成結構化信號之後,就可以用來豐富模型的輸入從而提升效果。在這方面,美國的量化走在我們的前面,他們早已開始使用自然語言的資料來提升量化模型的準確率,代表性的公司包括two sigma, Sentient technology等。


3、一個分析師可能需要耗費大量的時間去搜集和查閱資料(包括新聞、研報等),從而找到一些信息之間的相關性,但整個過程需要大量的人力成本。事實上,其中的很多流程都可以被機器替代,比如運用自然語言處理技術讓機器對原始信息做抽取和分類、做結構化處理、並基於歷史資料做相關性驗證和邏輯推理等。代表性的公司有Kensho, Ravenpack等。


4、對於投資這種極其專業化的領域,一個分析師能考慮到的邊界畢竟是有限的,大多數情況下他們只專註於自己熟悉的行業或領域。相反,AI技術可以無限地延伸知識的邊界,能夠提供更全面的信息和行業全貌。

 

NLP應用1:事件的影響- 通過語意技術實時分析出事件對股票、行業的影響

事件對股市的影響是不可忽視的。特別是對於”黑天鵝“事件來說,它們對於股市或許會是連鎖式的影響。為了能夠分析出這類事件對未來走勢的影響,分析師需要搜集大量的資料、並通過統計建模找到一些相關性、再通過回測等手段最終給出一個方案,但這個方案可能是一個次優解。其實整個分析研究過程是存在一些共性的,如果利用自然語言以及知識圖譜的技術去讓機器自動識別被影響的個體以及影響路徑等,這就會大大提升分析師的效率,從而在最短的時間內做出最優決策。

 

這裡有兩個核心的問題需要解決。

 

第一、需要實時監測正在發生中的重要事件,或者甚至去預測不久將來有可能會發生的事件。如果能在信息的獲取上比別人提早一些,這其實也是一個很大的競爭力。美國有一家非常優秀的創業公司叫dataminr,專註於事件監測。他們通過實時抓取twitter上的內容,可以在第一時間內預測出一些重要的事件,比如某些地域里疾病的突發。


第二、為了判斷事件的影響,我們需要去挖掘歷史資料,找出類似的事件並從中學出一些有價值的樣式(pattern)。這裡有很多的挑戰,比如怎麼去處理稀疏事件?怎麼去比較事件相似度?怎麼去量化因果關係?怎麼去排除環境中的干擾因素?怎麼去設計模型使得不容易過擬合?此外,這對系統實時性的要求也非常高。在這類問題上,美國的kensho是最具有代表性的公司。

 

NLP應用2:相關性分析- 搭建包含各類金融物體的大規模金融知識圖譜

一個黑天鵝事件的發生會導致一系列連鎖效應,比如石油價格重上100美元。這類的事件一旦發生之後,如果有一個系統能在秒級內以全景圖的方式展示出很可能被影響到的範圍,它的價值是非常大的。這個範圍可以包括任何跟金融相關的物體,有可能是公司、也有可能是行業、甚至是人物或者其上下游關係。除了黑天鵝事件,其他的重要政治事件、政策新聞、甚至非金融類事件也有可能對整個(或者部分)市場產生一定的影響。


在這類總結性的問題上,機器會比人做得更加優秀。兩個主要原因:1. 海量的信息處理能力機器要遠優於人;2. 機器能考慮到的邊界是無限的,但相反,一個分析師一般只會去關註某一個細分投資領域。搭建此類的知識圖譜是一個很複雜的過程,從信息的獲取、關鍵信息的抽取、標簽化、關聯分析到推理,每一個環節都具有不同程度的挑戰性。但是如果有了這類的圖譜,我們就可以回答解釋很多有趣的問題

 

為了讓大家對自然語言處理在金融證券行業的應用有更深入的瞭解,貪心學院邀請NLP專家以《自然語言處理在證券行業中的應用》為題進行公開課

公開課大綱:

1、NLP關鍵技術:事件發現和關聯

•新詞發現:

•無監督;有監督;

•相似度計算:行業相關,種子詞相關;

•完善串列

•事件關聯:

•構建圖

•推理(FOL,bayesian networks)

•知識圖譜


2、深度學習完成研報重點標註

• 從研報或新聞中,提取出我們關心的內容(比如標的價,買入推薦,事件等)

• sequence labeling

•兩種實現方式:

•  LSTM: one to one

•  textcnn: many to one


3、深度學習進行情緒識別

•人類的基本情感

•分幾類的權衡

•短文本,長文本略有不同


關註公眾號“貪心科技”,回覆關鍵字“公開課”獲得免費公開課地址。


貪心學院

融合了PBL的全新AI教育樣式

硅谷頂級AI科學家擔任學員導師

通過完成AI專案,獲得AI專案實操經驗

最終幫助學員成功邁入AI領域!

赞(0)

分享創造快樂