歡迎光臨
每天分享高質量文章

NLP Chinese Corpus:大規模中文自然語言處理語料

 

中文的信息無處不在,但如果想要獲得大量的中文語料,卻是不太容易,有時甚至非常困難。在 2019 年初這個時點上,普通的從業者、研究人員或學生,並沒有一個比較好的渠道獲得極大量的中文語料。

 

筆者想要訓練一個中文的詞向量,在百度和 Github 上搜索了好久,收穫卻很少:要麼語料的量級太小,要麼資料過於成舊,或需要的處理太複雜。不知道你是否也遇到了這樣的問題?

 

我們這個專案,就是為瞭解決這一問題貢獻微薄之力。

 

 

專案地址:

 

https://github.com/brightmart/nlp_chinese_corpus

 

維基百科json版 (wiki2019zh)

 

104 萬個詞條(1,043,224 條;原始檔案大小 1.6G,壓縮檔案 519M;資料更新時間:2019.2.7)

 

下載鏈接:

 

https://storage.googleapis.com/nlp_chinese_corpus/wiki_zh_2019.zip

 

可能的用途:可以做為通用中文語料,做預訓練的語料或構建詞向量,也可以用於構建知識問答。 

 

結構

 

{"id":,"url":,"title":

 

例子 

 

{"id""53""url""https://zh.wikipedia.org/wiki?curid=53""title""經濟學""text""經濟學\n\n經濟學是一門對產品和服務的生產、分配以及消費進行研究的社會科學。西方語言中的“經濟學”一詞源於古希腊的。\n\n經濟學註重的是研究經濟行為者在一個經濟體系下的行為,以及他們彼此之間的互動。在現代,經濟學的教材通常將這門領域的研究分為總體經濟學和個體經濟學。微觀經濟學檢視一個社會裡基本層次的行為,包括個體的行為者(例如個人、公司、買家或賣家)以及與市場的互動。而宏觀經濟學則分析整個經濟體和其議題,包括失業、通貨膨脹、經濟成長、財政和貨幣政策等。..."}

 

效果

 

經濟學
經濟學是一門對產品和服務的生產、分配以及消費進行研究的社會科學。西方語言中的“經濟學”一詞源於古希腊的。
經濟學註重的是研究經濟行為者在一個經濟體系下的行為,以及他們彼此之間的互動。在現代,經濟學的教材通常將這門領域的研究分為總體經濟學和個體經濟學。微觀經濟學檢視一個社會裡基本層次的行為,包括個體的行為者(例如個人、公司、買家或賣家)以及與市場的互動。而宏觀經濟學則分析整個經濟體和其議題,包括失業、通貨膨脹、經濟成長、財政和貨幣政策等。
其他的對照還包括了實證經濟學(研究「是什麼」)以及規範經濟學(研究「應該是什麼」)、經濟理論與實用經濟學、行為經濟學與理性選擇經濟學、主流經濟學(研究理性-個體-均衡等)與非主流經濟學(研究體制-歷史-社會結構等)。
經濟學的分析也被用在其他各種領域上,主要領域包括了商業、金融、和政府等,但同時也包括瞭如健康、犯罪、教育、法律、政治、社會架構、宗教、戰爭、和科學等等。到了21世紀初,經濟學在社會科學領域各方面不斷擴張影響力,使得有些學者諷刺地稱其為「經濟學帝國主義」。
在現代對於經濟學的定義有數種說法,其中有許多說法因為發展自不同的領域或理論而有截然不同的定義,蘇格蘭哲學家和經濟學家亞當·斯密在1776年將政治經濟學定義為「國民財富的性質和原因的研究」,他說:
讓-巴蒂斯特·賽伊在1803年將經濟學從公共政策里獨立出來,並定義其為對於財富之生產、分配、和消費的學問。另一方面,托馬斯·卡萊爾則諷刺的稱經濟學為「憂郁的科學」(Dismal science),不過這一詞最早是由馬爾薩斯在1798年提出。約翰·斯圖爾特·密爾在1844年提出了一個以社會科學定義經濟學的角度:
.....

 

 

新聞語料json版 (news2016zh)

250 萬篇新聞(原始資料 9G,壓縮檔案 3.6G;新聞內容跨度:2014-2016 年)

 

下載鏈接(密碼: film)

 

https://pan.baidu.com/s/1LJeq1dkA0wmYd9ZGZw72Xg

 

資料描述

 

包含了 250 萬篇新聞。新聞來源涵蓋了 6.3 萬個媒體,含標題、關鍵詞、描述、正文。

 

資料集劃分:資料去重並分成三個部分。訓練集:243 萬;驗證集:7.7 萬;測試集,數萬,不提供下載。

 

可能的用途:可以做為【通用中文語料】,訓練【詞向量】或做為【預訓練】的語料;也可以用於訓練【標題生成】模型,或訓練【關鍵詞生成】模型(選關鍵詞內容不同於標題的資料);亦可以通過新聞渠道區分出新聞的型別。

 

結構

 

{'news_id': ,'title':

 

例子

 

{"news_id""610130831""keywords""導游,門票","title""故宮淡季門票40元 “黑導游”賣外地客140元""desc""近日有網友微博爆料稱,故宮午門廣場售票處出現“黑導游”,專門向外地游客出售高價門票。昨日,記者實地探訪故宮,發現“黑導游”確實存在。視窗出售""source""新華網""time""03-22 12:00""content""近日有網友微博爆料稱,故宮午門廣場售票處出現“黑導游”,專門向外地游客出售高價門票。昨日,記者實地探訪故宮,發現“黑導游”確實存在。視窗出售40元的門票,被“黑導游”加價出售,最高加到140元。故宮方面表示,請游客務必通過正規渠道購買門票,避免上當受騙遭受損失。目前單筆門票購買流程不過幾秒鐘,耐心排隊購票也不會等待太長時間。....再反彈”的態勢,打擊黑導游需要游客配合,通過正規渠道購買門票。"}

 

 

百科類問答json版 (baike2018qa)


150 萬個問答(原始資料 1G 多,壓縮檔案 663M;資料更新時間:2018 年)

 

下載鏈接(密碼: fu45)

https://pan.baidu.com/s/12TCEwC_Q3He65HtPKN17cA

資料描述

 

含有 150 萬個問題和答案,每個問題屬於一個類別。總共有 492 個類別,其中頻率達到或超過 10 次的類別有 434 個。

 

資料集劃分:資料去重並分成三個部分。訓練集:142.5 萬;驗證集:4.5 萬;測試集,數萬,不提供下載。

 

可能的用途:可以做為通用中文語料,訓練詞向量或做為預訓練的語料;也可以用於構建百科類問答;其中類別信息比較有用,可以用於做監督訓練,從而構建更好句子表示的模型、句子相似性任務等。

 

結構

 

{"qid":,"category":,"title":

 

例子

 

{"qid""qid_2540946131115409959""category""生活知識""title""冬天進補好一些呢,還是夏天進步好啊? ""desc""""answer""你好!\r\r當然是冬天進補好的了,夏天人體的胃處於收縮狀態,不適宜大量的進補,所以我們有時候說:“夏天就要吃些清淡的,就是這個道理的。”\r\r不過,秋季進補要註意“四忌” 一忌多多益善。任何補藥服用過量都有害。認為“多吃補藥,有病治病,無病強身”是不的。過量進補會加重脾胃、肝臟負擔。在夏季里,人們由於喝冷飲,常食凍品,多有脾胃功能減弱的現象,這時候如果突然大量進補,會驟然加重脾胃及肝髒的負擔,使長期處於疲弱的消化器官難於承受,導致消化器官功能紊亂。 \r\r二忌以藥代食。重藥物輕食物的做法是不科學的,許多食物也是好的滋補品。如多吃薺菜可治療高血壓;多吃蘿蔔可健胃消食,順氣寬胸;多吃山藥能補脾胃。日常食用的胡桃、芝麻、花生、紅棗、扁豆等也是進補的佳品。\r\r三忌越貴越好。每個人的身體狀況不同,因此與之相適應的補品也是不同的。價格昂貴的補品如燕窩、人參之類並非對每個人都適合。每種進補品都有一定的物件和適應症,應以實用有效為滋補原則,缺啥補啥。 \r\r四忌只補肉類。秋季適當食用牛羊肉進補效果好。但經過夏季後,由於脾胃尚未完全恢復到正常功能,因此過於油膩的食品不易消化吸收。另外,體內過多的脂類、糖類等物質堆積可能誘發心腦血管病。"}

 

 

公開評測

 

歡迎報告模型在驗證集上的準確率。任務 1: 類別預測。 

 

報告包括:#1)驗證集上準確率;#2)採用的模型、方法描述、運行方式,1頁PDF;#3)可運行的原始碼(可選)

 

基於#2和#3,我們會在測試集上做測試,並報告測試集上的準確率;只提供了#1和#2的隊伍,驗證集上的成績依然可以被顯示出來,但會被標記為未驗證。

 

翻譯語料 (translation2019zh)

 

520 萬個問答( 原始資料 1.1G,壓縮檔案 596M)

 

下載鏈接

https://storage.googleapis.com/nlp_chinese_corpus/translation2019zh.zip

資料描述

 

中英文平行語料 520 萬對。每一個對,包含一個英文和對應的中文。中文或英文,多數情況是一句帶標點符號的完整的話。

 

對於一個平行的中英文對,中文平均有 36 個字,英文平均有 19 個單詞(單詞如“she”)

 

資料集劃分:資料去重並分成三個部分。訓練集:516 萬;驗證集:3.9 萬;測試集,數萬,不提供下載。

 

可能的用途:可以用於訓練中英文翻譯系統,從中文翻譯到英文,或從英文翻譯到中文;由於有上百萬的中文句子,可以只抽取中文的句子,做為通用中文語料,訓練詞向量或做為預訓練的語料。英文任務也可以類似操作。

 

結構 

 

{"english": , "chinese": }

其中,english是英文句子,chinese是中文句子,中英文一一對應。

例子

 

{"english""In Italy, there is no real public pressure for a new, fairer tax system.""chinese""在意大利,公眾不會真的向政府施壓,要求實行新的、更公平的稅收制度。"}

 

公開評測

 

歡迎報告模型在驗證集上的準確率。任務 1: 類別預測。 

 

報告包括:#1)驗證集上準確率;#2)採用的模型、方法描述、運行方式,1頁PDF;#3)可運行的原始碼(可選)

 

基於#2和#3,我們會在測試集上做測試,並報告測試集上的準確率;只提供了#1和#2的隊伍,驗證集上的成績依然可以被顯示出來,但會被標記為未驗證。

 

貢獻語料/Contribution

貢獻中文語料,請發送郵件至:

 

[email protected]

 

為了共同建立一個大規模開放共享的中文語料庫,以促進中文自然語言處理領域的發展,凡提供語料並被採納到該專案中,除了會列出貢獻者名單(可選)外,我們會根據語料的質量和量級,選出前 20 個同學,結合您的意願,寄出鍵盤、滑鼠、顯示屏、無線耳機、智慧音箱或其他等值的物品,以表示對貢獻者的感謝。

點擊以下標題查看更多往期內容:

#投 稿 通 道#

 讓你的論文被更多人看到 

 

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術乾貨。我們的目的只有一個,讓知識真正流動起來。

來稿標準:

• 稿件確系個人原創作品,來稿需註明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向) 

• 如果文章並非首發,請在投稿時提醒並附上所有已發佈鏈接 

• PaperWeekly 預設每篇文章都是首發,均會添加“原創”標誌

? 投稿郵箱:

• 投稿郵箱:[email protected] 

• 所有文章配圖,請單獨在附件中發送 

• 請留下即時聯繫方式(微信或手機),以便我們在編輯發佈時和作者溝通

?

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關註」訂閱我們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 | 閱讀原文 | 獲取最新論文推薦

    閱讀原文

    赞(0)

    分享創造快樂