千萬級中文公開免費聊天語料資料分享-知識星球

分享一個包含千萬級聊天語料的資源。地址：https://github.com/codemayq/chaotbot_corpus_Chinese

該庫是對目前市面上已有的開源中文聊天語料的蒐集和系統化整理工作

該庫蒐集了包含

· chatterbot

· 豆瓣多輪

· PTT八卦語料

· 青雲語料

· 電視劇對白語料

· 貼吧論壇回帖語料

· 微博語料

· 小黃雞語料

共8個公開閑聊常用語料和簡訊，白鷺時代問答等語料。

並對8個常見語料的資料進行了統一化規整和處理，達到直接可以粗略使用的目的。

使用該專案，即可對所有的聊天語料進行一次性的處理和統一下載，不需要到處自己去搜集下載和分別處理各種不同的格式。

註意

以下所有語料都已經統一下載好，存在 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取碼：f2ex 中。給出的語料原連結是為了說明該語料的原始出處是在哪裡

環境

python3

處理過程

將各個來源的語料按照其原格式進行提取，提取後進行繁體字轉換，然後統一變成一輪一輪的對話。

資料來源及說明

使用方法

下載語料 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取碼：f2ex

將解壓後的raw_chat_corpus檔案夾放到當前目錄下目錄結構為

raw_chat_corpus

— language

— process_pipelines

— raw_chat_corpus

—- chatterbot-1k

—- douban-multiturn-100w

—- ….

— main.py

— …

執行命令即可

python main.py

或者

python3 main.py

生成結果

每個來源的語料分別生成一個獨立的*.tsv檔案，都放在新生成的clean_chat_corpus檔案夾下。

生成結果格式為 tsv格式，每行是一個樣本，先是query，再是answer

query \t answer

結果的使用

這個就根據每個人不同的情況自主使用即可。

傳送想法到看一看

</div><br /><br />
<p><span class=”like_comment_msg” id=”js_b_like_comment_msg” style=”visibility: hidden;”>最多200字，當前共<span id=”js_b_like_current_cnt”/>字</span><br /><br />
</div><br /><br />
</div><br /><br />
<div class=”like_comment_primary_mask” id=”js_mask_2″/><br /><br />
</div><br /><br />
<div id=”js_loading” style=” display: none;”><br /><br />
<div class=”weui-mask_transparent”/><br /><br />
<div class=”weui-toast”><br /><br />
<i class=”weui-loading weui-icon_toast”/></p><br /><br />
<p class=”weui-toast__content”>傳送中</p><br /><br />
</div><br /><br />
</div><br /><br />
<div id=”js_fail” style=”display:none”><br /><br />
<div class=”weui-mask”/><br /><br />
<div class=”weui-dialog”><br /><br />
<div class=”weui-dialog__bd”><br /><br />
        網路異常，請稍後重試    </div><br /><br />
<div class=”weui-dialog__ft”><br /><br />
<a class=”weui-dialog__btn weui-dialog__btn_primary” href=”javascript:;” id=”js_fail_inform”>知道了</a><br /><br />
</div><br /><br />
</div><br /><br />
</div><br /><br />
<div class=”weui-desktop-popover weui-desktop-popover_pos-up-center weui-desktop-popover_img-text” id=”js_pc_weapp_code” style=”display: none;”><br /><br />
<div class=”weui-desktop-popover__content”><br /><br />
<div class=”weui-desktop-popover__desc”><br /><br />
<img id=”js_pc_weapp_code_img”/><br /><br /><br />
            微信掃一掃<br/>使用小程式<span id=”js_pc_weapp_code_des”/> </div><br /><br />
</div><br /><br />
</div><br /><br />
<div id=”js_minipro_dialog” style=”display:none;”><br /><br />
<div class=”weui-mask”/><br /><br />
<div class=”weui-dialog”><br /><br />
<div class=”weui-dialog__bd”>即將開啟”<span id=”js_minipro_dialog_name”/>”小程式</div><br /><br />
<div class=”weui-dialog__ft”><br /><br />
<a class=”weui-dialog__btn weui-dialog__btn_default” href=”javascript:void(0);” id=”js_minipro_dialog_cancel”>取消</a><br /><br /><br />
<a class=”weui-dialog__btn weui-dialog__btn_primary” href=”javascript:void(0);” id=”js_minipro_dialog_ok”>開啟</a><br /><br />
</div><br /><br />
</div><br /><br />
</div><br /><br />
</div><br /><br />

千萬級中文公開免費聊天語料資料分享

朋友將在看一看看到

傳送想法到看一看

相關推薦

熱門標籤

熱門文章

分享創造快樂