歡迎光臨
每天分享高質量文章

千萬級中文公開免費聊天語料資料分享

    分享一個包含千萬級聊天語料的資源。地址:https://github.com/codemayq/chaotbot_corpus_Chinese

    該庫是對目前市面上已有的開源中文聊天語料的搜集和系統化整理工作

    該庫搜集了包含

        · chatterbot

        · 豆瓣多輪

        · PTT八卦語料

        · 青雲語料

        · 電視劇對白語料

        · 貼吧論壇回帖語料

        · 微博語料

        · 小黃雞語料

    共8個公開閑聊常用語料和短信,白鷺時代問答等語料。

    並對8個常見語料的資料進行了統一化規整和處理,達到直接可以粗略使用的目的。

    使用該專案,即可對所有的聊天語料進行一次性的處理和統一下載,不需要到處自己去搜集下載和分別處理各種不同的格式。

    註意

    以下所有語料都已經統一下載好,存在 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取碼:f2ex 中。給出的語料原鏈接是為了說明該語料的原始出處是在哪裡

    環境

    python3

    處理過程

    將各個來源的語料按照其原格式進行提取,提取後進行繁體字轉換,然後統一變成一輪一輪的對話。

    資料來源及說明

    使用方法

    下載語料 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取碼:f2ex

    將解壓後的raw_chat_corpus檔案夾放到當前目錄下 目錄結構為

        raw_chat_corpus

        — language

        — process_pipelines

        — raw_chat_corpus

        —- chatterbot-1k

        —- douban-multiturn-100w

        —- ….

        — main.py

        — …

    執行命令即可

        python main.py

    或者

        python3 main.py

    生成結果

    每個來源的語料分別生成一個獨立的*.tsv檔案,都放在新生成的clean_chat_corpus檔案夾下。

    生成結果格式為 tsv格式,每行是一個樣本,先是query,再是answer

        query \t answer

    結果的使用

    這個就根據每個人不同的情況自主使用即可。

    赞(0)

    分享創造快樂