使用 Bert 預訓練模型文字分類（內附原始碼）-知識星球

（給資料分析與開發加星標，提升資料技能）

作者：GjZero，轉自：資料派（ID：datapi）

Bert介紹

Bert模型是Google在2018年10月釋出的語言表示模型，Bert在NLP領域橫掃了11項任務的最優結果，可以說是現今最近NLP中最重要的突破。Bert模型的全稱是Bidirectional Encoder Representations from Transformers，是透過訓練Masked Language Model和預測下一句任務得到的模型。關於Bert具體訓練的細節和更多的原理，有興趣的讀者可以去看在[arXiv](https://arxiv.org/abs/1810.04805)上的原文。本篇文章從實踐入手，帶領大家進行Bert的中文文字分類和作為句子向量進行使用的教程。

對於文字分類任務，一個句子中的N個字元對應了E_1,…,E_N，這N個embedding。文字分類實際上是將BERT得到的T_1這一層連線上一個全連線層進行多分類。

準備工作

1. 下載bert

在命令列中輸入

git clone 
https://github.com/google-research/bert.git

2. 下載bert預訓練模型

Google提供了多種預訓練好的bert模型，有針對不同語言的和不同模型大小的。對於中文模型，我們使用[Bert-Base, Chinese](https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip)。為了下載該模型，可能需要使用梯子。如果需要下載其他的模型(英文以及其他語言)，可以在[Bert](https://github.com/google-research/bert)裡的Pre-trained models找到下載連結。

3.（可選項）

安裝bert-as-service，這是一個可以利用bert模型將句子對映到固定長度向量的服務。

在命令列中輸入

pip install bert-serving-server # server

pip install bert-serving-client # client, independent of 'bert-serving-server'

該服務要求tensorflow的最低版本為1.10。

準備資料

資料格式

作為中文文字分類問題，需要先將資料集整理成可用的形式。不同的格式對應了不同的DataProcessor類。可以將資料儲存成如下格式：

game APEX是個新出的吃雞遊戲。

technology Google將要推出tensorflow2.0。

一行代表一個文字，由標簽加上一個tab加上正文組成。

將文字分割為三個檔案，train.tsv(訓練集)，dev.tsv(驗證集)，test.tsv(測試集)；然後放置在同一個data_dir檔案夾下。

編寫DataProcessor類

在bert檔案夾下的“run_classifier.py**中的”def main(_):”函式中將processors的內容增加為

python

processors = {

     "cola": ColaProcessor,

     "mnli": MnliProcessor,

     "mrpc": MrpcProcessor,

     "xnli": XnliProcessor,

     "mytask": MyTaskProcessor,

 }

實現如下的“MyTaskProcessor

(DataProcessor)”類，並將這一段程式碼放置在“run_classifier.py”和其他Processor併列的位置。

“\_\_init\_\_(self)”中的self.labels含有所有的分類label，在這個例子中我們將文字可能分為3類：game, fashion, houseliving。

python

class MyTaskProcessor(DataProcessor):

   """Processor for the News data set (GLUE version)."""

   def __init__(self):

       self.labels = ['game', 'fashion', 'houseliving']

   

   def get_train_examples(self, data_dir):

       return self._create_examples(

           self._read_tsv(os.path.join(data_dir, "train.tsv")), "train")

   def get_dev_examples(self, data_dir):

       return self._create_examples(

           self._read_tsv(os.path.join(data_dir, "dev.tsv")), "dev")

   

   def get_test_examples(self, data_dir):

     return self._create_examples(

         self._read_tsv(os.path.join(data_dir, "test.tsv")), "test")

   def get_labels(self):

       return self.labels

   def _create_examples(self, lines, set_type):

       """Creates examples for the training and dev sets."""

       examples = []

       for (i, line) in enumerate(lines):

           guid = "%s-%s" % (set_type, i)

           text_a = tokenization.convert_to_unicode(line[1])

           label = tokenization.convert_to_unicode(line[0])

           examples.append(

               InputExample(guid=guid, text_a=text_a, text_b=None, label=label))

       return examples

如果資料格式並不是一個label，一個tab，一段文字；則需要更改“_create_examples()”的實現。

編寫執行指令碼

新建一個執行指令碼檔案名為“run.sh”，將檔案內容編輯為：

bash

export DATA_DIR=/media/ganjinzero/Code/bert/data/

export BERT_BASE_DIR=/media/ganjinzero/Code/bert/chinese_L-12_H-768_A-12

python run_classifier.py \

 --task_name=mytask \

 --do_train=true \

 --do_eval=true \

 --data_dir=$DATA_DIR/ \

 --vocab_file=$BERT_BASE_DIR/vocab.txt \

 --bert_config_file=$BERT_BASE_DIR/bert_config.json \

 --init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt \

 --max_seq_length=128 \

 --train_batch_size=32 \

 --learning_rate=2e-5 \

 --num_train_epochs=3.0 \

 --output_dir=/mytask_output

其中DATA_DIR是你的要訓練的文字的資料所在的檔案夾，BERT_BASE_DIR是你的bert預訓練模型存放的地址。task_name要求和你的DataProcessor類中的名稱一致。下麵的幾個引數，do_train代表是否進行fine tune，do_eval代表是否進行evaluation，還有未出現的引數do_predict代表是否進行預測。如果不需要進行fine tune，或者顯示卡配置太低的話，可以將do_trian去掉。max_seq_length代表了句子的最長長度，當視訊記憶體不足時，可以適當降低max_seq_length。

進行預測

執行指令碼

bash
./run.sh

可以得到類似如下樣式的結果

***** Eval results *****

eval_accuracy = 0.845588

eval_loss = 0.505248

global_step = 343

loss = 0.505248

如果出現了這樣的輸出，就是執行成功了。在“run.sh”裡指定的output_dir檔案夾下可以看到模型的evaluation結果和fine-tune(微調)之後的模型檔案。

以句子向量的形式使用Bert

如果想要將bert模型的編碼和其他模型一起使用，將bert模型作為句子向量使用很有意義（也就是所謂的句子級別的編碼）。我們可以使用bert-as-service來完成這個標的。

安裝完bert-as-service以後，就可以利用bert模型將句子對映到固定長度的向量上。在終端中用一下命令啟動服務：

bash

bert-serving-start -model_dir /media/ganjinzero/Code/bert/chinese_L-12_H-768_A-12 -num_worker=4

model_dir後面的引數是bert預訓練模型所在的檔案夾。num_worker的數量應該取決於你的CPU/GPU數量。

這時就可以在Python中呼叫如下的命令：

python

from bert_serving.client import BertClient

bc = BertClient()

bc.encode(['一二三四五六七八', '今天您吃了嗎？'])

最好以串列的形式，而非單個字串傳給”bc.encode()”引數，這樣程式執行的效率較高。

參考檔案

[Github:bert]

(https://github.com/google-research/bert)

[arXiv:bert]

(https://arxiv.org/pdf/1810.04805.pdf)

[Github:bert-as-service]

(https://github.com/hanxiao/bert-as-service)

分享想法到看一看

</div><br />
<p><span class=”like_comment_msg” id=”js_b_like_comment_msg” style=”visibility: hidden;”>最多200字，當前共<span id=”js_b_like_current_cnt”/>字</span><br />
</div><br />
</div><br />
<div class=”like_comment_primary_mask” id=”js_mask_2″/><br />
</div><br />
<div id=”js_loading” style=” display: none;”><br />
<div class=”weui-mask_transparent”/><br />
<div class=”weui-toast”><br />
<i class=”weui-loading weui-icon_toast”/></p><br />
<p class=”weui-toast__content”>傳送中</p><br />
</div><br />
</div><br />
<div id=”js_fail” style=”display:none”><br />
<div class=”weui-mask”/><br />
<div class=”weui-dialog”><br />
<div class=”weui-dialog__bd”><br />
        網路異常，請稍後重試    </div><br />
<div class=”weui-dialog__ft”><br />
<a class=”weui-dialog__btn weui-dialog__btn_primary” href=”javascript:;” id=”js_fail_inform”>知道了</a><br />
</div><br />
</div><br />
</div><br />
<div class=”weui-desktop-popover weui-desktop-popover_pos-up-center weui-desktop-popover_img-text” id=”js_pc_weapp_code” style=”display: none;”><br />
<div class=”weui-desktop-popover__content”><br />
<div class=”weui-desktop-popover__desc”><br />
<img id=”js_pc_weapp_code_img”/><br /><br />
            微信掃一掃<br/>使用小程式<span id=”js_pc_weapp_code_des”/> </div><br />
</div><br />
</div><br />
<div id=”js_minipro_dialog” style=”display:none;”><br />
<div class=”weui-mask”/><br />
<div class=”weui-dialog”><br />
<div class=”weui-dialog__bd”>即將開啟”<span id=”js_minipro_dialog_name”/>”小程式</div><br />
<div class=”weui-dialog__ft”><br />
<a class=”weui-dialog__btn weui-dialog__btn_default” href=”javascript:void(0);” id=”js_minipro_dialog_cancel”>取消</a><br /><br />
<a class=”weui-dialog__btn weui-dialog__btn_primary” href=”javascript:void(0);” id=”js_minipro_dialog_ok”>開啟</a><br />
</div><br />
</div><br />
</div><br />
</div><br />

使用 Bert 預訓練模型文字分類（內附原始碼）

朋友將在看一看看到

分享想法到看一看

相關推薦

熱門標籤

熱門文章

分享創造快樂