NICT BERTLARGEに関しては比較的低い学習率で性能が高くなることがわかったため、低めの学習率に関してもパラメタ探索を実施している。NICT BERTBASE公開当時の比較結果としては、NICT BERTBASEが因果関係認識、ファクトイド質問応答、バイナリパタン間含意関係認識の3つの問題についてはByte Pair Encoding (BPE)無しの設定で、また、解答可能性付き読解の問題についてはBPE有りの設定で、他の研究機関等で公開されているBERTを上回る最高性能を得た。この結果から高バッチサイズで、十分な量のステップ数で事前学習することが重要であることがわかる。また、表2のNICT BERTBASEと日本語Pretrainedモデル(Large WWM版)の結果を比較すると、NICT BERTBASE(日本語Wikipedia, BPE無)はモデルサイズが小さくパラメタ数が約半分であるにもかかわらず、日本語Pretrainedモデル(Large WWM版)よりも高い性能を得ていることがわかる。この結果から、単純にモデルサイズを大きくして巨大なニューラルネットにするだけで最終的な性能向上につながるわけではなく、そのモデルサイズに適切な事前学習時の設定(バッチサイズやステップ数等)も合わせて適切に調整する必要があり、高品質な大規模言語モデルを作成することは容易でないことがわかる。また、語彙数に関しては表2を見てわかるように単一言語に関してBPEなどを利用せずに100k(=10万語)という巨大な語彙数で事前学習を実施しているのは我々だけであるが、表3を見る限り、解答可能性付き読解以外の問題では全て語彙数320k+BPEよりも語彙数100kのモデルのほうが高い性能を得ている。BPEを用いた場合の性能低下の要因としては、語を過剰にBPE等で分割すると、その短く分割された語の組み合わせでもとの語の意味を学習させる必要がでてきて、その分事前学習の問題が難しくなったのだと考えられる。一方で、解答可能性付き読解の場合は固有名を回答とする問題が多いため、回答となる語が事前学習時に100kの語彙に含まれずに学習できない、もしくは語彙に含まれたとしても出現回数が少なく十分に学習できていないという問題がある。このため、そのような低頻度語の扱いについては今後も検討を続けていく必要がある。最後に、追加で実施したNICT BERTLARGEの結果については他のBERTモデルと比較してより高い性能を得ており、学習の規模(高バッチサイズ、十分な量 モデルモデルサイズ語彙数語彙学習データNICT BERTBASE (日本語Wikipedia, BPE無)BASE100kjuman日本語WikipediaNICT BERTBASE (日本語Wikipedia, BPE有)BASE32kjuman+BPE日本語WikipediaNICT BERTLARGE (因果関係コーパス, BPE無)LARGE100kjuman因果関係コーパスBERTBASE Multilingual Cased*4 BASE120k(多言語)heuristic+wordpiece104言語のWikipediaBERT日本語Pretrainedモデル(Base WWM版)*5 BASE32kjuman+WWM日本語WikipediaBERT日本語Pretrainedモデル(Large WWM版)*5LARGE32kjuman+WWM日本語WikipediaPretrained Japanese BERT models* 6BASE32kipadic+WWM日本語WikipediaBERT with SentencePiece for Japanese text *7BASE32ksetencepiece日本語WikipediahottoSNS-BERT *8BASE32ksetencepiece大規模日本語SNSコーパス表2 評価に利用したBERTモデル一覧 モデル因果関係認識ファクトイド質問応答バイナリパタン間含意関係認識解答可能性付き読解F1平均精度F1平均精度F1平均精度EMF1NICT BERTBASE (日本語Wikipedia, BPE無)58.5659.0173.4782.5257.9263.0176.4277.75NICT BERTBASE (日本語Wikipedia, BPE有)56.3457.9669.7277.2059.1861.1677.9279.49NICT BERTLARGE (因果関係コーパス, BPE無)64.8470.4479.3887.4066.4672.1078.4179.83BERTBASE Multilingual Cased *448.4847.1948.2761.7551.5154.0170.1070.16BERT日本語Pretrainedモデル(Base WWM版) * 553.0651.7667.4875.2953.9056.0673.8975.65BERT日本語Pretrainedモデル(Large WWM版) *554.7454.7670.3477.8956.6261.1875.7977.49Pretrained Japanese BERT models *6 54.9954.6367.0075.0857.8662.4577.6878.87BERT with SentencePiece for Japanese text *7 54.7655.6772.8780.2855.5358.7473.6676.83hottoSNS-BERT *8 48.9447.0967.2673.4349.0448.2261.1464.93表3 各種BERTの複数タスクでの性能評価*4https://github.com/google-research/bert*5https://nlp.ist.i.kyoto-u.ac.jp/index.php?ku_bert_japanese*6https://github.com/cl-tohoku/bert-japanese*7https://github.com/yoheikikuta/bert-japanese*8https://www.hottolink.co.jp/blog/20190311_101674/1333-4 DIRECTにおける深層学習を用いた大規模自然言語処理
元のページ ../index.html#139