第6章 固有表現認識
本章では,テキストから特定の人名や地名などの固有表現を抽出する固有表現認識について紹介している。
6.1 固有表現認識とは
固有表現認識(Named Entity Recognition : NER)は,テキストから特定の人物や場所などの固有表現(Named Entity)を取り出すタスクである。
固有表現の種類は,Message Understanding Conference (MUC)では,組織名(ORGANIZATION),人名(PERSON),地名(LOCATION),日付表現(DATE),時間表現(TIME),金額表現(MONEY),割合表現(PERCENT)の7種類が定義されている。また,MUC以外にも,固有表現の種類は存在する。
固有表現のタスク
代表的な固有表現のタスクには,以下のようなものが挙げられる。
6.2 データセット・前処理・評価指標
固有表現モデルを実装する前に,データセット・前処理・評価指標について説明がされていた。
系列ラベリングのためのラベル作成
系列ラベリングのアプローチでは,トークン列と同じ系列長のラベル列を予測する。ラベル列の表現方法にはIOB2記法が用いられる。
固有表現の先頭には”B-”(beginning)という接頭辞,先頭以外には"I-"(inside)という接頭辞,固有表現ではないラベルには"O"(outside)というラベルを付与する。
評価指標
評価指標には,抽出された固有表現と,人手で付けた正解の固有表現を比較する,適合率・再現率・F値が用いられる。
一方で,正解率はあまり用いられない。正解率では固有表現ではない語句の予測も評価されるが,固有表現認識のタスクでは固有表現ではない語句の予測はあまり意味がないためである。
6.3 固有表現認識モデルの実装
本節では,BERTを用いた実装方法について説明されていた。
まとめと感想
感想 : 固有表現認識の種類やアルゴリズムが幅広く紹介
固有表現認識は,自然言語処理における代表的なタスクであるが,Flat NERやNested NER,Discontinuous NERなど各種手法が紹介されていたのは参考になった。
また固有表現認識は系列データにおけるラベル予測を行なうことになるので,単にラベルを予測するのではなく,ラベルの遷移を考慮した予測手法であるビタビアルゴリズムやCRFを用いた手法が紹介されていたのが参考になった。
たとえば動画にラベルを付与する問題においても,そのラベルが急に変わることが考えにくい場合には,上記の手法が応用できるかもしれない。
本記事を最後まで読んでくださり,どうもありがとうございました。