「大規模言語モデル入門」を読む〜第2章〜

はじめに

製造業においても，自然言語処理は重要な技術テーマのひとつである。週報などのメール，社内規定などのルール，安全記録や検査記録など，日々多くの文章が業務上で現れる。これらのテキストデータに対して自然言語処理技術を適用して業務効率化を実現していくために，近年発展が目覚ましい大規模言語モデルについて学ぶことにした。

このたび，大規模言語モデルの入門書として，山田育矢著「大規模言語モデル入門」を読むこととした。

gihyo.jp

第2章 Transformer

本章では，自然言語処理において標準的に用いられるニューラルネットワークモデルであるTransformerについて説明されている。Transformerは，大規模言語モデルを含む幅広いタスクに応用されている。

2.1 概要

Transformerには，エンコーダ・デコーダ，エンコーダのみ，デコーダのみの3種類が存在する。

図 : Transformerのモデル構造
出所 : Vaswani et. al. "Attention Is All You Need" https://arxiv.org/pdf/1706.03762

2.2 エンコーダ

本節では3種類のTransformerのうち，エンコーダについて，エンコーダを構成する各要素の役割が説明されている。
各要素の入出力や役割について説明する。なお，語彙 $V$ の次元数は $|V|$ ，入力トークンの埋め込みの次元数を $D$ とする。

入力トークン埋め込み

役割 : 後段の処理ができるよう，入力トークン列を入力トークンの埋め込みに変換する。
入力 : トークン $w$
処理 : トークンを埋め込みに変換する。
出力 : 入力トークンに対応する埋め込み $e_w \in R^D$

※註 : この処理を行なうためには，トークンの埋め込み表現を事前に準備しておく必要がある。

位置符号

役割 : 入力トークン埋め込みには，トークンの順序や位置の情報がないので，これらを与える。
入力 : 入力トークン埋め込み $e_{w_i}$
処理 :

以下の式で定義される $D$ 次元の位置符号(position encoding)を計算する。

$\begin{align} p_{i, 2k+1} &= \sin \left( \frac{i}{10000^{2k/D}} \right) \\ p_{i, 2k+2} &= \cos \left( \frac{i}{10000^{2k/D}} \right) \\ k & \in \{ 0, 1, ..., \frac{D}{2}-1 \} \end{align}$

その後，以下の式を用いて，モデルの入力埋め込み $x_i$ を算出する。

$\displaystyle x_i = \sqrt{D} e_{w_i} + p_i$

出力 : モデルの入力埋め込み $x_i$

自己注意機構 (self-attention)

役割 : 文脈の情報，すなわちある文章におけるある単語において，関係性が深い別の単語の情報を付与する。
入力 : モデルの入力埋め込み $h_i$
処理 :

入力された埋め込みに対して，キー(key)，クエリ(query)，バリュー(value)の3つの異なる埋め込みを計算する。
クエリ埋め込み・キー埋め込み・バリュー埋め込みのそれぞれを $q_i, k_i, v_i$ とすると，これらの3つの埋め込みは $D \times D$ 次元の重み行列を用いて，