Hierarchical Density Order Embeddings - ベイズ・ベイズ・トマスベイズ・ベベベベ・ベイズ推論

[1804.09843] Hierarchical Density Order Embeddings

ICLR2018の論文が面白かったので勉強メモ。

埋め込みときいて連想するものは各々の専門によっても違うところですが、自然言語処理においては単語の埋め込みのことを指すことが多いようです。埋め込みといってもそんな大層なもんではなく、語彙数より少ない次元のベクトルで単語を表現しましょうという話ですね。

もちろん単語をベクトルで表さないといけないという決まりはありません。ベクトル以外の方法で成功した手法でいえば、ガウス埋め込みがいい例でこちらもICLRで発表された研究。

[1412.6623] Word Representations via Gaussian Embedding

ignorabimus.hatenablog.com

日本語でこの手法に言及したものはほとんどなく、word2vecの人気っぷりにくらべるとまだまだというところでしょうか。*1考え方としてはシンプルで単語１つにガウス分布１つを対応づける方法。ガウス分布はmeanとcovarianceで形が決まる確率分布でした。つまり語彙数の分だけmeanとcovarianceがあり、これらを学習によって決定する必要があるわけです。word2vecのように"Apple"は空間上のここ！"Orange"はここ！と指差すのではなく、"Apple"はここらへん"Orange"はここかなというふうに単語が本質的にもつ曖昧性をうまく表現できます。実際にはそんな簡単な話ではありませんが。

word2vec*2もガウス埋め込みもニューラルネットワークの枠組みに従うのでやることは同じです。損失関数を設計し、勾配を求め、パラメータを更新していく。ガウス埋め込みの場合はガウス分布を損失関数の中にどう入れるかが問題ですが、Expected Likelihood Kernelがちゃんとclosed formになるおかげで問題なく損失関数の計算ができます。

さてそんなガウス埋め込み埋め込みから派生した研究が今回扱う論文です。ガウス埋め込みってhypernymとかと相性よくね？という発想で新しい単語埋め込みの手法を提案しているようです。例えば"乗り物"と"飛行機"であれば"乗り物"の方が概念としては広いですね。このようにある概念を包含するような単語をhypernymといっているわけです。hypernymとガウス埋め込みの相性の良さを指摘したのは別にこの論文が最初というわけでもなく、先行研究ですでにKL divergenceを使うアイデアなどが議論されています。KLは非対称だから同じく非対称な関係であるhypernymを計算することに向いている！というロジックです。

以下で詳細について説明しようと思いましたが、すでにけっこうな分量になったのでまた今度つづきを書きたいと思います。

*1:先駆的な仕事として↓のようなものはありますが

http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A7-2.pdf

*2:正確に言えば手法の名前ではありません