ARTICLE

2017.06.19 Up

Posted by Nao Tokui

ウィットに富んだキャプション生成 – Punny Captions: WittyWordplay in Image Descriptions

ウィットに富んだキャプション生成 – Punny Captions: WittyWordplay in Image Descriptions

「ユーモア」は人間の創造性のさまざまな側面の中でもコンピュータにとって最も理解が難しいものの一つ.  画像のキャプション生成(画像の内容を説明する文)は、Deep Learningのタスクとしては一般的になっていますが、今回の論文はダジャレ、語呂合わせ(pun)を含んだキャプションを生成することに挑戦しています.

やり方はというと…まず一般的な画像認識、画像キャプション生成のモデル(Show and Tell)を用いて、画像の内容を記述する単語をいくか取り出します(単語リストAとします). 予め用意した語呂合わせが成り立つ=発音が近い単語のリストの中に含まれる単語に絞り込みます (上の例だと  sellとcell, sideとsighed).  単語リストBとしましょう.

ここから、二つの方法でキャプションを生成および検索します.

生成:  上と同様に画像キャプションの生成モデルを用いてキャプションを生成するのですが、途中のステップでモデルが使える単語を単語リストBのみに強制的に絞り込みます. うまくいけば、Bのなかの単語を用いて、キャプションが生成されるという分けです.

検索: もうひとつは生成するのではなく、大量の文章から合う文を検索するというやりかた.  小説などのコーパスから、単語リストA, B両方の単語を含む文を探す… それだけです (笑

下の図で、Generatedとあるのが生成、Retrievedは検索した例です.

わりと乱暴なやり方だなという印象ですが、数名の被験者をつかってどちらが面白いか聞いたところ、55%の場合にこのシステムで生成・検索したものが面白いと答えたとのことです.

TAG