生成型ディープラーニングを用いた顔画像の表情変化に関する研究(情報工学科/先進AI研究所 教授 辻 裕之)
履歴書などで使用する証明写真では、撮影の際に緊張して顔が真顔になりがちです。先進AI研では、このような硬い表情の顔写真を自然な笑顔の写真に表情変化させるAI技術の研究を行っています。
真顔の写真を笑顔に変える処理は従来の手法ではなかなか難しい印象があります。例えば、顔の特徴点を抽出して、口角を上げたり目尻を下げたりしながら顔の表情を変えていく方法が考えられますが、微妙に不自然な印象になりがちです。実は、近年注目されている生成型ディープラーニングの一つであるオートエンコーダを用いれば,このような表情変化を容易に実現できることが知られています。
情報工学科/先進AI研究所 辻 裕之 教授
オートエンコーダは入力画像をエンコーダで潜在空間上にマップして、これをデコーダで元の画像に復元するという単純なしくみですが、潜在空間の構成の仕方が重要なポイントになります。例えば、顔の表情を加工したいのであれば、顔の画像が整然と並ぶような潜在空間を構成します。この空間では、真顔から笑顔への画像の変化が概ね直線上に並ぶように配置されているので、万人に共通する笑顔ベクトルsvを見つけることができます。下図に示すように,入力された顔画像x0は潜在空間のz0にマップされます。z0をそのままデコーダに渡すと元の真顔の画像(y0)が復元されますが、ベクトルsvの方向に移動させてからデコーダに渡すと、表情が笑顔に変化した画像(y0~y1)が得られるというしくみです。なお、このようなしくみを実現するには、画素で表現された画像を潜在空間上にマップするエンコーダやその逆変換をするデコーダを適切に構築しなければいけませんが、この大仕事を実現するためにディープラーニング技術が利用されています。
オートエンコーダとして従来からよく知られる変分オートエンコーダ(VAE)では、復元画像にボケが生じ、十分な解像度が確保できないなどの問題がありました。最近では敵対的生成ネットワーク(GAN)によって高解像度の画像が生成できるようになり、これをデコーダとして用いた高画質のオートエンコーダが実現されています。本研究では、デコーダにStyleGANの生成器を、エンコーダにpixel2Style2pixel(pSp)をそれぞれ使用してオートエンコーダを構築し、様々な顔画像に対して表情変化を適用しました。以下に検証例を示します。現状では、表情変化に合わせて、髪形、眼鏡、背景などが変化してしまい、これが原因となって、笑顔の度合いをそれほど大きく取ることができていない点が問題であり、更なる改善が望まれます。