スナップ写真の主要被写体検出に関する研究(情報工学科/先進AI研究所 教授 辻 裕之)
街角や旅行先で記念に撮影したスナップ写真から、主な撮影対象となる人物とそれ以外の人物を識別するAI技術の研究を行っています。
情報工学科/先進AI研究所 辻 裕之 教授
街角や旅行先で記念に撮影した写真(本稿ではこれをスナップ写真と呼びます)には、撮影対象となる被写体以外にも、たまたまその場に居合わせた通行人や観光客等が映り込んでしまうことがよくあります。このような画像をSNSなどに公開する際には、肖像権などの観点から、主たる撮影対象ではない人物にモザイクをかけるなどの対応が必要になるかもしれません。先進AI研では、このようなスナップ写真から主たる撮影対象とそれ以外の人物を自動で識別するAI技術の研究を行っています。
写真に写った人物が主要被写体かどうかを識別するには、まず写真内の人物をもれなく検出する必要があります。最近ではMask-RCNNというディープラーニングを用いたオブジェクト検出技術が提案されていますので、本研究ではこれを利用します。2021年に発表した論文(*)では、DenseDepthという深度推定の手法を用いてカメラから被写体への距離を推定し、Mask-RCNNが出力する人物の領域情報と組み合わせて、主要被写体が存在していそうな領域を重要度マップとして出力する手法を提案しました(図1)。
図1 主要被写体検出の提案手法
提案するニューラルネットワーク(図1の黄色部分)から出力された重要度のマップの画像例を以下に示します(図2(b))。このマップと図2(a)に示すMask-RCNNの人物領域結果とを重ね合わせて、一定の割合以上が重なった人物を主要被写体として判定します。この事例では、もともと5人検出されていた人物のうち、手前の2人のみが主要人物として正しく検出されています(図2(c))。
本手法の問題点として、Mask-RCNNで抽出された個々の人物領域と提案法で得られた重要度マップがそれぞれ独立しているという点が挙げられます。例えば、図2の事例でいえば、重要度マップが少しだけ右にずれたり膨張したりすると、主要被写体とすれ違っている男性が主要人物として誤判定されてしまうかもしれませんね。実際に様々なスナップ写真を用いた実験結果を検証すると、このようなマップの誤差に伴う誤判定がしばしば見られることが確認されています。
現在は上記の問題点を解決するための改善策を検討中です。その後の研究で、重要度マップを別途作成するのでなく、Mask-RCNNで検出された個々の人物領域に対して個別に主要人物か否かの識別を行う方法についても検証し、かなりの精度で識別可能であることがわかってきました。この知見を基に、より簡易で精度の高い主要被写体検出の実現を目指して引き続き検討を進める予定です。
(*) T. Hamamura, T. Kimura, and H. Tsuji "Detection of main persons in snapshots using deep neural networks", Proc. SPIE 11766, International Workshop on Advanced Imaging Technology (IWAIT) 2021, 1176628 (13 March 2021)