画像処理AI技術を用いた混合音からの特定音除去(ヒューマンメディア研究センター/情報工学科 教授 宮崎 剛)
屋内や屋外で動画を撮影しているとき、撮りためた動画を後から確認したとき、ペットの声やインターホンの音、サイレンの音、車・バイクが通り過ぎる音など不要な音が混入していることに気づいたらどうしますか? このようなとき、撮影し直すことなく不要な音を取り除けたらいいですよね。私たちは、音声データの中から特定の音を取り除く研究を行っています。
ヒューマンメディア研究センター/情報工学科 教授 宮崎 剛
研究のポイント
混合音(いくつかの音が同時に発生している音)から特定の音を除去する技術を研究しています。時期(時間)や状況(状態)、場所、発生源等に依存する音を対象とすることで、目的に応じた音の除去の高い精度での実現を目指します。音を画像に変換し、画像処理のAI技術を用いて不要な音を除去します。
背景
ほとんどの人がスマートフォンを所持するようになりました。動画や音声を録画したり録音したりする機会が増え、さらにインターネットやSNSを通して配信する人も増えました。また、新型コロナウィルスの世界的大流行により、在宅ワークやオンライン会議・授業、録画コンテンツの作成・配信など、企業や教育機関における働き方や授業の受け方が大きく変わってきました。
このように、動画や音声のデジタルコンテンツが活用されるようになると、それらを記録するときに周囲の音が混入してしまうという問題が出てきます。不要な音が混入してしまうと、本来聞きたかった音や声が聞きづらくなったり、集中力や注意力が削がれてしまったりします。また、ときには、不適切な内容や個人情報が混入してしまうかも知れません。そのようなときに、もう一度撮り直すのは手間を要することになりますし、撮り直すことができない場合もあります。そこで私たちは、混入してしまった不要な音を取り除く研究に取り組んでいます。
研究内容・成果
最近では、人工知能やAIといった言葉に触れる機会も多く、実際に様々なサービスも出てきて、利用している人も多いと思います。これらの技術の多くには、『深層学習』とよばれる方法が使われ、コンピュータに学習をさせます。
私たちも、この深層学習を用いて不要な音を除去する課題に取り組んでいます。一般的に音声データは図1の上部のように、波形で表されますが、私たちはこれを数学的な手法を使って画像に変換します。図1下部のような、スペクトログラムという画像になるのですが、見たことある人もいると思います。この画像には元の音声の特徴(模様)が現れますので、不要な音が混入していた場合は、その模様も現れます。そこで、深層学習を使って不要な音の模様を取り除くように学習させます。
図1 音声データの画像への変換と逆変換
コンピュータに学習させる時には、問題となるデータ(この場合は不要な音が混入した画像)と求めるデータ(この場合は不要な音が混入していない画像)を与えます。コンピュータは、問題となるデータが入力された時に、求めるデータを出力するように学習します。最初のうちは、求めるデータを出力できませんが、学習を繰り返すと求めるデータに近いデータを出力できるようになります。
このように、学習したコンピュータに不要な音が混入した画像(スペクトログラム)を入力すると、不要な音の模様を取り除いた画像を出力するようになります。そして、その画像をまた数学的に処理して波形に戻すことで、不要な音が消えた音声が得られます。図2は不要な音を除去する処理の流れになります。
図2 不要な音を除去する処理の流れ
これまでの研究では、家庭内での音の混入を想定して、ペットや赤ちゃんの声、インターホンの音を取り除く評価を行い、不要な音が取り除けていることを確認しました。図3がその一例で、人の声に対して、左側が猫の声、右側がインターホンの音が混入した場合です。それぞれの上段の画像は不要な音が混入した画像で、赤枠で囲んだ部分に不要な音の模様が現れています。中段の画像はコンピュータが出力した画像で、上段で見られた不要な音の模様が除去できています。下段が求める画像です。中段と下段が似た画像になっていますので、良い結果が得られたと言えます。ただし、画像から戻した音声に少し劣化がありましたので、現在は音質の向上に取り組んでいます。
図3 猫の声とインターホンが混入したときの除去例
今後の展開
今後は、残った音声の音質向上に取り組んでいきます。
さらに、これまで研究成果を展示会に出展し、いくつかの企業から問い合わせをいただいていますので、いろいろな環境や条件、課題に対してカスタマイズできるようにしていきたいと考えています。また、この研究で提案した方法は、音だけではなく広く波形データに対応できると考えられますので、適用する分野も広げていく予定です。
【特許情報】
田中博、宮崎剛 学習モデル作成方法、学習モデル作成装置、背景音除去方法、および背景音除去装置、特許第7414214号
▼関連するSDGs
4 質の高い教育をみんなに
9 産業と技術革新の基盤をつくろう