多様な仮想空間を構築するための画像モダリティ変換

深層学習を始めとした機械学習が様々なベンチマーク問題で目覚ましい成果を上げたのに伴い,機械学習システムを自動運転やロボット制御のような実問題に応用する研究が盛んに行われている.実問題への応用には機械学習システムの訓練や検証が必要であり,そのためには物体を検出するための画像データと正解データのような,現実空間でのデータを大量に収集する必要がある.また充分な訓練と検証のためには単なるデータ量だけでなく,データの多様性が必要である.例えば,昼の晴天時で十分な精度を示す物体認識システムが,夜の雨天時に同等の性能を示す保証はない.そして雨天のデータを収集するには,実際に夜に雨が降るのを待つしかない.また大雨や雷雨,霧など様々なケースが考えられ,そのようなデータ収集しつくすためには莫大な金銭的・人的コストが要求される. 一つの解決策として,環境シミュレータを構築し,その中で機械学習システムの訓練や検証することが考えられる.しかし環境シミュレータと現実空間の差異によって,訓練の性能や検証の妥当性は大きく損なわれる.もう一つの解決策として,ドメイン適応を用いる手法が盛んに研究されている.ドメイン適応とはあるドメイン(たとえば環境シミュレータ)で得られたデータが持つドメイン独自の情報に手を加えし,他のドメイン(たとえば現実空間)から得られたデータと同じように扱えるようにする手法である.この場合は,シミュレータで大量にデータを収集し,得られた画像を事後処理で現実空間で得られたデータのように加工することを意味する.ただやはり高性能なシミュレータを開発する必要があり,そのコストは無視し難い. もう一つの解決策として,現実空間で得られた1つの画像から,様々な環境下の画像を複数生成することが考えれる.例えば,昼と夜という画像のモダリティ変換をドメイン変換問題として捉え,高い性能を発揮しているpix2pix[Isola 17] という手法が存在する.これは変換前と変換後の両ドメインにデータ対(ペア画像)が必要であり,定点カメラには適用可能だが車載カメラでは適用できないなど,範囲が限られている.一方,絵画と写真という画像のモダリティ変換をペア画像なしで行えるCycle-GAN[Zhu 17] という手法が提案されている.本研究では,自動運転用の物体検出システムを想定し,車載カメラから見た道路画像のデータセットであるKAIST Mul-tispectral Pedestrian Detection Benchmark[Hwang 15] をベンチマークとし,画像の夜と昼というモダリティを相互に変換するタスクを論じる.既存手法であるpix2pixとCycle-GANの問題点を指摘した上で,それらを解決する手法を提案する.

本研究は株式会社 豊田中央研究所との共同研究として実施された

Konstantinos Bousmalis et al., “Unsupervised Pixel-Level Domain Adaptation with Generative Adversarial Networks,” arXiv, 2016 より引用.

Phillip Isola et al., ” Image-to-Image Translation Using Conditional Adversarial Networks,” CVPR, 2017 より引用.