logo logo

January 08, 2020 14:37

要約:Semantic Segmentation with Point Supervision ~ 経済合理的な画像アノテーション手法の提案

基礎情報

  • Link
  • 著者 : Amy Bearman, Olga Russakovsky, Vittorio Ferrari, and Li Fei-Fei
  • 投稿日時 : 23 July 2016

読もうと思った動機

  • 仕事で物体検出モデルを扱った
  • 物体検出では検出器をどのように訓練するかが学習プロセスの効率に大きく寄与する
    • 例えばクラスラベルだけバウンディングボックス情報を学習ラベルとして付与することで、検出率アップを狙える
    • さらにピクセルレベルのセグメント情報を付与すればバウンディングボックスを与えた訓練時よりもさらに効率的
  • 物体検出に関わらず、この種の注釈情報が豊富になればなるほど、学習器の検出率を向上させられるが、学習リソースを用意するアノテーターの負荷が増えるため、両者はトレードオフの関係にある
  • まさに「アノテーションどきつい・・・」という状況に遭遇したため、効率的なアノテーションを新規提案した上で、従来手法との比較を定量的に評価した本論文は面白い内容だと感じた

概要

  • 本手法で提案されるアノテーションは超シンプル!→馬だったら馬の箇所の真ん中近辺に、恣意的に点を打つだけ!
  • この「点」とクラスの情報(例えば画像中の馬だったら、点の座標と黄色ラベルみたいな情報)を損失関数にうまいこと取り入れた
  • アマゾンメカニカルタークで無作為に抽出したアノテータ群に対し、固定時間で種々のアノテーション手法と実際の検出率を比較する実験を行った結果、この手法がもっとも効率的にモデルの検出率を向上させたというのがメインの主張
  • 他にもジグザグにマーキングする手法もそこそこよかった

主要内容

  • 物体検出モデルの性能評価はmIOU(mean intersection over union)を採用
  • ベースとなるモデルはFCN(Fully Convolutional Network)
  • 複数のアノテーション手法を比較
    • 主要結果にあるFull supervisionは完全なピクセルレベルのセグメンテーション情報を訓練情報として与える
    • Image-level labelsは画像中に含まれるクラスラベルしか与えない
    • 本手法提案のPointと行っているのは下段三番目にあるように、各オブジェクトの重心あたりに、一点の点を打つだけのアノテーション
    • squiggleとは波々の意味で、オブジェクトのあたりを適当にジグザクと塗りつぶしただけのアノテーション
  • それぞれの場合にどのような損失関数を設定したかは、原論文を参照
  • Objectness proprとあるのは先に画像中の物体らしき領域を選別してからセグメンテーションを行うアプローチを指しているらしい。(本論の主張はこうした二段構えのアプローチを採ることでmIOUが向上する傾向にあることも述べている)主要結果面のImg+Objとあるのはこのアプローチを採用していることを示す

主要結果

用語

Fully Convolutional Network (FCN) : 畳み込みレイヤーだけで構成されたネットワークのこと。セグメンテーション(画像中の特定オブジェクトの領域を塗り分けるタスク)で頻繁に用いられる。その場合は入力画像の縦横ピクセルと同一のアウトプット次元としておき、各次元ごとにクラスの強度を出力させるような構成にしておくことで実現されることが多い