物体検出手法 CornerNet の紹介と実験

こんにちは。先進技術部でアルバイトをしている河田です。
今回は、Law & Dangにより2018年8月に提案された物体検出手法CornerNet[1]について紹介します。

はじめに

CornerNetは

主流の物体検出モデルのほとんどで用いられている Anchor Box を排除
Corner Poolingという新しいPooling手法を導入し、Bounding Boxの左上・右下のコーナーを検出

という点で、多くの物体検出手法の中で異彩を放っていました（発表当時）。

本記事では、まずCornerNetの仕組みについて説明したのち、弊社で再現実装を行い独自データセットで訓練した結果を紹介します。

物体検出の基礎知識

物体検出とは

CornerNetの具体的な解説にうつる前に、まず物体検出の基礎的な事柄について説明します。
物体検出とは、画像認識タスクの一つで、「画像のどの位置に」「何が写っているのか（クラス）」を検出するものです。一つの画像に複数の物体が写っていた場合、それぞれについて位置とクラスを検出しなければなりません。
物体検出タスクでは、物体を囲う矩形の位置と大きさを推定するのが一般的で、この矩形を Bounding Box (BBox)と呼びます。
Faster R-CNN以降の多くの物体検出手法では、BBoxの中心座標

\left( x, \ y\right)

と大きさ

\left( w, \ h\right)

を、ニューラルネットワークを用いて推定します。この回帰問題を直接解くのはいくつかの点で困難なため、Faster R-CNN では

\left( x, \ y, \ w, \ h\right)

を直接出力させるのではなく、Anchor Boxと呼ばれる矩形のテンプレートを変形させることで予測BBoxを作り出すという方法が取られました。Anchor Boxを用いたBBoxの推定はFaster R-CNN以降の物体検出手法にも受け継がれ、物体検出における事実上のスタンダードとなっています。

Anchor Box について

Anchor Boxとは、図１に示すように、異なる大きさ・縦横比を持った矩形のテンプレートです。多くの物体検出手法では、直接BBoxを推定する代わりに、これらのAnchor Boxから最も形の合うものを一つ選び、それを変形して予測BBoxとします。
物体と形状の近いAnchor Boxが存在する場合、そのAnchor Boxに小さな変形を施すだけで予測BBoxを作成できるため、問題が簡単になり、訓練の安定性や検出精度の向上が期待できます。
その一方で、適当なAnchor Boxが存在しない場合は対象の物体を検出しそこねる可能性があるため、Anchor Boxの設計は注意深く行われる必要があります。

One-stage detectorとTwo-stage detectorについて

ニューラルネットワークを用いた物体検出手法は、検出を１段階で行うか２段階で行うかによって、それぞれOne-stage detectorとTwo-stage detectorに分類されます。
Two-stage detectorでは、まず1段階目でBBoxの候補を抽出します。そして2段階目でクラス予測とBBoxの修正を行い、最終的な予測結果を生成します。Two-stage detectorの代表はFaster R-CNNです。
一方のOne-stage detectorはBBox生成とクラス予測を一度に行います。そのため一般にOne-stage detectorは構成がシンプルになり、学習や推論の高速化が見込めます。そのぶん検出精度はTwo-stage detectorに劣る傾向があります。YOLOやSSD、今回紹介するCornerNetはOne-stage detectorに分類されます。

CornerNet について

CornerNetでは、BBoxの中心座標と大きさではなく、左上と右下の頂点（corner）の座標

\left( x, \ y\right)

をそれぞれ推定します。その後、同一物体の左上と右下の頂点を対応付けることで、物体を検出します（図２）。クラス予測は、頂点の検出と同時に行います。
頂点の検出では、画像上の各ピクセルの頂点らしさを確率マップとして出力する方法をとっており、そのためAnchor Boxが不要となっています。

検出の流れをもう少し具体的に見ていきましょう。まず画像をHourglass Networkに入力して、特徴抽出を行います。得られた特徴量を、左上・右下頂点それぞれを検出するネットワークに流し込み、それらの出力をCorner Poolingレイヤーを通した後、それぞれでHeatmap、Embedding、Offsetの３つ出力させます。最後にこれらの出力を合わせて検出結果とします。

以降では、それぞれのモジュールについて順に説明していきます。

Hourglass Network

先程述べたように、Hourglass NetworkはCornerNetで用いられている特徴抽出用ネットワークです。砂時計をいくつも繋げたような形になっていることからHourglass（砂時計）という名前がつけられているようです。Hourglass Networkはもともと姿勢推定[2]で提案されたアーキテクチャで、特徴マップのサイズを小さくしたり大きくしたりを繰り返すことで異なるスケールの情報を統合しようという意図で設計されています。
Hourglass NetworkはResNetと同様、Residual（残差）構造を採用しており、特徴マップの拡大縮小をまたいで空間情報が落ちてしまうのを防いでいます。

Corner Pooling

Hourglass Networkで抽出された特徴量は、Corner Poolingに通されます。このCorner PoolingがCornerNetの鍵となります。というのも、物体を囲うBBoxの頂点を検出するという問題設定は、そのままでは大きな欠点を抱えているからです。
図５を御覧ください。これらの画像ではBBoxの頂点部分に物体の一部ではなく背景が写っており、そのままでは頂点の検出は困難です。なぜなら、CNNは位置関係を保存して特徴抽出を行うため、画像上で物体の存在しない領域については、特徴マップ上にも情報が存在しないと考えられるからです。

そこで、物体の情報を左上と右下の頂点になんらかの方法で集める必要があります。それを担うのがCorner Poolingです。
例として、左上に情報を集めるCorner Poolingを図６に示します。

左上に情報を集めるためには、下から上に、また右から左にと特徴マップを走査していけばよいわけです。ReLUのような活性化関数を用いたネットワークでは、特徴の存在する位置の値は大きくなるため、走査しながら、それまでの最大値で特徴マップの値を上書きしていきます。最後に下から上、右から左に走査した結果を足し合わせて、それを出力とします。

具体的な数値で計算をしてみましょう。

図７の赤枠部分に注目してください。この２つの赤枠は、右から左への走査の、走査前と走査後の様子を示しています。
走査前では、一番右の数は２，その次の数は０です。これを右から順番に見ていき、それまでに見た最大値で上書きします。したがって、二番目の０は２で上書きされます。
次の数は３です。これまでの最大値は２ですから、上書きはしません。
次の数は１です。これまでの最大値は３なので、１を３で上書きします。
……と繰り返し、最後に右から左の走査結果と下から上の走査結果を足し算するわけです。

このCorner Poolingによってほんとうに頂点を検出できるかどうか、簡単な例で確かめてみたいと思います。
図８を御覧ください。一番左の図がCorner Poolingに通される特徴マップです。青い部分に物体が存在しているとします。各値はHourglass Networkで抽出された特徴量で、値が大きいほどなんらかの特徴が存在することを意味しているとしましょう。これにCorner Poolingを適用したものが、一番右の図です。最も値が大きいのが黄色で示している部分で、これが頂点として検出されます。実際、これを左上頂点とする矩形で囲ってみると、物体のある領域をうまく捉えられていることがわかります。

Heatmap

ではここからはCornerNetの３つの出力について順に述べていきます。
HeatmapはBBoxの頂点の存在確率を示します。Heatmapにはクラス数と同数のチャネルが存在し、各チャネルが対応するクラスの頂点に反応するよう訓練されます。HeatmapはSigmoid関数によって０～１の値をとるよう調節されており、物体頂点がありそうな位置のHeatmapの値は１に近づいていきます。
さて、Heatmapはどのように訓練されるのでしょうか。
物体検出用データセットでは、人手でアノテートされた正解BBoxとクラスラベルが与えられるのが一般的です(例えば、([10, 130, 40, 250], “person”)など)。CornerNetではこの正解データを用いて、正解Heatmapを作成し、これと推論されたHeatmapを比較してLoss（損失）を計算します。
正解Heatmapは、正解BBoxの頂点の値を１として、これを中心にガウス分布に従う広がり（式１参照）をもたせたものを利用します（図９）。

もし仮に頂点の座標のみに１を立てたようなHeatmapを正解データとして使うと、予測が１ピクセルでもずれると完全に間違いということになってしまうため、多少の誤差を許容するために正解に広がりをもたせているわけです。
その際、BBoxのサイズによってズレが予測に与える影響は変わるため、

σ

を調節してペナルティの大きさを制御します。小さいBBoxでは

σ

を小さくして分布の広がりを狭め、逆に大きなBBoxでは

σ

を大きめにするのです。

では今度はLossの計算式を見てみましょう。Lossは式２に示すように、「ぴったり正解BBoxの頂点に一致した点」とそれ以外の点とで計算式が異なります。

(

N=

正解BBoxの数、

c=

チャンネル数、

H=

画像の高さ、

W=

画像の横幅、

p=

推定heatmap、

y=

正解heatmap、

α,β=

ハイパーパラメータ(論文および再現実装では

α=2, β=4

))

ぴったり正解BBoxの頂点に一致する点(

y_{cij}=1

)については、式２の上の式でLossを計算します。この式では、予測Heatmapの値が1に近いほどLossは小さくなります。
一方、それ以外の点では式２の下の式で計算します。こちらの式では、予測Heatmapの値が0に近いほどLossが小さくなります。正解BBoxの頂点に近くても、一致しない限りはHeatmapの値を０に近づけるということです。ここで式の前についている(

1-y_{cij}

) に注目してください。 y は正解Heatmapの値ですから、正解BBoxの頂点に近ければ (＝

y_{cij}

が大きければ）Lossが小さくなる、つまりペナルティが軽減されるということになります。この動的にスケーリングされる損失関数をFocal Lossと呼びます。

Embedding

Heatmapによって各物体の左上と右下の頂点候補を得ることができますが、このままでは、どの左上頂点とどの右下頂点がペアなのかわかりません。

そこで頂点ペアの決定に用いられるのがEmbedding（埋め込みベクトル）です。
Embeddingはクラス数に関係なく共通のベクトルで、各ピクセルに対して一つずつ得られます。論文ではEmbeddingは１次元になっています。
このEmbeddingが近いものがペアであるということにすれば、BBoxを一意に決定することができそうです。

図11 図中の数字がEmbedding．例えば0.34と0.36が近いのでグループ化可能

さてこのようにEmbeddingを用いて頂点のグルーピングをするためには、同一BBox上でペアになる頂点間のEmbeddingの距離が近く、逆にペアではない頂点間ではEmbeddingの距離が遠くなればよいわけです。

これを実現するために、式３にもとづいてLossを計算します。

L_{pull}

がペアとなる頂点間で定義されるLossで、

L_{push}

がペアではない頂点間で定義されるLossです。順に説明していきましょう。

e_{t_k}= k

番目の左上の頂点のEmbedding、

e_{b_k}= k

番目の右下の頂点のEmbedding、

e_k= k

番目の左上と右下の頂点のEmbeddingの平均、

δ=1

(ハイパーパラメータ)

Embedding Lossの計算では、ペアとなる頂点間のEmbeddingの平均を、基準として用います。
まず、

L_{pull}

では、ペアとなる頂点のそれぞれのEmbedding (

e_{t_k}

と

e_{b_k}

)がそれらの平均(

e_k

)に近づくようにします。
次に

L_{push}

ですが、これは少々わかりにくいかもしれません。

L_{push}

では、頂点ペアのEmbeddingの平均値 (

e_k

)を、それ以外のすべての頂点ペアのEmbedding平均 (

e_j

) と比較します。その差が

δ

以上であれば０、

δ

未満であれば

δ

との差分が

L_{push}

に加算されるのです。例えば図13では

e_k=0.35

e_j=1.10

で、２つの差は

|e_k-e_j|=|0.35-1.10|=0.75

です。これは

δ

(今回は1)より小さいので、

1-0.75=0.25

がLossに加算されます。この

L_{push}

を最小化することで、異なる頂点ペアのEmbeddingを十分(

δ

以上)に引き離すことができるわけです。

Offset

3つ目のOffsetは、BBox位置の小さなズレの修正に用いられる値ですCornerNetにおいて、HeatmapやEmbeddingなどの出力は、入力画像よりも低解像度になっています。これは計算量の都合です。
BBox検出の際は、Heatmap上で閾値以上に値の大きな点を頂点として選びますが、このときHeatmapの解像度が入力画像よりも小さいため、得られた座標を定数倍して入力画像サイズに戻す必要があります。ここでズレが生じます。例えば正解BBoxの一つの頂点の

x

座標が102だったとしましょう。Heatmapが入力画像の1/4に縮小されていたとすると、Heatmap上の座標値は元の画像上では4の倍数にしかなりませんから、102という正確な値は出すことができません。ここで登場するのがOffsetです。
CornerNetでは、（予測頂点のHeatmap上の座標

+

Offset）を定数倍して最終的な推定結果とします。OffsetはHeatmapの各値に対して

x

軸方向と

y

軸方向の２チャネルを出力します。Embedding同様こちらもクラス数には依存しません。

正解Offsetとしては、図１５に示すように、正解BBoxの各座標を出力サイズに縮小したときの小数点以下の値を使用します。図１５では0.5と0.75がそれぞれ

x

軸、

y

軸のOffsetとなります。OffsetのLossの計算には、Smooth L1 loss を用います。

精度

論文で報告されているCornerNetの精度です。

論文では、MSCOCOデータセットを用いて実験を行っています。筆者は、CornerNetは他のOne-stage detectorより高精度であり、Two-stage detectorに匹敵していると主張しています。
以下に論文に掲載されている物体検出結果の一部を示します。小さいボールやスプーン、また密集したキリンや人など精度よく検出できていることがわかります。

CornerNet 再現実装

ここまでCornerNetの手法の解説を行ってきましたが、最後に、弊社で再現実装を行い、独自のデータセットで評価した結果を紹介します。データセットは弊社で収集した、車載カメラによる走行画像です。
データセットは１シーケンス６０枚程度の連続した画像からなり、全体で５９８シーケンスあります。このうち５１２シーケンスを学習用、残りの８６シーケンスを評価用に利用しました。データセットは「信号」「車」「歩行者」など全１７クラスのアノテーションがされていますが、データ数の少ない（５００未満）６クラスを除外し、１１クラスで訓練を行いました。
画像サイズは1920×1200で、これを512×512にリサイズして使用しています。

次に学習条件の詳細について述べます。
訓練時にはAugmentationを行いました。利用したAugmentation手法は、色・明るさの変更、左右反転、ランダムクロップです。
OptimizerとしてはAdam（

α=1e-4, beta1=0.9, beta2=0.999

）を用いました。
論文では、HeatmapとOffsetのLossは1倍、Embeddingは0.4倍して足し合わせていると書かれていますが、さまざまに条件を変えて実験した結果、以下のようにLossを変更しています。
まずHeatmapについて、独自データセットは頂点の密度がMSCOCOより小さいことを考慮し、頂点のない部分のLoss（式2、下式）を1/50倍しています。
またEmbedding loss が軽視される傾向があったため、係数を0.4倍ではなく1倍に変更しました。

最後に評価時の条件についてです。まずHeatmapから値が0.4以上の点の座標をとってくることで頂点の候補を列挙します。次に、それぞれの頂点候補に対して、最もEmbedding間距離の小さいものをペアとし、BBoxを生成します。ここで重複するBBoxが多数生成されるため、NMS(Non Maximum Suppression)を施して取り除きます。これは、2つのBBoxのIoUを計算し、これが閾値以上だった場合に、予測確率（そこに物体があるという確信度。今回は２頂点のHeatmapの平均値を用いた）の大きいもののみを残すという手法です。NMSの閾値は0.4に設定しました。

評価にあたっては、予測BBoxと正解BBoxを比較して、クラスが一致していてかつIoUが0.5以上であった場合に正解とし、mAPを評価指標としました。

学習は23 epoch行い、およそ3日間かかりました。

結果

結果は、11クラスに対し

mAP=0.202

というものでした。
論文の値よりもかなり低くなってしまいましたが、11クラス中には訓練データが少ないものもあり、それらがmAPを大きく減少させていました。
高精度で検出できているクラスの例としては、車が

AP=0.482

、停止標識が

AP=0.557

などと健闘していました。

以下は検出結果の例です。まずうまくいったものから紹介します。

画像中の青い印は左上の頂点として検出された領域、赤いものは右下の頂点として検出された領域を示しています。
車や信号、歩行者がおおよそ検出できていることがわかります。上の画像では歩行者はかなり小さく映っており、外観も様々ですが、きちんと検出できています。

一方で検出に失敗した例を図21に示します。BBoxが大きく広がってしまっている様子がうかがえます。これは、片方の頂点がうまく検出できなかったり、誤った頂点をペアにしてしまったりした結果です。Embeddingの学習がうまくいっていないことを示しています。

Embeddingについては、論文通り1次元の値を使ったのが問題ではないかと考え、128次元に拡張して実験を行ってみましたが、かえって精度が下がってしまいました。

まとめ

本記事では、CornerNetの手法の解説と、弊社で再現実験を行った結果の紹介を行いました。
再現実験では十分な結果は得られませんでしたが、これがデータセットの特性によるものなのか、実装に不備があるのかは検証できていません。
再現実装に関してはChainerを用いたのですが、cupy.ElementwiseKernelを使ってGPUでの処理を書くのが非常に難しかったです。
十分な精度は出せませんでしたが、なぜこの方法で物体検出ができるのかという論理の読み取り、読みやすいプログラムの書き方などが学べ、大変勉強になりました。

ALBERTでは、データサイエンティストを募集しています。ぜひ採用ページをご覧ください。

The post 物体検出手法 CornerNet の紹介と実験 first appeared on ALBERT Official Blog.

物体検出手法 CornerNet の紹介と実験

はじめに

物体検出の基礎知識

物体検出とは

Anchor Box について

One-stage detectorとTwo-stage detectorについて

CornerNet について

Hourglass Network

Corner Pooling

Heatmap

Embedding

Offset

精度

CornerNet 再現実装

結果

まとめ

Trending Articles

【ディズニーランドパリ】日本にないオススメアトラクション13選【ウォルトディズニースタジオ】

カラオケ鉄板ネタになるの間違いなし「大塚愛から福原愛」って何！？

森詩絵里(美人弁護士)の年齢,カップ,身長,経歴Wikiプロフや彼氏&結婚の噂は

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

【ダメでしょ…】佳子さまと彼氏のキス画像流出してしまった？【衝撃画像あり】

サイコブレイク　攻略データ

まどかちゃん🇹🇼 on X:...

ゴールデン・スランバー　ザ・ビートルズ　歌詞　和訳

香川県内市町職員人事異動　（４月１日）小豆島町

自宅警備員2　-灰原家の血族-　攻略

田中麗奈（鄭麗奈）

引退。

四代目原田組【伊豆組・山口組】

2015年10月9日号　西日本シティ銀行（10月1日付）

[1080p]回復術士のやり直し 11 完全《回復》ver.

福島県郡山市強姦事件

人気占い師・Sakkoが占う！今日のアナタの運勢と、ラッキーカラーは・・・

黒島氏、花谷氏が出馬表明　石垣市議補選

天達武史が結婚した嫁画像は？出身高校や大学は？本名や年収って？

証券市場関係者は「推奨銘柄の株価が上昇したことで、ブログの読者である個人投資家も信頼し、買いに動くようになった。株価操作とブログが連動し、相乗効果を生んだ...