[Home]->[Project]->[Visualizing Image Categorization]

[English]

アンカーマップを用いた
Bag-of-features 画像カテゴリ分類の可視化

Yi Gao, Hsiang-Yun Wu, Kazuo Misue,
Kazuyo Mizuno, and Shigeo Takahashi

The 7th International Symposium on Visualization & Interaction
(VINCI 2014)


このウェブページは,画像カテゴリ分類の可視化に関する研究結果を提供するために準備されました.



はじめに

近年の画像データベースの大規模化にともない, そのデータベースから画像を効率よく検索するための, 画像のカテゴリ分類を視覚的検証方法の開発が重要となってきている. Bag-of-Featurs (BoF) モデルは, そのような画像データベースから個々の画像の意味を抽出しカテゴリ化する, 最も普及している確実な手法のひとつである. しかしながら, 付随する機械学習を介した画像のカテゴリ化はなかなか納得ができないことが多い. それは, データベースにより構成される高次元画像特徴空間において, 画像がどのように分類されているかを視覚的に確かめる術がないからである. 我々の研究は, BoF モデルを用いて得られる visual word と呼ばれる代表的な画像特徴群を用いることで, このような高次元画像特徴空間を低次元に写像し, そこにおいて画像を配置することで視覚的にその分類をとらえることを目的とする. その主要なアイデアは, 各画像をいくつかの限定された visual word と関連付けることでまず2部グラフを構築し, その後その2部グラフをアンカーマップとしてスクリーン上に可視化し, 各画像の配置を得るものである(図1参照).


(a) 最初に構成された2部グラフ. (b) エッジを削除することで得られる疎な2部グラフ. (c) 対応するアンカーマップ表現.
図1: BoF モデルにおける画像と visual word の2部構造.


提案手法

各画像は,図2にあるように BoF モデルにおける visual word の粗ベクトルとして表現される. 本手法では, 各画像を限定された個数の visual word と関連付けることで2部グラフを構成しのち, すべての画像をアンカーマップとして可視化する. ここで, アンカーマップの境界に位置するアンカーノードの順番は, 画像間配置における視覚的乱雑さを低減するように, 遺伝的アルゴリズムを用いて最適化される. より大きな画像データベースを扱うために, 最も類似している画像ペアをひとつずつまとめることで, 画像の階層的なクラスタリングも実現している. ここでは, 画像感の類似度は重み付き Jaccard 係数を用いて評価している. 我々の手法では, アンカーマップの中央の領域にボロノイ分割も導入して, サポートベクターマシンにより画像がどのようにカテゴリ化されるかを視覚的にとらえることも可能としている.

図2. BoF モデルの概要.


Results

ここで,我々の手法を用いて生成されたいくつかの事例を示す.
(サムネイル画像をクリックすると元の解像度の画像が表示される.)



(a) 初期画像配置 (b) 最適化された visual word の円環状の配置を用いた画像配置. 各 visual word は代表的な画像で示されている. 同じカテゴリ内の画像がより近接して配置されることになる.

図3: アンカーマップを用いた,コインとメガネ画像の BoF 画像カテゴリ分類に基づく可視化 ( 入力画像数: 20, visual word 数: 24. )

(a) 10% の画像を用いた表現 (b) 30% の画像を用いた表現

(c) 40% の画像を用いた表現 (d) 100% の画像を用いた表現

図4: 多重階層レベルにおいて,車画像をサポートベクターマシンを用いた分離した例. 訓練データとしても用いた画像は,赤枠(車画像)と青枠(その他)で示されている. ボロノイ分割を用いて,車画像と推測された領域は黄色で色塗りされている. ( 入力画像数: 240, visual word 数: 100. )

(a) 粗いレベル. (b) 細かいレベル.

図5: この実験では, 似たように見える訓練画像群を用いて, ある特定のカテゴリの画像をどのように抽出できるかを示している. ここでは, トマト,コイン,車などの画像を訓練データとして用い visual word を抽出し, その visual word を用いて丸い物体を含む画像を同定しようとしている. 実際可視化対象となっている画像データベースには, CDやコップなどの余計なカテゴリに属する画像も含まれている. ( 入力画像数: = 420. visual words 数: 100. )


Paper & Video

Yi Gao, Hsiang-Yun Wu, Kazuo Misue, Kazuyo Mizuno, and Shigeo Takahashi: Visualizing Bag-of-Features Image Categorization using Anchored Maps, the 7th International Symposium on Visual Information Communication and Interaction (VINCI 2014), 2014. Paper-preprint (PDF, 9.2MB), Video(MOV, 19.5MB)



Last Modified: Aug 21, 2015