視覚情報処理 Visual Image Processing)pweb.sophia.ac.jp/aklab/res/2014material.pdf ·...

1

2014年度研究室紹介

視覚情報処理

（Visual Image Processing)

情報理工学科

川中研究室

多次元信号処理

視覚パターンの

表現

視覚パターンの

認識

画像・映像符号化個人の認証、製品検査

CG, 人工現実感生成マシンビジョン（自動運転，ロボット）

視覚情報処理

映像：R(x,y,t)

G(x,y,t) B(x,y,t)

2

ＤＣＴ基底画像（周波数パターン）

離散コサイン変換（DCT）

（入力画像）

転送データ（ジグザグ走査）

：０ラン長と非零成分の振幅

多次元信号処理例： JPEG符号化

容量：６MB

現フレームのマクロブロック（16x16画素）

前フレームの

対応ブロック

現在のフレーム

前のフレーム

検索範囲

予測画像：前フレームと

動きベクトル

転送データ：動きベクトルと

予測誤差画像

映像認識の応用例： MPEG動画像符号化

3

３次元形状の取得

(a) スリット光を用いる計測システム

の構成 (b) 距離データの例

光源スリット回転鏡

レンズ

対象物体

テレビカメラ

レンジデータと法線ベクトル

レンジデータの輝度変調表示法線ベクトルのX方向成分

z

θ

4

３次元形状のポリゴンメッシュ表現

2 3

10 11

13

14 15

7 9

8

1 4

5 6

0

12

16

連結情報

幾何情報

VRML形式

ポリゴンの各頂点の座標値

特性情報

色情報・法線情報

x0,y0,z0

x1,y1,z1

：

１つのポリゴンを構成する頂点番号

0,1,2,-1

0,2,3,-1

：

r0,g0,b0

r1,g1,b1

：

リメッシングを用いたポリゴンメッシュ符号化

構造化例

2 次元画像の圧縮技術を適用するためにポリゴンメッシュの頂点を

2 次元平面上に割り当てる

オリジナルメッシュを縮退して、

ベースメッシュを構造化

構造化

縮退

一周ずつ外側の頂点列を構造化し、全ての頂点を構造化する

連結数最大の頂点を開始頂点と決定

開始頂点に隣接する頂点列を構造化

前の層と隣接する未処理の頂点列を同様に構造化、第１層と同じ方

向で頂点を構造化していく

s : 層番号

k : 頂点番号系列

v ( s,k ) : 頂点番号テーブル

0

1

2

8

10

7

9

4 5

3

24 23

17

6

13

12

15 14

16 18

1 1

19

20 21

22 25

k

s

7

13 14 15 16 17 12 4 3

2 1 6 9 10 11 8

25

19 20 21 22 23 24 18

0 5

v ( s , k )

第０層

第１層

第２層

第３層

第４層

階層的に構造化データを拡大していく

5

IV. 実験結果

] dB [ peak

log 20 PSNR 10

rms D

=

peak : the diagonal length

of the bounding box

D rms

: root mean square error

TAGC : adapted in MPEG - 4

TG : widely used as a benchmark

TG coder, MPEG - 4 はオリジ

ナルメッシュを符号化

構造化したベースメッシュの

細分割を 4 回行った

proposed scheme

2.06 bpv

74.1 dB

MPEG - 4

4.78 bpv

51.3 dB

“ re_venus ”

128002 vertices

“ venus_base ”

502 vertices

“ venus ”

134345 vertices

“Isis”

(vertices) 187644 → 662 →168962“venus”

球面とxyz軸の交点を初期頂点とする。これらを結ぶ円弧によって球面を8個の曲面に分割する。次に分割した各曲面に対し、各曲面の境界をなす円弧を3等分し得られた頂点を1次対応視線の候補の頂点とする。

y

x

z z

x

y

(a) 球面の分割 (b) 各曲面に対する 1 次対応視線の候補の頂点 (c) 候補より作成したレンダリング画像の例 (?,?)

各頂点から原点に向かう視線を考え、これを1次対応視線の候補とする。これらの視点に対して作成したレンダリング画像とクエリ画像との一致度を求めることを考える。

レンダリング画像をクエリとして用いる3Dモデル検索

6

辞書モデル:bunny query:bunnyの右半身損

従来法提案法

s* 0.835044 1.049944

θ* 186.29 264.88

φ* 122.34 79.67

γ* -59.01 0.00

corr 0.691947 0.847412

従来法

query 辞書画像

提案法

query 辞書画像

モデルbunnyの右半身が欠損しているモデルから得られるクエリ画像が与えられた時、辞書モデル

bunnyからクエリが得られた視線の方向とスケーリング値を推定できているかを比較評価した。クエリがθ=265°,φ=80°,γ=0°,スケーリング値s=1.05で得られた時、両手法から推定される辞書モデルbunnyの視線方向θ*,φ*,γ*とスケーリング値s*，相関係数値corrを示し、推定された視線方向より得られたbunnyのレンダリング画像を示す。

慣性主軸を用いる方法と提案法の比較実験

3次元モデルの幾何変換を考慮した検索

=

S z y x

S z y x z y x f

) , , ( 0

) , , ( 1 ) , , (

L

L

- =

=

-

t

u

y

x

dt v y x f v u p

q q

q q

q

cos sin

sin cos

) , , ( ) , , (

3 次元モデルとプロジェクションを以下の

ように定義する。

S ：曲面状の点の集合

白に近い領域：表面が多く存在

7

結果

入力モデル

補正後の入力モデル

辞書モデル

補正後の辞書モデル

プロジェクションのサイズ： 512 × 512

角度の刻み幅： 10 ° 近傍での刻み幅： 1 °

Rotatio

n and

Scaling

value

feline No tailNo

feather

No

feathers

x axis 30.00 29.72 29.72 29.48 29.48

y axis 30.00 19.67 18.95 19.50 19.50

z axis 30.00 26.70 26.63 25.76 25.76

Scaling 1.15 1.14 1.14 1.16 1.16

C 0.9358 0.9439 0.9131 0.9075

推定された3次元パラメータとファクター

ステレオマッチング法におけるスパース性に基づいた視差の推定

14

近年、様々な分野で3Dモデルの利用が増加している。

映画、ゲーム、バーチャルショッピング

ステレオマッチング法

利点－3Dモデルの凹凸形状が表現できる。

欠点－大きな誤差が生じやすい。

凹凸表現が可能なステレオマッチング法による3D形状推定の

アプローチを用い、その欠点を克服する新しい手法を提案することで、これまでよりもリアルな3Dモデルを生成する。

スパース性に基づいた修正処理

8

ステレオマッチング法の問題点

15

問題点

ステレオマッチング法での視差推定では誤推定を生じることが多く、3D形状を大きく崩してしまう。

解決策

ステレオマッチング法によって得られた視差データをスパース性に基づいて修正していく。

スパースでないスパース

信号のスパース性

実際の視差は、雑音のない多くの自然界の信号と同様にスパース性を持っていると考えることもできる。

実験結果

16

従来法

E ：10.01 [%] PSNR ：25.22[dB]

E ： 9.35 [%] PSNR ：28.68[dB]

提案法

3次元形状

3次元形状

9

Camera image

Camera image

3D model- based image

1qf

2qf

)(

1

Dfqq

)(

2

Dfqq

3D形状モデルを利用した多視点画像生成

3次元形状モデルと撮影画像

を用いた多視点画像モデルの生成

課題 : 鏡面反射成分の生成

３Ｄモデルを用いた画像生成法により、いくつかの撮影画像を用いて任意視点方向の画像が生成される。しかし、このモデル生成画像は視点方向に輝度値が依存しない拡散反射成分は再現されるが、視点方向に依存して輝度が著しく変化する鏡面反射成分は正しく表現されない場合がある。

鏡面反射成分追跡を用いた画像生成

撮影画像

撮影画像

モデル生成画像

モデル生成画像

1qf

2qf

)(

1

Dfqq

)(

2

Dfqq

生成画像

反射成分にずれが生じる

10

撮影画像

モデル生成画像鏡面反射追跡による

生成画像

1qf

2qf３Dモデル撮影画像

入力データ

撮影画像（生成画像方

向）

原画像出力データ

実験結果

適応的ブロック分割モデル

（λ=100)

任意形状画像への電子透かしの埋め込み

画像信号形状マスク

任意形状画像：形状マスクと画像信号から形成

電子透かし埋め込み：

SA-WTによる高周波成分の分離

高周波成分への透かし情報の埋め込み

埋め込み画像の同定：

任意形状画像特徴に基づく画像認識

11

車載ビデオ画像デモ 0wisdeView.exe

車載ビデオカメラ画像からの領域抽出

道路平面、対向車、通行人の認識

ナビゲーションシステムへの応用

映像からのオブジェクト認識

3次元モデル・撮影画像の取得にKONOKA MINOLTA製のVIVID910を使用している。VIVID910は光切断法によって3次元情報を取得する。このVIVID910を取り付けた撮像システムを回転させることにより、対象物体の距離画像列および全周画像列を取得している。この距離画像列を位置あわせ・統合することにより3次元モデルを得ることができる。

撮影環境

VIVID910

0wisdeView.exe

12

連絡先

電子メール [email protected]

URL http://pweb.cc.sophia.ac.jp/aklab

研究室市本館―３１０

・研究内容、進路、就職分野

・研究室見学：随時

視覚情報処理 Visual Image Processing)pweb.sophia.ac.jp/aklab/res/2014material.pdf ·...

Documents

Transcript of 視覚情報処理 Visual Image Processing)pweb.sophia.ac.jp/aklab/res/2014material.pdf ·...