ニューラルネットワークで画像認識してみた

ドキュメントスキャナで本をスキャンした際、画像のサイズが大きすぎるため保存に適しません。この画像を２値画像とグレースケール、カラー画像それぞれの処理を加えることでファイルサイズを縮小し、ニューラルネットを用いることによりある程度自動化できないかと考えました。今回はニューラルネットとして一般的な三層パーセプトロンを用いた画像判別の一例を解説します。

4.2 三層パーセプトロンとバックプロパゲーション

4.2.1 三層パーセプトロン

三層パーセプトロンは入力層、中間層、出力層と別れた三層の各ニューロンが重みと呼ばれる係数で結ばれたモデルとなります。

それぞれの重みは実数で表され、パーセプトロンが機能するためにはこの重みが適切に設定されている必要があります。ある入力が与えられた際、入力値に重みを掛け合わせ、それぞれの合計に次のようなシグモイド関数を適用した数値を中間層の持つ値とします。

各出力層も同様の計算がなされ、パーセプトロンの出力が行われます。

4.2.2 バックプロパゲーション

多層パーセプトロンで適切な出力を行うための学習方法として一般的なものにバックプロパゲーションがあります。バックプロパゲーションではまず入力に対する正しい出力 (教師信号) を多数用意し、各重みをランダムに設定します。用意された入力に対してランダムな重みからパーセプトロンの出力はでたらめな値となりますが、この出力と教師信号との比較から出力層と中間層の間の重みを修正し、次いで中間層と入力層の重みを修正することで適切な重みを探し出します。

4.3 足し算と引き算を学習してみる

作成したパーセプトロンとバックプロパゲーションが正常に動作するかを確かめます。次のような入力を用意しました。

# 学習用教師信号ペア
0.40,0.20 0.60,0.20
0.30,0.20 0.50,0.10
0.80,0.10 0.90,0.70
0.20,0.10 0.30,0.10
0.50,0.50 1.00,0.00
0.60,0.20 0.80,0.40
# 評価用入力値
*0.50,0.10
*0.50,0.40
*0.10,0.40

入力値と教師信号のペアはタブ区切りの左が入力、右が入力に対する教師信号です。ここでは足し算と引き算の教師信号を与えました。

$ ./backprop.exe sample.txt 10000
       0 0.87640153
     100 0.26410368
     200 0.10289131
     300 0.03820243
     400 0.02475167

...(中略)...

    9600 0.00077714
    9700 0.00077174
    9800 0.00076646
    9900 0.00076128
0.4000, 0.2000  0.60, 0.18      0.60, 0.20
0.3000, 0.2000  0.50, 0.11      0.50, 0.10
0.8000, 0.1000  0.90, 0.70      0.90, 0.70
0.2000, 0.1000  0.30, 0.11      0.30, 0.10
0.5000, 0.5000  0.98, 0.02      1.00, 0.00
0.6000, 0.2000  0.80, 0.41      0.80, 0.40
0.5000, 0.1000  0.63, 0.35
0.5000, 0.4000  0.93, 0.06
0.1000, 0.4000  0.87, 0.00
Ratio=0.00075626
Count=10000
Sample=6
Input=2
Middle=4
Output=2
InputHidden0=-2.57936471,-2.20525001,-1.50656422,4.05055823,-0.66468037
InputHidden1=-1.29032439,8.71632107,-1.24344376,-0.85214732,-0.66468037
InputHidden2=2.04901840,-2.94096519,1.04866634,-1.98825291,0.29698485
HiddenOutput0=-2.91458436,-1.16992032
HiddenOutput1=5.84673832,-6.31188860
HiddenOutput2=-1.80018561,-0.42470539
HiddenOutput3=3.60356071,3.84028669
HiddenOutput4=1.40998866,-1.22885398

頼りないながらもそれなりの演算結果が出力されています。評価として最後の数値は減算結果が負になるはずなのですが、シグモイド関数を通すことで出力が 0.0〜1.0 となるため正常な結果が得られません。

4.4 画像を分類するための入力値を考える

この中から文章と絵の判別として画像の FFT を、カラー画像の判別として HSV への変換を解説します。

4.4.1 モノクロ画像の処理・文字と絵を分類してみる

縦書きの文章は横方向に一定の周波数を持っていると見なすことが出来ます。これにより、文章の画像を微分し FFT 処理を行った結果から振幅を描画するとで、明るく光る点が現れることがわかりました。

図 4:	イラストと文章を微分した画像の FFT 結果

この点の明るさを入力値とすることで、文章とイラストの判別が行えると期待できます。

4.4.2 カラー画像とそうでない画像を分類してみる

カラー画像とモノクロ画像は画像の RGB を HSV に変換し、色相から判別を行っています。

RGB のうちから最大のものを MAX、最小のものを MIN とすると色相は次の式となります。

図 5:

色相の計算式

H =	60 + 0,	ifMAX = R
	60 + 120,	ifMAX = G
	60 + 240,	ifMAX = B

モノクロ画像は色相を持たないため、 RGB のうち青の成分を減らすことで黄色いフィルタをかけました。こうすることでモノクロ画像の色相の平均は黄色となり、カラーとモノクロを判別するための入力値として期待できます。

4.5 学習の条件

実際にこの条件で学習を行った際、 Core i7 950 で 7 時間弱の学習時間となりました。

4.6 判別の精度

作成されたツールで実際に判別を行い、その精度を調べました。評価に使用した本は学習に使われていないものを選びました。

第 62 回東京エリア Debian 勉強会 2010 年 3 月
____________________________________________________________________________________________

4 ニューラルネットワークで画像認識してみた

4.1 はじめに