理系ろう学生団体

←2015年度のページに戻る

はじめに

みなさま，こんにちは．ここでは「コンピュータビジョン」をテーマとしたコラムを執筆致します．マニアックな内容となりますが，ぜひご一読ください．なお，本コラムの前半はテクニカルな内容とし，後半はコンピュータビジョン×聴覚障害をテーマとした内容で進めていきます．

コンピュータビジョンってなんだろう？

まず，図１を御覧ください．何が見えるでしょうか？おそらく，「顔」のようなものが見えることかと思います．実は，人間は生まれた時から，図１のような「３つの点」に反応することが報告されています[1]．

図１：３つの点に反応する赤子
（[1]より引用）

　「単純な記号からも意味を見出すことができる」人間の能力は，ただただ「スゴい」としか言いようがありません．この他の例としては，「キャラ弁」が挙げられます．「キャラ弁」は，いわゆる弁当＝野菜や肉，調味料の集合体なのですが，それを上手く組み合わせることで，キャラクターの姿が見えてきます．これは，人間の脳が「これまでの経験」をもとに，視覚情報から意味（キャラクター）を見出しているのです．しかし，これをコンピュータに理解させようと（つまり，人間のように見て判断できるようにする）思っても，非常に難しいのです．実は，人間が物体を判別しているしくみには謎が多く，まだ解明されていない部分がたくさんあるため，コンピュータに同等の働きをさせることが困難なのです．そこで，たくさんの研究者が知恵を振り絞り，「コンピュータによる視覚の実現」をめざし日夜奮闘しています．こういった研究分野を，「コンピュータビジョン」といいます．

コンピュータに人間と同様の視覚を持たせることができれば，これまで人間が行っていたあらゆる作業を自動化でき，24時間眠らない警備システム，自分の好みの画像だけ集める知能システム，高齢者見守りシステム…と，様々な物を作り出すことができます．そうそう，郵便はがきに記入された郵便番号も，実はコンピュータが読み取り，自動で振り分けているんですよ[2]．その他，皆さんがよく利用しているFacebookの顔識別機能も，コンピュータビジョンの最先端理論「DeepFace」[3]が用いられています！ …と，もっと話したいところですが，ここまでくるとさすがに高度な専門的な内容になってしまうので，気になった方は是非ググってみてください．

コンピュータビジョンってどんなことをしているの？

つづいて，ちょっとした知識！コンピュータが画像中から顔を見つけ出すとき，どんなふるまいをしているのか？先ほど，「人間は３つの点に対して反応する」ことを説明しました．点というのは，明暗差が大きいところで，この箇所を特徴として見ています．実は，人間の顔は目のあたりと眉間を比較すると，目のほうが暗く，眉間のほうが明るい…といった特徴があります（図２）．これと同じように，眉とまぶたを比較すると，明暗差を見つけることができます．これは年代や人種にかかわらず，すべての人に対して共通となる特徴です．顔はこういった明暗差の特徴の集まりで，コンピュータビジョンの世界では「Haar-like特徴」[4][5]と呼ばれています．これをコンピュータにもわかるように符号化（1と0のビット情報に変換）し，複数箇所の特徴から，「顔らしさ」を確認しています．いろいろ難しい話が出てきてチンプンカンプンと思いますが，「コンピュータは，明暗差の組み合わせで人間の顔を見つけている！」ということを理解していただければ，ほんのチョット幸せになれますよ！

図2：人間の顔の特徴（[4][5]より引用）

この顔検出を利用した技術をご存知でしょうか？首都圏のJRの駅に置かれている「飲み物をおすすめしてくれる自販機(図3)[3]」です！この自販機は，上部に設置されたカメラから顔を検出し，その顔画像から性別や年齢を識別することで，気温や時間帯などの状況にマッチした飲み物をオススメしてくれます．まさに，人間と機械のコミュニケーションです．

図3：次世代自動販売機（[6]より引用）

　最近，ソフトバンクのPepperというロボットが注目されています．このロボットは，人間とコミュニケーションを取ることができる，ということに特化して作られました．将来の「ドラえもん」のベースとなるロボットになることでしょう．こういったコミュニケーションロボットの根本にあるものは，「相手の状況を理解する」技術です．つまり，視覚情報から，相手の表情を含めたあらゆる情報を理解することが重要になるんですね．今後は，そういった点にも注目してみてください．あらゆるところで，コンピュータビジョンの技術が使われています．

最近の手話，指文字認識の研究

　さて，ここまでコンピュータビジョンのことを話してきました．ここからは，さらに「聴覚障害」に踏み込み，画像中からの手話・指文字認識について紹介したいと思います．
　最近，画像中から手を検出し，動きを読み取ることで意味を見出す（ハンドジェスチャ認識）というアプローチが多くなりました．これは，MicroSoft社がKinectを安価で販売したことがきっかけといわれています．Kinectは「距離センサ」の一種で，その名の通り，センサからの距離を測定することができます．図4のように距離を数値化として表示することができ，「人間らしい凹凸」や「前に出た手をうまく検出する」ことを簡単に行うことができます．

図4 ：左上・カラー画像，右上・距離画像

　これ以前にも距離を測定できるセンサはいくつかありましたが，ウン百万円ほどの値段がし，手軽に入手することはできませんでした．そこに一石を投じたKinectは従来の百〜五十分の一の価格で販売され，一気にハンドジェスチャ識別や手話・指文字認識の研究が進みました．これからは，それらの研究を紹介したいと思います．
　

１：手話者とのコミュニケーションを支援する手話認識システム

　みずほ情報総研と千葉大学の黒岩・堀内研究室の共同研究です[7]．NHKで放送され，「Microsoft Innovation Award 2014」で優秀賞を獲得したこともあり，かなり知名度の高い研究です．銀行窓口における手話者のやりとりを翻訳することで，円滑なコミュニケーションをはかることを目的としています．ここでは，Kinectを用いて手話者の手首や肘の動きを読み取り，Hidden Markov Model（隠れマルコフモデル：ちょっと前の時間の情報をもとに，次に出てくるであろう情報を推測する技術）を用いて識別し，リアルタイムでテキスト変換を行っています．現時点では，まだまだ単語登録数も少ないようですが，今後は全国手話検定の1級の語彙数に相当する3000語まで増やしていくことを目指しているようです．

２：可視光カメラとカラー手袋による手話認識

　神奈川工科大学の手話認識の研究[8]です．この研究のポイントは，「可視光カメラ」（いわゆる，「普通のカメラ」です）を使って手話認識を行うというところ．従来研究では，距離センサを用いて手話認識を行うものが多いのですが，これは，距離センサは照明条件の変動の影響が少ないメリットがあり，場所が変わっても同様の結果を得ることができるためです．しかし，距離センサは可視光カメラと比べ比較的大きいため，スマホには組み込まれていません．そこで，この研究では，スマホに組み込めるような安価な可視光カメラでも手話認識を行うことを目指しています．ここでは，カラー手袋を使い，照明条件によらず色を検出できるアルゴリズムを利用することで，うまく手を検出しています．

３：指文字識別の研究

　筑波大CVLABの研究です[9]．ここでは，距離センサを用い，指文字の認識を行っています．この研究の肝は，カーネル直交相互部分空間法 (KOMSM)を利用することで，高精度・高速な指文字識別が可能という点にあります．KOMSMは複数の画像をセットとして扱う方法なのですが，これにより複数視点の画像をまとめて利用することができます．そのため，1 枚の画像のみを用いた識別よりも，変動に対して強固になります．じつは，「自分は手を止めている！」と思っていても，実際は手がわずかに振動しており，見え方が異なってきます．その見え方の違いを許容しつつ，他の指文字との間違いを減らす，という手法です．

４：指文字練習システムの開発

　[9]をベースとした研究です[10]．指文字は手話を学習する際のベース（基礎）となりうるのですが，手形状も複雑で，種類も多いため，一人で本を使って学習しようとしても，間違って覚えるケースがあります．そのため，手話・指文字のできる人がそばに居て，指導しながら身につけていくことが望ましいのですが，現実的には時間・場所の制約もありなかなか難しい，という状況です．そこで，この研究では，指文字認識の技術を応用することで，学習者の指文字を読み取り，その正誤を判断する，というようなシステムを開発しています．ここで，認識部に用いているのが，先ほど紹介した筑波大の指文字識別技術です．かなり高速に・正確に識別可能なので，すばやく正誤を判断することが可能です．これをさらに発展させ，指文字の間違いを検出したり，動きのある指文字の認識を可能にしています．このように，他研究室と共同で研究を行うこともあります．

おわりに

　今回はコンピュータビジョンについて初歩的な説明を行い，国内における手話・指文字認識の研究を簡単に紹介しました．いかがでしたか？　現在は，距離センサがまだ小型化されていないことから，研究開発段階の技術がほとんどです．ただ，最近うれしいニュースがありました．Googleが「Project Tango」を発表し，「人が空間や動きを理解する能力をモバイル機器に与えることが目標」と説明しました．これは，距離画像センサを含めたコンピュータビジョンに特化した機器をスマートフォンに搭載し，周辺の３次元物体を理解できるようにする，というものです．これにより，将来的には，スマートフォンを用いた手話・指文字認識が可能になることでしょう．
　そして，コラムのさいごに．今回，このコラムを執筆した目的について述べます。これは，「他の会員の研究内容や専門について知る機会が無い」と考えたことがきっかけです．これは，同じ聴覚障害学生同士で研究内容について議論することはめったにない，ということで，ちょっとさみしいものです．そこで，自分の研究内容を紹介し，これから大学生になる中高生や，「研究室に入る学生に興味を持ってもらおう！」というねらいのもと，執筆をしました．そのため，参考文献も，Web上で閲覧可能であるものを中心に選択しています．いささか冗長な部分もあったかと思いますが，このコラムを通して「こんな技術があるんだ！」と気づいて頂ければ，私の目的は達成したも同然です．じつは，コンピュータビジョンのセカイはまだまだ奥深く，書き足りない部分もかなりあります．「他にどんな技術があるんだろう？」と，気になった方はぜひ連絡をください！

連絡先：dso-world [at mark] gmail.com

参考文献

[1]ヒューマン・フロンティア・サイエンス・プログラム広報誌，”乳児の視覚学習の研究“

[2]東芝社会インフラシステム社：郵便機器システム https://www.toshiba.co.jp/sis/scd/postal/index_j.htm

[3]顔認証技術: DeepFace と Pyramid CNN https://research.preferred.jp/2014/03/face-verification-deepface-and-pyramid-cnn/

[4]Rapid Object Detection using a Boosted Cascade of Simple Features https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/viola-cvpr-01.pdf

[5]局所特徴量と統計学習手法による物体検出　http://www.vision.cs.chubu.ac.jp/cvtutorial/pdf/03objectdetection.pdf

[6]オムロンソーシアルソリューション株式会社 :ピックアップコンテンツ特集：セグメントセンサ（リンク切れ）

[7]鈴木ほか，“手話者とのコミュニケーションを支援する手話認識システム”，みずほ情報総研レポート，2014

[8]神奈川工科大学情報工学科ブログ: ヒューマンインタフェースシンポジウム2014参加報告（学生投稿版）

[9]高林ほか, "フィードバック機能を備えた指文字学習支援システムの開発", ビジョン技術の実利用ワークショップ(ViEW2013), 2013.

[10]田中, "フィードバック機能を有する指文字練習システムの開発と評価.", 筑波技術大学大学院修士論文, 2014.

----------------------------------------------------執筆者------------------------------------------------------

　コン

　コンピュータビジョン／パターン認識の研究に従事．
-----------------------------------------------------------------------------------------------------------------