画像解析

画像解析

害獣検知システム

熊、猪、ハクビシン、アライグマなどによる農作物の被害が深刻になってきています。動物が接近したことをリアルタイムに検知して、動物の種類に応じた対応を行うためのカメラシステム(ソフトウエア部分)の開発について紹介します。例えば次のよう赤外線カメラ映像からリアルタイムで動物種類を分析して、動物Aならライト点灯、動物Bなら唐辛子エキスのスプレー、動物Cなら爆竹音、というようなアクションを行う装置です。ちなみに、この画像をオープンソース物体検出AIのYOLOで分析しても何も検出してくれません。また、動物の画像を切り出してYOLOで画像分類すると次のような結果になりました。この動物はアライグマと思われますが、分類結果として最も可能性の高いものは「swab」(綿棒?)と分析され、このままでは使い物になりません。そこで以下のような方針でリアルタイム分析器の開発を試みました。かなりの精度でリアルタイム分析できることがわかりました。
画像解析

手話解読アプリの要素技術(2)

アプリのゴールは、スマホカメラで手話を撮影し、汎用AIを使って手指骨格座標取得し、骨格座標を(オリジナル手話用AIモデル)を使って手話トークンに変換し、解読結果を文字情報や音声情報でリアルタイムにユーザーに返す、こととします。このTopicは、骨格座標データから手話トークンを推定するための(オリジナル手話用AIモデル)を構築する流れを紹介します。人物画像から骨格座標データを取得する方法はオープンソースでいくつか提供されていますが、このアプリではiOSに標準搭載されているVisionフレームワークを使っています。手指や体骨格の特徴点座標の取得に関しては以下の公式ビデオで紹介されています。Detect Body and Hand Pose with Vision(WWDC2020)VisionのHand Poseで、手の関節座標を取得できる。同時にBody Poseで骨格座標を取得することができるので、体骨格に対しての相対的な位置関係も取得できる。数フレーム分のデータを集めれば、手の位置、手の形、手の動きをデータ化することができる、と考えられます。なお実際にデータを取得するにはノウハウが必...
画像解析

手話解読アプリの要素技術(1)

受託開発で進めている手話解読アプリを構築する上での核となるアイデアを紹介します。手話を構成する要素としては、表情や口の動き等も欠かせない要素ではありますが、手の位置、手の形、手の動きが最も主要な要素と言えます。そしてこの3つの要素で表される手話最小単位(ここでは「手話トークン」と呼びます)が時間的にどのような順番で現れるかで、単語として、さらには文章としての意味を構成していると考えることができます。手話解読アプリを開発するにあたり、上述の流れを時間的に遡っていく方法で必要な要素技術を定義していくこととします。単語や文章を表現する最小単位を把握し「手話トークン」とする。手話動画から手話トークンに対応する動画を収集する。(手話から切り出していく)手話トークン動画に対して両手の特徴点座標(片手21点、両手42点)を取得する。(手の形とての位置を表すデータ)数フレーム分の上記特徴点座標データを1まとまりとしたデータをインプットとし、アウトプットを手話トークンとして機械学習する。機械学習したモデルをスマホに組み込み、リアルタイムで手話トークン検出する。検出された手話トークンの順番を元に単語や文章...