画像解析 手話解読アプリの要素技術(2)
アプリのゴールは、スマホカメラで手話を撮影し、汎用AIを使って手指骨格座標取得し、骨格座標を(オリジナル手話用AIモデル)を使って手話トークンに変換し、解読結果を文字情報や音声情報でリアルタイムにユーザーに返す、こととします。このTopicは、骨格座標データから手話トークンを推定するための(オリジナル手話用AIモデル)を構築する流れを紹介します。人物画像から骨格座標データを取得する方法はオープンソースでいくつか提供されていますが、このアプリではiOSに標準搭載されているVisionフレームワークを使っています。手指や体骨格の特徴点座標の取得に関しては以下の公式ビデオで紹介されています。Detect Body and Hand Pose with Vision(WWDC2020)VisionのHand Poseで、手の関節座標を取得できる。同時にBody Poseで骨格座標を取得することができるので、体骨格に対しての相対的な位置関係も取得できる。数フレーム分のデータを集めれば、手の位置、手の形、手の動きをデータ化することができる、と考えられます。なお実際にデータを取得するにはノウハウが必...
