動画で簡単にわかる！ AIを活用したビデオ解析とは？

2020-08-17 05:44

伊藤忠テクノソリューションズ株式会社（略称：CTC）は、創立当初から海外IT先進企業とのグローバルパートナーシップを育み、各社のNo.1パートナーとしての地位を築いてきました。その輪は、アメリカ、ヨーロッパをはじめアジアを含む世界各国に広がっています。

今回は、台湾におけるAI技術大手のGorilla Technology 社から寄稿いただいた記事を元に、IVA （Intelligent Video Analytics：インテリジェントビデオ解析)をテーマとしてお届けします。IVA は、人間によるビデオ視聴を行わずに、リアルタイムベースで関心のあるイベントの検知や、様々な行動を認識することができるものです。大きさや形など多様なパラメータに基づき、対象物の動きを認識します。グローバルでもCAGR（年平均成長率）が30％以上になると予測されており、大きな成長が見込まれている分野のひとつです。

ビデオ解析市場の総売上予測（出典：Statista）

目次[非表示]

1.ビデオ解析とは何か
2.ビデオ解析が行うこと
3.ビデオ解析処理のアプローチ

3.1.1. 行動分析

3.1.1.人数計測
3.1.2.ラインクロス検出
3.1.3.侵入検出
3.1.4.方向検知
3.1.5.逆方向検知
3.1.6.不審徘徊行動の検知

3.2.2. 人物／顔認識

3.2.1.人物検出
3.2.2.顔認識

3.3.3. 車番認識
3.4.4. オブジェクト検知
3.5.5. ビジネスインテリジェンス

4.終わりに

ビデオ解析とは何か

まずは、大勢の人たちがひしめき合う駅で友人とはぐれてしまったという場面を想像してみてください。あなた自身、またあなたの脳は、どうやって人込みの中から友人を見つけ出そうとするでしょうか。目に入ったもの全てを同じ要領で確認していくでしょうか。それとも、探しているものに応じて確認の仕方を変えていくでしょうか。何かを探すというのは比較的単純な行為のように私たちは感じています。どうやって見つけたか、そのプロセスを他の人に容易に説明できたりしますが、何かを探したり識別したりする方法は通常、何を探しているかによって異なってきます。つまり、人込みの中から見失った友人を見つけ出そうとするときに私たちがとる方法は、出かける前に会社の鍵を探すやり方とは違っているのです。

では、ここで人間ではなくコンピュータに何かを探させることについて考えてみましょう。コンピュータの場合、特定のオブジェクトを検知・認識し、それを他のものと識別するためのインプットが必要です。それによって、コンピュータは探している対象物の有無を私たちに通知してくれます。このプロセスをインテリジェントビデオ解析、略してIVAと呼びます。

ここでは、IVAの様々な機能を事例と併せてご紹介します。

ビデオ解析が行うこと

ソフトウェアからIVAアウトプットを取得するプロセスは、人間が視覚的に対象をとらえ識別するやり方と似ています。ビデオ解析が行うコアな作業は、通常は次の3つのステップで表されます。

・第1ステップ
ビデオ解析ソフトウェアが画像信号をフレームに分割します。その過程についてここでは説明しませんが、デジタルビデオやその仕組みは非常に興味深く、それらについてある程度知っておくと以降のステップがよりスムーズに理解できると思います。

・第2ステップ
ソフトウェアは次に、画像（フレーム）を画像データと分析データに分解します。その後、分析データを、アルゴリズムを使って処理、求められる機能のアウトプットを行います。

・第3ステップ
最後に、あらかじめ設定された方法で結果を提示します。

ビデオ解析処理のアプローチ

上述のステップの中でも第2ステップは昨今話題に上ることが多いので、ここで詳しく見ていきましょう。

妥当性のある結果を提示するには、目的に応じ様々な方法での画像処理が必要です。台湾のGorilla Technology 社では、最もよく使用される分析を5つのコアグループに分類しています。以下で詳しく述べます

1. 行動分析

この分析は、特定の行動検知を目的にデザインされたアルゴリズムを使用します。

行動について少し深く考えてみると、行動とは一連の継時的アクションであると定義できるでしょう。この点でいうと、あるイベントまたは行動発生の有無を決定するには、各行動分析につき1フレーム以上の画像が必要だと言えます。行動分析では、フレームごとの経時変化を追うというアルゴリズムによって、あらかじめ定義づけられた極めて限定的なイベントまたはアクションを識別します。Gorilla Technology 社では、以下の行動分析ソリューションを提供しています。

人数計測

人数計測IVAでは、特定時間内でのゾーン進入またはライン越えの人数を計測します。ゾーンやラインの設定はユーザーが行います。

ラインクロス検出

ライン越えを検知します。ラインの長さや位置はユーザーが定義します。

侵入検出

侵入検出は、ユーザーが設定する特定ゾーンを監視、移動物体（例えば人物など）の動きや侵入を検知します。

方向検知

方向検知は、ユーザー設定ゾーン内での特定方向に向かう人の動きを監視します。逆方向への動きではアラートを発報しません。

逆方向検知

方向検知IVAと同じものですが、ここでは「逆方向」に進む動きを検知しアラートを発報します。例えば、空港でのセキュリティチェックやその他の交通重要拠点で、この種のIVAは効果を発揮します。

不審徘徊行動の検知

不審徘徊行動検知IVAは、ユーザー設定ゾーンへ進入し、そこに特定時間とどまる人物像を監視します。

2. 人物／顔認識

人物認識と顔認識は異なるコアグループとして分けて考えることもできますが、両者は非常によく似ているのでGorilla Technology 社では一つのものとして捉えています。先に紹介した行動分析では人物の形を検知する必要があります。行動分析と人物／顔認識のそれぞれで効果を左右するカギとなるのは、人物の形なのか人物の顔なのかを検知する極めて高度なアルゴリズムです。ここでは人物／顔認識を第2のコア機能としてお話しします。

人物検出

人物検出IVAは画像内の人物像を検知します。人物を検知すると、その人物の特徴、例えば性別、メガネやマスクの有無、年齢層なども同様に検知します。

顔認識

ここでは、顔を認識、特定します。Gorilla Technology 社のBAPソフトウェアとそこに保存された顔認識データベースと連携して機能します。この技術は非常に多くのシーンで活用され、メディアに取り上げられることも少なくありませんが、私たちがよく目にする活用事例としては、ウォッチリスト、VIP特定、出勤管理システム、ブラックリストがあげられます。

3. 車番認識

場所ごとに異なっているという理由からナンバープレートを好んで収集する人がいますが、IVAの視点で言うと多様であるがゆえに、グローバルなレベルで車番認識（LPR）を一元的に行うことは極めて困難です。現時点では、このIVAについてはカスタマイズ対応が一般的です。プレートに関わる全データを通常のソフトウェアに加えるとかなりのスペースが必要となるためです。

とはいえ、現段階で車番認識（LPR）には2つのアプローチがあります。

・駐車LPRは、ユーザー設定ゾーンに駐車する車、スローペースで移動する車、ゲートで停止する車の車番を検知します。
・路上交通LPRは、走っている車、信号で停止している車の車番を認識します。

4. オブジェクト検知

オブジェクト検知は、顔認識の対象がオブジェクトに置き換わったものです。ここでは、アルゴリズムはソフトウェアが特定のオブジェクト（例えばホットドッグ）を検知、認識するようトレーニングするのに使用されます。この世には多種多様なオブジェクトが無数に存在するので（ナンバープレートの種類をはるかにしのぎます）、トレーニングとデータサイズ要件はあっという間に増えていきます。

5. ビジネスインテリジェンス

様々なビジネス活動に関するデータを表示するソフトウェア内のダッシュボードは、ほとんど全ての小売業やエンタープライズで非常に価値の高いアセットです。ビジネスインテリジェンスは、ビジネス成果の向上を目指し誰もが気軽に分析結果を活用できるアクセサビリティの高いものであるべきです。

上述の1から4のIVAは、監視を目的に広く使用されていますが、ビデオ解析はそれだけでなくビジネスの領域でもその価値を発揮します。Gorilla Technology 社では実際に様々なビジネス市場、各種産業にインテリジェントソリューションを提供しています。

ここまでご紹介させていただきましたビデオ解析について、実際のデモンストレーション映像を交えた動画を現在無料公開中です（※）。ここではご紹介していない新型コロナウイルス対策に関連した活用例（ソーシャルディスタンスが取れているか、マスクの有無などを検知します）も動画の中ではご紹介しています。

※ 動画ならびにGorilla Technology 社のサービス提供はCTCでは現在行っておりません。

ビデオ解析ソリューションの融合

ここまででお分かりのように、ご紹介してきた各種IVAは、その目的に応じ様々なアルゴリズムを組み合わせることで結果を導き出します。アルゴリズムの組み合わせという点では多様性を持つものの、カメラがとらえる範囲内で、あらかじめ設定されたイベントまたは行動が発生したかの検知や判断を行い、該当ユーザーに結果を通知するという本質部分はどのIVAでも変わりません。

これと同様に、自宅で鍵を探すときと、多くの人が行き交う駅で友人を探すときでは、私たちは異なる探索プロセスを経て対象物にたどり着くのです。

終わりに

人であふれかえる駅で次にはぐれた友人を探すときは（そういうことが起こらないのが一番ですが）、カメラ搭載コンピュータがどう機能するかを思い出してみてください。ビデオ解析の仕組みは実に興味深く、一つの記事ではカバーできない幅広く奥行きのあるテーマです。ここまでの内容から、ビデオ解析の仕組みやIVARを始めとするビデオ解析ソフトウェアソリューションの革新性について理解を深めて頂けたならば幸いです。

最後に、先程ご紹介した動画の内容を含めたオリジナルの資料ダウンロード（無料）も用意しています。ダウンロード資料の中では、グローバルと日本国内における実際のビデオ解析ソリューションの企業における活用事例をご紹介しています。ぜひダウンロードしてお手元でご覧ください（※）。

※ 動画ならびにGorilla Technology 社のサービス提供はCTCでは現在行っておりません

ブログ・記事

動画で簡単にわかる！ AIを活用したビデオ解析とは？

ビデオ解析とは何か

ビデオ解析が行うこと