第300号コラム「ビッグデータとリーガルテクノロジー」
第300号コラム:守本 正宏 理事(株式会社UBIC 代表取締役社長)
題:「ビッグデータとリーガルテクノロジー」
今やビッグデータという言葉を新聞やWEBの記事で見ない日はないくらい話題になっています。ビッグデータを適切に活用できるか否かが、ユーザー側にとってもサービスや技術を提供する側にとっても企業の将来を左右するのではと思われるほど重要性は増しています。最も、昨今の過熱ぶりは、一度は冷静になって収まるでしょう。しかし、その後は改めて、かつ冷静にあらゆる場面でビッグデータが活用されることは間違いありません。そもそも社会に存在するデータは全てがビッグデータと言っても過言ではないからです。(どれだけの容量がビッグデータと呼ぶべきかという議論はここでは省かせていただきます。)
ビッグデータ活用というと、大手IT企業からなるIT業界が技術的なソリューションを提供し、ビッグデータを持っている企業の事業に役立つ分析をするために活用するという事例が比較的よく見られますし、一般的にも知られています。しかし、我々のような「デジタル・フォレンジックが扱っている事案が実はビッグデータ解析事案だ。」という事を認識している人はほとんどいないのではないのでしょうか?
我々が取り扱っているデータは、あらゆる種類のメール(IT統制をしっかりしている大企業でも複数のメーラーを使っている場合は少なくありません。)やドキュメントを、調査が必要と思われる範囲をくまなく保全し、解析を行います。その形式は問いませんし、データベースが同じかどうかも関係ありません。つまり非構造・非統合データを取り扱っています。しかもデータ量は、ディスカバリはもちろん、フォレンジック事案でも数テラを超えることも珍しくなく、何年も続く案件では数十テラバイトのデータを取り扱う場合もあります。
そして解析対象は、フォレンジックでもディスカバリでも人の行動や思考です。人の行動は通常のデータマイニング技術や統計学を駆使しても正確には解析が不可能なので、最終的には人が分析を行います。ただし、人が対応しなければいけない量があまりにも多いので、結果的に解析にかかる総コストの70%は人にかかると言われています。もちろん膨大な時間もかかります。
それでは、リーガルの世界の全体的なデータ解析作業フローを確認します。最初に目的を明確にし、解析対象となるデータを識別します。そののちデータを収集し、解析の準備を行います。解析の準備とは、非構造・非統合データを一括で解析できるための下準備です。その後、IT及び人海戦術などのさまざまな手法を駆使して解析をしていきますが、最終的にはドメインエキスパートとなる弁護士あるいは警察官などの法的分野の専門家が分析・判断をします。このような解析の流れそのものも一般的に考えられているビッグデータ解析の流れと同等であると言えるでしょう。
ただ、リーガルテクノロジーの業界では、このようなビッグデータ解析を古くからそう(ビッグデータ解析)とは知らずに格闘してきた結果、非構造・非統合・大容量のデータを取り扱うという問題はかなり前から解決しています。正確に解析するという課題に関しては、その必要性もあり、コストや時間は無視しても、人海戦術も駆使しながら何とかクリアできていました。
しかし、社会に存在するデータ容量が幾何級数的に増加している現在、コストや時間が無視できなくなり、また容量の増加にともなって、再び解析精度の問題も課題となってきました。しかも相手は人の行動に関することで簡単に解決できるものではありません。リーガルテクノロジー業界では、現在、人の行動解析を如何にハイテクを使って効率的かつ正確に行うかが課題となっています。これは我々のようなテクノロジーの会社の人間だけではなく、米国では弁護士や判事がセミナーで話題として取り上げ、議論しています。ヒューマンとマシンの融合こそ、今後の法的問題解決に必要だと、それこそ我々が進むべき方向だ、と米国裁判所の判事が講演で述べています。
ちなみに株式会社UBICではビッグデータを単なる電子データの固まりと見ておらず、人の行動の結果、人の想いの結果の集合体と捉えています。そのため、人の行動や思いを解析するためには、人に近いアプローチをしなければうまくいきません。解析に対するコンセプトもITや統計学などのInformaticsだけでなく、人の行動を分析するための科学、社会学や犯罪学、心理学などの行動科学も重要になると考え、弊社は行動情報科学という新しい概念を提唱し、この考え方をビッグデータ解析に活用しています。そして我々は試行錯誤の末、最適な手法を選び、それを解析の基礎としたエンジンを開発しました。世界でもビッグデータ解析手法で我々の方法を採用しているところはまだいないと認識しています。
実際に、ビッグデータを解析すると、半導体素子製造での微細加工で発生する粒子の動きにそっくりな挙動を示すこともわかってきました。デジタルデータが多く集まると、それは単なるデジタルデータではなく、物質である粒子に近くなり、さらにそれは人の行動の解析につながるのです。詳細はこの場では省かせていただきますが、まさに、リーガルテクノロジーはここまで進んできたのです。
これが、我々IDFがいるリーガルテクノロジーの世界の現実の姿です。我々IDFは、日本におけるビッグデータ解析のリーダーとしての自覚を持ち、IDFが業界(ビッグデータ解析業界??)をリードしていかなくてはならないと考えています。
【著作権は守本氏に属します】