第57号コラム「続・米国フォレンジックe-Discoveryの現状」
第57号コラム:池上 成朝 氏(株式会社UBIC 取締役/UBIC North America, Inc.)
題:「続・米国フォレンジックe-Discoveryの現状」
前回はe-Discovery対応のここ数年間に渡る変化について主に記述しましたが、今回は前回トピックに挙げた技術や文書管理技術をさらにもう一段階掘り下げて考えてみます。
引き続き技術革新の中心はいかに大量の電子データの中から真に争点に関連する文脈を正確に早く捜し出すかに集中しています。前回紹介した重複除外技術も既にハッシュ値を用いた完全一致は当然のこと、より近い意味の文章、文節を重複文書として認識する技術も標準搭載的な機能となってきています。我々が想像する以上の速度で文書内容を自動判別する技術が応用されている事を示す一つの良い例だと考えます。
1)インデックスを応用した技術
最近出てきた手法で、インターネット世界と結び付けて、意味の似た単語を自動的に収集し、調査システムに文書内容を学習させる物があります。言い換えるとシステムの中に似た意味の単語辞書を持たせ、巨大化させていく手法ですが、同時に専門性も持たせる必要がある為、調べたい案件に特化したウェブサイトやブログ等を学習ソースにして似た意味の単語辞書精度を上げる手法も開発されています。
一方インデックスされた単語数を基に考案された機能に言語判別技術があります。膨大な電子データの中に外国語文章がどれだけ含まれているかを調査する技術です。特にグローバル企業のデータを調査する際には何人のバイリンガル調査人員・閲覧人員を準備し何日かけて調査を終わらせるか等の判断に必須の技術になってきています。精度に関して現在の所、英語・スペイン語の区別などはかなり高くなっていますが、日本語等のカタカナと英語のつづりが一つの文の中に多く含まれる言語に関しては依然エラー率の方が高い状態になっています。専門性の高い文書になると専門用語がすべて英語の綴りになっており文章自体は日本語文法で正しく書かれていたとしても数学的に判断すれば英語となってしまう場合がまだまだ多い状態です。
2)Eメール自動解析技術
電子メールは様々な判断が記述されており調査で最も争点に近い部分を見つけられる可能性が高い一方同じ内容のコピーが何度も行き来し、調査戦略を誤ると調査時間・費用を浪費してしまい易い部分です。交信グループをマップ(地図)化し交信の時期と主体者をグループ分けし、一番争点に近いメンバーの電子メールから調査に入れるような技術が取り入れられています。この通信者のグループ分け機能に先ほどのインデックス応用技術を取り込むと、例えば契約書に絡む文章など実際に案件に関係ある電子メールだけを抽出することができます。これらの技術によりスパムやメールマガジンなどの意思の判定に可能性の低い文章をふるい落とすことができ飛躍的に争点にたどり着くまでの時間を短縮化できます。
その他にも電子メールの中で際立って多く使われている単語をピックアップし誰がその言葉の発信源であるか等を特定する技術があります。ここまで技術が充実してくるとキーワードサーチでも見つけられなかった、案件特有の造語を含む文脈を見つけることが可能となります。
3)文書管理との連携
上記の様に米国リーガルテクノロジー業界は様々な文章区分け、検索技術に日々取り組んでいますが究極的には「文書作成者が全てを知っている」という考えに辿り着きます。しかし全ての文書作成者が文書と共に永久に会社に存在することは不可能ですので、企業の中には文章作成者に保存の時点でどのようなデータを作成したのか区分けをさせる所も出てきています。こうすると似たような文書区分けのデータベースが最初からできている状態ですので調査等の争点を先に洗い出し、その後文書保存の際に作成者が間違った区分けをしていなかったか専門家が精度を上げる意味で単語検索等でチェックを行うだけでプロジェクトを完了することが可能になります。
上記の機能が具体的にどのような動きをしているかいくつかの市販ソフトウェアを調べる機会がありました。それぞれのソフトのデモを見ていると強制という意味あいより、簡単な質問が表示され項目を入力すると保存が完了されるという仕組みが多く見られました。しかしいくつかのソフトウェアにおいて「当該文章・電子メールは保存すべきか再度考えることを推奨する」というようなメッセージが出るものも存在しました。以前は製薬業界の電子ラボノートでこのような比較的厳格な電子文書管理が進んでいる事を見聞きすることがありましたが、昨今文書管理・訴訟コスト管理の効率化からリーガルテクノロジーと融合する形で文書管理技術が急速に進化している感じを受けています。
4)研究強化の重要性
このように文書管理、インデックス機能や自動学習機能を応用していくと、様々な調査の自動化が可能になっていきます。我々はこれからもこの様な技術は進化し続けかつより一般化していくと予想しています。電子データの調査量が膨大になっていく一方、調査をどこまで自動化していけるのか、どこからが本当に人間(専門家)が介入すべきなのか日々議論が繰り広げられています。またこれらの技術を取り入れていく米国企業においてもベストのシステムを模索している状態です。
併せて前回コラムでも述べましたが日本語を含むデータに対しての精度にはまだまだ改善の余地が多く残されています。これらの領域を強化した文書管理、調査対応技術の融合に対してこれからもっと研究を強化すべきではないかと考えています。
【著作権は、池上氏に属します。】