第20号コラム「米国フォレンジックe-Discoveryの現状」
第20号コラム:池上 成朝 幹事(株式会社UBIC/UBIC North America, Inc)
題:「米国フォレンジックe-Discoveryの現状」
フォレンジックという言葉は米国訴訟における証拠開示ステップでは欠かすことのできない物になってきました。(注:米国訴訟では訴答前にお互いの証拠を開示し合う。現在ほとんどのデータが電子化され開示されている)しかしフォレンジック技術が訴訟業界に深く認識されるまでに時間がかかり様々な変化があったことをお伝えしたいと考えています。
米国のフォレンジックコンセプトに最初に私が対面した2003年にはフォレンジックと言えばより犯罪調査に特化し、数台のPCを丹念に深く調査していく手法でした。またこうしたフォレンジックの知識を多く持つ捜査官が民間企業に多く採用されるようになり同じ技術で企業内の様々な調査を担当するようになっていました。対象者に気づかれないような遠隔解析手法やツールも当時の米国における業界の展示会で多くみられるようになっていました。
しかしその頃から米国の訴訟やアンチトラスト・証券取引に関する調査で広くこのフォレンジック技術が使われるようになってきました。最初は電子データを改変することなく取り出し(フォレンジックコピー・ハッシング技術)、検索し必要なファイルを弁護士が紙に印刷し時間をかけて閲覧していくということが延々繰り返されていましたが、2005年ぐらいから短期間の間に消去データも含めた全データを復元し必要なデータだけを瞬時に表示し、開示すべきかそうでないか弁護士が効率よく判断するための技術が追加されてきました。最初は電子データ上でキーワードと同じパターンを見つけるバイナリー検索がフォレンジック的な意味で使用されていましたが最初から全体の文章の中にどのような言葉が含まれているかのデータベースを検索前に構築するインデックス検索の精度が上がってきました。現在ではこのデータベースを意味ごとに区分けし、訴訟や調査のテーマ別に自動的に同じような情報が収集されるような技術が発展してきました。(コンセプトサーチ)
一方で閲覧技術とフォレンジック技術の融合が端的に見られる点が重複除外技術です。電子データでも特に電子メールの中には多くの同じファイルが含まれています。転送やバックアップを行うことが多いからです。ここでハッシングの手法を用いて全く同じデータを取り除き閲覧時間を大幅に削減する技術が進化しました。現在は先ほどのインデックス技術と融合し、近い意味の言葉を含むファイルを除外する技術の精度が多く議論されています。(ニアデュプリケート)
このような技術革新の中で引き続き続いているチャレンジが多言語処理の壁です。英語のようなスペース区切りの言語ですとインデックス技術を中心とした様々な調査テクノロジーが容易に使用できるのですがスペース区切りのない日本語をはじめとした言語は取扱手法を間違えると文字化けが多く発生し閲覧すらままならない状態になります。また国際化の時代に電子メールは多くの言語をチェーンにして飛び交っていますので、ひとつの言語に絞って調査を行う事はすでに不可能になってきています。我々が取り組んでいるこの分野はどのセミナーにいっても取り上げられる最も熱い分野の一つとなっています。
現在このような様々な技術チャレンジに取り組む企業は数百社にのぼりおのおの得意な分野でしのぎを削っています。このようにフォレンジックe-Discoveryの分野はまだまだ生まれたばかりで非常に若い産業であると米国では認識されています。これから先ドキュメントマネージメントの分野と融合したりと更なる発展が期待されています。