第408号コラム「「日本語処理解析性能評価」分科会の活動報告」
第408号コラム:絹川 博之 理事
(東京電機大学 未来科学部 情報メディア学科 教授、「日本語処理解析性能評価」分科会 主査)
題:「「日本語処理解析性能評価」分科会の活動報告」
「日本語処理解析性能評価」分科会は、デジタル・フォレンジックやeディスカバリの使用に供する検索・解析ソフトウェアに関し、日本語情報に対する処理・解析性能を評価するための有効な指標を作成し、客観的な評価の実施を可能とする目的で2014年発足しました。2年間の活動により、具体的な評価項目と評価データを作成しましたので、その概要を報告します。この分科会の検討内容は、野﨑 周作 幹事((株)UBIC)、白井 喜勝 幹事((株)UBIC)による献身的な検討と、分科会参加メンバーの熱心な議論によりまとまったものです。
(1)評価データは、デジタル・フォレンジック研究会理事会承認のもと、コラム記事のうち、各執筆者のご了承をいただいて、コラム319号、コラム345号、コラム360号を使用させていただくこととしました。
(2)デジタル・フォレンジックやeディスカバリの対象となる日本語テキストは、JISコード、EUC-JPコード、Unicodeなど、様々な文字コードで表されています。そこで当初、8種の文字コード系をリストアップしました。前記の3コラム原文から、8種の文字コード系表記の評価データを作成しました。その過程で、エンディアンの違いとして、UTF-16 Little Endian、UTF-16 Big Endian を別に扱うべきこと、Shift-JIS とWindows-31Jの拡張文字テキストの扱い方により同一視した方がよいこと、JIS/ISO-2022-JPでの半角仮名の扱い方の違いにより区別した扱いとすべきことの3点が判明し、計9種の文字コード系を対象とし、評価データを作成しました。
(3)次に日本語テキストがメール添付ファイルなのかどうかの区別をする必要があります。そこで、メールではないファイルと、現在よく利用されている7種のメールソフトのいずれの本文なのかを区別することにしています。アプリケーションとして、当面はMicrosoft社のWord 2013、 Excel 2013、PowerPoint 2013とし、他にプレーンテキストを対象としています。File保存形式として、Word は17種の拡張子、Excelは24種の拡張子、Power Pointは28種の拡張子を扱います。
(4)基本検索は、AND、OR、NOTの3種ですが、(a)単一単語、(b)長文字列の区切り違いによる検索、(c)算用数字の半角表記、全角表記、位取り表記有漢数字、位取り表記無漢数字の同一視、(d)半角仮名文字の識別と全角仮名文字との同一視、(e)単語途中に改行指定コードが挿入されている場合の単語としての認識、(f)メーカー独自拡張文字の扱い、(g)Unicode におけるサロゲートペア文字の扱い、等について、どこまで可能か確認できる必要があります。
(5)アドバンス検索は、当面以下の可否を確認できるレベルとしています。(a)正規表現検索、特に「京都」と「東京都」の区別、(b)前後に英数字や特定文字が来ない語句の検索、(c)グルーピング検索、(d)近傍検索、(e)全角文字、半角文字のどちらか片方入力による両方の表記の検索、(f)表記のゆらぎ、例えば「デジタル」と「ディジタル」、アメリカの「カ」を漢字の「力」と表記 など。
(6)評価データは、(1) の3種のコラム原文に対して、(2)~(5)を評価できるように、追記・修正して作成しています。作成の過程で、(2)~(5)に関してフィードバックを行っています。
以上が、作成した評価項目と評価データの概要です。
2016年度は、実際に評価すべく評価委員会を立ち上げる予定です。デジタル・フォレンジックやeディスカバリ用の検索・解析ソフトウェアベンダーの積極的な参加による客観的な評価の実施を期待しています。
【著作権は、絹川氏に属します】