舟久保弘明

Web上で作動する環境リスクマネジメントに関する検索システム前田研究室 舟久保弘明


1.背景と目的

ここ数年間の情報ネットワークの技術・普及は驚くべきスピードで進化している。
こうしたネットワーク技術を用いて、適切なリスクマネジメント(RM)の導入や定着化を目指し、 RMに関する研究を行っている組織も少なくない。
そこで、RMの情報入手の効率化を図るためのロボット型検索エンジンを用いた検索システムを提案する。
RMの良質な情報を入手できるWeb上から利用可能な検索システムの構築を本研究の目的とする。

2.環境RMに関するロボット型検索エンジン

ロボット型検索エンジンとは、Web上のデータを自動的に収集し、 利用者の求める情報のキーワードを含むページを膨大なデータから選び出し、 適合度順にランキングして提供するものである。
現在、多数の検索エンジンが存在するが、それぞれにおいて様々なランキング形式が用いられている。
まさに検索エンジンにとって、ランキング機能が最も重要な役割を担うと考えられる。
先行研究にて構築された検索エンジン(※1)は基本的な仕組みは既存のものと同じである。
しかし、より良質な環境RM情報を効率よく得るという目的のため、 ランキング形式はキーワードを含み、それに関する専門用語を多く含むものを上位に挙げた。

・ランキング形式(Ⅰ>Ⅱ>Ⅲ)
Ⅰ.キーワード単語の種類数
Ⅱ.キーワード単語に関連する専門用語の数
Ⅲ.キーワード単語同士の位置

その結果として、文字数が多く、かつ専門用語が多く存在する傾向が見られ、 キーワード自体の情報が必ずしも得ることができなかった。

3.効率的な検索システム

先行研究(※1)のランキング形式について、課題点を考察し、ランキング形式の改善を図る。

ⅰ)キーワード単語の種類数がはじめに評価され、絶対的な重要性を持っていること。

これは、文書内にキーワード単語が1つずつしか含まれなかった場合、問題となり得る。
改善案として、キーワード単語すべてを含み、かつそのすべてのキーワード単語が多く出現する 文書には求める情報が存在するという考えから、キーワード単語の出現回数をランキングに加える。

ⅱ)2点目として、キーワード単語に関連する専門用語は、キーワード単語を一部に含む用語から選定されること。

この場合、いずれかのキーワード単語に関連する専門用語を多く含んでいる文書が上位に挙げられることが考えられる。
改善案として、キーワード単語同士のつながりを意識し、複数のキーワード単語に関連する 専門用語には重み付けを行う機能をランキングに加える。

以上の点を踏まえ、本研究のランキング形式を以下に示す。

・新たなランキング形式(Ⅰ>Ⅱ>Ⅲ>Ⅳ)
Ⅰ.キーワード単語の種類数
Ⅱ.キーワード単語の出現回数
(ただし、すべてのキーワード単語が共通して出現する回数を考慮するため、各キーワード単語の出現回数の 最小値をパラメータとして評価対象にする。)
Ⅲ.キーワード単語に関連する専門用語の数
(各専門用語に対して重み付け)
Ⅳ.キーワード単語同士の位置

4.Web上で作動する検索システム

CGIという技術を用いて、Web上から利用可能な検索システム構築を図る。
図1において本検索システムの構造を示す。


図1 本検索システムの全体構造

5.結果と考察

本検索システムの結果として、「環境リスク管理」を検索語としたものは図2のようである。


図2 結果

ページタイトル部分に検索語が見られることがランキング改善前後での大きな違いであった。
つまり、ランキング改善前ではキーワードを発見することさえ困難であった一方、 改善後ではページタイトルにもキーワードが含まれ、詳細な情報が得ることができている。

6.今後の課題

ページのタイトルにキーワードが含まれる場合、良質な情報を得ることができていることから、 ランキングの質の向上を目指し、ページタイトル部分に含まれるキーワードに重み付けを行う等の改良点を挙げる。
さらに、本検索システムを実際に運営していく為に、以下のような課題点が考えられる。
・アルゴリズムを改良し、検索時間の短縮を図ること。
・データ収集を定期的に行う機能を付加すること。
・セキュリティ面の強化を図ること。


 

※1 川角友美:環境リスクマネジメントに関するインターネット検索ロボットの構築,2001.