複数の中国語情報のWEB(メイン10WEB)から関連情報をを抽出すること中国語の信頼性が高く人気のあるサイトを10-15個選択し,このようなサイトを巡回し,各々のサイトの構文特徴により,Webの文章(情報)を収集する。収集した記事(情報)をイベントごとにクラスタリングし,予め決めた種類,即ちカテゴリーに類別する。
中国語サイトは多く,全ての中国語サイトを巡回することは不可能である。そのため,中国語サイトの情報量・人気度・内容信頼度・新聞価値・日本人への参考価値などを要素として事前調査を行う。我々は既に調査に着手しており,現段階では次のサイトを巡回する対象として決めた。
中国新聞網:http://www.chinanews.com.cn/;
新華網:http://www.xinhuanet.com/;
人民網:http://www.people.com.cn/;
中国網:http://www.china.com.cn/chinese/index.htm;
央視国際:http://www.cctv.com/default.shtml;
中国経済網:http://www.ce.cn/;
新浪網:http://news.sina.com.cn/;
中国Yahoo:http://cn.yahoo.com/;
今後,さらに2-7サイトを選定するつもりである。しかし,時間の経過にともない,サイトの淘汰・交換もあり得るので,動的なサイト調整も考える。各サイトを巡回する際,トップページから何階層までたどって,Web文書から新聞記事を抽出するかは今後,試行錯誤しながら決めるが,一般的に3乃至5階層までが適当だと考える。
図2 中国語情報の集成
これらのサイトから新聞記事を収集し、各カテゴリーに類別し、データペースに保存し て、情報要約モジュールの要約源とする。
今まで合計1万1千条の記事を収集した。要聞、体育、娯楽、国内、国外の5種類のカテゴリーに類別する。
基本モジュール:
|情報集成モジュール|情報要約モジュール|
情報活用モジュール:
|中国語ニュースを日本語に自動翻訳システム|
|記事要約公開システム|
|話題人物&キーワード連続システム|
|小スクリーン移動設備を対象とする情報閲覧システム|
|Webにおける北京五輪に関する質問回答システム|
A-1 Laboratory
|