徳島大学　任研究室

徳島大学大学院

ソシオテクノサイエンス研究部

任研究室

研究現状

情報収集モジュール

複数の中国語情報のＷＥＢ（メイン１０ＷＥＢ）から関連情報をを抽出すること中国語の信頼性が高く人気のあるサイトを１０－１５個選択し，このようなサイトを巡回し，各々のサイトの構文特徴により，Ｗｅｂの文章（情報）を収集する。収集した記事（情報）をイベントごとにクラスタリングし，予め決めた種類，即ちカテゴリーに類別する。

　中国語サイトは多く，全ての中国語サイトを巡回することは不可能である。そのため，中国語サイトの情報量・人気度・内容信頼度・新聞価値・日本人への参考価値などを要素として事前調査を行う。我々は既に調査に着手しており，現段階では次のサイトを巡回する対象として決めた。

中国新聞網：http://www.chinanews.com.cn/；

新華網：http://www.xinhuanet.com/；

人民網：http://www.people.com.cn/；

中国網：http://www.china.com.cn/chinese/index.htm；

央視国際：http://www.cctv.com/default.shtml；

中国経済網：http://www.ce.cn/；

新浪網：http://news.sina.com.cn/；

中国Yahoo：http://cn.yahoo.com/；

　　今後，さらに２－７サイトを選定するつもりである。しかし，時間の経過にともない，サイトの淘汰・交換もあり得るので，動的なサイト調整も考える。各サイトを巡回する際，トップページから何階層までたどって，Ｗｅｂ文書から新聞記事を抽出するかは今後，試行錯誤しながら決めるが，一般的に３乃至５階層までが適当だと考える。

図2　中国語情報の集成

　これらのサイトから新聞記事を収集し、各カテゴリーに類別し、データペースに保存して、情報要約モジュールの要約源とする。

　今まで合計１万1千条の記事を収集した。要聞、体育、娯楽、国内、国外の５種類のカテゴリーに類別する。

基本モジュール：

|情報集成モジュール|情報要約モジュール|

情報活用モジュール：

|中国語ニュースを日本語に自動翻訳システム|

|記事要約公開システム|

|話題人物＆キーワード連続システム|

|小スクリーン移動設備を対象とする情報閲覧システム|

|Webにおける北京五輪に関する質問回答システム|

A-1 Laboratory

Department of Information Science and Intelligent Systems, Faculty of Engineering at the University of Tokushima
yulei@is.tokushima-u.ac.jp

研究紹介

研究現状

研究成果

研究展望

トップページ