現在,インターネット等を通じて大量の情報が溢れており,目まぐるしく変化する状況に対応して素早い意思決定を行うためには,大量の情報の中から情報を的確に取捨選択することが必須である。
本研究は,中国語の信頼性が高く人気のあるサイトを選択し,このようなサイトを巡回し各々のサイトの構文特徴により,Webの文章(情報)を収集する。収集した記事(情報)をイベントごとにクラスタリングし,予め決めた種類,即ちカテゴリーに類別する。各カテゴリーにある記事(複数の記事,文書)を要約する。ここで,記事の時期・場所・人物など手かがりにも考慮し,要約文書を生成する。これらの大規模コーパス(要約文)は言語処理技術の成果として中国語情報の集成・要約・翻訳などのさまざまの言語処理システムの研究開発に活用できるのである。
A-1 Laboratory
|