此模块在先前开发的单文档文摘基础上进行二次开发。主要采用统计和篇章结构相结合的策略对多篇统一类型的文档进行特征的分析。本模块关键技术在于对如何对文章的句子重要度进行计算,从而抽取重要度较高的句子作为文摘句,主要考虑5个影响因素:句子中所含关键词的权重,句子所在位置,句子长度,句子所在段落重要度,提示短语。此方法产生的文摘覆盖面较广,但文摘的冗余度较大,考虑在以后的方法中加入浅层语义分析,以及聚类的方法来提高文摘质量。程序界面如图3所示,
图3 程序运行界面
基础模块:
|信息采集模块|自动文摘模块|
扩展模块:
|日语(中文信息)新闻网站|新闻摘要发布系统|热门人物&关键词追踪系统|面向小屏幕移动设备信息发布系统|2008奥运赛事问答系统|
A-1 Laboratory
|