================================================================
目录:
1. 概况介绍
2. 标注策略
3. 使用数据
4. 标注文档格式
5. 致谢
6. 参考文献
7. 联系方式
8. 共享方法
9. 样例
--------------------------------------------------------------------------------------------------------------
本中文情感语料库采用网络博客文章作为初始文本语料,人工标示出了这些中文文本中的与情感相关的语言信息。Ren_CECps 1.0共包含了1,487篇中文博客文章,共计11,255个段落,35,096个句子,878,164个词语。由11位标注者从2008年7月到2009年5月历时11个月标注完成(所有标注者均为自然语言处理和情感分析相关专业的在读博士或硕士研究生)。构建该语料库的目的在于支持中文领域的文本情感分析系统的开发及评测。
--------------------------------------------------------------------------------------------------------------
本语料库的标注共分为三个层次:文本层、段落层、句子层。句子层的标注是整个情感语料标注的最基本层面,在该层的标注对象包括:基于八种基本情感的情感类别选择及其强度标示,情感主及情感对象标示,情感关键词及关键短语标示,修辞手法标示,特殊标点标示,主客观标示和情感极性标示。句子层的上一级为段落层,段落层的标注对象包括:基于八种基本情感的情感类别选择及其强度标示,反映该段落主题的主题词提取标示,以及反映该段落中心思想的中心句标示。本语料库的最高标注层面为文本层,文本层的标注对象与段落层一致。
2.1 文本情感表达空间模型
本语料库采用的情感表达空间模型的分层形式与一篇文章的自然结果保持一致。一篇文章的情感可以由一个以下形式的向量来表达:
这里, 表示文章中有所体现的某种基本感情。 在 0.0 to 1.0 直接取离散值,表示该种基本感情的强烈程度。与文章的情感表达空间模型一样,每个段落和句子的也由类似的情感向量来表示。本情感语料库选择了“期待”、“高兴”、“喜爱”、“惊讶”、“焦虑”、“悲伤”、“生气”和“憎恨”8种感情来作为语料库标注的基本情感。
2.2 情感主和情感对象
情感主和情感对象分别是指一种情感的发起者和接受者。网络博客大多是以个人日记的形式书写发布,所以在多数场合我们默认为文章作者为情感主,在博客文章中出现的其他情感受体为情感对象。因此这一默认条件并不包括在标注策略中。在本语料库的标注过程中只手工标注出明显的情感主和情感对象。例如在句子“我喜欢这个老师。”中标注“我”作为情感主,同时标注“这个老师”作为情感对象。
2.3 情感关键词和关键短语
在本语料库的标注中,每个情感关键词和关键短语也分别标示出了对应的八种基本情感(期待、高兴、喜爱、惊讶、焦虑、悲伤、生气、憎恨)中对应的情感类别和强度。此外,在本语料库的标注策略中,在句子中对情感有直接影响的关键词例如“喜欢”和对情感有间接影响的关键词例如“春天”都将被手工标示出来。
2.4 程度词
文中的程度词及其修饰成分也都被标示出。例如在句子“我非常喜欢这个老师。”中,“非常”被作为对所表达的感情强度产生影响的程度词标出,而“喜欢”也作为“非常”的修饰内容被标出。
2.5 否定词
与程度词相似,文中出现的否定词及其修饰成分也都已经被标示出。
2.6 连接词
连接词及由其连起修饰的句子内容也都被标示出来。对于在句子中成对出现的连接词,彼此的搭配连接词位置也都有所标注。
2.7 修辞手法
本语料库中有所标示的修辞手法共有以下8种,即:比喻、夸张、拟人、对偶、排比、设问、反问和重复。在标注句子中出现的修辞手法和对应的情感类别都有所标注。
2.8 特殊标点
对文章中的每一个句子,能够表达句子情感的特殊标点和其对应表达的情感类别也都有被标示出来。
2.9 主客观标注
主观和客观标注是我们采用的标注策略中是用来区分文章作者自身的感情和作者以外的其他情感主表达的感情的一个指标。在这一标注策略下,文中出现的表达作者以外的情感主情感的句子将被标示为“客观”。在这些被标示成“客观”的句子中,情感主和情感对象、情感关键词和关键短语等标注对象也都将被标示出来。
2.10 情感极性标注
所有的基本感情类别大致可以划分到“积极”和“消极”两个大类中去。在多数情况下可以默认“期待”、“高兴”和“喜爱”是积极情感,而“悲伤”、“生气”和“憎恨”是消极情感。其余两种基本感情“惊讶”和“焦虑”则没有固定的极性,需要根据不同的语言环境去判别其极性。一个句子的极性会在综合考虑句子包含的所有情感种类及强度之后由标注者评定给出。不带有任何感情的句子全部被归为“中性”。
--------------------------------------------------------------------------------------------------------------
Ren-CECps 1.0/ 共包括以下3个子目录:
(1) 源文件/ 该目录下包含了从各大中文博客网站,如新浪博客、科学网博客、百度博客、腾讯QQ博客及Qzone空间日志等处转摘的初始语料文本,并全部以.txt的文件格式保存。
(2) 分词文件/ 该目录下包含了经过自动中文分词处理和添加词性标注后的博客文章,也全部以.txt的文件格式保存。
(3) xml标注文件/ 该目录下包含了将分词文件通过中文情感标注工具人工添加注释后的最终标注文件,全部以.xml的文件格式保存。
--------------------------------------------------------------------------------------------------------------
(1) 文章节点
文章节点是整个xml标注文档的根节点,共包括9项内容:
l 8种基本感情(期待、高兴、喜爱、惊讶、焦虑、悲伤、生气、憎恨)及其分别对应的强度值(取值范围在0.0到1.0之前的离散值)。
l Topic(文章主题): 一篇文章可能提炼出一个或多个主题词。
(2) 标题节点
标题节点是文章节点的子节点,其内容包括:
l 8种基本感情(期待、高兴、喜爱、惊讶、焦虑、悲伤、生气、憎恨)及其分别对应的强度值(取值范围在0.0到1.0之前的离散值)。
l S_Length(标题长度): 表示该标题中所包含的中文汉字字数。
以下标注信息可以根据所标注的句子的内容多项同时标注或不标。
l Keywords(情感关键词) :
a. start(起始位置): 表示此关键词中首个中文汉字在该标题中出现的位置。如果在中文分词程序中没有出现词语分割位置错误,起始位置默认为"-1",否则将人工修正为正确的词语起始位置。
b. position(位置): 表示自动分词程序划分出的关键词中首个中文汉字在该标题中出现的位置。
c. end(结束位置): 表示此关键词中最末一个中文汉字在该标题中出现的位置。如果在中文分词程序中没有出现词语分割位置错误,起始位置默认为"-1",否则将人工修正为正确的词语结束位置。
d. 8种基本感情(期待、高兴、喜爱、惊讶、焦虑、悲伤、生气、憎恨)及其分别对应的强度值(取值范围在0.0到1.0之前的离散值)。
e. Opinionholder(情感主): 标题内容中出现的情感主可以有一个或多个。在标注出多个情感主时,该标注选项的值等于该情感关键词所属的情感主的序号(按该情感主在文中出现的位置顺序排列得到);在只有一个情感主的情况下该项标示为"0"。
l E_phrase(情感短语):
情感短语的标注形式与规则同情感关键词相同。
l degree_adv (程度词):
a. start(起始位置): 表示此程度词中首个中文汉字在该标题中出现的位置。如果在中文分词程序中没有出现词语分割位置错误,起始位置默认为"-1",否则将人工修正为正确的词语起始位置。
b. position(位置): 表示自动分词程序划分出的程度词中首个中文汉字在该标题中出现的位置。
c. end(结束位置): 表示此程度词中最末一个中文汉字在该标题中出现的位置。如果在中文分词程序中没有出现词语分割位置错误,起始位置默认为"-1",否则将人工修正为正确的词语结束位置。
d. modifier_word_position(修正词语位置): 人工修正的正确分词的程度词起始位置。
e. modifier_word_length(修正词语长度): 人工修正的正确分词的程度词的词语长度。
l noword(否定词)
否定词的标注形式与规则同程度词相同。
l E_conjunction(连接词)
a. start(起始位置): 表示此连接词中首个中文汉字在该标题中出现的位置。如果在中文分词程序中没有出现词语分割位置错误,起始位置默认为"-1",否则将人工修正为正确的词语起始位置。
b. position(位置): 表示自动分词程序划分出的连接词中首个中文汉字在该标题中出现的位置。
c. end(结束位置): 表示此连接词中最末一个中文汉字在该标题中出现的位置。如果在中文分词程序中没有出现词语分割位置错误,起始位置默认为"-1",否则将人工修正为正确的词语结束位置。
d. modifier_word_position(修正词语位置): 人工修正的正确分词的连接词起始位置。
e. modifier_word_length(修正词语长度): 人工修正的正确分词的连接词的词语长度。
f. next_position(搭配词位置): 表示该连接词的对应搭配连接词的位置,如果该连接词没有搭配连接词出现,则搭配词位置标出的是该连接词本身在文中的位置。
l Opinion_holder(情感主)
a. start(起始位置): 指示情感主的名词中首个中文汉字在该标题中出现的位置。如果在中文分词程序中没有出现词语分割位置错误,起始位置默认为"-1",否则将人工修正为正确的词语起始位置。
b. position 位置): 表示自动分词程序划分出的指示情感主的名词中首个中文汉字在该标题中出现的位置。
c. end(结束位置): 指示情感主的名词中最末一个中文汉字在该标题中出现的位置。如果在中文分词程序中没有出现词语分割位置错误,起始位置默认为"-1",否则将人工修正为正确的词语结束位置。
l Opinion_target(情感对象)
情感对象的标注形式与规则同情感主相同。
l Rhetoric(修辞手法)
a. E_type(情感种类): 表示该修辞手法在文中表达的情感的种类。
l punctuation (特殊标点)
a. E_type(情感种类): 表示该特殊标点在文中表达的情感的种类。
l Opinion_Fact(主客观)
Opinion代表主观。
Fact代表客观。
l Polarity(情感极性)
分别用"positive", " negative" 和"neutral"代表“积极”、“消极”和“中性”。
(3) 段落节点
段落节点是文章节点的子节点,其内容包括:
l P_no(段落序号): 表示该段在整篇文章中的段落排列序号。
l 8种基本感情(期待、高兴、喜爱、惊讶、焦虑、悲伤、生气、憎恨)及其分别对应的强度值(取值范围在0.0到1.0之前的离散值)。
l Topic(段落主题): 一个段落可能提炼出一个或多个主题词。
(4) 句子节点
段落节点是文章节点的子节点,其内容包括:
l S_no(句子序号): 表示该句在整个段落中的句子排列序号。
句子节点的其余标注形式与规则同标题节点相同。
--------------------------------------------------------------------------------------------------------------
衷心感谢参与本中文情感语料库标注的各位标注者:李华娜、吴烨、陈蕾、张羽、李激、堵子梁、傅媛璐、沐榕、孙艳、王诚、吴雨浓,以及其他各位参与者和支持者。此项研究的支持基金为:Ministry of Education, Science, Sprots and Culture, Grant-in-Aid for Scientific Research (B), 19300029。
--------------------------------------------------------------------------------------------------------------
[1] Wiebe, J., Wilson, T., Cardie, C., 2005. Annotating expressions of opinions and emotions in language. Language Resources and Evaluation. vol. 39, pp. 164–210.
[2] Kim, S.M., Hovy, E., 2006. Extracting Opinions, Opinion Holders, and Topics Expressed in Online News Media Text. In: Proceedings of the ACL Workshop on Sentiment and Subjectivity in Text, pp. 1-8.
[3] Huang, D., Sun, X., Jiao, S., Li, L., Ding, Z., 2008. HMM and CRF Based Hybrid Model for Chinese Lexical Analysis. In: Proceedings of
the Sixth SIGHAN Workshop on Chinese Language, pp. 133-137.
[4] Qin, Y., Yuan, C., Sun, J., Wang, X., 2008. BUPT Systems in the SIGHAN Bakeo. In: Proceedings of the Sixth SIGHAN Workshop on Chinese Language, pp.94-97.
--------------------------------------------------------------------------------------------------------------
康鑫: kang-xin@is.tokushima-u.ac.jp
地址:日本德岛市常三岛2丁目1番地德岛大学工学部
邮编:770-8506
联系电话:+81 088-656-9684
--------------------------------------------------------------------------------------------------------------
请在许可证中填写所有必要的信息以及您和您的导师(或团队)的手写签名,之后请将文件的PDF版本回复至kang-xin@is.tokushima-u.ac.jp,我们将向您发送语料库。