To Chinese              To Japanese

================================================================

Document for Ren_CECps 1.0

================================================================

Contents:

1. Introduction 

2. Ren-CECps 1.0 Annotation Scheme

3. Data  

4. Ren-CECps 1.0 Annotation Format 

5. Acknowledgements

6. References

7. Contact Information 

8. License and usage of Ren-CECps

9. Samples of Ren-CECps 1.0

--------------------------------------------------------------------------------------------------------------

1. Introduction 

This Chinese emotion corpus contains weblog articles that they are manually annotated with detailed linguistic expressions that indicate emotion in Chinese. Ren_CECps 1.0 consists of 1487 documents, with 11,255 paragraphs, 35,096 sentences, and 878,164 Chinese words. From July of 2008 to May of 2009, eleven annotators made efforts on it spanning a period of eleven months (They are Ph.D and M.S. candidates specialize in Natural Language Processing and Emotion Analysis.) The main purpose of constructing this emotion corpus is to support the the development and evaluation of emotion analysis systems in Chinese. 

--------------------------------------------------------------------------------------------------------------

2. Annotation Scheme 

The annotation scheme includes three levels: document, paragraph, and sentence. Sentence level is the basic level for emotion annotation, the annotation includes intensities of the eight basic emotion classes, emotion holder/target, emotional keywords and phrases, rhetoric, emotional punctuations, emotion objective/subjective and emotion polarity. Paragraph level is the upper level of sentence level, the annotation includes intensities of the eight basic emotion classes, topic keywords to reflect the topic of a paragraph, and the numbers of topic sentences that can express the main points of this paragraph. Document level is the uppermost level in annotation; its annotation is similar to paragraph level.

2.1 Emotion expression space model in text

This emotion expression space model is hierarchical in consistent with the natural structure of a document. Emotion of a document is represented by a vector.

Here,  is a basic emotion class contained in document. The values of  range from 0.0 to 1.0 (discrete)indicating the intensities of the basic emotion classes. Similar to a document, emotion of each paragraph and each sentence in a document is represented by an emotion vector. 

We select eight emotion classes (expect, joy, love, surprise, anxiety, sorrow, angry and hate) for this manual annotation.

2.2 Emotion holder and emotion target

Emotion holder is the one who holds the emotions, and an emotion target is the object of the emotion holder. Blogs are personal diaries, in many cases, we can take the writer as emotion holder and all entities in this blog as emotion targets. This condition is not included in this annotation scheme. We annotate distinct emotion holder and emotion target. For instance, In the sentence "我喜欢这个老师。(Wo xi huan zhe ge lao shi; English: I like this teacher.)" , "我 (wo; English: I )" is the emotion holder, and "这个老师。(Zhe ge lao shi; English: this teacher.)" is the emotion target. 

2.3 Emotional keywords and phrases

An emotional keyword or phrase is represented as a vector to record its intensities of the eight basic emotion classes (expect, joy, love, surprise, anxiety, sorrow, angry and hate). In this annotation scheme, direct affective words (for example, "喜欢 (English: like)")and indirect affective words (for example,"春天 (English: spring)" ) in a sentence are all annotated.

2.4 Degree words

Degree words and the modifying contents are all labeled. In the sentence "我非常喜欢这个老师。(wo fei chang xi huan zhe ge lao shi; English: I like this teacher very much.)",  "非常 (fei chang; English: very much") is a degree word, and "喜欢(xi huan ; English: like)" is annotated as modifying content of degree word "非常 (fei chang; English: very much").

2.5 Negative words

Like degree words, negative words and the content that they modify are all labeled.

2.6 Conjunctions

Conjunctions and the modifying contents are all labeled. If conjunctions appear in pairs in a sentence, the positions of pairing words for each conjunction are also labeled.

2.7  Rhetoric 

We select the eight common rhetoric categories for annotation: 比喻 (bi yu. English: metaphor), 夸张(kua zhang. English: exaggeration), 拟人 (ni ren. English: personification), 对偶 (dui ou. English: antithesis or parallel), 排比 (pai bi. English: parallelism sentence), 设问 (se wen. English: rhetorical question), 反问 (fan wen. English: rhetorical question), 重复 (chong fu. English: repeat). We annotate rhetoric category and the corresponding emotion category.

2.8  Punctuation

At sentence level, we annotate punctuation with emotion and the corresponding emotion category.

2.9  Objective and subjective

Objective and subjective in our annotation scheme is to distinguish between writer's emotion and non-writer's emotion. There are some sentences contain emotion but annotated with "objective " because it is not the writer's emotion. For objective sentences, we also annotate emotion expressions, including emotion holder, target, emotion keywords, phrases, and so on.

2.10  Emotion polarity

There is a positive side or a negative side on emotion. In most cases, expect, joy, love are positive emotions, while sorrow, angry and hate are negative emotions, the polarities of surprise and anxiety can be positive or negative in different contexts. Emotion polarity of a sentence is determined by integrating its emotions. A sentence without emotion is annotated with neutral.

--------------------------------------------------------------------------------------------------------------

3. Data

The Ren-CECps 1.0/ contains three subdirectories: 

(1) source txt/ contains the source blog articles from sina blog, sciencenet blog, baidu blog, qzone blog, qq blog, and other blog websites, they are .txt format.

(2) segpos txt/ contains the output text files by a Chinese segmentation and part-of-speech program (automatically annotation) with the files in subdirectories source txt/ as input, they are .txt format.

(3) annotated xml/ contains the output xml files by a Chinese emotion annotation program  (mannually annotation) with the files in subdirectories segpos txt/ as input, they are .xml format.

--------------------------------------------------------------------------------------------------------------

4. Ren-CECps 1.0 Annotation Format 

(1) document node

The root node of an annotated xml file is document, document node contains 9 contents: 

the eight basic emotion classes (Expect, Joy, Love, Surprise, Anxiety, Sorrow, Angry and Hate) and corresponding emotion intensity values, range from 0.0 to 1.0 (discrete).

Topic: one or two topic words of this document.

(2)  title node

Title node is a child node of document node.  Title node contains:

the eight basic emotion classed (Expect, Joy, Love, Surprise, Anxiety, Sorrow, Angry and Hate) and corresponding emotion intensity values, range from 0.0 to 1.0 (discrete).

S_Length: the character number of this title.

The following annotation information can be multiple or absent according to different sentence contents.

Keywords : 

a. Start: the start character position of this word in this title. If there are no Chinese segmentation mistakes, Start is tagged with "-1".

b. Position : the start character position of this word in this title.

c. end: the end character position of this word in this title. If there are no Chinese segmentation mistakes, Start is tagged with "-1".

d. the eight basic emotion classes (Expect, Joy, Love, Surprise, Anxiety, Sorrow, Angry and Hate) and corresponding emotion intensity values, range from 0.0 to 1.0 (discrete).

e. Opinionholder: the number of opinion holder of this title if there are more than one opinion holder, otherwise Opinionholder is equal to "0".

E_phrase:

The structure is the same as Keyword.

degree_adv 

a. Start: the start character position of this word in this title. If there are no Chinese segmentation mistakes, Start is tagged with "-1".

b. Position : the start character position of this word in this title.

c. end: the end character position of this word in this title. If there are no Chinese segmentation mistakes, Start is tagged with "-1".

d. modifier_word_position:  the start character position of the modifying contents of this degree word.

e. modifier_word_length: the character number of the modifying contents of this degree word.

noword

The structure is the same as degree_adv.

E_conjunction 

a. Start: the start character position of this word in this title. If there are no Chinese segmentation mistakes, Start is tagged with "-1".

b. Position : the start character position of this word in this title.

c. end: the end character position of this word in this title. If there are no Chinese segmentation mistakes, Start is tagged with "-1".

d. modifier_word_position: the start character position of the modifying contents of this degree word.

e. modifier_word_length: the number of characters of the modifying contents of this degree word.

f. next_position: the start character position of the next relative conjunction, if there is no relative conjunction, next_position is equal to Position .

Opinion_holder

a. Start: the start character position of this word in this title. If there are no Chinese segmentation mistakes, Start is tagged with "-1".

b. Position : the start character position of this word in this title.

c. end: the end character position of this word in this title. If there are no Chinese segmentation mistakes, Start is tagged with "-1".

Opinion_target

The structure is the same as Opinion_holder.

Rhetoric 

a. E_type: emotion class of this Rhetoric

punctuation 

a. E_type: emotion class of this punctuation 

Opinion_Fact

Opinion means subjective.

Fact means objective.

Polarity

positive or negative or neutral.

(3) paragraph node

paragraph nodes are child nodes of document node. Paragraph node contains:

P_no: the paragraph number in this document.

the eight basic emotion classes (Expect, Joy, Love, Surprise, Anxiety, Sorrow, Angry and Hate) and the corresponding emotion intensity values, range from 0.0 to 1.0 (discrete).

Topic: one or two topic words of this paragraph .

(4) sentence node

sentence nodes are child nodes of paragraph node. sentence node contains:

S_no: the sentence number in this paragraph.

The structure is the same as Title node.

--------------------------------------------------------------------------------------------------------------

5. Acknowledgements 

We are grateful to our annotators: Huana Li, Ye Wu, Lei Chen, Yu Zhang, Ji Li, Ziliang Du, Yuanlu Fu, Rong Mu, Yan Shun, Cheng Wang, Yunong Wu, and other participants and supporters. This research has been partially supported by Ministry of Education, Science, Sprots and Culture, Grant-in-Aid for Scientific Research (B), 19300029.

--------------------------------------------------------------------------------------------------------------

6. References

[1] Wiebe, J., Wilson, T., Cardie, C., 2005. Annotating expressions of opinions and emotions in language. Language Resources and Evaluation. vol. 39, pp. 164–210.

[2] Kim, S.M., Hovy, E., 2006. Extracting Opinions, Opinion Holders, and Topics Expressed in Online News Media Text. In: Proceedings of the ACL Workshop on Sentiment and Subjectivity in Text, pp. 1-8.

[3] Huang, D., Sun, X., Jiao, S., Li, L., Ding, Z., 2008. HMM and CRF Based Hybrid Model for Chinese Lexical Analysis. In: Proceedings of  the Sixth SIGHAN Workshop on Chinese Language, pp. 133-137.

[4] Qin, Y., Yuan, C., Sun, J., Wang, X., 2008. BUPT Systems in the SIGHAN Bakeo. In: Proceedings of the Sixth SIGHAN Workshop on Chinese Language, pp.94-97.

--------------------------------------------------------------------------------------------------------------

7. Contact Information

Fuji Ren:  ren@is.tokushima-u.ac.jp

Xin Kang: kang-xin@is.tokushima-u.ac.jp

Faculty of Engineering, University of Tokushima, 2-1 Minamijosanjima, Tokushima 770-8506, Japan

Tel: +81 088-656-9684