To英語    To 中国語

================================================== ============== 

Ren_CECps 1.0 ドキュメント

================================================== ============== 

内容: 

1
、 はじめに 

2
、 Ren- CECps 1.0アノテーション手法 

3
、 データ 

Ren- CECps 1.0アノテーションフォーマット

謝辞 

参考文献 

連絡先情報 

ライセンスとRen CECps の使い方

Ren- CECps 1.0 のサンプル

-------------------------------------------------- ------------------------

、はじめに 


 中国語感情コーパスRen_CECpsとは、感情を表す詳細な言語表現が手動により注釈された中国語Weblog 記事の集合です。Ren_CECps 1.0 は、文書1487篇、11,255段落、35,096文、 878,164単語で構成されます。本コーパスは、中国語の感情処理と評価システム開発の支援を目指し、20087月から20095月までの11ヶ月にわたり、自然言語処理および感情処理専門の博士と修士計11名が協力し、構築しました。 


-------------------------------------------------- ------------------------

2、アノテーション手法 


 アノテーション手法の3つのレベルは、文書、段落、文に分けられます。文レベルは感情アノテーションの基本となります。文レベルのアノテーションにおいて用いられるのは、感情主、感情対象、感情キーワード、感情フレーズ、修辞法、句読点、主客観性と感情極性など8つの基本的な感情クラスです。文レベルの上位レベルとして段落レベルがあります。段落レベルのアノテーションには8つの基本感情クラスの強度、トピックキーワードと段落のメインポイントを表すトピック文の番号が含まれています。さらに、最上位のレベルとして文書レベルがあります。文書レベルのアノテーションは段落レベルの際と同じように行います。 

2.1
テキストの感情表現の空間モデル 

 この感情表現の空間モデルは、文書の自然な階層構造と一致しています。文書の感情は以下で示すようなベクトルで表現されます。 

 ここで、基本感情クラスはドキュメントに含まれていることを示します。 0.0から1.0までの範囲の値ei (離散値)は、基本感情クラスの強度を示しています。文書と同様に、各段落と各文の感情も感情ベクトルで表現されます。 
 このマニュアルアノテーションにおいて用いる感情クラスを、喜び、好き、驚き、不安、悲しみ、怒り、嫌悪 8種類と定めました。 


2.2
感情主と感情対象 

 感情主とは、感情の持ち主です。感情対象とは、感情主のオブジェクトです。Weblog 記事は主に個人の日記であるため、多くの場合、記事の書き手が感情主、記事内のすべての存在が感情対象として考えられますが、明確な感情主と感情対象だけに対してアノテーションを行いました。例えば、我喜欢这个老师。(Wo xi huan zhe ge lao shi; I like this teacher.)” 我 (wo; I )は感情主、"这个老师(Zhe ge lao shi;  this teacher.)" は感情対象となります。 


2.3
感情キーワードと感情フレーズ 

 感情キーワードと感情フレーズは、8つの基本感情クラス(喜び、好き、驚き、不安、悲しみ、怒り、嫌悪)の強度のベクトルを持つ感情表現のことです。本アノテーション手法では、直接的な感情表現(例えば、 喜欢(like)であっても、間接的な感情表現(例えば、 春天(spring” )であっても、すべてがアノテーションの対象となります。 


2.4
 程度副詞

 程度副詞とその修飾対象すべてにアノテーションされます。例えば、我非常喜欢这个老师。(wo fei chang xi huan zhe ge lao shi; I like this teacher very much.)非常 (fei chang; very much)”)は程度副詞、喜欢(xi huan ;  like)は程度副詞の修飾対象となります。

2.5否定詞

 程度副詞と同様、否定的な語とその修飾対象すべてにアノテーションされます。

2.6接続詞 

 接続詞とその修飾対象にすべてアノテーションされます。接続詞がペアとして現れる文は、接続詞それぞれの位置も表示されます。 

2.7修辞

以下に示す、共通の8つの修辞のカテゴリを決めました

ᄋ 隠喩(bi yu. English: metaphor)

ᄋ 誇張(kua zhang. English: exaggeration)

ᄋ 擬人(ni ren. English: personification)

ᄋ アンチテーゼまたはパラレル(dui ou. English: antithesis or parallel)

ᄋ 平行文(pai bi. English: parallelism sentence) 

ᄋ 設問(自分で発した問いに自分で答えるレトリックの一形式)(she wen. English: rhetorical question)

ᄋ 反問(fan wen. English: rhetorical question)

ᄋ 繰り返し(chong fu. English: repeat)


修辞のカテゴリと、それに対応する感情カテゴリをアノテーションしました。

2.8句読点 

 文レベルでは、感情を表す句読点とそれに対応する感情のカテゴリをアノテーションしました。 

2.9主客観性 

 本アノテーション手法では、書き手の感情と非書き手の感情を区別することで主客観性を判定します。感情を含んでいるが、それが書き手の感情ではない場合、“客観的”と注釈されることがあります。客観的な文についても、感情主、感情対象、感情キーワード、感情フレーズなどの感情表現をアノテーションしました。 

2.10感情極性 

 感情極性とは、感情がポジティブであるかネガティブであるかを表した二値属性です。一般的に、期待、喜び、好きはポジティブな感情であり、一方、悲しみ、怒り、 嫌悪はネガティブな感情と解釈されます。ただし、驚きや不安は文書によって、極性が異なることがあります。文の感情極性は、各感情要素を統合することによって決定されます。感情を含まない文は“中立”とアノテーションされます。 

-------------------------------------------------------------------------------

、データ 

Ren- CECps 1.0には以下に示す3つのサブディレクトリが含まれています。

( )ソーステキスト:

sina ブログ、sciencenetブログ、 Baiduブログ、 qzoneブログ、 qqブログと他のブログサイトからのブログ記事が含まれています。 拡張子.txt” のフォーマットで保存されます。 

( segpos テキスト:

ソーステキストを入力して、任研究室で開発された中国語形態素解析プログラムで自動的に形態素解析されたテキストのことです。 拡張子.txt” のフォーマットで保存されます。 

( XMLテキスト:

任研究室で開発された中国語感情アノテーションプログラムを用いて、segposテキストに対して人手でアノテーション処理されたテキストです。拡張子.xml” のフォーマットで保存されます。 

-------------------------------------------------- --------------------------

Ren- CECps 1.0アノテーションフォーマット 

( )文書ノード 

 XMLファイルのルートノードは文書です。文書ノードには9つの内容が含まれています。 

 8つの基本感情クラス(期待、喜び、好き、驚き、不安、悲しみ、怒り、嫌悪)と、各感情クラスに対応する値(0.0から1.0までの範囲)は感情の強さを示します。

 トピック:この文書の1つまたは2つのトピックワードです。

( )タイトルノード 

 タイトルノードは文書ノードの子ノードです。タイトルノードには以下の内容が含まれています: 

8
つの基本感情クラス(期待、喜び、好き、驚き、不安、悲しみ、怒り、嫌悪)と、それに対応する値(0.0から1.0までの範囲)は感情の強さを示します。 

文の長さ:このタイトルが含んでいる文字の数です。

次のアノテーション情報は複数であるか或いはないかは文の内容によって異なります。

キーワード: 

 a.スタート:

このタイトルにこの単語の開始位置です。中国語の形態素解析に間違いがなければ、スタートは"-1" で表示されます。


b.
位置:

このタイトルにこの単語の開始位置です。 

 c.エンド:

このタイトルにこの単語の終了位置です。中国語の形態素解析に間違いがなければ、エンドは"-1" で表示されます。

d. 8つの基本感情クラス(期待、喜び、好き、驚き、不安、悲しみ、怒り、嫌悪)と、それに対応する値(0.0から1.0までの範囲)の感情の強さを示します。 


e. 
感情主:

このタイトルの感情主が一人ではない場合の感情主の数を示します。それ以外は、感情主は"0" で表示されます。

フレーズ:

フレーズの構造はキーワードと同様です。 

程度副詞:

a.
スタート:

タイトルにおける単語の開始位置です。中国語の形態素解析に間違いがなければ、スタートは"-1" で表示されます。


b.
位置:
   タイトルにおける単語の開始位置です。 

c.
エンド:

このタイトルにこの単語の終了位置です。中国語の形態素解析に間違いがなければ、エンドは"-1" で表示されます。

d.修飾対象位置:

程度副詞が修飾する単語の開始文字の位置です。 

e. 
修飾対象の長さ:

程度副詞が修飾する単語の文字番号です。

否定詞:

 否定詞の構造は程度副詞と同様です。 

接続詞:

a. スタート:

タイトルにおける単語の開始位置です。中国語の形態素解析に間違いがなければ、
スタートは"-1" で表示されます。


b.
位置:

タイトルにおける単語の開始位置です。 

c.
エンド:

タイトルにおける単語の終了位置です。中国語の形態素解析に間違いがなければ、エンドは"-1" で表示されます。

d.修飾対象位置:

接続詞が修飾する内容の開始文字の位置です。 

e. 
修飾対象の長さ:

接続詞が修飾する内容の文字番号です。

f. 相応接続詞位置:

相応する接続詞の開始文字位置です。相応する接続詞がない場合は、bの位置と
相当します。

感情主:

a.スタート:

タイトルにおける単語の開始位置です。中国語の形態素解析に間違いがなければ、
スタートは"-1" で表示されます。


b.
位置:

タイトルにおける単語の開始位置です。 

c.
エンド:

タイトルにおける単語の終了位置です。中国語の形態素解析に間違いがなければ、
エンドは"-1" で表示されます。

感情対象:

 感情対象の構造は感情主と同様です。 

修辞:
a.E_type 
:この修辞の感情クラスです。

句読点:

a.E_type 
:句読点の感情クラスです。

主客観性:

 主観は意見を表します。 
 客観は事実を述べます。 

極性:

 ポジティブ、ネガティブまたは中立です。

( )段落ノード 

 段落ノードは文書ノードの子ノードです。段落ノードには以下の内容が含まれています: 

P_no 
:この文書にこの段落の番号です。 

8
つの基本感情クラス(期待、喜び、好き、驚き、不安、悲しみ、怒り、嫌悪)と、
それに対応する値(0.0から1.0までの範囲)の感情の強さを示します。 

トピック:この段落の1つまたは2つのトピックワードです。

( )文ノード 

文ノードは段落ノードの子ノードです。文ノードには以下の内容が含まれています: 

S_no 
:段落における文の番号です。

文ノードの構造はタイトルノードと同様です。 

--------------------------------------------------------------------------

、謝辞 

 この中国語感情コーパスの構築者である李華娜さん、呉燁さん、陳蕾さん、張羽さん、李激さん、 堵子梁さん、 傅媛璐さん、沐榕さん、孙艶さん、王誠さん、呉雨浓さん、及び他の参加者やサポーターたちに感謝致します。本研究の一部は文部科学省の支援を受けて、実施されました。Grant-in-Aid for Scientific Research (B), 19300029.

--------------------------------------------------------------------------------

6、参考文献

[1] Wiebe, J., Wilson, T., Cardie, C., 2005. Annotating expressions of opinions and emotions in language. Language Resources and Evaluation. vol. 39, pp. 164–210.

[2] Kim, S.M., Hovy, E., 2006. Extracting Opinions, Opinion Holders, and Topics Expressed in Online News Media Text. In: Proceedings of the ACL Workshop on Sentiment and Subjectivity in Text, pp. 1-8.

[3] Huang, D., Sun, X., Jiao, S., Li, L., Ding, Z., 2008. HMM and CRF Based Hybrid Model for Chinese Lexical Analysis. In: Proceedings of

the Sixth SIGHAN Workshop on Chinese Language, pp. 133-137.

[4] Qin, Y., Yuan, C., Sun, J., Wang, X., 2008. BUPT Systems in the SIGHAN Bakeo. In: Proceedings of the Sixth SIGHAN Workshop on Chinese Language, pp.94-97.

--------------------------------------------------------------------------------

7、連絡先:

任 福継:ren@is.tokushima-u.ac.jp

康 鑫kang-xin@is.tokushima-u.ac.jp

770-8506 日本徳島市南常三島2丁目1番地 徳島大学工学部

電話番号: +81 088-656-9684

--------------------------------------------------------------------------------

8ライセンスとRen CECps の使い方

申請者とスーパーバイザーの手書き署名を忘れず、全ての情報をライセンスに記入し、イセンスPDFファイルをkang-xin@is.tokushima-u.ac.jpに送信してください。そして、うちからコーパスを送ります。