[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
]
開始行:
[[ノート/ノート]]~
訪問者数 &counter(); 最終更新 &lastmod();
*Cabochaで構文木を作っていいのか (2016-12-03) [#t1e69741]
**Cabochaでは [#fd95467e]
$ cabocha -f 2
三郎に一郎はりんごを贈った。
(トリー表現)
三郎に-----D
一郎は---D
りんごを-D
贈った。
EOS
(ラティス表現)
* 0 3D 0/1 -1.997831
三郎 名詞,固有名詞,人名,名,*,*,三郎,サブロウ,サブロー
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
* 1 3D 0/1 -1.997831
一郎 名詞,固有名詞,人名,名,*,*,一郎,イチロウ,イチロー
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
* 2 3D 0/1 -1.997831
りんご 名詞,一般,*,*,*,*,りんご,リンゴ,リンゴ
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
* 3 -1D 0/1 0.000000
贈っ 動詞,自立,*,*,五段・ラ行,連用タ接続,贈る,オクッ,オクッ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。 記号,句点,*,*,*,*,。,。,。
EOS
XML形式(-f3)
<sentence>
<chunk id="0" link="3" rel="D" score="-1.997831" head="0" func="1">
<tok id="0" feature="名詞,固有名詞,人名,名,*,*,三郎,サブロウ,サブロー">三郎</tok>
<tok id="1" feature="助詞,格助詞,一般,*,*,*,に,ニ,ニ">に</tok>
</chunk>
<chunk id="1" link="3" rel="D" score="-1.997831" head="2" func="3">
<tok id="2" feature="名詞,固有名詞,人名,名,*,*,一郎,イチロウ,イチロー">一郎</tok>
<tok id="3" feature="助詞,係助詞,*,*,*,*,は,ハ,ワ">は</tok>
</chunk>
<chunk id="2" link="3" rel="D" score="-1.997831" head="4" func="5">
<tok id="4" feature="名詞,一般,*,*,*,*,りんご,リンゴ,リンゴ">りんご</tok>
<tok id="5" feature="助詞,格助詞,一般,*,*,*,を,ヲ,ヲ">を</tok>
</chunk>
<chunk id="3" link="-1" rel="D" score="0.000000" head="6" func="7">
<tok id="6" feature="動詞,自立,*,*,五段・ラ行,連用タ接続,贈る,オクッ,オクッ"> 贈っ</tok>
<tok id="7" feature="助動詞,*,*,*,特殊・タ,基本形,た,タ,タ">た</tok>
<tok id="8" feature="記号,句点,*,*,*,*,。,。,。">。</tok>
</chunk>
</sentence>
心に思う構文木イメージとしてはこんなことか?
構文木イメージ
文
+----------------+---------------+
名詞句 動詞句
| +---------------+--------------+
一郎は 名詞句 名詞句 動詞句
| | |
三郎に りんごを 贈った
「一郎は」は主格なので、一段上にあげてあるが、Cabochaの係り受け解析では、
主格であることは認識していない。
Cabocha出力
文
+----------------+---------------+
名詞句 動詞句
| +---------------+--------------+
三郎に 名詞句 名詞句 動詞句
| | |
一郎は りんごを 贈った
とにかくこれをバイナリ・トリー化すると
Cabocha出力をバイナリ・トリー化したもの
文
+---------+--------+
名詞句 動詞句
| +---------+--------+
三郎に 名詞句 動詞句
| +--------+--------+
一郎は 名詞句 動詞句
| |
りんごを 贈った
ここでは、Cabochaでのchunkのつながり(=係り受け関係)は (0→3), (1→3), (2→3) である。これを、語の出現順序(リーフ間の左右関係)を維持しつつバイナリ化しようとすると、たとえば先に(0→3)を作ると、次の2段目に来る(1→3)は(0→3)より左側に来ざるを得ない(3は右側なので)。となると、0より1が左に来てしまうので、元の語順が守られない。
係り受け解析の後、主格の格助詞(「は」「が」)を検知して、主格を決めるのか?
欲しいのは何か?
*「入門自然言語処理」での例 [#q27bccb8]
もはや'今さら'だが、という接頭辞で始めるしかないほど今さらだが、私はプリペイド携帯をずっと使っている。
もはや-----D
'今さら'だが、という-D |
接頭辞で-D
始めるしか-D
ない-D
ほど-D
今さらだが、-------D
私は-----D
プリペイド携帯を---D
ずっと-D
使っている。
さて、どうしよう。
終了行:
[[ノート/ノート]]~
訪問者数 &counter(); 最終更新 &lastmod();
*Cabochaで構文木を作っていいのか (2016-12-03) [#t1e69741]
**Cabochaでは [#fd95467e]
$ cabocha -f 2
三郎に一郎はりんごを贈った。
(トリー表現)
三郎に-----D
一郎は---D
りんごを-D
贈った。
EOS
(ラティス表現)
* 0 3D 0/1 -1.997831
三郎 名詞,固有名詞,人名,名,*,*,三郎,サブロウ,サブロー
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
* 1 3D 0/1 -1.997831
一郎 名詞,固有名詞,人名,名,*,*,一郎,イチロウ,イチロー
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
* 2 3D 0/1 -1.997831
りんご 名詞,一般,*,*,*,*,りんご,リンゴ,リンゴ
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
* 3 -1D 0/1 0.000000
贈っ 動詞,自立,*,*,五段・ラ行,連用タ接続,贈る,オクッ,オクッ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。 記号,句点,*,*,*,*,。,。,。
EOS
XML形式(-f3)
<sentence>
<chunk id="0" link="3" rel="D" score="-1.997831" head="0" func="1">
<tok id="0" feature="名詞,固有名詞,人名,名,*,*,三郎,サブロウ,サブロー">三郎</tok>
<tok id="1" feature="助詞,格助詞,一般,*,*,*,に,ニ,ニ">に</tok>
</chunk>
<chunk id="1" link="3" rel="D" score="-1.997831" head="2" func="3">
<tok id="2" feature="名詞,固有名詞,人名,名,*,*,一郎,イチロウ,イチロー">一郎</tok>
<tok id="3" feature="助詞,係助詞,*,*,*,*,は,ハ,ワ">は</tok>
</chunk>
<chunk id="2" link="3" rel="D" score="-1.997831" head="4" func="5">
<tok id="4" feature="名詞,一般,*,*,*,*,りんご,リンゴ,リンゴ">りんご</tok>
<tok id="5" feature="助詞,格助詞,一般,*,*,*,を,ヲ,ヲ">を</tok>
</chunk>
<chunk id="3" link="-1" rel="D" score="0.000000" head="6" func="7">
<tok id="6" feature="動詞,自立,*,*,五段・ラ行,連用タ接続,贈る,オクッ,オクッ"> 贈っ</tok>
<tok id="7" feature="助動詞,*,*,*,特殊・タ,基本形,た,タ,タ">た</tok>
<tok id="8" feature="記号,句点,*,*,*,*,。,。,。">。</tok>
</chunk>
</sentence>
心に思う構文木イメージとしてはこんなことか?
構文木イメージ
文
+----------------+---------------+
名詞句 動詞句
| +---------------+--------------+
一郎は 名詞句 名詞句 動詞句
| | |
三郎に りんごを 贈った
「一郎は」は主格なので、一段上にあげてあるが、Cabochaの係り受け解析では、
主格であることは認識していない。
Cabocha出力
文
+----------------+---------------+
名詞句 動詞句
| +---------------+--------------+
三郎に 名詞句 名詞句 動詞句
| | |
一郎は りんごを 贈った
とにかくこれをバイナリ・トリー化すると
Cabocha出力をバイナリ・トリー化したもの
文
+---------+--------+
名詞句 動詞句
| +---------+--------+
三郎に 名詞句 動詞句
| +--------+--------+
一郎は 名詞句 動詞句
| |
りんごを 贈った
ここでは、Cabochaでのchunkのつながり(=係り受け関係)は (0→3), (1→3), (2→3) である。これを、語の出現順序(リーフ間の左右関係)を維持しつつバイナリ化しようとすると、たとえば先に(0→3)を作ると、次の2段目に来る(1→3)は(0→3)より左側に来ざるを得ない(3は右側なので)。となると、0より1が左に来てしまうので、元の語順が守られない。
係り受け解析の後、主格の格助詞(「は」「が」)を検知して、主格を決めるのか?
欲しいのは何か?
*「入門自然言語処理」での例 [#q27bccb8]
もはや'今さら'だが、という接頭辞で始めるしかないほど今さらだが、私はプリペイド携帯をずっと使っている。
もはや-----D
'今さら'だが、という-D |
接頭辞で-D
始めるしか-D
ない-D
ほど-D
今さらだが、-------D
私は-----D
プリペイド携帯を---D
ずっと-D
使っている。
さて、どうしよう。
ページ名: