[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
]
開始行:
[[ノート/テキストマイニング]]~
訪問者数 &counter(); 最終更新 &lastmod();~
***論文の処理を試してみた [#i91378dc]
chasenのWindows版に対して、
C:\Program Files\ChaSen>chasen.exe "jsai09-1-1.txt" > "result09-1-1.txt"
のようなコマンドを用いた。
入力: [[論文のサンプル>yylab/論文サンプル]]の&ref(yylab/論文サンプル/jsai09-1-1.txt);~
出力: &ref(result09-1-1.txt);
入力ファイルに余分なものを含むので、出力もきれいに整理されていないが、
本文の部分を見ると次のようになっている。
1 イチ 1 名詞-数
. . . 記号-句点
はじめ ハジメ はじめ 名詞-副詞可能
に ニ に 助詞-格助詞-一般
EOS
進化 シンカ 進化 名詞-サ変接続
的 テキ 的 名詞-接尾-形容動詞語幹
多目的 タモクテキ 多目的 名詞-一般
最適 サイテキ 最適 名詞-一般
化 カ 化 名詞-接尾-サ変接続
( ( ( 記号-括弧開
Evolutionary 未知語
Multi エムユーエルティーアイ Multi 記号-アルファベット
- - - 記号-一般
criterion シーアールアイティーイーアールアイオーエヌ criterion 記号-アルファベット
EOS
Optimization 未知語
: : : 記号-一般
EMO イーエムオー EMO 記号-アルファベット
) ) ) 記号-括弧閉
に関する ニカンスル に関する 助詞-格助詞-連語
研究 ケンキュウ 研究 名詞-サ変接続
は ハ は 助詞-係助詞
, , , 記号-読点
近年 キンネン 近年 名詞-副詞可能
盛ん サカン 盛ん 名詞-形容動詞語幹
に ニ に 助詞-副詞化
行 コウ 行 名詞-固有名詞-人名-名
EOS
われる ワレル われる 動詞-自立 一段 基本形
よう ヨウ よう 名詞-非自立-助動詞語幹
に ニ に 助詞-副詞化
なり ナリ なる 動詞-自立 五段・ラ行 連用形
大きな オオキナ 大きな 連体詞
進歩 シンポ 進歩 名詞-サ変接続
を ヲ を 助詞-格助詞-一般
見せ ミセ 見せる 動詞-自立 一段 連用形
て テ て 助詞-接続助詞
いる イル いる 動詞-非自立 一段 基本形
[ [ [ 記号-括弧開
K ケイ K 記号-アルファベット
. . . 記号-句点
Deb ディーイービー Deb 記号-アルファベット
01 ゼロイチ 01 名詞-数
] ] ] 記号-括弧閉
. . . 記号-句点
EOS
特に トクニ 特に 副詞-一般
, , , 名詞-数
NSGA エヌエスジーエイ NSGA 記号-アルファベット
- - - 記号-一般
II アイアイ II 記号-アルファベット
, , , 名詞-数
SPEA エスピーイーエイ SPEA 記号-アルファベット
2 ニ 2 名詞-数
と ト と 助詞-格助詞-引用
いっ イッ いく 動詞-自立 五段・カ行促音便 連用タ接続
た タ た 助動詞 特殊・タ 基本形
高性能 コウセイノウ 高性能 名詞-一般
探索 タンサク 探索 名詞-サ変接続
アル アル アル 名詞-固有名詞-人名-名
ゴリ ゴリ ゴリ 名詞-一般
EOS
ズム 未知語
の ノ の 助詞-連体化
登場 トウジョウ 登場 名詞-サ変接続
以降 イコウ 以降 名詞-副詞可能
, , , 記号-読点
実 ミ 実 名詞-一般
問題 モンダイ 問題 名詞-ナイ形容詞語幹
に対する ニタイスル に対する 助詞-格助詞-連語
応用 オウヨウ 応用 名詞-サ変接続
事例 ジレイ 事例 名詞-一般
が ガ が 助詞-格助詞-一般
数多く カズオオク 数多い 形容詞-自立 形容詞・アウオ段 連用テ接続
行 ギョウ 行 名詞-一般
わ ワ わ 名詞-一般
EOS
れる レル れる 動詞-接尾 一段 基本形
よう ヨウ よう 名詞-非自立-助動詞語幹
に ニ に 助詞-副詞化
なり ナリ なる 動詞-自立 五段・ラ行 連用形
, , , 記号-読点
幅広い ハバヒロイ 幅広い 形容詞-自立 形容詞・アウオ段 基本形
領域 リョウイキ 領域 名詞-一般
において ニオイテ において 助詞-格助詞-連語
その ソノ その 連体詞
成果 セイカ 成果 名詞-一般
が ガ が 助詞-格助詞-一般
報告 ホウコク 報告 名詞-サ変接続
さ サ さ 助詞-終助詞
EOS
れ レ れる 動詞-接尾 一段 連用形
て テ て 助詞-接続助詞
いる イル いる 動詞-非自立 一段 基本形
[ [ [ 記号-括弧開
Coello シーオーイーエルエルオー Coello 記号-アルファベット
Coello シーオーイーエルエルオー Coello 記号-アルファベット
04 ゼロヨン 04 名詞-数
] ] ] 記号-括弧閉
. . . 記号-句点
EOS
対応する原文は、次のようなものである。
1. はじめに
進化的多目的最適化(Evolutionary Multi-criterion
Optimization: EMO) に関する研究は,近年盛んに行
われるようになり大きな進歩を見せている[K.Deb 01].
特に,NSGA-II,SPEA2 といった高性能探索アルゴリ
ズムの登場以降,実問題に対する応用事例が数多く行わ
れるようになり,幅広い領域においてその成果が報告さ
れている[Coello Coello 04].
大きな問題として、「改行」(改行符号文字)が文の終り(EOS)として扱われており、
たとえば原文の3行目の 「近年盛んに行 (改行) われるようになり」 の改行が
語の中に入ってしまっているために、語が区切られてしまい、
近年 キンネン 近年 名詞-副詞可能
盛ん サカン 盛ん 名詞-形容動詞語幹
に ニ に 助詞-副詞化
行 コウ 行 名詞-固有名詞-人名-名
EOS
われる ワレル われる 動詞-自立 一段 基本形
よう ヨウ よう 名詞-非自立-助動詞語幹
に ニ に 助詞-副詞化
なり ナリ なる 動詞-自立 五段・ラ行 連用形
となって、「行」が人名と判断されるに至っている。
同様の問題は、原文5行目の 「高性能探索アルゴリ (EOS) ズムの登場以降,」
でも問題を起こしており、「アルゴリズム」という語が「アルゴリ」と「ズム」に
切れてしまったために1語と判断されず、かえって「アル」と「ゴリ」に分解して
しまっている。
高性能 コウセイノウ 高性能 名詞-一般
探索 タンサク 探索 名詞-サ変接続
アル アル アル 名詞-固有名詞-人名-名
ゴリ ゴリ ゴリ 名詞-一般
EOS
ズム 未知語
の ノ の 助詞-連体化
登場 トウジョウ 登場 名詞-サ変接続
以降 イコウ 以降 名詞-副詞可能
また異なる現象として、原文6行目の「実問題」(じつもんだい)が
2つの単語「実」と「問題」に分解されたのはよいが、その結果
「実」を「み」と判定してしまった。これは、分解としては正しいのであるが、
辞書を引いた結果はまずい。品詞判別は名詞でよさそう(名詞を2つ繋いだ)に
思うが、この判定でよいのだろうか?
登場 トウジョウ 登場 名詞-サ変接続
以降 イコウ 以降 名詞-副詞可能
, , , 記号-読点
実 ミ 実 名詞-一般
問題 モンダイ 問題 名詞-ナイ形容詞語幹
に対する ニタイスル に対する 助詞-格助詞-連語
終了行:
[[ノート/テキストマイニング]]~
訪問者数 &counter(); 最終更新 &lastmod();~
***論文の処理を試してみた [#i91378dc]
chasenのWindows版に対して、
C:\Program Files\ChaSen>chasen.exe "jsai09-1-1.txt" > "result09-1-1.txt"
のようなコマンドを用いた。
入力: [[論文のサンプル>yylab/論文サンプル]]の&ref(yylab/論文サンプル/jsai09-1-1.txt);~
出力: &ref(result09-1-1.txt);
入力ファイルに余分なものを含むので、出力もきれいに整理されていないが、
本文の部分を見ると次のようになっている。
1 イチ 1 名詞-数
. . . 記号-句点
はじめ ハジメ はじめ 名詞-副詞可能
に ニ に 助詞-格助詞-一般
EOS
進化 シンカ 進化 名詞-サ変接続
的 テキ 的 名詞-接尾-形容動詞語幹
多目的 タモクテキ 多目的 名詞-一般
最適 サイテキ 最適 名詞-一般
化 カ 化 名詞-接尾-サ変接続
( ( ( 記号-括弧開
Evolutionary 未知語
Multi エムユーエルティーアイ Multi 記号-アルファベット
- - - 記号-一般
criterion シーアールアイティーイーアールアイオーエヌ criterion 記号-アルファベット
EOS
Optimization 未知語
: : : 記号-一般
EMO イーエムオー EMO 記号-アルファベット
) ) ) 記号-括弧閉
に関する ニカンスル に関する 助詞-格助詞-連語
研究 ケンキュウ 研究 名詞-サ変接続
は ハ は 助詞-係助詞
, , , 記号-読点
近年 キンネン 近年 名詞-副詞可能
盛ん サカン 盛ん 名詞-形容動詞語幹
に ニ に 助詞-副詞化
行 コウ 行 名詞-固有名詞-人名-名
EOS
われる ワレル われる 動詞-自立 一段 基本形
よう ヨウ よう 名詞-非自立-助動詞語幹
に ニ に 助詞-副詞化
なり ナリ なる 動詞-自立 五段・ラ行 連用形
大きな オオキナ 大きな 連体詞
進歩 シンポ 進歩 名詞-サ変接続
を ヲ を 助詞-格助詞-一般
見せ ミセ 見せる 動詞-自立 一段 連用形
て テ て 助詞-接続助詞
いる イル いる 動詞-非自立 一段 基本形
[ [ [ 記号-括弧開
K ケイ K 記号-アルファベット
. . . 記号-句点
Deb ディーイービー Deb 記号-アルファベット
01 ゼロイチ 01 名詞-数
] ] ] 記号-括弧閉
. . . 記号-句点
EOS
特に トクニ 特に 副詞-一般
, , , 名詞-数
NSGA エヌエスジーエイ NSGA 記号-アルファベット
- - - 記号-一般
II アイアイ II 記号-アルファベット
, , , 名詞-数
SPEA エスピーイーエイ SPEA 記号-アルファベット
2 ニ 2 名詞-数
と ト と 助詞-格助詞-引用
いっ イッ いく 動詞-自立 五段・カ行促音便 連用タ接続
た タ た 助動詞 特殊・タ 基本形
高性能 コウセイノウ 高性能 名詞-一般
探索 タンサク 探索 名詞-サ変接続
アル アル アル 名詞-固有名詞-人名-名
ゴリ ゴリ ゴリ 名詞-一般
EOS
ズム 未知語
の ノ の 助詞-連体化
登場 トウジョウ 登場 名詞-サ変接続
以降 イコウ 以降 名詞-副詞可能
, , , 記号-読点
実 ミ 実 名詞-一般
問題 モンダイ 問題 名詞-ナイ形容詞語幹
に対する ニタイスル に対する 助詞-格助詞-連語
応用 オウヨウ 応用 名詞-サ変接続
事例 ジレイ 事例 名詞-一般
が ガ が 助詞-格助詞-一般
数多く カズオオク 数多い 形容詞-自立 形容詞・アウオ段 連用テ接続
行 ギョウ 行 名詞-一般
わ ワ わ 名詞-一般
EOS
れる レル れる 動詞-接尾 一段 基本形
よう ヨウ よう 名詞-非自立-助動詞語幹
に ニ に 助詞-副詞化
なり ナリ なる 動詞-自立 五段・ラ行 連用形
, , , 記号-読点
幅広い ハバヒロイ 幅広い 形容詞-自立 形容詞・アウオ段 基本形
領域 リョウイキ 領域 名詞-一般
において ニオイテ において 助詞-格助詞-連語
その ソノ その 連体詞
成果 セイカ 成果 名詞-一般
が ガ が 助詞-格助詞-一般
報告 ホウコク 報告 名詞-サ変接続
さ サ さ 助詞-終助詞
EOS
れ レ れる 動詞-接尾 一段 連用形
て テ て 助詞-接続助詞
いる イル いる 動詞-非自立 一段 基本形
[ [ [ 記号-括弧開
Coello シーオーイーエルエルオー Coello 記号-アルファベット
Coello シーオーイーエルエルオー Coello 記号-アルファベット
04 ゼロヨン 04 名詞-数
] ] ] 記号-括弧閉
. . . 記号-句点
EOS
対応する原文は、次のようなものである。
1. はじめに
進化的多目的最適化(Evolutionary Multi-criterion
Optimization: EMO) に関する研究は,近年盛んに行
われるようになり大きな進歩を見せている[K.Deb 01].
特に,NSGA-II,SPEA2 といった高性能探索アルゴリ
ズムの登場以降,実問題に対する応用事例が数多く行わ
れるようになり,幅広い領域においてその成果が報告さ
れている[Coello Coello 04].
大きな問題として、「改行」(改行符号文字)が文の終り(EOS)として扱われており、
たとえば原文の3行目の 「近年盛んに行 (改行) われるようになり」 の改行が
語の中に入ってしまっているために、語が区切られてしまい、
近年 キンネン 近年 名詞-副詞可能
盛ん サカン 盛ん 名詞-形容動詞語幹
に ニ に 助詞-副詞化
行 コウ 行 名詞-固有名詞-人名-名
EOS
われる ワレル われる 動詞-自立 一段 基本形
よう ヨウ よう 名詞-非自立-助動詞語幹
に ニ に 助詞-副詞化
なり ナリ なる 動詞-自立 五段・ラ行 連用形
となって、「行」が人名と判断されるに至っている。
同様の問題は、原文5行目の 「高性能探索アルゴリ (EOS) ズムの登場以降,」
でも問題を起こしており、「アルゴリズム」という語が「アルゴリ」と「ズム」に
切れてしまったために1語と判断されず、かえって「アル」と「ゴリ」に分解して
しまっている。
高性能 コウセイノウ 高性能 名詞-一般
探索 タンサク 探索 名詞-サ変接続
アル アル アル 名詞-固有名詞-人名-名
ゴリ ゴリ ゴリ 名詞-一般
EOS
ズム 未知語
の ノ の 助詞-連体化
登場 トウジョウ 登場 名詞-サ変接続
以降 イコウ 以降 名詞-副詞可能
また異なる現象として、原文6行目の「実問題」(じつもんだい)が
2つの単語「実」と「問題」に分解されたのはよいが、その結果
「実」を「み」と判定してしまった。これは、分解としては正しいのであるが、
辞書を引いた結果はまずい。品詞判別は名詞でよさそう(名詞を2つ繋いだ)に
思うが、この判定でよいのだろうか?
登場 トウジョウ 登場 名詞-サ変接続
以降 イコウ 以降 名詞-副詞可能
, , , 記号-読点
実 ミ 実 名詞-一般
問題 モンダイ 問題 名詞-ナイ形容詞語幹
に対する ニタイスル に対する 助詞-格助詞-連語
ページ名: