[[ノート/テキストマイニング]]~ 訪問者数 &counter(); 最終更新 &lastmod();~ **レポートや論文のチェック --- 2012/05/08 [#j7cd1c61] ***やりたいこと (目的と背景) [#x8b0f148] 目的: 学生のレポート(やレポートに近い作文一般で)について、形式的・物理的に チェックできるポイントを自動的に(機械的に)指摘して直してもらい、先生はそれ以降の 内容に関するチェックをしたい。 機械的なチェックをする部分を自動化することが目的。 背景: 化学の幅田先生の所へザ・ネットという会社からSAIというアプリケーションサービス (上記のようなことをする)を売込みに来た。SAIの言い分は、レポートのチェックをする こと、更には作文教室での利用も考えられるとのこと。 SAIでやっていることはホームページに書かれている。 それとは別に、とある作文の本から、具体的なチェック項目のリストを抜き書きし、 出来ること・出来そうなことを考えてみる。~ 「卒論・修論を書きあげるための、理系作文の六法全書」 斎藤恭一 著。 みみずく舎発行、医学評論社出版。978-4-87211-997-0。1600円~ &ref(チェック観点例.txt,,抜き書きの別紙(shift-JISコード)); ここにある観点例を処理方法で分類すると -文字レベルのチェック --句読点(ピリオドと丸の混在)・1文は40字前後 -語の性質・使い方に関するチェック 〜〜 たいていのものは形態素解析結果で対応可能 --受動態・あいまいな副詞・接続詞・同じ助詞の繰り返し・指示語・否定文 --である調・漢字が5字以上 -形態素解析では出さない性質 〜〜 辞書が小さければ作ることが可能 --〜的・「もの」「こと」・「など」 -形態素解析では出てこない性質 〜〜 辞書が小さければ作ることが可能 --〜的を避ける・「もの」「こと」を避ける・「など」を避ける 〜 いずれも対応可能 --用語の統一 〜 同義語辞書が必要? -複数語の関連に関するチェック 〜〜 共起辞書などが必要で、未整備 --紋切型の文・誤字脱字・名詞と動詞の使い分け・名詞と動詞・形容詞の相性 --同じ内容の繰り返し(レベルによる、同義語辞書必要?) --係り結びの距離を縮める --係り結びの距離を縮める 〜〜 係り受け解析をすれば可能? など。