ノート/テキストマイニング
訪問者数 1032      最終更新 2011-01-10 (月) 16:37:40
> ノート/テキストマイニング
> ノート/テキストマイニング/テキストマイニングとシソーラス
> ノート/テキストマイニング/PubMed解析
> ノート/テキストマイニング/NLTK

シソーラスMeSHの扱い

PubMedのClinical Queries

ここでのテーマ: PubMedにあるClinical Queriesの真似をしてみたい

ここから考えられること?

上記の Clinical Queries は、AND/ORブール式による問合せで、タイトルにclinicalとかが出てくるかを拾っている。
これをもう少し解釈して何かできないか?

まず、aspirinが薬の名前であることは、そのような入力欄を作ってユーザに区別させてもいいし、調べる気になればMeSHを見れば分るだろう。ちなみに、MeSHのAspirinのエントリーは、MeSH Descriptor Dataをブラウザ(NLM MeSH Browser)で見ると

MeSH Heading     Aspirin
中略
MeSH Tree Structures
  Organic Chemicals [D02]				
  Carboxylic Acids [D02.241]				
     Acids, Carbocyclic [D02.241.223]				
        Benzoic Acids [D02.241.223.100]				
           Hydroxybenzoic Acids [D02.241.223.100.380]				
              Salicylic Acids [D02.241.223.100.380.800]				
	Aminosalicylic Acids [D02.241.223.100.380.800.050]  +			
	Anacardic Acids [D02.241.223.100.380.800.062]			
	Aspirin [D02.241.223.100.380.800.075]			
	Diflunisal [D02.241.223.100.380.800.300]			
	Salicylic Acid [D02.241.223.100.380.800.801]  +			

と書かれている。つまり、Organic Chemicalであるから、薬である。

cancerも同様にすると、MeSH上ではNeoplasmsとして出ている。データは、

MeSH Heading     Neoplasms
中略
MeSH Tree Structures
 Neoplasms [C04]				
		Cysts [C04.182]  +		
		Hamartoma [C04.445]  +		
		Neoplasms by Histologic Type [C04.557]  +		
		Neoplasms by Site [C04.588]  +		
		Neoplasms, Experimental [C04.619]  +		
		Neoplasms, Hormone-Dependent [C04.626]		
		Neoplasms, Multiple Primary [C04.651]  +		
		Neoplasms, Post-Traumatic [C04.666]		
		Neoplasms, Radiation-Induced [C04.682]  +		
		Neoplasms, Second Primary [C04.692]		
		Neoplastic Processes [C04.697]  +		
		Neoplastic Syndromes, Hereditary [C04.700]  +		
		Paraneoplastic Syndromes [C04.730]  +		
		Precancerous Conditions [C04.834]  +		
		Pregnancy Complications, Neoplastic [C04.850]  +		
		Tumor Virus Infections [C04.925]  +		

であり、これが病名であると言う情報があるか? Treeの中に例えばSyndromesがあるのは病名である証か?

本気で調べるとすると、たとえばdiseasesから木をたどる。

Pathological Conditions, Signs and Symptoms [C23]  <-- ここからスタート?	
  Pathologic Processes [C23.550]				
	Acantholysis [C23.550.035]			
	Arrhythmias, Cardiac [C23.550.073]  +			
	Ascites [C23.550.081]			
	Azotemia [C23.550.145]			
	Channelopathies [C23.550.177]			
	Chromosome Aberrations [C23.550.210]  +			
	Death [C23.550.260]  +			
	Dehydration [C23.550.274]			
	Delayed Graft Function [C23.550.277]			
	Disease [C23.550.288]	                    <-- Diseaseはここ		
		Syndrome [C23.550.288.500]		
	Disease Attributes [C23.550.291]  +			
	Emphysema [C23.550.325]  +			
	Extravasation of Diagnostic and Therapeutic Materials [C23.550.340]			
	Femoracetabular Impingement [C23.550.347]			
	Fibrosis [C23.550.355]  +			
	Genomic Instability [C23.550.362]  +			
	Gliosis [C23.550.369]			
	Granuloma [C23.550.382]  +			
	Granulomatosis, Orofacial [C23.550.384]			
	Growth Disorders [C23.550.393]  +			
	Hemolysis [C23.550.403]			
	Hemorrhage [C23.550.414]  +			
	Hyperammonemia [C23.550.421]			
	Hyperamylasemia [C23.550.425]			
	Hyperbilirubinemia [C23.550.429]  +			
	Hyperplasia [C23.550.444]			
	Hyperuricemia [C23.550.449]			
	Hypovolemia [C23.550.455]			
	Inflammation [C23.550.470]  +			
	Intraoperative Complications [C23.550.505]  +			
	Ischemia [C23.550.513]  +			
	Leukoaraiosis [C23.550.522]			
	Leukocytosis [C23.550.526]			
	Lithiasis [C23.550.537]			
	Malacoplakia [C23.550.548]			
	Menstruation Disturbances [C23.550.568]  +			
	Metaplasia [C23.550.589]  +			
	Muscle Weakness [C23.550.695]			
	Necrosis [C23.550.717]  +			
	Neointima [C23.550.722]			
	Neoplastic Processes [C23.550.727]  +	      <-- Neoplasmはここ
	Nerve Degeneration [C23.550.737]  +			
	Ochronosis [C23.550.744]			
	Ossification, Heterotopic [C23.550.751]  +			
	Postoperative Complications [C23.550.767]  +			
	Retropneumoperitoneum [C23.550.794]			
	Sclerosis [C23.550.823]			
	Shock [C23.550.835]  +			
	Ulcer [C23.550.891]			
	Yang Deficiency [C23.550.945]			
	Yin Deficiency [C23.550.972]

なので、Diseaseとは同レベル、正しく追うにはDiseaseより2つ上のC23 Pathological Condisions, Signs and Symptoms から始める必要があるらしい。
ここでは、この単語が薬か病名かを区別すればいいだけなので、あらかじめPathological Conditions...の下にぶらさがっているタームを拾って表にしておいてもいいだろう。

検索 〜どの論文を拾うか〜 AND検索と比較して何かよくすることができそうか

出発点に戻ろう。
PubMedのClinical Queriesでは、キーワードの他にAND条件でclinical等を入れることによって、欲しいものを抽出しようとしているようだ。
これに代る検索抽出方法が可能か? 特に文法的な情報・語のつながりの情報を使って、検索を合理的に絞り込むことができるか?

まずは有効な方法があるかどうかを試すべきだろう。もし有効な方法があるならば、それを実現するシステムのつくりかたを考えるのはその後でもよいことにしよう。

例で考えよう。2010/12/21現在のデータで試してみる。

どういう論文を区別したいか?

次の実験

それぞれのabstractの中で、語「aspirin」の周囲の文法構造と、語「colorectal cancer」の周辺の文法構造を見て、abstract例間の類似性・違いを比較する。
  >> ノート/テキストマイニング/MeSH3


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2011-01-10 (月) 16:37:40 (2445d)