ノート/ノート
訪問者 1503 最終更新 2014-06-04 (水) 14:17:50
一般化調和解析(1)
一般化調和解析(2)
一般化調和解析による音階抽出 (3) †
一般化調和解析の出力傾向(=性質?) †
ここまでで分かったことは、
- ピアノ2声程度の重なりであれば、周波数はかなり正確に推定できそうだ。
- FFTでは窓関数(解析のタイムフレームを一定長に制限する)の影響で、周波数スペクトラムの裾が広がってしまう。一般調和解析を使うと、かなりきれいに(FFTと違って単一周波数に)周波数分解される。正確に言うと、1つの周波数の成分が支配的(その成分を引くとほとんど残らない)になる。
- 現在試しているように1Hzずつ成分を引いてゆく方式だと、信号の周波数に半端がある時に近傍の整数周波数の値が得られる。結果を見ると、端数がある周波数の両側の整数値(小数点以下を繰り上げた整数と切り捨てた整数)に分かれることは、起こっていない。
- 得られている周波数(スペクトル中心と思われる周波数)が、フレームごとに2〜3Hzの範囲で振れていることがある。理由が、一般化調和解析の方式(原理)にあるのか、プログラムが悪いのか、元の音源が振れているのか、わからない。ただ、純音を生成(=周波数はぶれない)した場合、解析結果も振れていないので、多分元の信号に問題があるのだろう。
- 実験に用いたRWCのピアノ音源では、パワーの大きさは基本周波数成分が最大になっていた。ただし、必ず基本周波数成分のパワーが最大になるとは限るまい。聴覚上、基本周波数が多少少なくても、その音に聞こえる可能性はある。
- 基本周波数成分がパワー最大となることが仮定できると、もし第2高調波成分が最低音ンの基本周波数成分より大きければ、1オクターブ上の音も同時に鳴っている(2声部以上である)と判断できる。この場合についてはもし声部数を2と仮定できるなら、これを相似形のスペクトル分布を持った2つの成分に分離出来るかも知れない。
- 倍音比率の情報は使っておらず、最大パワーが基本波というルールだけで見ているが、それはいずれ対応しきれなくなる。
- 特に、オクターブ離れた声部を重ねた場合、区別がつかないはずで、パワーの差だけでは、単音で高調波が出ているのか、オクターブ差で2音鳴っているかの区別をするのは、限度があるだろう。
- もし、高調波の組成プロファイル(楽器による)がある程度分かっていれば、音の分離をできるだろう。但し、同じ楽器でも高音域と低音域で高調波組成が異なるだろう。更には、持続する音の場合、初めと終りで音色が変化する可能性もある。その辺りまで細かく検討する必要がある。
- 一般には組成を仮定せずに分離出来た方がいい。(楽器に依らず分離出来ればその方がいいだろう。また楽器が混在する場合も分離できればもっとよかろう。)
倍音比率が同じだと仮定して、複数音を分離することを考える。但し比率の数字は(事前に既知とは)仮定しない、ということができるのか。
- オクターブ(=倍音、たとえばC4とC5と)で同時に鳴っている場合、それが2つの音を鳴らしているのか、全体で1つの音を鳴らしているのか(つまりそういう倍音組成の楽器の音と認識する)、区別ができないと思われる。
- オクターブ違いの場合、他の研究ではどのようなことをしているのか? (採譜+オクターブで検索)
- 「採譜システムで問題になっている成分が重なった和音の音高推定の解決法」 曰く
問題和音には,僅かな周波数差が存在 ここに着目
問題和音の最低音高は従来法で推定可能
現実にオクターブ差の2音源に周波数差が見られるだろうか? 一般化調和解析の結果として得られた分布で、周波数の違いが見られるかどうか、検討する必要があるが、ざっと見たところあまり顕著な違いは無いように思われる。
- 「採譜システムの実現における残された問題点の検討」 上記研究の「次のステップ」への提案
- 「時変複素音声分析に基づく楽音の音高推定」 曰く
本研究では、音高推定方法の改良を行う。Fourier 解析ではなく、サンプルベースの F0 軌跡推定方式 [2] [3] を用いる。
- 「確率推論に基づく自動採譜システム」
亀岡らの「ハーモニッククラスタリング」を用いる
ハーモニッククラスタリングは、FFT出力である周波数スペクトル(パワー分布)を、分布の重ね合せと見なして、要素分布を推定する方法。パワー分布は倍音構成を持っているが、倍音ごとに中心周波数周辺に正規分布すると仮定し、その正規分布の重ね合せだと思って多重分布推定の手法を応用する。
よく分からないのだが、FFTの窓関数によって生まれたパワー分布の裾を拾っているような気がしてならない。単音の倍音成分と、オクターブ差の音源と、どう区別しているのだろうか?なぜ区別できるのだろうか?
- 「主観評価実験に基づいた和音推定システムの検討」 信号ドメイン(波形)で見た時に、1/2周期の点で信号が、和音の場合右上がりで、単音の場合右下がり、の傾向があるのだそうな。

これがどの程度確かに法則性があるのか分からない。和音の場合2倍波が強く混ざっているために、右上がりになると考えることもできそうだ。