機能部位予測

 マルチプルアライメントの主要な目的の1つは、配列グループで保存されている特徴的な配列パターン、すなわちコンセンサス配列あるいはモチーフを抽出することである。既に述べた方法はグローバルなマルチプルアライメントを作る方法で、これを用いた後で局所的に保存されたブロックを探すことによりモチーフを定義する。別の考え方として、まず短い保存パターンを各配列で探し、それらを並べて固定し、さらに両側に延ばしてみることによりローカルなマルチプルアライメントを行うことができる。これはセグメントアライメント、あるいはマルチプルアライメントのセグメント法とも呼ばれ、BLASTアルゴリズムにも通じるヒューリスティクな方法である。

 実際、これまでに塩基配列およびアミノ酸配列の様々な機能部位で関連する配列を集め、手作業でセグメントアライメントを行うことによりモチーフが見いだされてきた。原核生物プロモーターのコンセンサス配列である TATA ボックス、メッセンジャーRNAスプライシングでイントロンの両端にあるコンセンサス GU/AG ルール、タンパク質ではATP結合部位の [AG]-x(4)-G-K-[ST]、糖鎖による修飾である N-グリコシル化部位の N-X-[ST] などのコンセンサス、タンパク質の分解シグナルである PEST 配列、小胞体局在化シグナルである KDEL を始め、少なくとも 1,000 種以上のモチーフが報告されている。

 セグメントアライメントをもとにコンセンサス配列を定義する際には UNIX の正規表現のように文字の組合せなどを可能にする表記法が用いられる。一方、セグメントアライメントの各位置でどの文字がどの程度頻繁に現れるか、数値として量的な情報も取り入れたのがウェイトマトリックス(weight matrix)である。マトリックスの横軸は配列の位置で、縦軸は塩基配列なら4つの、アミノ酸配列なら20の文字に対応する。未知配列に対して機能部位予測(モチーフ検索)を行うとき、コンセンサス配列を用いるとパターンが一致するかだけで判定できるが、ウェイトマトリックスでは一致度がスコアで表現されるので、適当な閾値を設定しなければならない。そこでトレーニングデータセットで、本物を検出できないフォルスネガティブ(false negative)と偽物を本物と判定してしまうフォルスポジティブ(false positive)ができるだけ少なくなるように閾値を決める。ウェイトマトリックスの方がコンセンサス配列より予測率がよくなるのは容易に想像できる。

 機能部位予測の一般的方法は、二次構造予測、コード領域予測、膜貫通部位予測などと同じように、既知の機能部位の配列の特徴を知識として獲得し、これを用いて未知の配列で機能部位の存在を調べることである。しかしながら、実験的に機能部位を正確に同定することは容易でなく、類似の機能をもつ配列のグループの中から保存配列パターンを探し、逆にこれを機能部位であると仮定して特徴を抽出することが多い。機能部位の配列パターンは必ずしも顕著ではないので、弱い配列パターンをいかに検出してセグメントアライメントを行うかが重要な問題となってくる。

 ここで、ウェイトマトリックスを一般化させたプロファイル(profile)の概念にふれておく(図)。プロファイルは配列上の位置に依存したアミノ酸指標または塩基の指標と眺めることができる(図)。指標は組成だけでなく、アミノ酸や塩基の物理化学的性質、まわりの配列の影響、あるいは3Dプロファイルの場合はまわりの立体構造の影響など、様々なものが考えられる。ハイドロパシープロットでは配列をスカラーの数値列に変換したが、プロファイルは配列を数値からなるベクトルの列に変換したことになる。また、別の見方ではプロファイルはアミノ酸や塩基が特定の場所に現れる確率と見なすことができる。これは次に述べる隠れマルコフモデルにも通じる考え方で、アライメントされていない(機能部位があることは分かっているが、どこにあるか分からない)配列のグループに対し、統計的手法や情報理論的手法を用いて、最適のプロファイル作りと最適のセグメントアライメントを同時に行うことができる。