膜貫通部位予測


(a)光合成反応中心のヘリックスバンドル( PBD: 1PRC )
(b)外膜タンパク質ポリンのβバレル( PBD: 10MF )       


 生物は細胞からできており、細胞は細胞膜で囲まれている。細胞内の細胞小器官もまたそれぞれ固有の膜で囲まれている。これまでに立体構造が決定されたタンパク質のほとんどは水溶性の球状タンパク質で、膜タンパク質はごくわずかしかない。生体内での膜および膜タンパク質の重要性を考えると、相対的に膜タンパク質には未知の部分が多いことになる。アミノ酸配列に連続した疎水性残基があると、これは膜タンパク質が生体膜に組み込まれる部分であったり、分泌タンパク質が膜を通過した後切断されるシグナルであったりする。ここでは膜タンパク質の膜貫通部位予測を考えてみよう。

 これまでに立体構造が解かれた膜タンパク質の膜貫通領域はほとんどヘリックスバンドルでできている(図(a))。大腸菌などグラム陰性菌の外膜(outer membrane)タンパク質であるポリンはβバレルでできている(図(b))が、外膜は疎水性が低く普通の生体膜とは異なるので、膜タンパク質にβ構造がどの程度一般的であるかはまだ不明である。これまでの膜貫通部位予測法はすべてヘリックスを仮定して作られてきた。

 αヘリックスで膜を貫通するには、アミノ酸配列で20残基程度連続した疎水性残基が必要である。これを探すにはアミノ酸配列を疎水性のアミノ酸指標に変換し、グラフを書いてみればよい。これをハイドロパシープロット(hydropathy plot)といい、一般には適当な長さのウインドウをとってウインドウごとに疎水性の平均値をプロットする。これを判別関数を使って客観的に行えるようにしたのが、KKD (Klein-Kanehisa-DeLisi) 法である。

 判別分析(discriminant analysis)も多変量解析の1つで、n 個の変量をもつデータが与えられた m 個のグループのいずれに属すかを判別することである。最も単純な場合は1つの変量データで2つのグループを判別する場合で、ここではある長さのアミノ酸配列が与えられたときに、その特徴を表す変量 x でこの部分が膜貫通部位であるかどうかを判定してみよう。いま、P(Ix) と P(Ox) はそれぞれアミノ酸配列が特徴 x をもつときに、その部分が膜の中にある場合と外にある場合の条件付き確率であるとする。また、P(I)P(O) はそれぞれ、アミノ酸配列が膜の中にある場合と外にある場合の事前確率(prior probability)であるとする。これは普通は既知のタンパク質での頻度で置き換えられる。ベイズの法則(Bayes' theorem)によると

     
であり、変量 x をもつ2つの分布関数 P(xI) と P(xO) が分かっていれば、事後確率(posterior probability)P(Ix) および同様に P(Ox) が計算できる。そして
     
であれば膜貫通部位であると判定するのが判別分析である。分布関数が正規分布であると、この式は
     
の形になり、これは変量 x に関する二次式であるが、σ1 = σ2で分散が等しい場合はさらに単純化されて一次式となる。KKD 法では長さ17残基のアミノ酸配列の疎水性の平均値を変量とし、既知のトレーニングデータセットをもとに作られた一次または二次の判別式で、その部分が膜貫通部位であるかどうか判定する。膜貫通部位のアミノ酸配列の特徴は非常に顕著であるので、このような単純な方法でも90%以上の予測率をあげることができる。