タンパク質二次構造予測

 RNA二次構造は相補配列の二重らせんによる安定化が主な要因であるので、二次構造予測の問題も基本的に配列のアライメントの問題であった(参照;Principle of dynamic programming )。一方、タンパク質の二次構造は配列パターンとの明確な関連がないので、異なるアプローチが必要である。タンパク質の二次構造予測とは、アミノ酸配列が与えられたときに各残基がヘリックス構造、ベータ構造、それ以外のコイル構造のどれをとるか、残基ごとに3状態予測をすることが一般的である。それではまずこの問題を歴史的な見地から眺めてみよう。  タンパク質の立体構造が多数解明される以前から、二次構造形成についてはヘリックスコイル転移のところで述べたような統計力学的取り扱いがなされていた。とくに、Finkelstein-Ptitsyn は球状タンパク質が疎水的な内部核と親水的な表面部分で構成されることを考慮した、二次構造形成の統計力学的モデルと予測法を作った。ただし、物理化学的計算だけで予測法を作るのはかなり無理があり、その後の予測法はすべてX線結晶解析などによる実際の立体構造データをもとにしている。

 実際のデータの統計解析から作られた最初の予測法は、1974年の Chou-Fasman 法である。彼らは当初はわずか15の立体構造データから、20種類のアミノ酸が特定の二次構造領域(ヘリックス、ベータ、コイル)にある頻度を調べ、平均の頻度との比から各アミノ酸がどの構造を好むかを、構造パラメタとして定義した。このパラメタを用い、経験的なルールを作って予測を行ったのであるが、方法はコンピュータ化されていなかったため、著者にしか分からない曖昧性が残っている。データベースの厳密な統計解析を行い、情報理論に基づく明確なアルゴリズムを示したのは、1978年の GOR (Garnier-Osguthorpe-Robson) 法である。彼らは単独のアミノ酸ではなく、両側8残基ずつ全部で17残基のセグメントを考えて統計解析を行った。

 配列の特徴的なパターン、すなわちモチーフ的な考え方に基づき、パターンマッチングで予測を行う試みもなされた。古くは Lim の方法があり、αヘリックスは 3.6 残基ごとに、βストランドは2残基ごとに疎水的なアミノ酸と親水的なアミノ酸が周期的に現れる傾向をルール化している。Edmunson によるヘリカルウィール(helical wheel)の方法もこれに類するもので、円周上に 100゜ずつ回転しながらアミノ酸残基を並べていくと、両親媒性になるかどうかを簡単に調べることができる。Cohen らはα/βタンパク質のターンに限り、実際のデータから配列パターンとの関連を階層的なルールとして表現し、人工知能の方法で予測を行った。ただ、ルールの発見(知識獲得)については著者の知見によるものである。

 ゲノム解析の始まりの頃から、新しい計算機科学の方法が配列解析に適用されるようになり、とくに学習アルゴリズムで統計的特徴、モチーフ、ルールなどの発見が試みられるようになった。その1例として、階層型ニューラルネットによるタンパク質二次構造予測を次に述べる。ただし最近は二次構造予測は下火になっており、むしろ立体構造予測、とくに3D−1D法による立体構造予測が主流である。二次構造予測はタンパク質立体構造データがごくわずかしかなかった時代に盛んであった分野である。ヘリックス、ベータ、コイルといった二次構造でしか、データベースを分類できなかったからであろう。最近はタンパク質の立体構造データが急増したため、フォールドでの分類が可能になり、従来の二次構造予測が60%程度の精度しかあげられなかったことと併せて、立体構造予測の結果として二次構造が分かればよいとの立場になったと思われる。