コード領域予測

 階層型ニューラルネットのもう1つの応用例として、塩基配列からタンパク質をコードする領域を予測する GRAIL 法がある。前項の図のように残基1つ1つをニューラルネットの入力ユニットとするのではなく、ある長さの塩基配列の特徴を検出するセンサーがいくつかあり、センサーの出力がニューラルネットへの入力となる。一般にタンパク質コード領域予測(coding region prediction)の問題は方法論的にはあまり面白味はないが、ゲノム解析において実用上重要な問題であるので簡単に概観しておく。

 塩基配列をアミノ酸配列に翻訳するには3つの読み枠が、相補配列を入れて合計6つの読み枠がある。1つの読み枠で終止コドンが現れない部分、つまり終止コドンと次の終止コドンではさまれた部分を ORF (Open Reading Frame) という。ORF はタンパク質コード領域の候補である。ゲノム塩基配列を決定した後の最重要課題はどこにどんなタンパク質遺伝子があるかを決めることである。タンパク質のコード領域予測は「どこに」だけを予測するもので、タンパク質の機能「どんな」についてはホモロジー検索やモチーフ検索を始めとした別のアプローチが必要である。バクテリアの配列であれば、ORF の長さや開始コドンがどこにあるか、その前に転写開始や翻訳開始のシグナルがあるかなどにより、比較的よくコード領域を予測できる。しかし、高等生物にはスプライシングがあるので、スプライス部位の予測も加味しなければならない。また、配列決定の誤りがあると読み枠がずれて ORF が検出されなかったり短くなったりする可能性も考慮しなければならない。

 コード領域予測の基本は既知配列でコード領域と非コード領域の統計的特徴の違いを明らかにしておくことである。例えば、コード領域の方が一般に(とくに原核生物では)G+C含量が高いこと、コード領域は3文字単位でできているので3文字ごとの周期性が見られることなどである。1つのアミノ酸をコードするコドンは2〜6の縮退があるが、アミノ酸を変えない同義語コドンには使用頻度に偏りがある。これは転移RNAと関連があるらしく、3文字目に特定の塩基をもつコドンがよく使われる傾向がある。このようなコドンの使用頻度を手がかりでとしたコード領域予測法が、とくに原核生物では有効である。