Genome Informatics News, Vol. 1, No. 2, April 1994

「ゲノム情報」への期待

高浪 満( (財)かずさDNA研究所)

 ヒトゲノムプロジェクトが本格化してから数年、当初の予想よりも早いペースで進展していると受けとめられている。研究費と研究者人口の増加を考慮しても、その印象が強いのは、最も難しいハードルと予想していたマクロ物理地図の作製がいつの間にか突破されそうな状況になったからである。ヒトゲノムプロジェクトがスタートした頃、特にブレークスルーが必須な課題として、マクロ物理地図の作製とシーケンシング・テクノロジーが挙げられていたと思う。前者が成功しそうなのは、巨大DNA鎖の分離とクローニングという大きな技術的ブレークスルーによる。これに対して、シーケンシング・テクノロジーの方はどうであろうか。
 シーケンシング・スピードの飛躍的向上を目指して様々なアプローチが行われている。しかし提案されている方法論に関する限り、ブレークスルーとはいかないとみている。というのは、現在の方法論と同じ問題に遭遇すると予想されるからである。シーケンス・データの生産という点からだけで云えば、現在でも相当なスピードでデータを出すことができる。ちなみに塩基数で云えば、現在最もポピュラーなDNAシーケンサーを使えば1日当り十数キロ以上のシーケンス・データが得られる。十台も並べれば、1年で数十メガ塩基という膨大な数になる。しかし多分、実際に有用なシーケンス情報となるのは極く一部であり、また情報化には相当の日数と専門的労力を必要とする。つまりシーケンシング・テクノロジーの問題点は、シーケンス・データの生産スピードよりも、有効なデータを出すための試料作りと、得られるデータからいかに早く有効な情報をとりだすか、つまり informatics technology にあったと云える。
 金久さんはゲノム情報ニュースの Vol.1, Nol.1 の巻頭言で、ゲノムプロジェクトの成功にとって informatics technology がいかに重要かを強調されている。ゲノムから生物の情報システム全体の理解という金久さんの壮大な構想に比べ、私のほうはシーケンスレベルと次元が低いが、全く同感である。具体的に、シーケンスレベルでのデータ処理にとって特に重要と思われるのは、シグナル領域(転写、翻訳の開始・終止部位、エクソン/イントロン組換え部位等)や蛋白質の構造ドメイン、機能ドメインを予測することである。つまりコード領域の予測ができなければ、ただひたすら全領域について正確なシーケンスを出すためにエネルギーを使わなければならないことになる。しかも100%正確なシーケンスを出したとしても、mRNAの高次構造にもとづくフレームシフティングや、ホッピングと呼ばれる“読み飛ばし”現象が知られているので、問題がないわけではない。
 生命現象の理解にとって informatics からのアプローチが今後ますます重要になってくると予想される。そして、このような情報科学とバイオロジーにまたがる新しい研究領域は、バイオロジーを背景にした情報科学者、情報科学を基礎とするバイオロジストが輩出することによって推進されるのではないかと思う。幸い、金久さんを始め「ゲノム情報」班の方々の大変な熱意と努力によって「ゲノムネット」の整備が着々と進められている。その上、ワークショップやチュートリアル等を通してバイオロジストと情報科学者の融合を計って頂いている。甘えついでに、情報科学とバイオロジーにまたがる新領域が定着するまで「ゲノム情報」を走らせて頂きたいものである。