Bioinformatics

ポストゲノム時代のバイオインフォマティクス

Bioinformatics in a Post-genomic Era

１．基本概念

　20世紀後半の生命科学は分子生物学全盛の時代でした。その根底には「生命のはたらきは分子や遺伝子のはたらきとして理解できる」とする還元論の考え方があります。その究極の形として1980年代の終わりに始まったヒトゲノム計画では、ヒトをはじめ数多くの生物種において、ゲノムを解読する研究が行われています。ただし解読といっても、これは単にゲノムの全塩基配列を決定することであり、個々の遺伝子がどこにあるか、さらにそのはたらきが何であるかが、直ちに明らかになるわけではありません。実際、これまで全ゲノムが決定された比較的単純な生物種でも、ゲノム中に含まれる遺伝子のうち機能が分かっているものは半分以下しかありません。
　ゲノムの情報を真の意味で解読するためには、還元論と反対のアプローチ、すなわち個々の部品（遺伝子）の集まりからシステム全体（細胞あるいは生物個体）が再構築できるかどうかを調べ、「生命のはたらきをシステムのはたらきとして理解する」合成論のアプローチが必要です。還元論が主に実験科学として行われてきたのに対し、合成論は基本的に情報科学の問題です。つまりゲノムの情報から生命の情報システムを再構築することは、コンピュータの中で行われます。21世紀の生命科学は情報科学と融合し、バイオインフォマティクス（生命情報学）と呼ばれる分野が急速に発展していくでしょう。

２．研究目的と内容

　そもそもバイオインフォマティクスとは、ゲノム解析に伴う大量データ処理のために必然的に生まれたもので、当初は実験プロジェクトをサポートすることが主目的でした。一方、新しいポストゲノム時代のバイオインフォマティクスでは、ゲノムの情報を基盤に生命の原理を明らかにし、新産業の創出を行うことが目的で、情報科学が主役となります。ただし、これは新しい実験科学と融合した情報科学でなければなりません。ゲノムの配列情報とは基本的に部品（遺伝子あるいは分子）のカタログ情報であり、DNAチップやプロテオーム解析等の新しい実験技術に基づく部品間のつながり（相互作用）の情報がなければ、生命システムの再構築はできないからです。同時にこれまでに蓄積された膨大な生命科学の知識を相互作用情報という観点から体系化し、コンピュータ化することが極めて重要です。
　少し専門的ですが、下の表にバイオインフォマティクスの具体的な研究内容がまとめてあります。生物学における計算では、物理学や化学のように原理から出発して数値計算を行うのではなく、蓄積されたデータの中から知識や経験則を見いだすことが中心であり、データベースが主要な役割を果たしています。この表では部品（遺伝子または分子）と部品間のつながり（相互作用）、さらにそれらの集合であるゲノム（およびトランスクリプトーム、プロテオーム）とネットワーク（パスウェイ、アセンブリーほか）に分けて、データベースとデータ解析技術がまとめてあります。

バイオインフォマティクス（生命情報学）の研究内容

区分	データベース	データ解析	アルゴリズム
分子	分子の構造データベース・塩基配列（GenBank, EMBL, DDBJ）・アミノ酸配列（SwissProt, PIR, PRF）・立体構造（PDB）分子の機能データベース・核酸モチーフ（EPD, Transfac）・タンパク質モチーフ（Prosite, Pfam）・遺伝子アノテーション（KEGG, GO）	配列／立体構造解析・配列比較・立体構造比較・立体構造予測機能部位解析・モチーフ抽出・モチーフ検索・機能予測	最適化アルゴリズム・ダイナミックプログラミング（DP）・シミュレーテッドアニーリング（SA）・遺伝的アルゴリズム（GA）パターン認識・学習アルゴリズム・ニューラルネットワーク（ANN）・隠れマルコフモデル（HMM）・サポートベクターマシン（SVM）
ゲノム（分子の集合）	ゲノムの機能データベース・オーソロググループ（KEGG, COG）・発現プロフィール・遺伝子多型	比較ゲノム解析トランスクリプトーム解析プロテオーム解析多型情報解析	クラスタリングアルゴリズム・階層的クラスター解析・コホーネンネットワーク
相互作用	分子間相互作用データベース・タンパク質間相互作用・二項関係（BRITE）化学情報データベース・化合物／化学反応（LIGAND）	ネットワーク解析・パス計算・ネットワーク比較・ネットワーク予測・細胞シミュレーション・パスウェイ工学・演繹データベース	グラフ比較アルゴリズム・同型グラフ（クリーク）・相関クラスターグラフ特徴抽出アルゴリズム・準完全サブグラフ・ハブ、オーソリティグラフ計算アルゴリズム
ネットワーク（相互作用の集合）	パスウェイデータベース・代謝系／制御系（KEGG）

３．学術的意義

　では、バイオインフォマティクスは生命システムのどのレベルの情報までを予測することができるようになるのでしょうか。上に書かれた研究内容は細胞レベルまでで、１つの細胞の振る舞いを分子のネットワークとして記述し予測することを想定しています。実際は下の表に示したように細胞のネットワークとしての脳・神経系、さらには個体のネットワークとしての生態系といった具合に、さらに上のレベルの生命現象があります。ただ、ここにある異なるレベルの間にも、共通の概念が存在しています。それはノード（部品）とエッジ（相互作用）の概念、すなわちグラフの概念です。現在のバイオインフォマティクスではグラフに関する情報技術が開発されています。これを共通の方法論とし、異なるレベルのデータに適用することにより、異なるレベルの生命現象を理解していくことが可能になると期待されます。

異なるレベルの生命システム

システム	内容	ノード	エッジ
タンパク質	原子のネットワーク	原子	原子間相互作用
細胞	分子のネットワーク	分子	分子間相互作用
脳・神経系	細胞のネットワーク	細胞	細胞間相互作用
生態系	個体のネットワーク	個体	個体間相互作用
文化	人のネットワーク	人	人間相互作用

　物理学は自然界を異なるレベルで記述し、その原理を明らかにしてきました。バイオインフォマティクスは生物界を異なるレベルで記述し、生命の情報構築原理を明らかにしていくことでしょう。生命が地球上で誕生し進化してきたことを考えると、バイオインフォマティクスの究極の目標は、生物界と自然界をつなぐ大統一理論の構築と言えるかもしれません。

４．社会的意義

　一方、このような長期的な学術的意義に対して、バイオインフォマティクスには社会的・経済的な意義があります。ゲノム情報の有効利用に関しては、米国を中心に激しい国際競争が行われています。2000年の6月29日に米国大統領と英国首相が衛星を通して、ヒトゲノムの概略を明らかにしたとの共同宣言を行いました。しかし、ゲノムの情報を真の意味で解読するには配列情報だけでは不十分です。とくに単なる部品（遺伝子）の宝探しではなく、部品が集まったシステムとしての有効利用を実現するためには、まだまだ大きな技術的問題点が存在しています。特定の家系でしか見られない希な遺伝病の原因遺伝子のように、少数の遺伝子が支配する特殊例については、もうそんなに宝は出てこないのではないでしょうか。遺伝子変異は生命のシステムに対するゆらぎであり、小さなゆらぎに対する安定性を内在しているのがシステムの本質であると考えられるからです。今後のゲノム情報の産業利用のためには、多数の相互作用ネットワークを解読する情報技術が必要であり、それを実現するのがバイオインフォマティクスです。

世界の主要なバイオインフォマティクスサーバー

機　　関	アドレス	主要検索システム	主要データベース
ゲノムネット（京都大学化学研究所）	www.genome.ad.jp	DBGET	KEGG
NCBI（米国バイオテクノロジー情報センター）	www.ncbi.nlm.nih.gov	Entrez, BLAST	PubMed, GenBank
EBI（欧州バイオインフォマティクス研究所）	www.ebi.ac.uk	SRS	EMBL, SWISS-PROT
SIB（スイスバイオインフォマティクス研究所）	www.expasy.ch	SRS	SWISS-PROT

　ところで、大量かつ多様なバイオ情報は、上にあるような世界中のサーバーからインターネットを通じて誰でも自由に入手することができます。ここでも、米国バイオテクノロジー情報センター（NCBI）が国際的に圧倒的な力をもっていますが、現状ではこれは文献情報と配列情報だけです。京都大学化学研究所では、機能情報を制するものがバイオ情報全体を制することを予期し、また機能とは部品に還元できるものではなくシステムの属性として表現するべきものとの観点から、生命システム情報統合データベース KEGG を構築し、ゲノムネットの中心システムとして提供してきました。世界的にもまだ未発達の生命システム情報の基盤データベースを構築し、それを公共化することは、我が国にとって知的所有権を確保することであり、ゲノムから有用性を見いだす情報技術力で優位に立つことができ、経済の発展と社会の福祉に貢献できると考えています。

５．コペルニクス的転回

　ゲノムは生命の設計図だと言われています。確かにゲノムには生命の基本部品であるタンパク質の作り方が書かれています。この意味でゲノムは「生命の部品の設計図」です。しかしながら、部品をどのように組み合わせるか、その配線図の情報がなければ、「生命のシステムの設計図」が分かったことにはなりません。生命は細胞からできています。その中にゲノムがあるわけで、ゲノムをとりかえればクローンができると思われているように、ゲノムには部品の情報だけでなく配線図の情報もすべて書かれていると主張する人もいます。
　一方で、あらゆる生物の個体はゲノムだけから出発しているわけではありません。必ず親の生殖細胞から出発しています。我々一人一人も母親の卵細胞から出発しています。すなわち、あらゆる生命には生殖細胞系列と呼ばれる細胞の連続性があるのです。ですから、実は細胞に生命の基本プログラムがあって、ゲノムは単に部品の倉庫にすぎないという見方もできるのです。細胞に書かれたシステムの情報を受け継ぐことが遺伝であり、システムのダイナミックな変化が個体の発生・分化・老化、そして死に至るプロセスです。部品の情報はゲノムに集約された静的な情報ですので、それを解読することは比較的簡単でした。しかし、配線図の情報は分散した動的な情報だと思われます。21世紀の生命科学では、細胞の動的な情報として遺伝情報を解読することが大きな目標になるのではないでしょうか。
　20世紀後半は分子生物学が大成功をおさめた時代でした。ゲノムの情報を複製することが遺伝であり、ゲノムからタンパク質への情報の流れが発生のプログラムであるという概念は、分子生物学のセントラルドグマと呼ばれています。このようなゲノム至上主義あるいは遺伝子至上主義は、よく考えてみると信仰のようなもので、科学的根拠に基づいたものではありません。いま最先端の知識としてもてはやされていることも、何十年、何百年かのちには古くさくなってしまうのが科学の必然です。科学の歴史を振り返ってみると、とくに物理学や化学がどのように体系化されてきたかを振り返って比較してみると、生物学はゲノムという生命の基本データの出現で、やっとこれから大きな発展が始まる段階にきているのではないでしょうか。そしてそれはコペルニクス的転回ではないでしょうか。ゲノム説からネットワーク説への転回、すなわち、ゲノムは細胞の中の分子反応ネットワークの一部（ただし非常に大きな情報量をもった倉庫）にすぎないという概念です。そしてこの概念に科学的根拠を与え得るのが、ポストゲノム時代のバイオインフォマティクスなのです。

参考文献
M. Kanehisa, "Post-genome Informatics", Oxford University Press (2000)

区分	データベース	データ解析	アルゴリズム
分子	分子の構造データベース・塩基配列（GenBank, EMBL, DDBJ）・アミノ酸配列（SwissProt, PIR, PRF）・立体構造（PDB）分子の機能データベース・核酸モチーフ（EPD, Transfac）・タンパク質モチーフ（Prosite, Pfam）・遺伝子アノテーション（KEGG, GO）	配列／立体構造解析・配列比較・立体構造比較・立体構造予測機能部位解析・モチーフ抽出・モチーフ検索・機能予測	最適化アルゴリズム・ダイナミックプログラミング（DP）・シミュレーテッドアニーリング（SA）・遺伝的アルゴリズム（GA）パターン認識・学習アルゴリズム・ニューラルネットワーク（ANN）・隠れマルコフモデル（HMM）・サポートベクターマシン（SVM）
ゲノム（分子の集合）	ゲノムの機能データベース・オーソロググループ（KEGG, COG）・発現プロフィール・遺伝子多型	比較ゲノム解析トランスクリプトーム解析プロテオーム解析多型情報解析	クラスタリングアルゴリズム・階層的クラスター解析・コホーネンネットワーク
相互作用	分子間相互作用データベース・タンパク質間相互作用・二項関係（BRITE）化学情報データベース・化合物／化学反応（LIGAND）	ネットワーク解析・パス計算・ネットワーク比較・ネットワーク予測・細胞シミュレーション・パスウェイ工学・演繹データベース	グラフ比較アルゴリズム・同型グラフ（クリーク）・相関クラスターグラフ特徴抽出アルゴリズム・準完全サブグラフ・ハブ、オーソリティグラフ計算アルゴリズム
ネットワーク（相互作用の集合）	パスウェイデータベース・代謝系／制御系（KEGG）