ゲノムネットのデータベース利用法[第3版]第1章

ゲノムネットの概要


1.1 ゲノムネットとは

 1991年度に発足した当時の文部省ヒト・ゲノムプログラムでは、生命の基本データであるゲノムを解読することにより、細胞、個体、生態系といった異なるレベルでの生命現象の理解と、医学、薬学、農学等の分野への応用を目指した研究が開始されました。そして、ゲノムを基盤とした新しい生命科学研究を推進するには、情報インフラストラクチャーの整備が不可欠であるとの認識から、京都大学化学研究所と東京大学医科学研究所を中心に、ゲノムネット(GenomeNet)と名づけたコンピュータネットワークの構築とデータベースサービスの運用が始まりました。インターネットの普及とともにネットワーク構築の必要性はなくなり、現在ではゲノムネットとは京都大学化学研究所バイオインフォマティクスセンターが提供するデータベースサービスを意味しています。  ゲノムネットでは、当初は我が国のインフラストラクチャー整備、すなわち既存の分子生物学データベースを統合的に利用できる環境を提供することに重点があり、そのためDBGET検索システムとそのWeb版を開発・運用してきました。分子生物学の分野では文献情報の他に、核酸の塩基配列、タンパク質のアミノ酸配列と立体構造、それに配列モチーフなど、すでに世界中で標準的なデータベースが作られていたからです。一方、ゲノムを基盤とした新しい生命科学研究には、高次の生命システムの機能情報に関するデータベースが必須であるとの認識から、1995年に京都大学化学研究所でKEGGと名づけた新しいデータベースプロジェクトが開始されました。KEGGはしだいにゲノムネットの中心システムとなり、同時にゲノムネットは海外からの利用者比率が8〜9割にも達する国際的なバイオ情報サービスとなっています。

1.2 ゲノムネットサービスの概要

 ゲノムネットは以下のホームページアドレスから誰でも自由に利用することができます。

サービス本体はすべて英語ですが、紹介の部分を日本語化したページが にあります。また、KEGGをはじめとしたゲノムネット独自のデータベースはアノニマスFTPにより からダウンロードして利用することもできます。

 ゲノムネットが提供するサービスは大きく以下の3つに分けることができます。本書ではKEGGなど新しいゲノムネットサービスを中心に紹介しますが、従来型の分子生物学データベースの利用法も最初にとりあげます。

  1. KEGG 生命システム情報統合データベース(6〜11章)

  2. KEGG (Kyoto Encyclopedia of Genes and Genomes) は、細胞機能を司る分子間相互作用ネットワークに関する知識(プロテインネットワーク)をレファレンスとして、ゲノム解析がもたらす遺伝子やタンパク質の情報(遺伝子ユニバース)、ならびに化合物と化学反応の情報(ケミカルユニバース)を統合解析することにより、ゲノムから細胞・個体レベルでの生命システムの機能と有用性を見いだすためのシステムです。KEGGは京都大学化学研究所バイオインフォマティクスセンターが開発しています。

  3. DBGET分子生物学データベース検索システム(2章)

  4. DBGETは世界中の主要な分子生物学関連データベースを統合的に検索するシステムです。各データベースはエントリーの集合とみなし、データベース名とエントリー名のペアで特定のデータベースの特定のエントリーにアクセスすることができます。また、データベース間のリンク情報を演繹して利用し、あるデータベースのエントリーに関連する他データベースのエントリーを網羅的に見いだすことができます。DBGETは京都大学化学研究所バイオインフォマティクスセンターが開発しています。

  5. SIT配列解釈ツール(3〜5章)

  6. ホモロジー検索、モチーフ検索、マルチプルアライメント、タンパク質の機能予測など、配列データから機能的な手がかりを探るためのツール群です。 欧米で開発されたBLAST、FASTA、CLUSTALWなど標準的なもの以外に、京大バイオインフォマティクスセンターが開発したMOTIF、その他わが国の研究者によって開発されたPOSRT、SOSUIなどが提供されています。SIT配列解釈ツールのレパートリーは、世界中の他のサイトと比較して必ずしも充実しているとはいえませんので、本書では他サイトの紹介も含めています。

1.3 DBGETの基本概念:分子生物学データのウェブ

 DBGETはゲノムネットのバックボーンとなる検索システムです。そこではデータベースはエントリーと呼ぶ単位の集合として取り扱われます。既存の分子生物学関連データベースのほとんどは、このような単純な見方で(すなわち、フラットファイルとして)眺めることができます。各エントリーにはエントリー名(またはアクセッション番号)というデータベース内でユニークな名前がつけられていますので、

の組を与えると、世界中に存在する数多くのデータベースを統合的に参照することができるわけです。また、KEGGでは1つの生物種を遺伝子の集合とみなし、つまり遺伝子のエントリーが集まったデータベースとみなし、 により、各生物種の遺伝子またはタンパク質(遺伝子産物)を、やはり DBGET で統合的に検索することができます。  分子生物学の分野では異なるデータベースに関連するデータがあれば、それにリンクを付加してデータベース化が行われています。文献データと文献に報告された配列データとの関連、塩基配列とそれを翻訳したアミノ酸配列の関連などが代表例です。このリンク情報は といった形の2項関係で表現されます。DBGET では LinkDB と呼ぶ2項関係だけのデータベースをもっており、2項関係を演繹して(組み合わせたり、逆向きにたどったりして)新たな2項関係を作ることにより、多くの関連データを容易に見いだせるようになっています。また、リンクはゲノムネットの外のデータベースにも多数つけられており、より専門的なデータベースで細かな情報を調べることができるようになっています。

 このようにDBGETシステムが取り扱うのは、多数のデータベースのエントリーの集合とそれらの間のリンク情報の集合です。これを分子生物学データのウェブと呼ぶことにしましょう。WWW (World Wide Web) がページをノードとし、ハイパーリンクをエッジとした膨大なグラフであるのと同様に、分子生物学データのウェブはエントリーをノード(頂点)とし、リンク情報をエッジ(辺)としたグラフとみなすことができます。ここでグラフとは数学的な概念で、図1.1に示したように、ノードとエッジの集合、または2項関係の集合のことです。次に述べるようにKEGGのデータオブジェクトはすべてグラフで表現されています(表1.1参照)。


表1.1 グラフで表現されたゲノムネットのデータオブジェクト

グラフ ノード エッジ
WWW ページ ハイパーリンク
DBGETにおける分子生物学データ
のウェブ
エントリー リンク情報
KEGGの遺伝子ユニバース 遺伝子 遺伝子間の関係(染色体上の隣接関係、
配列類似関係、共発現関係、他)
KEGGのプロテインネットワーク タンパク質 一般化されたタンパク質間相互作用
KEGGのケミカルユニバース 化合物 化学反応

1.4 KEGGの基本概念:遺伝子のウェブと分子間相互作用ネットワーク

1.4.1 遺伝子ユニバース

 システマティックな配列決定により、2002年6月現在約90の生物種の全ゲノム配列が決定され、これらに含まれる遺伝子の数は約350万に達しています。KEGGの遺伝子ユニバースとは、この350万遺伝子をノードとし、それらの間の様々な関連を様々なタイプのエッジとした膨大なグラフのことです。遺伝子のウェブと言ってもいいでしょう。様々な関連とは、例えば配列類似性、オーソログ・パラログ等の進化的関連、マイクロアレイ発現プロフィール解析で得られる共発現の関係、酵母2ハイブリッドシステムその他の実験で得られるタンパク質(遺伝子産物)としての相互作用関係などです。このグラフの一部分(サブグラフ)が例えばヒトを構成する遺伝子群であり、あるいは生物種間で保存され共通のはたらきを司るオーソログ遺伝子群になるわけです。遺伝子ユニバースの情報は遺伝子カタログデータベースGENESや配列類似関係データベースSSDBなど表1.2に示したデータベースに蓄積されています。上に述べた通り、遺伝子ユニバースの各ノードは生物種名と遺伝子名(またはアクセッション番号)のペアで指定され、各エッジは

の2項関係に対応しています。GENEはノードの集合、SSDBは2項関係の集合です。

 今後、全塩基配列が決定されたゲノムの数が増加するとともに、KEGGの遺伝子ユニバースに含まれるノードとエッジの数は飛躍的に増大していきます。しかしながら、生物種間で共通の遺伝子(オーソログ遺伝子)および共通の遺伝子ファミリー(パラログ遺伝子群のオーソログ関係)の数はそれほど増えないだろうとの期待があります。これらの遺伝子群をひとまとめにして新たなノード(サブグラフをノードにするのでコンパウンドノードあるいはネステッドノードともいいます)としたグラフを考えてみると、遺伝子ユニバースを低解像度で眺めたことになり、世界地図のような全体像が得られることになります。KEGGではこのような共通遺伝子群にKO (KEGG Orthology) とよぶアクセッション番号をつけています。生物種を越えた共通遺伝子群および共通遺伝子ファミリー群であるKOのユニバースが、生命現象を司る基本遺伝子セットになると考えられます。

表1.2.KEGGを構成するデータベース

グラフ データベース 内容 ソース
遺伝子
ユニバース
GENES 全塩基配列が決定されたゲノムの遺伝子カタログ情報 GenBank、RefSeq等より自動変換後、KEGG独自のアノテーションを付加
GENOME 染色体地図に関する情報
SSDB 全塩基配列が決定されたすべての生物種のすべての遺伝子間の配列類似情報 GENESを用いてゲノム比較をSSEARCHで計算
EXPRESSION マイクロアレイによる遺伝子発現情報 我が国の研究コミュニティからの登録データ
BRITE 遺伝子またはタンパク質の2項関係データ 酵母2ハイブリッドシステムなどで、文献等に公表されたデータ
プロテイン
ネットワーク
PATHWAY タンパク質間相互作用ネットワークとして表現された細胞機能の知識 文献等から手作業で入力
ケミカル
ユニバース
LIGAND 化学物質と化学反応に関する情報 文献等から手作業で入力

1.4.2 プロテインネットワーク

 一方、KEGGのプロテインネットワークとは、細胞レベルでの生命現象を司る分子間相互作用ネットワークを、その主役であるタンパク質(厳密にはRNAを含むので遺伝子産物)のネットワークとして抽象化したものです。具体的には、代謝系や様々な制御系に関与するパスウェイ情報と、細胞の様々なプロセッシングに関与する分子複合体(コンプレックス)情報が、タンパク質をノードとし、タンパク質間の直接的および間接的な相互作用をエッジとしたグラフとして表現されています。つまり、これまで分子・細胞生物学、生化学、遺伝学などの実験で得られた広範な知識を、計算可能な形に表現したのがKEGGのプロテインネットワークです。このコンピュータ化の作業はすべて人手で行い、PATHWAYデータベースとして集大成されています。プロテインネットワークは低解像度から高解像度まで3段階の地図に相当する階層構造をしており、トップレベルは代謝、遺伝情報処理、環境情報処理、細胞プロセス、ヒトの病気の5つに分類されています。

 プロテインネットワークも究極的には膨大なグラフになるはずですが、現時点での我々の知識は非常に限られています。KEGGの最大の目的は、ゲノム解析やプロテオーム解析から得られるデータ、すなわち遺伝子ユニバース(あるいはKOのユニバース)から新たなパスウェイやコンプレックスを予測して、既知のプロテインネットワークを広げていくことです。

1.4.3 ケミカルユニバース

 ゲノムやプロテオームの情報を解読する際、もう1つの重要な手掛かりが、環境情報としての化学情報です。KEGGでは生体内の化学反応系および生体と相互作用する化学反応系を表現するために、生命現象に関与するあらゆる化合物をノードとし、それらの間の反応性をエッジとしたグラフを考え、これをケミカルユニバースと呼んでいます。ケミカルユニバースの情報は、これも現時点では非常に限られたものですが、LIGANDデータベースに蓄積されています。

 代謝系のプロテインネットワークは酵素をノードとし、連続した化学反応を触媒する2つの酵素間にエッジがあるとみなしています。つまり最初の反応の生成物で同時に次の反応の基質である化合物が、エッジの情報になっています。ケミカルユニバースは逆に化合物がノードで反応(酵素)がエッジです。すなわち、プロテインネットワークとケミカルユニバースはノードとエッジの関係を入れ替えたグラフになっているわけで、この観点から両者を統合的に解析することができます。

1.5 ゲノムネットサービス一覧

 ゲノムネットが提供している主なデータベースと各種サービスの一覧(2002年12月現在)は以下の通りです。

1.5.1 利用可能な主なデータベース


データベース 内容 作成者

*DNA (GenBank+EMBLの複合データベース)
*Protein (SwissProt+PIR+PRF+PDBSTRの複合データベース)
*nr-nt 重複を除いた塩基配列 (GenBank, EMBL から作成)
*nr-aa 重複を除いたアミノ酸配列 (SwissProt, PIR, PRF, GenPeptから作成)
*RefSeq 核酸塩基配列 米国NCBIのRefSeqプロジェクト
*GenBank 核酸塩基配列(DDBJを含む) 米国NCBI、国立遺伝学研究所
*EMBL 核酸塩基配列 欧州EBI
*SwissProt タンパク質アミノ酸配列 スイスSIB、欧州EBI
PIR タンパク質アミノ酸配列 米国NBRF
PRF タンパク質アミノ酸配列 蛋白質研究奨励会
*PDB タンパク質等立体構造 米国RCSB
*PDBSTR PDBアミノ酸配列 (PDBから作成)
EPD 真核生物プロモーター スイスISREC
TRANSFAC 転写因子 ドイツGBF
MotifDic (PROSITE+BLOCKS+PRINTS+ProDom+Pfamの複合データベース)
PROSITE タンパク質配列モチーフ スイスSIB
BLOCKS タンパク質配列モチーフ Fred Hutchinson Cander Res. Ctr.
PRINTS タンパク質配列モチーフ University College London
ProDom タンパク質配列モチーフ フランスINRA
Pfam タンパク質配列モチーフ Wash.U.St.Louis & Sanger Ctr.
*LIGAND (COMPOUND+REACTION+ENZYMEの複合データベース)
*COMPOUND 生体に関与する化合物 京都大学化学研究所
*REACTION 生体に関与する化学反応 京都大学化学研究所
ENZYME 酵素反応とその分類 IUBMB, 京都大学化学研究所
*PATHWAY KEGGパスウェイマップ 京都大学化学研究所
*GENES KEGG遺伝子カタログ 京都大学化学研究所
GENOME KEGGゲノムカタログ 京都大学化学研究所
*SSDB GENESの配列類似関係 京都大学化学研究所
EXPRESSION マイクロアレイによる遺伝子発現プロフィール 京都大学化学研究所
BRITE 分子間相互作用 京都大学化学研究所
*OMIM 遺伝病 ジョンズホプキンス大学, NCBI
PMD 変異タンパク質 国立遺伝学研究所
AAindex アミノ酸指標 京都大学化学研究所
LITDB タンパク質関連文献 蛋白質研究奨励会
*Medline 医学・生物学文献(リンクのみ) NCBI, NLM
*LinkDB リンク情報 京都大学化学研究所

 *印がついているものは日々更新の対象となっているデータベースです。作成者のオリジナルサイトなど、詳しい情報はWeb (http://www.genome.ad.jp/Japanese/service_J.html) をご覧ください。

 上記のデータベースのうち、nr-ntとnr-aaはホモロジー検索でのみ利用できます。またSSDBとBRITEには専用のデータベースシステムがあります。これら以外はすべてDBGETで検索が可能です。また、KEGGを構成するデータベース(LIGANDからBRITEまで)はDBGET以外にKEGGシステムとして統合されています。COMPOUNDとREACTIONはISISデータベースとして管理されており、Chemscapeを通して部分構造検索などの利用もできます。

1.5.2 利用可能な主な検索・解析システム


システム 内容 アドレス 作成者

DBGET データベース統合検索 www.genome.ad.jp/dbget/ 京大化研 2章
STAG DBGET全文検索 stag.genome.ad.jp 北陸先端大 2章
BLAST ホモロジー検索 blast.genome.ad.jp NCBI 3章
FASTA ホモロジー検索 fasta.genome.ad.jp W.Pearson 3章
MOTIF タンパク質モチーフ検索 motif.genome.ad.jp 京大化研 4章
CLUSTALW マルチプルアライメント clustalw.genome.ad.jp D.Higgins 5章
KEGG パスウェイとゲノムの統合解析 www.genome.ad.jp/kegg/ 京大化研 6,7章
SSDB オーソログ、パラログの検索 ssdb.genome.ad.jp 京大化研 8章
LIGAND 化合物と化学反応の検索 www.genome.ad.jp/ligand/ 京大化研 9章
BSORF 枯草菌ゲノムデータベース bacillus.genome.ad.jp 奈良先端大 10章
CYORF らん藻ゲノムデータベース cyano.genome.ad.jp らん藻研究者 10章
EXPRESSION 発現プロフィール解析 www.genome.ad.jp/kegg/expression/ 京大化研 11章
BRITE 二項関係と推論 www.genome.ad.jp/brite/ 京大化研

 本書では上記の順番で、ゲノムネットサービスの主な検索・解析システムを説明していきます。なお5章では、タンパク質局在部位予測システムPSORT (http://psort.ims.u-tokyo.ac.jp/)、膜貫通部位予測システムSOSUI (http://sosui.proteome.bio.tuat.ac.jp/sosuimenu0.html) などリンクのみを提供するもの、ゲノムネットで全く提供していないものも含め、様々な配列解析システムを紹介します。