ゲノムネットのデータベース利用法[第2版]より(一部修正)

ゲノムネットのデータベースサービス概要

京都大学化学研究所  金久 實 


1 ゲノムネットとは

バイオテクノロジーの進歩に裏付けされて発足したヒトゲノム解析計画は、さら に新たな技術革新をもたらし、加速度的に大量の配列データを産み出しています。 それに伴い分子・細胞レベルでの生命現象に関する基礎データから、病気の診断・治療 への可能性を示す応用データまで、さまざまな生物的なデータが急速に蓄積されつつ あります。生物学はかつて直面したことのない大量情報の時代に入ったのです。 1991年度より開始された文部省ヒトゲノムプログラムの下で、京都大学化学研究所と 東京大学医科学研究所ヒトゲノム解析センターの研究スタッフは、生物学の新展開に 対応するためには情報インフラストラクチャーの整備が不可欠であるとの認識から、 ゲノムネット(GenomeNet)と名づけたコンピュータネットワークの構築と運用を行って きました。 ゲノムネットは国内で他のネットワークと相互乗り入れをしているだけで はなく、世界中のネットワークをつなぐインターネットの一部でもあります。
しかし、ゲノムネットは単なる通信の手段ではありません。生物学の分野では文献情報 の他に、ゲノムの地図と塩基配列、タンパク質のアミノ酸配列と立体構造、代謝系や 制御系の分子ネットワーク、神経系や免疫系における細胞のネットワーク、そして 発生・分化・老化や疾病に関する個体レベルのデータなど、多種多様なデータが世界中 でデータベース化されています。これらは相互に深く関連し、また頻繁に更新され、 さらにテキストだけでなく、イメージ、グラフィックス、動画などを用いた マルチメディアデータベースです。ゲノムネットでは既存の主要なデータベースの ネットワーク利用環境を構築すると同時に、バイオサイエンスの進歩に対応した 新しいデータベースシステムの開発と実用化を行っています。 このようにゲノムネットは、生物学の基礎研究から医学・薬学・農学・工学の応用研究 まで、さらには教育現場や一般社会での利用も含めて、多様なデータベースをそれぞれ が統合して利用できる環境作りを目指した情報サービス網なのです。

2 ゲノムネットのデータベースサービスとは

ゲノムネットのデータベースサービスは、インターネットを通じて誰でも自由に利用 できるサービスです。いくつかの利用方法がありますが、最も使いやすく、また機能も 豊富なのが、WWW (World Wide Web) による利用です。WWW とは、ハイパーリンクと マルチメディアを大きな特色とするインターネット情報検索網で、とくに強調表示 されたところをマウスでクリックしていくだけで、関連情報を次々に得ることができる ハイパーリンクの考え方が、WWW の爆発的な普及につながりました。 インターネットに接続されたマシンに Netscape Navigator や Internet Explorer と いったブラウザがインストールされていれば、すぐに利用できる手軽さも普及の 要因でしょう。ゲノムネット WWW サーバーのホームページのアドレスは、 英語版と日本語版がそれぞれ

      http://www.genome.ad.jp/
      http://www.genome.ad.jp/Japanese/

です。
ところで、WWW はクライアント・サーバーと呼ばれる利用形態の一種で、 自分のマシンに クライアントプログラム(Web のブラウザ)を入れておくと、これはネットワーク上の サーバーマシンと必要なときに必要なデータのやりとりをしてくれます。 さらに、最近の Web ブラウザはエージェントと呼ばれる形に進化しており、 データのやりとりだけでなく、Java などで書かれたプログラムがサーバーから 送られて、クライアントでプログラムが実行されるようになってきました。 ゲノムネットでも、このようなネットワーク技術の進歩をいち早く取り入れ、 データの可視化やグラフィックス処理などに Javaが活用されています。 ただし、Java を必要としない利用形態も同時に提供していますので、お手元の マシンの性能やネットワーク回線の状況により選択してください。
WWW 以外にも、ゲノムネットの利用方法として次の3つがあります。

ゲノムネット WWW サーバーを中心に、現在ゲノムネットで提供されている データベースサービスは大きく分けて以下の5種類があります。
  1. DBGET/LinkDB 統合データベース検索システム(2章)
    世界中の主要な分子生物学関連データベースの統合検索を行う DBGET システムと、 検索されたデータから出発して関連するさまざまな情報をさらに検索するための LinkDB システムが一体化されたものです。いずれも京都大学化学研究所で開発されました。 WWW だけでなく、専用クライアント、電子メールでの利用も可能です。

  2. KEGG 遺伝子・ゲノム百科事典(3章)
    代謝系・制御系をはじめとした生体内の分子ネットワークをコンピュータ化し、 ゲノムプロジェクトがもたらす遺伝子カタログとの対応付けを行った知識ベースです。 各生物種を遺伝子の集合とみなしたデータベース構築も行っており、 概念的にも機能的にも DBGET/LinkDB と密接につながっています。 KEGG はゲノム情報を基に生物学の知識を体系化することを目指した、 京都大学化学研究所のプロジェクトです。

  3. 日本のゲノム関連データベース(4章)
    東京大学医科学研究所ヒトゲノム解析センターが作成しているデータベースを中心に、 わが国で行われているゲノムプロジェクトの成果としてのデータベースを集めたもの です。バクテリアからヒトまでさまざまな生物種で、またゲノム塩基配列 、cDNA データ、 変異データなどのデータに対して、データベース化が行われています。

  4. 配列解釈ツール(5、6、7、8章)
    ホモロジー検索、モチーフ検索、マルチプルアライメント、タンパク質の機能予測、 遺伝子領域予測など、配列データから機能的な手がかりを探るためのツール群です。 欧米で開発された BLAST, FASTA など標準的なもの以外に、わが国のゲノム情報 研究者によって開発された新しいソフトウェアが次々と提供されています。 ほとんどは WWW で利用しますが、計算時間のかかるものは電子メールで利用 してください。

  5. アノニマス FTP
    これまでヒトゲノム解析センターは、マッピングやシーケンシングなどに関するゲノム プロジェクトの実験支援システムも開発してきました。これらはアノニマス FTP で 公開されており、自由にダウンロードして利用することができます。他にも、 わが国のゲノム情報研究者が開発したプログラムやデータベースの提供、 米国 NCBI と英国 EBI のアノニマス FTP サイトのミラー(常に同じ内容を 提供すること)も行われています。

本書ではこれらの利用法の説明のほかに、9章で米国 NCBI (National Center for Biotechnology Information) が提供する Entrez システムの紹介も行っています。 これは PubMed システムを含んでおり、ゲノムネットにない膨大な文献データベース の検索機能があります。PubMed では Medline データベースの全データを検索できる だけでなく、出版社にもリンクがはられて論文の全文を見ることができたりします。 また、10章では GCG と呼ばれる配列解析用ソフトウェアパッケージの簡単な紹介も しています。これはヒトゲノム解析センター計算機システムの利用登録をされた方 しか利用できませんが、登録自体は幅広い方々に開放されています。

3 リンク情報の概念

ゲノムネットのデータベース利用で最も基本となるのは、DBGET 統合データベース 検索システムです。DBGET では、データベースはエントリーと呼ぶ単位が 集まった単純なファイル(フラットファイル)として取り扱われます。ただし、 フラットファイルといっても単にテキストファイルだけでなく、パスウェイを グラフィカルに表示したイメージファイルなど、マルチメディアファイルでも 構いません。既存の分子生物学関連データベースの ほとんどはこのような単純な見方で眺めることができ、各エントリーには エントリー名(またはアクセッション番号)というデータベース内でユニークな 名前がつけられていますので、

      データベース名:エントリー名

の組を与えると、世界中に存在する数多くのデータベースを統合的に参照することが できるわけです。
近年、分子生物学の分野では異なるデータベースに関連するデータがあれば、 相互参照をすることが一般的になっています。文献データと文献に報告され た配列データとの関連、塩基配列とそれを翻訳したアミノ酸配列の関連をはじめ、 異なるデータベースのエントリーへリンク情報を付加してデータベース化が 行われています。この関連は

      データベース名1:エントリー名1 → データベース名2:エントリー名2

の形で表現され、これを2項関係と呼ぶことにします。ゲノムネットでは、あらゆる データベース間の2項関係だけを抜き出した LinkDB リンク情報データベースを 作っています。LinkDB では、2項関係を演繹して(組み合わせたり、逆向きにた どったりして)新たな2項関係を作ることにより、多くの関連データを容易に見いだ せるようになっています。
これまでの塩基配列データベースやアミノ酸配列データベースは、文献などに 公表された配列を単位としてアクセッション番号が付与され、エントリーが 構成されてきました。これに対して、京都大学化学研究所で作成している KEGG の 遺伝子カタログでは、生物的な単位をエントリーとしてデータベース化が 行われています。つまり、1つの生物種とは遺伝子の集合で構成されるデータベース であるとみなし、

      生物種名:遺伝子名

によって、個々の遺伝子または遺伝子産物を参照します。コンピュータにとっては、 遺伝子カタログも1つのフラットファイルデータベースに過ぎませんので、 やはり DBGET で統合的に検索することができるわけです。 また、2項関係についても 生物学的な観点から拡張し、遺伝子間または分子間の関係すなわち相互作用を、

      生物種名:遺伝子名1 → 生物種名:遺伝子名2

といった形で表現すると、LinkDB に自然に組み込むことができます。 KEGG ではこのような生物的な2項関係を基に、さらに高次の関係、すなわち 代謝パスウェイや制御パスウェイなど生命系のネットワークを コンピュータ化しているのです。
さらに別のタイプのリンク情報として、 計算で求める類似なものへのリンクがあります。 実際、Entrez では類似配列や類似文献(キーワードなど似たものが多く含まれる 文献)をあらかじめ計算で求め、リンクがつけてあります。 ゲノムネットの LinkDB では、類似配列へのリンクはダイナミックにつけられます。 つまり、与えられた配列エントリーの類似エントリーを、その場で BLAST を起動して 求めるのです。
以上のようなリンク情報は、WWW のハイパーリンクの考え方にまさにうってつけで、 ゲノムネット WWW サーバーでも、ハイパーリンクをたどることにより自然に さまざまなリンク情報を利用することができるようになっています。では、WWW の もう1つのキーワードであるマルチメディアは、ゲノムネットではどのように なっているでしょうか。

4 グラフィックスの利用

ゲノムネットのデータベースは、単にテキストデータだけでなく、マルチメディア のデータ、とくにグラフィックスを積極的に利用する方向に進んでいます。 これは、Web のブラウザにプラグインを入れたり、ヘルパーアプリケーションを連動 しておくことにより、簡単にマルチメディア化ができるようになってきたからです。 しかも、プラグインやヘルパーは高性能のものが自由に取得できますので、 各ユーザーが標準装備していることを前提としたサービスが可能なのです。 現在ゲノムネットでは、表 1.1に示したように、PDB の立体構造 データと COMPOUND の化学構造式を、RasMol や ISIS/Draw といったヘルパーか、 Chime といったプラグインを使うことによりグラフィックス操作することができます。

表1.1 ゲノムネットデータベースのマルチメディア化

データの内容データベース名メディア

塩基配列 GenBank(DDBJを含む), EMBL テキスト
アミノ酸配列 SwissProt, PIR, PRF, PDBSTRテキスト
立体構造 PDBテキスト、三次元グラフィックス
配列モチーフEPD, TRANSFAC, PROSITEテキスト、三次元グラフィックス
酵素反応LIGAND/ENZYMEテキスト、階層型テキスト
代謝化合物LIGAND/COMPOUNDテキスト、イメージ、二次元グラフィックス
パスウェイマップKEGG/PATHWAYイメージ、Javaグラフィックス
ゲノムマップKEGG/GENOMEイメージ、Javaグラフィックス
遺伝子カタログKEGG/GENESテキスト、階層型テキスト
変異タンパク質PMDテキスト
アミノ酸指標AAindexテキスト
遺伝病OMIMテキスト
文献(タンパク質)LITDBテキスト
文献(医学・生物学)Medlineテキスト
リンク情報LinkDBテキスト

また、KEGG のパスウェイマップやゲノムマップでは Java を使って独自の グラフィックス化が行われています。これも、Java をサポートする Web ブラウザ の普及に対応したものですが、一方、Java の利用環境はユーザーのマシンの性能 に大きく依存しますので、Java を使わないサービスも行っています。つまり、 サーバー側でグラフィックス処理をして、例えばパスウェイマップの検索結果に 色づけをしたりして、その結果のイメージファイルをユーザー側に転送しています。 なお、表にある階層型テキストとは、フラットファイルデータベース中のエントリー の階層分類を操作するためのデータ表現です。詳しくは3章をご覧ください。

5 基本的な検索システム

ゲノムネットの主要なサービスは、ほとんど前述のホームページからたどることが できますが、ここではよく使われるおもな検索システムとそのアドレスをまとめて おきます。簡単なキーワード検索とエントリーの取得、さらに関連情報の検索を目的と した DBGET/LinkDB、配列データベースのホモロジー検索システム BLAST と FASTA、 そしてモチーフ検索システム MOTIF のアドレスはそれぞれ、

      http://www.genome.ad.jp/dbget/dbget.html
      http://www.blast.genome.ad.jp/
      http://www.fasta.genome.ad.jp/
      http://www.motif.genome.ad.jp/

です。BLAST, FASTA, MOTIF の検索結果はすべて DBGET/LinkDB につながって いますので、 さまざまなデータベースを参照して検索結果の解釈をすることができます。
一方、遺伝子・ゲノム百科事典 KEGG のホームページは

      http://www.genome.ad.jp/kegg/

です。いつも利用しているユーザーにとっては、百科事典の目次のページ

      http://www.genome.ad.jp/kegg/kegg2.html

から入ったほうが手っ取り早いでしょう。KEGG も DBGET/LinkDB と密接につながって おり、KEGG の新しい知識ベースが既存のデータベースと統合されています。
ゲノムネットのデータベースサービスでは、それぞれのシステムが相互に深く 関連していますので、全体像が見渡せるページが準備されています。 グラフィカルなクリッカブルマップである DBGET/LinkDB/KEGG リンク図と、 DBGET/LinkDB/BLAST/FASTA へ入るテーブル形式の IDEAS インターフェース

      http://www.genome.ad.jp/dbget/dbget.links.html
      http://www.genome.ad.jp/ideas/ideas.html

をご利用ください。 これらのシステムがサポートしているデータベースの一覧は表1.2に、生物種の一覧は表1.3に示した通りです (1997年12月現在)。

表1.2 各システムがサポートしているデータベース

システム名 データベース名

DBGETdna, protein, genbank, embl, swissprot, pir, prf, pdb, pdbstr, epd, transfac,
prosite,ligand, pathway, genes, omim, pmd, aaindex,litdb, medline
LinkDBlinkdb
KEGGligand, pathway, genes, genome
BLASTnr-nt, genbank, genbank-upd, dbest, embl, embl-upd, epd,nr-aa,
swissprot, swissprot-upd, pir, prf, genpept, genpept-upd, genes
FASTAnr-nt, genbank, genbank-upd, genbank/subdivisions, dbest, embl,
embl-upd,embl/subdivisions, epd, nr-aa, swissprot, swissprot-upd, pir,
prf, pdbstr,genpept, genpept-upd, genes
MOTIFprosite

表1.3KEGG/DBGET/LinkDB がサポートしている生物種

カテゴリー生物種

古細菌M.jannaschii, M.thermoautotrophicum, A.flugidus
グラム陰性菌E.coli, H.influenzae, H.pylori, S.typhimurium
グラム陽性菌B.subtilis, S.aureus, M.genitalium, M.pneumoniae
藍藻Synechocystis
菌類D.discoideum, S.cerevisiae, C.albicans, S.pombe
高等植物A.thaliana, O.sativa, Z.mays
線虫類C.elegans
昆虫類D.melanogaster
齧歯類M.musculus
ヒトH.sapiens (Human disease genes)

また、ゲノムネットでは DBGET/LinkDB や KEGG を使って特定のデータを取得する ための URL(WWW のアドレス)を、公式なものとして公開しています。 例えば、DBGET で特定データベースの特定エントリーを取得するには

      http://www.genome.ad.jp/dbget-bin/www_bget?DBname+Accession

としてください。ここで、DBname と Accession が、データベース名と エントリー名(アクセッション番号)です。これは、ユーザー側の Web の リソースにゲノムネットのリソースを組み込む場合に便利です。他の URL は、

      http://www.genome.ad.jp/dbget/dbget_url.html

をご覧ください。
ホモロジー検索は Web から電子メール検索の要求もできますが、 直接電子メールを書いて利用することもできます。その場合の電子メールアドレスは

      blast@genome.ad.jp
      fasta@genome.ad.jp

です。本文に help とだけ書いたメールを送ると、利用法が返送されます。 また、KEGG のパスウェイ検索も

      pathway@genome.ad.jp

宛の電子メールで行なうことができます。
DBGET/LinkDB は専用のクライアントプログラム NetDBget で利用することも できます。NetDBget はアノニマス FTP で以下のアドレスから取得してください。

      ftp://ftp.genome.ad.jp/pub/genomenet/netdbget/

NetDBget がインストールされていると、UNIX のコマンドとして bget や bfind など を利用することができますので、スクリプトを書いて一括処理をするときなどに最適 です。bget ではデータベース名とエントリー名(またはアクセッション番号)を 指定して目的のエントリーを取ることができます。bfind では簡単なキーワードを与えると、 それにマッチするエントリー名のリストを返します。詳しくは2章をご覧ください。

6 データベースサービスの一覧

京都大学化学研究所と東京大学医科学研究所ヒトゲノム解析センター(HGC)が提供する ゲノムネットデータベースサービス(1997年12月現在)をまとめた一覧を掲載します。

6.1 基本サービス

6.1.1 利用可能なデータベース


データベース内容 作成者

*DNAすべての塩基配列 (GenBank + EMBL)
*Proteinすべてのアミノ酸配列(SwissProt + PIR + PRF + PDBSTR)
*nr-nt重複を除いた塩基配列(GenBank, EMBL から作成)
*nr-aa重複を除いたアミノ酸配列 (SwissProt, PIR, PRF, GenPeptから作成)
*GenBank核酸塩基配列(DDBJを含む)米国NCBI、国立遺伝学研究所
*EMBL核酸塩基配列欧州EBI
*SwissProtタンパク質アミノ酸配列ジュネーブ大学、EBI
PIRタンパク質アミノ酸配列ジョージタウン大学
PRFタンパク質アミノ酸配列蛋白質研究奨励会
*PDBタンパク質などの立体構造ブルックヘブン国立研究所
*PDBSTRPDBアミノ酸配列京都大学化学研究所
EPD真核生物プロモータースイスがん研究所
TRANSFAC転写因子ドイツバイオテクノロジー所
PROSITEタンパク質配列モチーフジュネーブ大学
*LIGAND酵素反応化合物京都大学化学研究所
*PATHWAYKEGGパスウェイマップ京都大学化学研究所
GENOMEKEGGゲノムマップ京都大学化学研究所
GENESKEGG遺伝子カタログ京都大学化学研究所
*OMIM遺伝病ジョンズホプキンス大学
PMD変異タンパク質蛋白工学研究所
AAindexアミノ酸指標京都大学化学研究所
LITDBタンパク質関連文献蛋白質研究奨励会
*Medline医学・生物学文献(リンクのみ)米国国立医学図書館
*LinkDBリンク情報京都大学化学研究所

*日々更新データベース

6.1.2 利用可能な検索システム


システム内容利用形態作成者

DBGET/LinkDB統合データベース検索WWW,Client,E-mail 京大化研
KEGG遺伝子・ゲノム百科事典 WWW,FTP,CD京大化研
PATHWAYパスウェイ検索WWW,E-mail京大化研
BLASTホモロジー検索WWW,E-mailNCBI
FASTAホモロジー検索WWW,E-mailW.Pearson
MOTIFタンパク質モチーフ検索WWW京大化研,基生研

6.2 新しいデータベースと解析ツール

6.2.1 日本のゲノム関連データベース(WWW)


システム内容作成者

BSORFBacillus subtilis ゲノムデータベースHGC,奈良先端大学
E.coli DatabankEscherichia coli ゲノムデータベース奈良先端大学
CyanoBaseSynechocystis sp. ゲノムデータベースかずさDNA研究所
MBGD微生物ゲノムデータベースHGC
DictycDB細胞性粘菌cDNAデータベース粘菌グループ
NEXTDB線虫遺伝子発現パターンデータベース国立遺伝学研究所
CHR2121番染色体シーケンスマップHGC
JSTJSTヒトゲノムシーケンシングデータベース科学技術振興事業団
BodyMapヒト遺伝子発現データベース大阪大学
GENOTKヒトcDNAデータベース大塚製薬, HGC
p53MDBp53変異データベースHGC
SPADシグナルパスウェイデータベース九州大学

6.2.2 基本サービス以外の解析ツール(WWW)


システム内容作成者

TFSEARCH転写因子結合部位検索新情報処理開発機構
CLUSTALWマルチプルアライメントD.G.Higgins et al.
PSORTタンパク質局在部位予測大阪大学
SOSUI膜貫通部位予測東京農工大学
ER遺伝子領域予測HGC
GRAIL遺伝子領域予測E.Uberbacher et al.

6.2.3 ヒトゲノム解析センター開発の配布用システム(FTP)

システム 内容動作環境

Locus-inマッピングデータ入力と統合マップ作成Sun などの WS(X11)
ContigMakerコンティグ地図作成 Unix(X11+Motif)
SANDNested Deletion 法による配列結合編集システムUnix(X11+Motif)
Genomatica染色体上の物理位置に基づき DNA 配列を整理Sun(X11)
HyperGenome染色体地図と配列情報を統合Sun(OpenLook/X11)
Gnomeネットワークを利用した配列解析支援システムSun, Macintosh
SMART配列モチーフ検索・解析ツールSun
Gidreデータベース統合化環境構築システムSun(X11+Motif)

6.3 アドレス一覧

6.3.1 WWW


サーバーアドレス

GenomeNethttp://www.genome.ad.jp/
KEGGhttp://www.genome.ad.jp/kegg/
BSORFhttp://bacillus.genome.ad.jp/
MBGDhttp://mbgd.genome.ad.jp/
GENOTKhttp://genotk.genome.ad.jp/
p53MDBhttp://p53.genome.ad.jp/
CLUEhttp://clue.genome.ad.jp/

6.3.2 電子メール


サーバーアドレスプログラム

DBGETdbget@genome.ad.jpget,find
BLASTblast@genome.ad.jpblastn,blastp,tblastn,blastx,tblastx
FASTAfasta@genome.ad.jpfasta,tfasta
PATHWAYpathway@genome.ad.jpecpoint, cpd-point, gene-point

6.3.3 Anonymous FTP


サーバーアドレスユーザー名パスワード

HGCftp.genome.ad.jpanonymous または ftp自分のメールアドレス
KEGGkegg.genome.ad.jpanonymous または ftp自分のメールアドレス

ゲノムネットのデータベース利用に関するお問い合わせは、下記までお願いします。

東京大学医科学研究所ヒトゲノム解析センター
〒108 東京都港区白金台4-6-1
Tel: 03-5449-5620 Fax: 03-5449-5434
E-mail: info@genome.ad.jp