http://www.genome.ad.jp/
http://www.genome.ad.jp/Japanese/
です。
ところで、WWW はクライアント・サーバーと呼ばれる利用形態の一種で、
自分のマシンに
クライアントプログラム(Web のブラウザ)を入れておくと、これはネットワーク上の
サーバーマシンと必要なときに必要なデータのやりとりをしてくれます。
さらに、最近の Web ブラウザはエージェントと呼ばれる形に進化しており、
データのやりとりだけでなく、Java などで書かれたプログラムがサーバーから
送られて、クライアントでプログラムが実行されるようになってきました。
ゲノムネットでも、このようなネットワーク技術の進歩をいち早く取り入れ、
データの可視化やグラフィックス処理などに Javaが活用されています。
ただし、Java を必要としない利用形態も同時に提供していますので、お手元の
マシンの性能やネットワーク回線の状況により選択してください。
WWW 以外にも、ゲノムネットの利用方法として次の3つがあります。
本書ではこれらの利用法の説明のほかに、9章で米国 NCBI (National Center for Biotechnology Information) が提供する Entrez システムの紹介も行っています。 これは PubMed システムを含んでおり、ゲノムネットにない膨大な文献データベース の検索機能があります。PubMed では Medline データベースの全データを検索できる だけでなく、出版社にもリンクがはられて論文の全文を見ることができたりします。 また、10章では GCG と呼ばれる配列解析用ソフトウェアパッケージの簡単な紹介も しています。これはヒトゲノム解析センター計算機システムの利用登録をされた方 しか利用できませんが、登録自体は幅広い方々に開放されています。
ゲノムネットのデータベース利用で最も基本となるのは、DBGET 統合データベース 検索システムです。DBGET では、データベースはエントリーと呼ぶ単位が 集まった単純なファイル(フラットファイル)として取り扱われます。ただし、 フラットファイルといっても単にテキストファイルだけでなく、パスウェイを グラフィカルに表示したイメージファイルなど、マルチメディアファイルでも 構いません。既存の分子生物学関連データベースの ほとんどはこのような単純な見方で眺めることができ、各エントリーには エントリー名(またはアクセッション番号)というデータベース内でユニークな 名前がつけられていますので、
データベース名:エントリー名
の組を与えると、世界中に存在する数多くのデータベースを統合的に参照することが
できるわけです。
近年、分子生物学の分野では異なるデータベースに関連するデータがあれば、
相互参照をすることが一般的になっています。文献データと文献に報告され
た配列データとの関連、塩基配列とそれを翻訳したアミノ酸配列の関連をはじめ、
異なるデータベースのエントリーへリンク情報を付加してデータベース化が
行われています。この関連は
データベース名1:エントリー名1 → データベース名2:エントリー名2
の形で表現され、これを2項関係と呼ぶことにします。ゲノムネットでは、あらゆる
データベース間の2項関係だけを抜き出した LinkDB リンク情報データベースを
作っています。LinkDB では、2項関係を演繹して(組み合わせたり、逆向きにた
どったりして)新たな2項関係を作ることにより、多くの関連データを容易に見いだ
せるようになっています。
これまでの塩基配列データベースやアミノ酸配列データベースは、文献などに
公表された配列を単位としてアクセッション番号が付与され、エントリーが
構成されてきました。これに対して、京都大学化学研究所で作成している KEGG の
遺伝子カタログでは、生物的な単位をエントリーとしてデータベース化が
行われています。つまり、1つの生物種とは遺伝子の集合で構成されるデータベース
であるとみなし、
生物種名:遺伝子名
によって、個々の遺伝子または遺伝子産物を参照します。コンピュータにとっては、 遺伝子カタログも1つのフラットファイルデータベースに過ぎませんので、 やはり DBGET で統合的に検索することができるわけです。 また、2項関係についても 生物学的な観点から拡張し、遺伝子間または分子間の関係すなわち相互作用を、
生物種名:遺伝子名1 → 生物種名:遺伝子名2
といった形で表現すると、LinkDB に自然に組み込むことができます。
KEGG ではこのような生物的な2項関係を基に、さらに高次の関係、すなわち
代謝パスウェイや制御パスウェイなど生命系のネットワークを
コンピュータ化しているのです。
さらに別のタイプのリンク情報として、
計算で求める類似なものへのリンクがあります。
実際、Entrez では類似配列や類似文献(キーワードなど似たものが多く含まれる
文献)をあらかじめ計算で求め、リンクがつけてあります。
ゲノムネットの LinkDB では、類似配列へのリンクはダイナミックにつけられます。
つまり、与えられた配列エントリーの類似エントリーを、その場で BLAST を起動して
求めるのです。
以上のようなリンク情報は、WWW のハイパーリンクの考え方にまさにうってつけで、
ゲノムネット WWW サーバーでも、ハイパーリンクをたどることにより自然に
さまざまなリンク情報を利用することができるようになっています。では、WWW の
もう1つのキーワードであるマルチメディアは、ゲノムネットではどのように
なっているでしょうか。
データの内容 | データベース名 | メディア |
塩基配列 | GenBank(DDBJを含む), EMBL | テキスト |
アミノ酸配列 | SwissProt, PIR, PRF, PDBSTR | テキスト |
立体構造 | PDB | テキスト、三次元グラフィックス |
配列モチーフ | EPD, TRANSFAC, PROSITE | テキスト、三次元グラフィックス |
酵素反応 | LIGAND/ENZYME | テキスト、階層型テキスト |
代謝化合物 | LIGAND/COMPOUND | テキスト、イメージ、二次元グラフィックス |
パスウェイマップ | KEGG/PATHWAY | イメージ、Javaグラフィックス |
ゲノムマップ | KEGG/GENOME | イメージ、Javaグラフィックス |
遺伝子カタログ | KEGG/GENES | テキスト、階層型テキスト |
変異タンパク質 | PMD | テキスト |
アミノ酸指標 | AAindex | テキスト |
遺伝病 | OMIM | テキスト |
文献(タンパク質) | LITDB | テキスト |
文献(医学・生物学) | Medline | テキスト |
リンク情報 | LinkDB | テキスト |
また、KEGG のパスウェイマップやゲノムマップでは Java を使って独自の グラフィックス化が行われています。これも、Java をサポートする Web ブラウザ の普及に対応したものですが、一方、Java の利用環境はユーザーのマシンの性能 に大きく依存しますので、Java を使わないサービスも行っています。つまり、 サーバー側でグラフィックス処理をして、例えばパスウェイマップの検索結果に 色づけをしたりして、その結果のイメージファイルをユーザー側に転送しています。 なお、表にある階層型テキストとは、フラットファイルデータベース中のエントリー の階層分類を操作するためのデータ表現です。詳しくは3章をご覧ください。
http://www.genome.ad.jp/dbget/dbget.html
http://www.blast.genome.ad.jp/
http://www.fasta.genome.ad.jp/
http://www.motif.genome.ad.jp/
です。BLAST, FASTA, MOTIF の検索結果はすべて DBGET/LinkDB につながって
いますので、
さまざまなデータベースを参照して検索結果の解釈をすることができます。
一方、遺伝子・ゲノム百科事典 KEGG のホームページは
です。いつも利用しているユーザーにとっては、百科事典の目次のページ
http://www.genome.ad.jp/kegg/kegg2.html
から入ったほうが手っ取り早いでしょう。KEGG も DBGET/LinkDB と密接につながって
おり、KEGG の新しい知識ベースが既存のデータベースと統合されています。
ゲノムネットのデータベースサービスでは、それぞれのシステムが相互に深く
関連していますので、全体像が見渡せるページが準備されています。
グラフィカルなクリッカブルマップである DBGET/LinkDB/KEGG リンク図と、
DBGET/LinkDB/BLAST/FASTA へ入るテーブル形式の IDEAS インターフェース
http://www.genome.ad.jp/dbget/dbget.links.html
http://www.genome.ad.jp/ideas/ideas.html
をご利用ください。 これらのシステムがサポートしているデータベースの一覧は表1.2に、生物種の一覧は表1.3に示した通りです (1997年12月現在)。
システム名 | データベース名 |
DBGET | dna, protein, genbank, embl, swissprot, pir, prf, pdb, pdbstr, epd, transfac, prosite,ligand, pathway, genes, omim, pmd, aaindex,litdb, medline |
LinkDB | linkdb |
KEGG | ligand, pathway, genes, genome |
BLAST | nr-nt, genbank, genbank-upd, dbest, embl, embl-upd, epd,nr-aa, swissprot, swissprot-upd, pir, prf, genpept, genpept-upd, genes |
FASTA | nr-nt, genbank, genbank-upd, genbank/subdivisions, dbest, embl, embl-upd,embl/subdivisions, epd, nr-aa, swissprot, swissprot-upd, pir, prf, pdbstr,genpept, genpept-upd, genes |
MOTIF | prosite |
カテゴリー | 生物種 | |
古細菌 | M.jannaschii, M.thermoautotrophicum, A.flugidus | |
グラム陰性菌 | E.coli, H.influenzae, H.pylori, S.typhimurium | |
グラム陽性菌 | B.subtilis, S.aureus, M.genitalium, M.pneumoniae | |
藍藻 | Synechocystis | |
菌類 | D.discoideum, S.cerevisiae, C.albicans, S.pombe | |
高等植物 | A.thaliana, O.sativa, Z.mays | |
線虫類 | C.elegans | |
昆虫類 | D.melanogaster | |
齧歯類 | M.musculus | |
ヒト | H.sapiens (Human disease genes) | |
また、ゲノムネットでは DBGET/LinkDB や KEGG を使って特定のデータを取得する ための URL(WWW のアドレス)を、公式なものとして公開しています。 例えば、DBGET で特定データベースの特定エントリーを取得するには
http://www.genome.ad.jp/dbget-bin/www_bget?DBname+Accession
としてください。ここで、DBname と Accession が、データベース名と エントリー名(アクセッション番号)です。これは、ユーザー側の Web の リソースにゲノムネットのリソースを組み込む場合に便利です。他の URL は、
http://www.genome.ad.jp/dbget/dbget_url.html
をご覧ください。
ホモロジー検索は Web から電子メール検索の要求もできますが、
直接電子メールを書いて利用することもできます。その場合の電子メールアドレスは
blast@genome.ad.jp
fasta@genome.ad.jp
です。本文に help とだけ書いたメールを送ると、利用法が返送されます。 また、KEGG のパスウェイ検索も
宛の電子メールで行なうことができます。
DBGET/LinkDB は専用のクライアントプログラム NetDBget で利用することも
できます。NetDBget はアノニマス FTP で以下のアドレスから取得してください。
ftp://ftp.genome.ad.jp/pub/genomenet/netdbget/
NetDBget がインストールされていると、UNIX のコマンドとして bget や bfind など を利用することができますので、スクリプトを書いて一括処理をするときなどに最適 です。bget ではデータベース名とエントリー名(またはアクセッション番号)を 指定して目的のエントリーを取ることができます。bfind では簡単なキーワードを与えると、 それにマッチするエントリー名のリストを返します。詳しくは2章をご覧ください。
データベース | 内容 | 作成者 | |
* | DNA | すべての塩基配列 | (GenBank + EMBL) |
* | Protein | すべてのアミノ酸配列 | (SwissProt + PIR + PRF + PDBSTR) |
* | nr-nt | 重複を除いた塩基配列 | (GenBank, EMBL から作成) |
* | nr-aa | 重複を除いたアミノ酸配列 | (SwissProt, PIR, PRF, GenPeptから作成) |
* | GenBank | 核酸塩基配列(DDBJを含む) | 米国NCBI、国立遺伝学研究所 |
* | EMBL | 核酸塩基配列 | 欧州EBI |
* | SwissProt | タンパク質アミノ酸配列 | ジュネーブ大学、EBI |
PIR | タンパク質アミノ酸配列 | ジョージタウン大学 | |
PRF | タンパク質アミノ酸配列 | 蛋白質研究奨励会 | |
* | PDB | タンパク質などの立体構造 | ブルックヘブン国立研究所 |
* | PDBSTR | PDBアミノ酸配列 | 京都大学化学研究所 |
EPD | 真核生物プロモーター | スイスがん研究所 | |
TRANSFAC | 転写因子 | ドイツバイオテクノロジー所 | |
PROSITE | タンパク質配列モチーフ | ジュネーブ大学 | |
* | LIGAND | 酵素反応化合物 | 京都大学化学研究所 |
* | PATHWAY | KEGGパスウェイマップ | 京都大学化学研究所 |
GENOME | KEGGゲノムマップ | 京都大学化学研究所 | |
GENES | KEGG遺伝子カタログ | 京都大学化学研究所 | |
* | OMIM | 遺伝病 | ジョンズホプキンス大学 |
PMD | 変異タンパク質 | 蛋白工学研究所 | |
AAindex | アミノ酸指標 | 京都大学化学研究所 | |
LITDB | タンパク質関連文献 | 蛋白質研究奨励会 | |
* | Medline | 医学・生物学文献(リンクのみ) | 米国国立医学図書館 |
* | LinkDB | リンク情報 | 京都大学化学研究所 |
*日々更新データベース |
システム | 内容 | 利用形態 | 作成者 |
DBGET/LinkDB | 統合データベース検索 | WWW,Client,E-mail | 京大化研 |
KEGG | 遺伝子・ゲノム百科事典 | WWW,FTP,CD | 京大化研 |
PATHWAY | パスウェイ検索 | WWW,E-mail | 京大化研 |
BLAST | ホモロジー検索 | WWW,E-mail | NCBI |
FASTA | ホモロジー検索 | WWW,E-mail | W.Pearson |
MOTIF | タンパク質モチーフ検索 | WWW | 京大化研,基生研 |
システム | 内容 | 作成者 |
BSORF | Bacillus subtilis ゲノムデータベース | HGC,奈良先端大学 |
E.coli Databank | Escherichia coli ゲノムデータベース | 奈良先端大学 |
CyanoBase | Synechocystis sp. ゲノムデータベース | かずさDNA研究所 |
MBGD | 微生物ゲノムデータベース | HGC |
DictycDB | 細胞性粘菌cDNAデータベース | 粘菌グループ |
NEXTDB | 線虫遺伝子発現パターンデータベース | 国立遺伝学研究所 |
CHR21 | 21番染色体シーケンスマップ | HGC |
JST | JSTヒトゲノムシーケンシングデータベース | 科学技術振興事業団 |
BodyMap | ヒト遺伝子発現データベース | 大阪大学 |
GENOTK | ヒトcDNAデータベース | 大塚製薬, HGC |
p53MDB | p53変異データベース | HGC |
SPAD | シグナルパスウェイデータベース | 九州大学 |
システム | 内容 | 作成者 | ||
TFSEARCH | 転写因子結合部位検索 | 新情報処理開発機構 | ||
CLUSTALW | マルチプルアライメント | D.G.Higgins et al. | ||
PSORT | タンパク質局在部位予測 | 大阪大学 | ||
SOSUI | 膜貫通部位予測 | 東京農工大学 | ||
ER | 遺伝子領域予測 | HGC | ||
GRAIL | 遺伝子領域予測 | E.Uberbacher et al. | ||
システム | 内容 | 動作環境 |
Locus-in | マッピングデータ入力と統合マップ作成 | Sun などの WS(X11) |
ContigMaker | コンティグ地図作成 | Unix(X11+Motif) |
SAND | Nested Deletion 法による配列結合編集システム | Unix(X11+Motif) |
Genomatica | 染色体上の物理位置に基づき DNA 配列を整理 | Sun(X11) |
HyperGenome | 染色体地図と配列情報を統合 | Sun(OpenLook/X11) |
Gnome | ネットワークを利用した配列解析支援システム | Sun, Macintosh |
SMART | 配列モチーフ検索・解析ツール | Sun |
Gidre | データベース統合化環境構築システム | Sun(X11+Motif) |
サーバー | アドレス | ||
GenomeNet | http://www.genome.ad.jp/ | ||
KEGG | http://www.genome.ad.jp/kegg/ | ||
BSORF | http://bacillus.genome.ad.jp/ | ||
MBGD | http://mbgd.genome.ad.jp/ | ||
GENOTK | http://genotk.genome.ad.jp/ | ||
p53MDB | http://p53.genome.ad.jp/ | ||
CLUE | http://clue.genome.ad.jp/ | ||
サーバー | アドレス | プログラム |
DBGET | dbget@genome.ad.jp | get,find |
BLAST | blast@genome.ad.jp | blastn,blastp,tblastn,blastx,tblastx |
FASTA | fasta@genome.ad.jp | fasta,tfasta |
PATHWAY | pathway@genome.ad.jp | ecpoint, cpd-point, gene-point |
サーバー | アドレス | ユーザー名 | パスワード | ||||
HGC | ftp.genome.ad.jp | anonymous または ftp | 自分のメールアドレス | ||||
KEGG | kegg.genome.ad.jp | anonymous または ftp | 自分のメールアドレス | ||||
ゲノムネットのデータベース利用に関するお問い合わせは、下記までお願いします。
東京大学医科学研究所ヒトゲノム解析センター
〒108 東京都港区白金台4-6-1
Tel: 03-5449-5620 Fax: 03-5449-5434
E-mail: info@genome.ad.jp