アミノ酸配列データベース

 タンパク質アミノ酸配列は1950年代の後半より実験的に決められるようになり、これを収集して比較することにより分子進化の研究が盛んになってきた。とくに米国ワシントンDCにある NBRF (National Biomedical Research Foundation) のデイホフ(Margaret O. Dayhoff)は収集したアミノ酸配列と分子進化の解析結果を Atlas of Protein Sequence and Structure として1968年より1978年まで出版した。これは後述するように1980年頃の米国DNAデータベース設立に向けてオンライン化され NBRF データベースと呼ばれ、1984年には NIH の支援を受けて PIR (Protein Identification Resource) データベースとなった。その後、PIR (Protein Information Resource) はドイツの MIPS (Martinsried Institute for Protein Sequences) と東京理科大学の JIPID (International Protein Information Database in Japan) がデータベース作成に協力し PIR-International となっている。

 PIR データベースはもともと分子進化の研究目的で始められたこともあって、配列同士の類似性を調べてスーパーファミリー(superfamily)分類がなされ、さらに生物種の系統樹との対応づけも行われている。スーパーファミリー分類とは2つの配列の最適アライメント(第5章「グローバルアライメント」参照)を行って、対応するアミノ酸が90%以上一致すればサブファミリー、50%以上ならファミリー、一致度は50%以下だがアミノ酸の類似度を考慮して有意なアライメントであればスーパーファミリーという分類をすることであるが、どのレベルを有意とするかは必ずしも数値だけでなく NBRF の主観が入っているようである。また初期の Atlas の伝統で生物的な観点から豊富な注釈をつけ、付加価値の高いデータベースとすることを目指しているが、残念ながらデータの急増に追いつけず、大部分はスーパーファミリーも未分類のままといった状況である。

 アミノ酸配列データベースについては日本でも蛋白質研究奨励会が PRF (Protein Research Foundation) データベースの作成を行っている。蛋白質研究奨励会は1975年よりタンパク質、ペプチド関連の学術誌 1,000 誌から抄録を作成し、二次情報誌 Peptide Information を発行してきた。これは現在は LITDB データベースとして公開されている。PRF データベースは LITDB の副産物として1979年に始まった。PRF データベースに含まれる情報としては、タンパク質名、生物種名、配列データ以外に文献の著者名、タイトル、引用雑誌の情報、それに場合によっては簡単なコメント、といったごく最低限の情報しか含んでいないが、文献番号で抄録データベース LITDB に対応がつくようになっている点が特徴である。これは現在の Medline と GenBank の関係と同じであるが、文献データと文献に報告された配列データにリンクをつけてデータベース化を行ったのは蛋白質研究奨励会が最初である。

 NBRF と PRF は少なくとも当初は非常に対照的な考え方からデータベース化を行っていた。NBRF は配列データを生物学のデータと眺め、スーパーファミリー分類など生物学の知識を体系化していくことに興味があったが、そのためデータの急増に追いつかず、中途半端なデータベースとなっているのが現状である。一方 PRF は配列データを文献に付随した情報として眺め、文献抄録を作成する感覚で配列の収集を行ってきた。そのため生物的には全く同じデータでも別の著者によって報告されていれば別のデータとして扱われてしまうが、データの急増には効率よく対処することができている。

 データ量に対処し、しかもある程度生物的な付加価値がつけられているアミノ酸配列データベースとして SWISS-PROT がある。これはもともとスイスのジュネーブ大学で個人的に作成が始められたものであるが、現在は EBI (European Bioinformatics Institute) により EMBL 塩基配列データベースと並行して構築されている。SWISS-PROT データベースの最大の特徴は他の様々なデータベースとの間にリンク付けが行われていることであろう。単に文献とファクトの間のリンクだけでなく、生物的に関連するファクトを結びつけることは、後述するように分子生物学データを統合的に扱うために最も重要なことである。