立体構造データベース

 X線結晶解析によるデータをデータベース化して研究者に提供することの必要性は当初より認識され、1971年には米国ブルックヘブン国立研究所に Protein Data Bank (PDB) が設置された。PDBの内容はタンパク質を中心に、DNA、RNA、ウイルス、糖鎖なども加えた生体高分子の立体構造情報で、原子座標、文献情報、一次構造と二次構造の情報、さらに一部は結晶構造因子のデータや、最近ではX線結晶解析ではなく二次元NMRにより決定された構造データも含まれている。これらのデータは原著者が公共データとしてPDBに提供することにより維持されている。立体構造データはタンパク質工学などで実用的な価値が高いため、新しい構造を解明してコンピュータグラフィックスによる図は論文に発表しても、座標データはPDBデータベースに登録しない著者がいた時期もあったが、最近は公共的なグラントを貰う際の条件としてデータの公開が義務づけられている。なお、PDBは1999年より米国ラットガース大学を中心としたグループ Research Collaboratory for Structural Bioinformatics (RCSB) に移管された。

 実験技術の進歩と情報公開の流れにより、下図に示したように1990年代に入ってPDBのデータ量が急増するようになり、配列データベースに近い伸び率になっている。しかしながらこの図が示唆するように、立体構造が解明されたタンパク質は一次構造が解明されたものの5%程度にしか過ぎない。もちろんここでは同じ配列や類似な配列、同じ立体構造や類似な立体構造が多数重複して数えられているので、ユニークなファミリーあるいはスーパーファミリーの数としていくつずつあるか簡単には分からない。しかしいずれにせよ、解明された配列と立体構造の比としては大差ないものと思われる。

 PDBは著者から送られたデータをそのまま再配布するためのレポジトリー的な性格が強いこと、X線結晶解析やNMRによる立体構造データは配列データよりも複雑であることから、PDBのデータをさらに解析し編成しなおした二次的なデータベースがいくつか存在する。その中でもとくに有用なのは立体構造の類似性からフォールドの分類を行ったデータベースである。例えば SCOP (Structural Classification Of Proteins) と呼ばれるデータベースでは立体構造をα型、β型、α/β型、α+β型などに分け、それぞれで構造の類似性からフォールド、スーパーファミリー、ファミリーという階層分類を行っている。これはPIRデータベースのスーパーファミリー、ファミリー階層分類に、フォールドをつけ加えたもの、すなわち配列の類似性はなくても立体構造の類似性は見られる場合を考慮したことに相当する。