![]() |
![]() |
実験技術の進歩と情報公開の流れにより、下図に示したように1990年代に入ってPDBのデータ量が急増するようになり、配列データベースに近い伸び率になっている。しかしながらこの図が示唆するように、立体構造が解明されたタンパク質は一次構造が解明されたものの5%程度にしか過ぎない。もちろんここでは同じ配列や類似な配列、同じ立体構造や類似な立体構造が多数重複して数えられているので、ユニークなファミリーあるいはスーパーファミリーの数としていくつずつあるか簡単には分からない。しかしいずれにせよ、解明された配列と立体構造の比としては大差ないものと思われる。
PDBは著者から送られたデータをそのまま再配布するためのレポジトリー的な性格が強いこと、X線結晶解析やNMRによる立体構造データは配列データよりも複雑であることから、PDBのデータをさらに解析し編成しなおした二次的なデータベースがいくつか存在する。その中でもとくに有用なのは立体構造の類似性からフォールドの分類を行ったデータベースである。例えば SCOP (Structural Classification Of Proteins) と呼ばれるデータベースでは立体構造をα型、β型、α/β型、α+β型などに分け、それぞれで構造の類似性からフォールド、スーパーファミリー、ファミリーという階層分類を行っている。これはPIRデータベースのスーパーファミリー、ファミリー階層分類に、フォールドをつけ加えたもの、すなわち配列の類似性はなくても立体構造の類似性は見られる場合を考慮したことに相当する。