DNA database

塩基配列データベース

　１９７０年代の終りには新しいテクノロジーが今後大量のＤＮＡ塩基配列をもたらすだろうということは誰の目にも明らかで、ＤＮＡデータベース（塩基配列データベース）を国家プロジェクトとして開始する動きが始まった。米国では前述の NBRF とロスアラモス国立研究所が名乗りをあげたが、結局後者が１９８２年に米国ＤＮＡデータベース GenBank を作成することとなった。欧州では欧州分子生物学研究所がやはり同じ１９８２年に EMBL データベースを発足させ、両者はそれ以来緊密な協力関係にある。日本の DDBJ も１９８４年にこの国際協力に参加した。ＤＮＡデータベースはアミノ酸配列データベースや立体構造データベースより歴史が新しく最もコンピュータ化されていたにもかかわらず、前図に示した加速度的なデータ量の増加に対応できず、その後いくつかの変遷を遂げている。

　当初は論文に発表されたデータを手作業で入力する形態をとり、３者で雑誌を分担して作業が行われていた。データベース作成者はいわゆるアノテーション（注釈付け）に力を入れ、生物的に関連する配列があればそれをまとめる作業も行われていた。しかし、このような形態ではデータの急増に追いつかず、効率化が図られるようになった。それはアノテーションを含むデータ作成を著者にまかせることで、論文発表と同時にデータをデータベースに登録することが多くの雑誌で著者に義務づけられるようになった。これに伴い、３者の協力体制も雑誌分担から地理的分担へ移行し、オンラインまたはコンピュータ可読な形でそれぞれのセンターにデータが送られるようになった。この体制でカバーできない雑誌については、MEDLINE をもつ NLM の NCBI (National Center for Biotechnology Information) が GenBank のために継続して手作業で入力している。なお、GenBank は１９９２年に当初のロスアラモスから NCBI へ移管され、また１９９４年には EMBL データベースの作成地もドイツの EMBL 本部から英国の EBI へ移転した。さらに最近はゲノム解析の進展とともに、生物種ごとのゲノムデータベースや大規模な cDNA データベースが誕生し、個人のデータは一旦これらのデータベースセンターに蓄積され、そこから大量のデータが一括して GenBank/EMBL/DDBJ へ送られるケースが多くなってきている。

　以上要約すると当初のＤＮＡデータベースは、タンパク質のＰＩＲデータベースと同じように生物的な付加価値をつけることに力を入れていたが、データの急増に対処するためＰＤＢと同じように公表（一般には雑誌での）を単位として著者から送られるデータを蓄積したレポジトリーに変化したことになる。つまりＤＮＡデータはアブストラクトなどの文献情報と同列に扱われており、公表されたものを順次コンピュータに登録していくだけなのでデータベース化が簡単である。しかしながら、これは生物的な付加価値をつけるという別の問題を未解決のままにしたことにもなっており、ホモロジー検索で生物的な意味づけのために利用しようとすると、同じような配列が多数得られてその処理が大変になってきている。データベース作成者の負担が軽くなった分だけ、データベース利用者の負担が大きくなったと言えるだろう。ＤＮＡデータベースは Medline や CAS などの文献データベースと同様にバックボーン的なデータベースとなり、分子生物学の研究という点からは異なるタイプのデータベースが必要となっている。