塩基配列データベース

 1970年代の終りには新しいテクノロジーが今後大量のDNA塩基配列をもたらすだろうということは誰の目にも明らかで、DNAデータベース(塩基配列データベース)を国家プロジェクトとして開始する動きが始まった。米国では前述の NBRF とロスアラモス国立研究所が名乗りをあげたが、結局後者が1982年に米国DNAデータベース GenBank を作成することとなった。欧州では欧州分子生物学研究所がやはり同じ1982年に EMBL データベースを発足させ、両者はそれ以来緊密な協力関係にある。日本の DDBJ も1984年にこの国際協力に参加した。DNAデータベースはアミノ酸配列データベースや立体構造データベースより歴史が新しく最もコンピュータ化されていたにもかかわらず、前図 に示した加速度的なデータ量の増加に対応できず、その後いくつかの変遷を遂げている。

 当初は論文に発表されたデータを手作業で入力する形態をとり、3者で雑誌を分担して作業が行われていた。データベース作成者はいわゆるアノテーション(注釈付け)に力を入れ、生物的に関連する配列があればそれをまとめる作業も行われていた。しかし、このような形態ではデータの急増に追いつかず、効率化が図られるようになった。それはアノテーションを含むデータ作成を著者にまかせることで、論文発表と同時にデータをデータベースに登録することが多くの雑誌で著者に義務づけられるようになった。これに伴い、3者の協力体制も雑誌分担から地理的分担へ移行し、オンラインまたはコンピュータ可読な形でそれぞれのセンターにデータが送られるようになった。この体制でカバーできない雑誌については、MEDLINE をもつ NLM の NCBI (National Center for Biotechnology Information) が GenBank のために継続して手作業で入力している。なお、GenBank は1992年に当初のロスアラモスから NCBI へ移管され、また1994年には EMBL データベースの作成地もドイツの EMBL 本部から英国の EBI へ移転した。さらに最近はゲノム解析の進展とともに、生物種ごとのゲノムデータベースや大規模な cDNA データベースが誕生し、個人のデータは一旦これらのデータベースセンターに蓄積され、そこから大量のデータが一括して GenBank/EMBL/DDBJ へ送られるケースが多くなってきている。

 以上要約すると当初のDNAデータベースは、タンパク質のPIRデータベースと同じように生物的な付加価値をつけることに力を入れていたが、データの急増に対処するためPDBと同じように公表(一般には雑誌での)を単位として著者から送られるデータを蓄積したレポジトリーに変化したことになる。つまりDNAデータはアブストラクトなどの文献情報と同列に扱われており、公表されたものを順次コンピュータに登録していくだけなのでデータベース化が簡単である。しかしながら、これは生物的な付加価値をつけるという別の問題を未解決のままにしたことにもなっており、ホモロジー検索で生物的な意味づけのために利用しようとすると、同じような配列が多数得られてその処理が大変になってきている。データベース作成者の負担が軽くなった分だけ、データベース利用者の負担が大きくなったと言えるだろう。DNAデータベースは Medline や CAS などの文献データベースと同様にバックボーン的なデータベースとなり、分子生物学の研究という点からは異なるタイプのデータベースが必要となっている。