ゲノムデータベース
分子生物学研究におけるデータベースの役割は大きく2つある。1つは研究成果として公表されたデータを蓄積したデータベースで、不特定多数の利用者を対象としている。もう1つは研究プロジェクトを遂行するためのデータベースで、一般に特定の研究者を対象としている。DNA・タンパク質配列データベースは言うまでもなく公表された塩基配列またはアミノ酸配列を蓄積したデータベースで、発表論文のアブストラクトを蓄積した文献データベースと同様に幅広い利用者がある。一方、ゲノム計画の開始とともに各研究プロジェクトを推進するためのゲノムデータベースが誕生した。公共的な配列データベースではあらゆる生物種のデータが蓄積されているが、ゲノムデータベースは特定の生物種だけに限り、そのかわり配列決定に不可欠な物理地図のデータや遺伝子同定に不可欠な遺伝的地図のデータが配列データと統合された形になっている。別の見方をすると、ゲノムデータベースは決定された塩基配列を物理地図や遺伝的地図に基づいて染色体上に並べていっていると見なすこともでき、まさに生物的な立場からデータベース化が行われていることになる。
????図 4-8 にゲノムデータベースの検索システムとして広く利用されている ACEDB システムによる酵母ゲノムデータベース SacchDB の検索画面の一部を示した。?????
ACEDB はオブジェクト指向の考え方が導入されており、Map、Clone、Sequence といったクラスが定義されているが、継承の概念は使われていない。データベースシステムの観点から、レポジトリー的な性格をもつ公共データベースでは管理がしっかりしている関係データベースシステムが主流であるが、生物的なデータを編成する必要のあるゲノムデータベースではオブジェクト指向が普及していくのではないだろうか。
タンパク質の配列データベースや立体構造データベースに付随して、構造(一次構造および立体構造)の類似性からフォールド、スーパーファミリー、ファミリーといった階層分類がなされていることは前述の通りである。一方、今後ゲノムデータベースでは機能に基づく遺伝子分類が重要な意味をもつことになっていくだろう。下表には大腸菌遺伝子の機能分類例が示されている。ゲノム解析は特定の生物がもつすべての遺伝子と遺伝子産物のカタログを作り出す。いわば生命系を構成する部品のカタログが明らかになるわけで、生命系の様々な働きに関与する遺伝子群という立場から分類していくのである。
大腸菌遺伝子の機能分類(Monica Rileyによる)
- Intermediary metabolism
- Degradation
- Central intermediary metabolism
- Respiration (aerobic and anaerobic)
- Fermentation
- ATP-proton motive force interconversion
- Broad regulatory functions
- Biosynthesis of small molecules
- Amino acids
- Nucleotides
- Sugars and sugar nucleotides
- Cofactors, prosthetic groups, electron carriers
- Fatty acids and lipids
- Polyamines
- Macromolecule metabolism
- Synthesis and modification
- Degradation of macromolecules
- Cell structure
- Membrane components
- Murein sacculus
- Surface polysaccharides and antigens
- Surface structures
- Cellular processes
- Transport/binding proteins
- Cell division
- Chemotaxis and mobility
- Protein secretion
- Osmotic adaptation
- Other functions
- Cryptic genes
- Phage-related functions and prophages
- Colicin-related functions
- Plasmid-related functions
- Drug/analog sensitivity
- Radiation sensitivity
- DNA sites
- Adaptations to atypical conditions
|