フラットファイル形式

 ここで、タンパク質アミノ酸配列データベース、立体構造データベース、DNA塩基配列データベースを利用する際に必要なフラットファイル形式の概略について述べておく。これらのデータベースは概念的にはエントリーと呼ばれる単位が集まったものとみなすことができる。実際、PDB では各エントリーが個別のテキストファイルとして、その他のデータベースでは複数のエントリーをシーケンシャルに並べたテキストファイル、またはその集合として眺めることができる。これをフラットファイル形式のデータベースと呼ぶ。当初データ量が少ない時期にはフラットファイル自体を管理する自前のプログラムを作ってデータベース作成が行われていたが、その後多くのデータベースでは関係データベース管理システムを導入してデータベース作成が行われるようになり、そこからフラットファイルを生成してデータベース配布が行われている。DNAやタンパク質のデータベースではデータに版権はなく自由に再利用できるため、データベース全体を入手して自分のシステムに組み込んだり、解析したりといったことが日常的に行われている。フラットファイルは特定のデータベース管理システムを前提としていないので、誰にでも容易に利用可能な形態なのである。

 下図に SWISS-PROT と GenBank のエントリー例を示した。フラットファイルといってもファイルの中味は構造化されており、これを規定するのがデータベースフォーマットである。SWISS-PROT や EMBL の場合は各行左端の2文字コードで、GenBank の場合も左端の特定の単語で各レコードが識別される。ID 行または LOCUS 行に書かれているのがエントリー名(この場合 DECA_DROME または DRODPPC)で各データベース内でユニークな名前となっている。また、配列データベースにはこれとは別にアクセッション番号と呼ばれる名前もあり、AC 行または ACCESSION 行に書かれている。ここには複数の番号があり得るが、最初の番号をとくにプライマリアクセッション番号といい、これもデータベース内でユニークな名前である。エントリー名は一般に配列の分類を意識した名前がつけられているが、アクセッション番号は機械的な一連番号で、文献との対応を調べたり、エントリーの更新履歴を見たりすることができる。例えば、配列を報告した文献に記載されるのはアクセッション番号であるので、論文からデータベースで対応するエントリーを探すのに便利である。また、エントリーが他のエントリーと一緒になるような更新がされた場合でも、プライマリ以外にもとのアクセッション番号が残されているので、検索可能になっている。

 DNA・タンパク質の配列データベースには、文献情報と実際の配列データ以外に配列のどこにどのような生物的な意味があるか注釈付けしたデータが含まれている。コンピュータ可読形式で記載されたこの部分、図の FT 行または FEATURES の部分はフィーチャーテーブルと呼ばれている。これはデータベースを単に検索するだけでなく、データベースを解析に用いるために不可欠の項目である。例えばプローモーター領域やスプライス部位の配列にはどのような特徴があるかといった解析を行う際に、フィーチャーテーブルから対応するキーワードで特定領域の配列データを取り出すことができる。DNAデータベース発足当初はフィーチャーテーブルのフォーマットと実際の注釈づけ作業がデータベース作成者の大きな関心事であったが、現在は前述の通りこの作業は基本的に著者にまかせることになっている。

(a)データベースのエントリー例:SwissProt
ID   DECA_DROME     STANDARD;      PRT;   588 AA.
AC   P07713;
DT   01-APR-1988 (REL. 07, CREATED)
DT   01-APR-1988 (REL. 07, LAST SEQUENCE UPDATE)
DT   01-FEB-1995 (REL. 31, LAST ANNOTATION UPDATE)
DE   DECAPENTAPLEGIC PROTEIN PRECURSOR (DPP-C PROTEIN).
GN   DPP.
OS   DROSOPHILA MELANOGASTER (FRUIT FLY).
OC   EUKARYOTA; METAZOA; ARTHROPODA; INSECTA; DIPTERA.
RN   [1]
RP   SEQUENCE FROM N.A.
RM   87090408
RA   PADGETT R.W., ST JOHNSTON R.D., GELBART W.M.;
RL   NATURE 325:81-84(1987).
RN   [2]
RP   CHARACTERIZATION, AND SEQUENCE OF 457-476.
RM   90258853
RA   PANGANIBAN G.E.F., RASHKA K.E., NEITZEL M.D., HOFFMANN F.M.;
RL   MOL. CELL. BIOL. 10:2669-2677(1990).
CC   -!- FUNCTION: DPP IS REQUIRED FOR THE PROPER DEVELOPMENT OF THE
CC       EMBRYONIC DORSAL HYPODERM, FOR VIABILITY OF LARVAE AND FOR CELL
CC       VIABILITY OF THE EPITHELIAL CELLS IN THE IMAGINAL DISKS.
CC   -!- SUBUNIT: HOMODIMER, DISULFIDE-LINKED.
CC   -!- SIMILARITY: TO OTHER GROWTH FACTORS OF THE TGF-BETA FAMILY.
DR   EMBL; M30116; DMDPPC.
DR   PIR; A26158; A26158.
DR   HSSP; P08112; 1TFG.
DR   FLYBASE; FBGN0000490; DPP.
DR   PROSITE; PS00250; TGF_BETA.
KW   GROWTH FACTOR; DIFFERENTIATION; SIGNAL.
FT   SIGNAL        1      ?       POTENTIAL.
FT   PROPEP        ?    456
FT   CHAIN       457    588       DECAPENTAPLEGIC PROTEIN.
FT   DISULFID    487    553       BY SIMILARITY.
FT   DISULFID    516    585       BY SIMILARITY.
FT   DISULFID    520    587       BY SIMILARITY.
FT   DISULFID    552    552       INTERCHAIN (BY SIMILARITY).
FT   CARBOHYD    120    120       POTENTIAL.
FT   CARBOHYD    342    342       POTENTIAL.
FT   CARBOHYD    377    377       POTENTIAL.
FT   CARBOHYD    529    529       POTENTIAL.
SQ   SEQUENCE   588 AA;  65850 MW;  1768420 CN;
     MRAWLLLLAV LATFQTIVRV ASTEDISQRF IAAIAPVAAH IPLASASGSG SGRSGSRSVG
     ASTSTALAKA FNPFSEPASF SDSDKSHRSK TNKKPSKSDA NRQFNEVHKP RTDQLENSKN
     KSKQLVNKPN HNKMAVKEQR SHHKKSHHHR SHQPKQASAS TESHQSSSIE SIFVEEPTLV
     LDREVASINV PANAKAIIAE QGPSTYSKEA LIKDKLKPDP STLVEIEKSL LSLFNMKRPP
     KIDRSKIIIP EPMKKLYAEI MGHELDSVNI PKPGLLTKSA NTVRSFTHKD SKIDDRFPHH
     HRFRLHFDVK SIPADEKLKA AELQLTRDAL SQQVVASRSS ANRTRYQVLV YDITRVGVRG
     QREPSYLLLD TKTVRLNSTD TVSLDVQPAV DRWLASPQRN YGLLVEVRTV RSLKPAPHHH
     VRLRRSADEA HERWQHKQPL LFTYTDDGRH KARSIRDVSG GEGGGKGGRN KRHARRPTRR
     KNHDDTCRRH SLYVDFSDVG WDDWIVAPLG YDAYYCHGKC PFPLADHFNS TNHAVVQTLV
     NNMNPGKVPK ACCVPTQLDS VAMLYLNDQS TVVLKNYQEM TVVGCGCR
//

(b)データベースのエントリー例:GenBank
LOCUS       DRODPPC      4001 bp    mRNA            INV       15-MAR-1990
DEFINITION  D.melanogaster decapentaplegic gene complex (DPP-C), complete cds.
ACCESSION   M30116
NID         g157291
KEYWORDS    .
SOURCE      D.melanogaster, cDNA to mRNA.
  ORGANISM  Drosophila melanogaster
            Eukaryotae; mitochondrial eukaryotes; Metazoa; Arthropoda;
            Tracheata; Insecta; Pterygota; Diptera; Brachycera; Muscomorpha;
            Ephydroidea; Drosophilidae; Drosophila.
REFERENCE   1  (bases 1 to 4001)
  AUTHORS   Padgett,R.W., St Johnston,R.D. and Gelbart,W.M.
  TITLE     A transcript from a Drosophila pattern gene predicts a protein
            homologous to the transforming growth factor-beta family
  JOURNAL   Nature 325, 81-84 (1987)
  MEDLINE   87090408
COMMENT     The initiation codon could be at either 1188-1190 or 1587-1589.
FEATURES             Location/Qualifiers
     source          1..4001
                     /organism="Drosophila melanogaster"
                     /db_xref="taxon:7227"
     mRNA            <1..3918
                     /gene="dpp"
                     /note="decapentaplegic protein mRNA"
                     /db_xref="FlyBase:FBgn0000490"
     gene            1..4001
                     /note="decapentaplegic"
                     /gene="dpp"
                     /allele=""
                     /db_xref="FlyBase:FBgn0000490"
     CDS             1188..2954
                     /gene="dpp"
                     /note="decapentaplegic protein (1188 could be 1587)"
                     /codon_start=1
                     /db_xref="FlyBase:FBgn0000490"
                     /db_xref="PID:g157292"
                     /translation="MRAWLLLLAVLATFQTIVRVASTEDISQRFIAAIAPVAAHIPLA
                     SASGSGSGRSGSRSVGASTSTALAKAFNPFSEPASFSDSDKSHRSKTNKKPSKSDANR
                     ..........
                     LGYDAYYCHGKCPFPLADHFNSTNHAVVQTLVNNMNPGKVPKACCVPTQLDSVAMLYL
                     NDQSTVVLKNYQEMTVVGCGCR"
BASE COUNT     1170 a   1078 c    956 g    797 t
ORIGIN
        1 gtcgttcaac agcgctgatc gagtttaaat ctataccgaa atgagcggcg gaaagtgagc
       61 cacttggcgt gaacccaaag ctttcgagga aaattctcgg acccccatat acaaatatcg
      121 gaaaaagtat cgaacagttt cgcgacgcga agcgttaaga tcgccaaaag atctccgtgc
      181 ggaaacaaag aaattgaggc actattaaga gattgttgtt gtgcgcgagt gtgtgtcttc
      241 agctgggtgt gtggaatgtc aactgacggg ttgtaaaggg aaaccctgaa atccgaacgg
      301 ccagccaaag caaataaagc tgtgaatacg aattaagtac aacaaacagt tactgaaaca
      361 gatacagatt cggattcgaa tagagaaaca gatactggag atgcccccag aaacaattca
      421 attgcaaata tagtgcgttg cgcgagtgcc agtggaaaaa tatgtggatt acctgcgaac
      481 cgtccgccca aggagccgcc gggtgacagg tgtatccccc aggataccaa cccgagccca
      541 gaccgagatc cacatccaga tcccgaccgc agggtgccag tgtgtcatgt gccgcggcat
      601 accgaccgca gccacatcta ccgaccaggt gcgcctcgaa tgcggcaaca caattttcaa
          ..........
     3841 aactgtataa acaaaacgta tgccctataa atatatgaat aactatctac atcgttatgc
     3901 gttctaagct aagctcgaat aaatccgtac acgttaatta atctagaatc gtaagaccta
     3961 acgcgtaagc tcagcatgtt ggataaatta atagaaacga g
//