![]() |
![]() |
下図に SWISS-PROT と GenBank のエントリー例を示した。フラットファイルといってもファイルの中味は構造化されており、これを規定するのがデータベースフォーマットである。SWISS-PROT や EMBL の場合は各行左端の2文字コードで、GenBank の場合も左端の特定の単語で各レコードが識別される。ID 行または LOCUS 行に書かれているのがエントリー名(この場合 DECA_DROME または DRODPPC)で各データベース内でユニークな名前となっている。また、配列データベースにはこれとは別にアクセッション番号と呼ばれる名前もあり、AC 行または ACCESSION 行に書かれている。ここには複数の番号があり得るが、最初の番号をとくにプライマリアクセッション番号といい、これもデータベース内でユニークな名前である。エントリー名は一般に配列の分類を意識した名前がつけられているが、アクセッション番号は機械的な一連番号で、文献との対応を調べたり、エントリーの更新履歴を見たりすることができる。例えば、配列を報告した文献に記載されるのはアクセッション番号であるので、論文からデータベースで対応するエントリーを探すのに便利である。また、エントリーが他のエントリーと一緒になるような更新がされた場合でも、プライマリ以外にもとのアクセッション番号が残されているので、検索可能になっている。
DNA・タンパク質の配列データベースには、文献情報と実際の配列データ以外に配列のどこにどのような生物的な意味があるか注釈付けしたデータが含まれている。コンピュータ可読形式で記載されたこの部分、図の FT 行または FEATURES の部分はフィーチャーテーブルと呼ばれている。これはデータベースを単に検索するだけでなく、データベースを解析に用いるために不可欠の項目である。例えばプローモーター領域やスプライス部位の配列にはどのような特徴があるかといった解析を行う際に、フィーチャーテーブルから対応するキーワードで特定領域の配列データを取り出すことができる。DNAデータベース発足当初はフィーチャーテーブルのフォーマットと実際の注釈づけ作業がデータベース作成者の大きな関心事であったが、現在は前述の通りこの作業は基本的に著者にまかせることになっている。
ID DECA_DROME STANDARD; PRT; 588 AA. AC P07713; DT 01-APR-1988 (REL. 07, CREATED) DT 01-APR-1988 (REL. 07, LAST SEQUENCE UPDATE) DT 01-FEB-1995 (REL. 31, LAST ANNOTATION UPDATE) DE DECAPENTAPLEGIC PROTEIN PRECURSOR (DPP-C PROTEIN). GN DPP. OS DROSOPHILA MELANOGASTER (FRUIT FLY). OC EUKARYOTA; METAZOA; ARTHROPODA; INSECTA; DIPTERA. RN [1] RP SEQUENCE FROM N.A. RM 87090408 RA PADGETT R.W., ST JOHNSTON R.D., GELBART W.M.; RL NATURE 325:81-84(1987). RN [2] RP CHARACTERIZATION, AND SEQUENCE OF 457-476. RM 90258853 RA PANGANIBAN G.E.F., RASHKA K.E., NEITZEL M.D., HOFFMANN F.M.; RL MOL. CELL. BIOL. 10:2669-2677(1990). CC -!- FUNCTION: DPP IS REQUIRED FOR THE PROPER DEVELOPMENT OF THE CC EMBRYONIC DORSAL HYPODERM, FOR VIABILITY OF LARVAE AND FOR CELL CC VIABILITY OF THE EPITHELIAL CELLS IN THE IMAGINAL DISKS. CC -!- SUBUNIT: HOMODIMER, DISULFIDE-LINKED. CC -!- SIMILARITY: TO OTHER GROWTH FACTORS OF THE TGF-BETA FAMILY. DR EMBL; M30116; DMDPPC. DR PIR; A26158; A26158. DR HSSP; P08112; 1TFG. DR FLYBASE; FBGN0000490; DPP. DR PROSITE; PS00250; TGF_BETA. KW GROWTH FACTOR; DIFFERENTIATION; SIGNAL. FT SIGNAL 1 ? POTENTIAL. FT PROPEP ? 456 FT CHAIN 457 588 DECAPENTAPLEGIC PROTEIN. FT DISULFID 487 553 BY SIMILARITY. FT DISULFID 516 585 BY SIMILARITY. FT DISULFID 520 587 BY SIMILARITY. FT DISULFID 552 552 INTERCHAIN (BY SIMILARITY). FT CARBOHYD 120 120 POTENTIAL. FT CARBOHYD 342 342 POTENTIAL. FT CARBOHYD 377 377 POTENTIAL. FT CARBOHYD 529 529 POTENTIAL. SQ SEQUENCE 588 AA; 65850 MW; 1768420 CN; MRAWLLLLAV LATFQTIVRV ASTEDISQRF IAAIAPVAAH IPLASASGSG SGRSGSRSVG ASTSTALAKA FNPFSEPASF SDSDKSHRSK TNKKPSKSDA NRQFNEVHKP RTDQLENSKN KSKQLVNKPN HNKMAVKEQR SHHKKSHHHR SHQPKQASAS TESHQSSSIE SIFVEEPTLV LDREVASINV PANAKAIIAE QGPSTYSKEA LIKDKLKPDP STLVEIEKSL LSLFNMKRPP KIDRSKIIIP EPMKKLYAEI MGHELDSVNI PKPGLLTKSA NTVRSFTHKD SKIDDRFPHH HRFRLHFDVK SIPADEKLKA AELQLTRDAL SQQVVASRSS ANRTRYQVLV YDITRVGVRG QREPSYLLLD TKTVRLNSTD TVSLDVQPAV DRWLASPQRN YGLLVEVRTV RSLKPAPHHH VRLRRSADEA HERWQHKQPL LFTYTDDGRH KARSIRDVSG GEGGGKGGRN KRHARRPTRR KNHDDTCRRH SLYVDFSDVG WDDWIVAPLG YDAYYCHGKC PFPLADHFNS TNHAVVQTLV NNMNPGKVPK ACCVPTQLDS VAMLYLNDQS TVVLKNYQEM TVVGCGCR // |
LOCUS DRODPPC 4001 bp mRNA INV 15-MAR-1990 DEFINITION D.melanogaster decapentaplegic gene complex (DPP-C), complete cds. ACCESSION M30116 NID g157291 KEYWORDS . SOURCE D.melanogaster, cDNA to mRNA. ORGANISM Drosophila melanogaster Eukaryotae; mitochondrial eukaryotes; Metazoa; Arthropoda; Tracheata; Insecta; Pterygota; Diptera; Brachycera; Muscomorpha; Ephydroidea; Drosophilidae; Drosophila. REFERENCE 1 (bases 1 to 4001) AUTHORS Padgett,R.W., St Johnston,R.D. and Gelbart,W.M. TITLE A transcript from a Drosophila pattern gene predicts a protein homologous to the transforming growth factor-beta family JOURNAL Nature 325, 81-84 (1987) MEDLINE 87090408 COMMENT The initiation codon could be at either 1188-1190 or 1587-1589. FEATURES Location/Qualifiers source 1..4001 /organism="Drosophila melanogaster" /db_xref="taxon:7227" mRNA <1..3918 /gene="dpp" /note="decapentaplegic protein mRNA" /db_xref="FlyBase:FBgn0000490" gene 1..4001 /note="decapentaplegic" /gene="dpp" /allele="" /db_xref="FlyBase:FBgn0000490" CDS 1188..2954 /gene="dpp" /note="decapentaplegic protein (1188 could be 1587)" /codon_start=1 /db_xref="FlyBase:FBgn0000490" /db_xref="PID:g157292" /translation="MRAWLLLLAVLATFQTIVRVASTEDISQRFIAAIAPVAAHIPLA SASGSGSGRSGSRSVGASTSTALAKAFNPFSEPASFSDSDKSHRSKTNKKPSKSDANR .......... LGYDAYYCHGKCPFPLADHFNSTNHAVVQTLVNNMNPGKVPKACCVPTQLDSVAMLYL NDQSTVVLKNYQEMTVVGCGCR" BASE COUNT 1170 a 1078 c 956 g 797 t ORIGIN 1 gtcgttcaac agcgctgatc gagtttaaat ctataccgaa atgagcggcg gaaagtgagc 61 cacttggcgt gaacccaaag ctttcgagga aaattctcgg acccccatat acaaatatcg 121 gaaaaagtat cgaacagttt cgcgacgcga agcgttaaga tcgccaaaag atctccgtgc 181 ggaaacaaag aaattgaggc actattaaga gattgttgtt gtgcgcgagt gtgtgtcttc 241 agctgggtgt gtggaatgtc aactgacggg ttgtaaaggg aaaccctgaa atccgaacgg 301 ccagccaaag caaataaagc tgtgaatacg aattaagtac aacaaacagt tactgaaaca 361 gatacagatt cggattcgaa tagagaaaca gatactggag atgcccccag aaacaattca 421 attgcaaata tagtgcgttg cgcgagtgcc agtggaaaaa tatgtggatt acctgcgaac 481 cgtccgccca aggagccgcc gggtgacagg tgtatccccc aggataccaa cccgagccca 541 gaccgagatc cacatccaga tcccgaccgc agggtgccag tgtgtcatgt gccgcggcat 601 accgaccgca gccacatcta ccgaccaggt gcgcctcgaa tgcggcaaca caattttcaa .......... 3841 aactgtataa acaaaacgta tgccctataa atatatgaat aactatctac atcgttatgc 3901 gttctaagct aagctcgaat aaatccgtac acgttaatta atctagaatc gtaagaccta 3961 acgcgtaagc tcagcatgtt ggataaatta atagaaacga g // |