|
|
下図に SWISS-PROT と GenBank のエントリー例を示した。フラットファイルといってもファイルの中味は構造化されており、これを規定するのがデータベースフォーマットである。SWISS-PROT や EMBL の場合は各行左端の2文字コードで、GenBank の場合も左端の特定の単語で各レコードが識別される。ID 行または LOCUS 行に書かれているのがエントリー名(この場合 DECA_DROME または DRODPPC)で各データベース内でユニークな名前となっている。また、配列データベースにはこれとは別にアクセッション番号と呼ばれる名前もあり、AC 行または ACCESSION 行に書かれている。ここには複数の番号があり得るが、最初の番号をとくにプライマリアクセッション番号といい、これもデータベース内でユニークな名前である。エントリー名は一般に配列の分類を意識した名前がつけられているが、アクセッション番号は機械的な一連番号で、文献との対応を調べたり、エントリーの更新履歴を見たりすることができる。例えば、配列を報告した文献に記載されるのはアクセッション番号であるので、論文からデータベースで対応するエントリーを探すのに便利である。また、エントリーが他のエントリーと一緒になるような更新がされた場合でも、プライマリ以外にもとのアクセッション番号が残されているので、検索可能になっている。
DNA・タンパク質の配列データベースには、文献情報と実際の配列データ以外に配列のどこにどのような生物的な意味があるか注釈付けしたデータが含まれている。コンピュータ可読形式で記載されたこの部分、図の FT 行または FEATURES の部分はフィーチャーテーブルと呼ばれている。これはデータベースを単に検索するだけでなく、データベースを解析に用いるために不可欠の項目である。例えばプローモーター領域やスプライス部位の配列にはどのような特徴があるかといった解析を行う際に、フィーチャーテーブルから対応するキーワードで特定領域の配列データを取り出すことができる。DNAデータベース発足当初はフィーチャーテーブルのフォーマットと実際の注釈づけ作業がデータベース作成者の大きな関心事であったが、現在は前述の通りこの作業は基本的に著者にまかせることになっている。
ID DECA_DROME STANDARD; PRT; 588 AA.
AC P07713;
DT 01-APR-1988 (REL. 07, CREATED)
DT 01-APR-1988 (REL. 07, LAST SEQUENCE UPDATE)
DT 01-FEB-1995 (REL. 31, LAST ANNOTATION UPDATE)
DE DECAPENTAPLEGIC PROTEIN PRECURSOR (DPP-C PROTEIN).
GN DPP.
OS DROSOPHILA MELANOGASTER (FRUIT FLY).
OC EUKARYOTA; METAZOA; ARTHROPODA; INSECTA; DIPTERA.
RN [1]
RP SEQUENCE FROM N.A.
RM 87090408
RA PADGETT R.W., ST JOHNSTON R.D., GELBART W.M.;
RL NATURE 325:81-84(1987).
RN [2]
RP CHARACTERIZATION, AND SEQUENCE OF 457-476.
RM 90258853
RA PANGANIBAN G.E.F., RASHKA K.E., NEITZEL M.D., HOFFMANN F.M.;
RL MOL. CELL. BIOL. 10:2669-2677(1990).
CC -!- FUNCTION: DPP IS REQUIRED FOR THE PROPER DEVELOPMENT OF THE
CC EMBRYONIC DORSAL HYPODERM, FOR VIABILITY OF LARVAE AND FOR CELL
CC VIABILITY OF THE EPITHELIAL CELLS IN THE IMAGINAL DISKS.
CC -!- SUBUNIT: HOMODIMER, DISULFIDE-LINKED.
CC -!- SIMILARITY: TO OTHER GROWTH FACTORS OF THE TGF-BETA FAMILY.
DR EMBL; M30116; DMDPPC.
DR PIR; A26158; A26158.
DR HSSP; P08112; 1TFG.
DR FLYBASE; FBGN0000490; DPP.
DR PROSITE; PS00250; TGF_BETA.
KW GROWTH FACTOR; DIFFERENTIATION; SIGNAL.
FT SIGNAL 1 ? POTENTIAL.
FT PROPEP ? 456
FT CHAIN 457 588 DECAPENTAPLEGIC PROTEIN.
FT DISULFID 487 553 BY SIMILARITY.
FT DISULFID 516 585 BY SIMILARITY.
FT DISULFID 520 587 BY SIMILARITY.
FT DISULFID 552 552 INTERCHAIN (BY SIMILARITY).
FT CARBOHYD 120 120 POTENTIAL.
FT CARBOHYD 342 342 POTENTIAL.
FT CARBOHYD 377 377 POTENTIAL.
FT CARBOHYD 529 529 POTENTIAL.
SQ SEQUENCE 588 AA; 65850 MW; 1768420 CN;
MRAWLLLLAV LATFQTIVRV ASTEDISQRF IAAIAPVAAH IPLASASGSG SGRSGSRSVG
ASTSTALAKA FNPFSEPASF SDSDKSHRSK TNKKPSKSDA NRQFNEVHKP RTDQLENSKN
KSKQLVNKPN HNKMAVKEQR SHHKKSHHHR SHQPKQASAS TESHQSSSIE SIFVEEPTLV
LDREVASINV PANAKAIIAE QGPSTYSKEA LIKDKLKPDP STLVEIEKSL LSLFNMKRPP
KIDRSKIIIP EPMKKLYAEI MGHELDSVNI PKPGLLTKSA NTVRSFTHKD SKIDDRFPHH
HRFRLHFDVK SIPADEKLKA AELQLTRDAL SQQVVASRSS ANRTRYQVLV YDITRVGVRG
QREPSYLLLD TKTVRLNSTD TVSLDVQPAV DRWLASPQRN YGLLVEVRTV RSLKPAPHHH
VRLRRSADEA HERWQHKQPL LFTYTDDGRH KARSIRDVSG GEGGGKGGRN KRHARRPTRR
KNHDDTCRRH SLYVDFSDVG WDDWIVAPLG YDAYYCHGKC PFPLADHFNS TNHAVVQTLV
NNMNPGKVPK ACCVPTQLDS VAMLYLNDQS TVVLKNYQEM TVVGCGCR
//
|
LOCUS DRODPPC 4001 bp mRNA INV 15-MAR-1990
DEFINITION D.melanogaster decapentaplegic gene complex (DPP-C), complete cds.
ACCESSION M30116
NID g157291
KEYWORDS .
SOURCE D.melanogaster, cDNA to mRNA.
ORGANISM Drosophila melanogaster
Eukaryotae; mitochondrial eukaryotes; Metazoa; Arthropoda;
Tracheata; Insecta; Pterygota; Diptera; Brachycera; Muscomorpha;
Ephydroidea; Drosophilidae; Drosophila.
REFERENCE 1 (bases 1 to 4001)
AUTHORS Padgett,R.W., St Johnston,R.D. and Gelbart,W.M.
TITLE A transcript from a Drosophila pattern gene predicts a protein
homologous to the transforming growth factor-beta family
JOURNAL Nature 325, 81-84 (1987)
MEDLINE 87090408
COMMENT The initiation codon could be at either 1188-1190 or 1587-1589.
FEATURES Location/Qualifiers
source 1..4001
/organism="Drosophila melanogaster"
/db_xref="taxon:7227"
mRNA <1..3918
/gene="dpp"
/note="decapentaplegic protein mRNA"
/db_xref="FlyBase:FBgn0000490"
gene 1..4001
/note="decapentaplegic"
/gene="dpp"
/allele=""
/db_xref="FlyBase:FBgn0000490"
CDS 1188..2954
/gene="dpp"
/note="decapentaplegic protein (1188 could be 1587)"
/codon_start=1
/db_xref="FlyBase:FBgn0000490"
/db_xref="PID:g157292"
/translation="MRAWLLLLAVLATFQTIVRVASTEDISQRFIAAIAPVAAHIPLA
SASGSGSGRSGSRSVGASTSTALAKAFNPFSEPASFSDSDKSHRSKTNKKPSKSDANR
..........
LGYDAYYCHGKCPFPLADHFNSTNHAVVQTLVNNMNPGKVPKACCVPTQLDSVAMLYL
NDQSTVVLKNYQEMTVVGCGCR"
BASE COUNT 1170 a 1078 c 956 g 797 t
ORIGIN
1 gtcgttcaac agcgctgatc gagtttaaat ctataccgaa atgagcggcg gaaagtgagc
61 cacttggcgt gaacccaaag ctttcgagga aaattctcgg acccccatat acaaatatcg
121 gaaaaagtat cgaacagttt cgcgacgcga agcgttaaga tcgccaaaag atctccgtgc
181 ggaaacaaag aaattgaggc actattaaga gattgttgtt gtgcgcgagt gtgtgtcttc
241 agctgggtgt gtggaatgtc aactgacggg ttgtaaaggg aaaccctgaa atccgaacgg
301 ccagccaaag caaataaagc tgtgaatacg aattaagtac aacaaacagt tactgaaaca
361 gatacagatt cggattcgaa tagagaaaca gatactggag atgcccccag aaacaattca
421 attgcaaata tagtgcgttg cgcgagtgcc agtggaaaaa tatgtggatt acctgcgaac
481 cgtccgccca aggagccgcc gggtgacagg tgtatccccc aggataccaa cccgagccca
541 gaccgagatc cacatccaga tcccgaccgc agggtgccag tgtgtcatgt gccgcggcat
601 accgaccgca gccacatcta ccgaccaggt gcgcctcgaa tgcggcaaca caattttcaa
..........
3841 aactgtataa acaaaacgta tgccctataa atatatgaat aactatctac atcgttatgc
3901 gttctaagct aagctcgaat aaatccgtac acgttaatta atctagaatc gtaagaccta
3961 acgcgtaagc tcagcatgtt ggataaatta atagaaacga g
//
|