ゲノム情報ニュースレター第4号(1993年3月)

ゲノム情報解析の発展に期待する

磯野 克己(神戸大学理学部)

 各種の生物での「ゲノム解析」が話題にされるようになってから数年になるが,ようやく最近になって,出芽酵母の第3染色体 (315 kb) や線虫 C. elegans の数種のコスミド(それぞれ 35-50 kb)あるいは大腸菌ゲノムの2ケ所の領域(それぞれ約 100 kb)の塩基配列決定結果が発表され,さらにヒトの YAC クローンの整列化などが報告されるに至って,いよいよ本格的に組織的なゲノム解析が開始されたという感じがしている。もちろんゲノム解析とは単に塩基配列を決定することではないことは言うまでもないが,塩基配列決定がその重要な第一歩であることは確かである。このゲノム解析にとって重要なステップであるDNA の塩基配列決定は,蛋白質のアミノ酸配列を決定することと同じく一種の「作業」であり,それを辛抱強く進めていくための忍耐と努力が要求されることはもちろん,その手順の合理化や用いる方法の改善も大いに必要とされる。そのような考えから筆者の研究室では,大腸菌の全塩基配列決定を目指してこの「作業」の手順の合理化とそれを効率よく進めるための方法の改善を図り,その上で確立された方法を用いて実際の作業を進めてきた。この過程を通じてわかったことは,すでに各種の生物でなされた厖大な塩基配列データがあるお蔭で,それまで未知な塩基配列と思っていたものが,実はすでに他の生物で同定され解析された遺伝子であったりする(中には予想もしなかったようなものも含まれる)ことが往々にしてあり,このような組織的な塩基配列決定作業を行っている者にとって大いに励みになることが多いということである。本来は自分の決定している塩基配列は未知のものである方がいいはずなのだが,どうも人間はそれが全く unknown なものであると,「この領域はなんの役割も持たない領域なのではないか」などという不安に駆られてしまうものらしい。いずれにせよ,今は未知の塩基配列でも,それが他の生物にも存在することがわかれば将来の解析の手がかりとなるであろうことは疑いない。そこでまず大腸菌の全塩基配列を一日も早く決定し,それによって他の生物のゲノム解析の比較の「基準」を作りたいものと念じつつ日夜努力を傾けている。と同時に,どうやら多くの塩基配列がわかればわかる程,生物の持っている遺伝情報には類似性が高いように思えるので,大腸菌だけでなく他の生物でのゲノム解析の進展にも大いに関心をもっている。
 その一方で,組織的な塩基配列データの生産者側としてはまだまだ解決しなければならない問題が多い。そのひとつが配列データの正確さの問題である。周知のように,何事においてもデータの精度を上げるためには,それまでに要した数倍の時間ないしは労力が必要である。塩基配列決定においても 500 bp 程度の長さの配列を 97-99 % の正確さで決定することは比較的容易であり,DNAシーケンサーのソフトを改善するだけでほぼ達成できる見通しがついている。しかしこれを 99.5-99.9% の正確さに増すためにはこのようなソフトの改良だけではだめで,わずかに残った問題のある部分の塩基配列決定について色々な実験的工夫をし,努力を重ねなければならない。そこで筆者はこの問題に対する一つの対処の仕方として,97-99% の正確さの塩基配列データをあえて公表するということを考えている。もちろん,この程度の正確さの配列データがわずか数キロベースであるというなら,それを公表することには大した意義があるとは思われないが,そういう配列データが数百キロベースの単位だと自ら意義が異なってくる。これが受け入れられれば,筆者の研究室で最近ようやく確立した高速塩基配列決定法 (Nucleic Acids Research 20:6509-6515, 1992) を用いることにより,大腸菌の整列クローンを利用してかなりのスピードで塩基配列決定が可能になる。
 上述したように,組織的な塩基配列データのもつひとつの意義は,他の生物のデータをそれと比較することによって機能のわからない塩基配列や,その塩基配列が由来するゲノム領域の解析を進めることができるようにすることである。生物学では古来このような考え方が広くなされていて,一つのデータだけでは意義がわからない場合でも,他の種々のデータと比較することによってそのデータのもつ意義を発見するという方法がとられてきている。生物は遺伝子の組み合わせによって成り立っていると言ってよいが,遺伝子の種類の多さの故に多様である。そしてその遺伝子の多様性は遺伝子を構成している塩基配列の組み合わせの多様さに由来しており,同時にそれは,生物のもつ遺伝子の自己複製が,環境とのかかわりあいの中で色々な制約を受けたり,別の方向への適応の可能性があったりしたために変化(進化)した結果であるとも言える。そこで生物学では,生物の多様性を貫いて共通する構造や現象を抽出し,より基本的な現象を見出そうという考え方がなされる。塩基配列データに即して言えば,現在世界中の数多くの研究室で行われている,いわゆる「ホモロジー解析」はその格好の例であると言えよう。最近は比較の対象となるデータ量が増加したばかりでなく,たとえば蛋白質の部分的な高次構造などのより高次なデータを収集し比較するというような方法もとられるようになってきており,その中から思いがけない機能単位が思いがけない構造の中に見出されたりしている。さらに多くのデータを解析する中から,いわゆる Leu-Zipper や Zn-finger などの蛋白質の構造や, psuedo-knot などの DNA や RNA の構造などの特徴ある構造も見出されている。
 このような解析を行う場合には,たとえ塩基配列の正確さが 97-99 % 程度であっても,多くの場合は問題ないであろうし,塩基配列データが不確かな場所が生物学的に必ずしも重要だということもなかろう。筆者がこの程度の正確さのデータであってもあえて公表し,少しでも早く他の研究者の便に供するほうがよいと考える理由の第一はそこにある。もし他の研究者の興味をもつ遺伝子がこのようにして公表した塩基配列中にあることがわかったら,その研究者は公表された塩基配列データを利用し, PCR 法を用いてその領域を増幅して容易に解析を進めることができる。さらにその研究者がその遺伝子の機能を解析するために突然変異を導入し,その変異した塩基配列を決定すれば,もともと 98 % 程度であった塩基配列データの正確さは recursive に増していくことになる。要は発表する塩基配列領域の大きさとそれを発表する速さの問題であると考えているがいかがなものであろうか。
 これまでのところ,公表されデータベースに収録されている塩基配列データは,ほとんど個々の遺伝子あるいは関連する遺伝子群やその産物のレベルでなされたものである。したがって,それらのデータに基づいて発見されてきたDNAや蛋白質の特徴あるモチーフも,個々の遺伝子あるいは関連する遺伝子群の産物について見いだされてきたものである。今後,生物の多様性の中に秘められた共通項を辿ってもっと解析が進めば,まだ見いだされていないDNA や蛋白質の構造上の特徴をはじめ,さらによりマクロなゲノムの構造的特徴が浮かび上がってくるかも知れない。以上述べたような観点から,いよいよ「ゲノム情報」の重点領域研究でも本格的にゲノム解析を開始できる段階にきているのではないだろうかという感じがしており,同時に,その中から何か今までになかったことが発見されればと,その成果を期待している。