FRISSÍTVE: 2012.02.14.
EMLÉKEZTETŐ: DNS, gének és fehérjék

A dezoxiribonukleinsav (DNS) alkotórészei  

1868. Meischer gennysejtek magjából izolálja a foszfor tartalmú nuklein-t
4 bázis alkotja: adenin (A), citozin (C), guanin (G), timin (T)

bázis+ deoxiribóz -> nukleozid  + foszfát csoport (polimerben foszfodiészter kötés) -> nukleotid:

purinok:
deoxiadenozin 5'-monofoszfát - dAMP, deoxiguanozin 5'-monofoszfát - dGMP

pirimidinek:
deoxicitidin 5'-monofoszfát - dCMP, deoxitimidin 5'-monofoszfát - dTMP

Szabályos szerkezet: Erwin Chargaff meghatározta különböző élőlényekből származó DNS mintákban a bázisok arányát (11-1. táblázat) és bizonyos törvényszerűségeket fedezett fel, de ezek okára csak a szerkezet megfejtése adott magyarázatot (1953. James D. Watson és Francis Crick).
  • Chargaff szabályok
        • 1. T+C (pirimidinek) = A+G (purinok)
          2. A = T és G = C (A+T nem = G+C)

11-1 tálázat: A bázisok aránya a különböző élőlényekből izolált DNS mintákban.

A DNS szerkezete :

Röntgendiffrakciós szerkezetvizsgálatok: Rosalind Franklin, Maurice Wilkins az 1950 körül kezdték a kikristályosított DNS röntgendifrakciós szerkezetelemzését. Az eredmények (röntgendiffrakciós felvételek) kiértékelhetősége erősen függött a kristályosítás sikerétől. Franklin egyre jobb felvételeket készített, melyek igazolták a molekula helikális szerkezetét.

A Watson - Crick modell: a DNS szerkezetének megfejtéséhez James D. Watson és Francis Crick 1950-ben fogott neki, mert meg voltak róla győződve, hogy a DNS az örökítő anyag és a szerkezet megfejtése alapvetően rávilágít az öröklődés molekuláris mechanizmusára.

Riválisuk Linus Pauling volt, aki elsősorban a fehérjék szerkezetét kutatta és akkoriban állította fel és később részletesen igazolta is munkatársaival, hogy a fehérjék felépítésében lényeges szerepe van az alfa-héix szerkezetnek.



A két rivális csoport több modellt állított fel, melyek rövid időn belül tévesnek bizonyultak. Végül a versenyt Watson és Crick (meg Franklin és Wilkins) nyerték meg 1953-ban, amikor közölték híres, egy oldalas cikküket a NATURE folyóiratban. 1962-ben Nobel díjjal jutalmazták ezt az "egy oldalnyi" elméleti megfontolást.

A sikerhez alapvetően három lépcső vezetett : 
  • modellépítés , elméleti térszerkezeti megfontolások
  • röntgendiffrakciós mérések értelmezése (helix, - Linus Pauling - alfa-hélix)
  • a Chargaff szabályok ismerete és értelmezése




     





Szerkezeti jellemzők és következményeik:  
  • kettős hélix, melyben a két szálon lévő bázisok egymással H-hidak segítségével kapcsolódnak: A:T - 2db, G:C - 3 db H-híd
  • egymással szemben komplementer bázispárok, A:T és G:C helyezkednek el, így a párosok térkitöltése megegyezik.
  • replikáció (másolás) lehetősége,
  • genetikai kód - szálon belül nem kötött a sorrend = nem monoton !
  • egy "csavarmenet" 34 A, 10 bázispár / 1 csavar, 36o / bp
  • lefutás antiparalel, 5' - 3' irány
  • háromdimenziós szerkezet - nagy és kis árok, (major, minor groove)



Az  5'-3' irány
A DNS-polimer irányultságát a dezoxiribóz szénatomjainak számozása szerint 5' és 3' jelekkel  jellemezzük (piros nyilak). A polimerhez az újabb deoxiribonukleozid-monofoszfát egység  a DNS polimeráz segítségével a 3' végen csatlakozik egy  deoxiribonukleozid-trifoszfát (dNTP) egység felhasználásával. Kék szín jelöli a cukor-foszfát gerincbe beépülő foszfát csoportot (foszfodiészter kötés). Tehát a DNS-szál szintézise 5'-3' irányban történik, a  templát szál által meghatározott (azzal komplementer) bázisok beépítésével.

A másolás lehetősége a szerkezeti jellemzők felismerése után szinte magától értetődő volt, amit a híres Nature cikk utolsó mondata jezett:

"It has not escaped our notice that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material."




A "DNS szekvenálás"
A DNS szekvenciájának kísérletes meghatározása a molekuláris biológia módszereinek fejlődésével vált lehetővé.
Maxam Gilbert dolgozta ki a DNS-szekvencia meghatározás kémiai módszerét. Azonban a mai napig alkalmazott eljárás Frederick Sanger "didezoxi láncterminációs" módszerén alapszik. Munkájukat Nobel-díjjal jutalmazták. Sanger megoldása irányított DNS-bioszintézis kémcsőben, amely során izotóppal vagy fluoreszcens molekulákkal jelölik a keletkező új szálakat. Poliakrilamid gélelektroforézissel történő elválasztás után elolvasható a pontos betűsorrend. A szekvencia meghatározását ma már automata szekvenálókészülékek, a részszekvenciák összeszerelését számítógépek segítik. Erről később részletesen lesz szó. Lásd 2.7. fejezet.


Hogyan kódolt a genetikai információ?

Genetikai kísérletekből már ismert volt, hogy a DNS-szálon a gének, mint könyvben a mondatok, egymást követve helyezkednek el. Az is nyilvánvaló volt, hogy a gének legnagyobb része különböző fehérjék (pl. enzimek) szerkezetét határozza meg. A kérdés most már az volt, hogy ez milyen kód alapján rögzített a DNS-molekulában? A DNS szerkezetének felvázolása után a molekuláris biológia és később a bioinformatika szempontjából a következő fontos lépés a genetikai kód megfejtése volt.

Felfedezték, hogy a DNS bizonyos szakaszai RNS molekulákká íródnak át (RNS = ribonukleinsav) Ez a transzkripció, amely során nagyrészt hírvivő RNS-ek (messenger RNS, mRNS) keletkeznek. A mRNS-ek különböző fehérjék bioszintézisét határozák meg. Hasonlóan a DNS replikációnál írtakhoz, az RNS molekulák is 5'-3' irányban készülnek el. A különbség annyi, hogy a deoxiribóz helyett ribóz alkotja a gerincüket és timin helyett uracil található bennük.  A genetikai üzenet nukleinsavból (mRNS) fehérjévé alakulása (lefordítás, transzláció) a riboszómák segítségével valósul meg.

Főként biokémiai és részben genetikai kísérletek révén  sikerült kideríteni, hogy a fehérjéket felépítő 20 aminosavat a DNS-szálon hárombetűs "szavak", kodonok határozzák meg.


A kódszótár: a DNS-ben található T helyett U szerepel, mert az RNS molekulákban, és így a mRNS esetében is, uracil található a timin helyett.


Mivel 4 betű 3 egymást követő helyen összesen 64 lehetséges kombinációban fordulhat elő (4x4x4 = 43), ezért logikus következtetés volt, hogy egy aminosavat akár több különböző kodon is jelenthet. Ezt különböző kísérletekkel igazolták is. Tehát a kódszótár redundáns, akár hat különböző kodon is jelentheti ugyanazt az aminosavat (lásd a fenti táblázatot).



Hol kezdődik? Hol végződik?
A fehérjeszintézis (transzláció) kezdőpontját általában egy ún. "start kodon" határozza meg (ATG vagy RNS szinten AUG), ami metionint jelent. Mivel a szekvencia elemzések során DNS szinten vizsgálódunk, ezért a továbbiakban a kodonokat a DNS-szálon használatos formában tüntetjük fel. De ne feledjük, hogy a T mindig U RNS-szinten!

A transzláció befejezését három különböző "stop kodon" jelezheti (TAA, TGA, TAG). Egy aminosavat maximum hat különböző kodon jelenthet (pl: Leu - lásd a fenti ábrát).

Egy betűsorban nagyon sok helyen fordulhat elő véletlenül is az ATG kombináció. A legtöbb nem kezdőkodon. Hogyan ismerhető fel (a sejt számára is) a kezdőpont?

A DNS-szekvenciában nemcsak a fehérjék szerkezete (kódoló régió), hanem a gén kezdete és vége, valamint működésének (génexpresszió) mikéntje is meghatározott a DNS-szekvencia által.

(részletesebben lásd itt: GÉNEXPRESSZIÓ)


A gén elsődlegesen egy RNS-molekula bioszintézisét határozza meg. Egy DNS részlet RNS molekulává átírása ,a transzkripció, az RNS-polimerázok által valósul meg. Azt, hogy honnan és mikor kezdje munkáját az RNS-polimeráz a kódoló régió előtt található jelek (DNS-szekvenciák) határozzák meg. Ez a gén promoter régiója, amely tartalmazza az RNS-polimeráz kötőhelyét és különböző, a gén működését (transzkripcióját) befolyásoló szabályozó fehérjék kötőhelyét is.

Az RNS molekula szintézisének befejezését (transzkripció termináció) szintén a DNS-szekvenciában kódolt jelek határozzák meg. Ez is része a génnek. Prokarióták esetében fontos szabályozási pont lehet.

Sok szabályozó rész bázissorrendjének meghatározása tette lehetővé a szekvenciák összehasonlítását, a jellegzetes részek (szignálok) megtalálását. Ez már a bioinformatika feladatát is képezi.


5'-GACACCATCGAATGGCGCAAAACCTTTCGCGGTATGGCATGATAGCGCCCGGAAGAGAGTCAATTCAG-3' "felső szál"
3'-CTGTGGTAGCTTACCGCGTTTTGGAAAGCGCCATACCGTACTATCGCGGGCCTTCTCTCAGTTAAGTC-5' komplementer szál

Leolvasási keret és ORF
Egy adott DNS-szakasz szekvenciáját 5'-3' irányban írjuk fel. Elég csak a "felső" szál  szekvenciáját megadni, hiszen az pontosan meghatározza a vele kapcsolódó, komplementer "alsó" szál  bázissorrendjét (lásd fent).
Egy DNS-szál kódoló kapacitását három lehetséges leolvasási (fordítási) keret szerint vizsgálhatjuk, mindig csak az 5'-->3' irányban, hiszen a DNS-szálról képződő mRNS is ebben az irányban szintetizálódik és fordítódik le aminosav sorrendre (fehérjére).
 
5'
GCATGCACGGCGGCTTCGGCCGAATGACGGCGAAAACTCTTGCGGCCTGGGAAATCCGGTAGCCGCGGACGCGGAGTTAC

CAATTTGCCAGGCATTATCGAGACCATTTCGCTGATCGTGTCTTCGCTGGCGACGACGACGGCCCTGGCCAACGCGCTCT
ACCTCGGCACGTCGGCGCTGCTTTACGGCGGCATCGCGGCCGGAGCTCTAGCGCTGCAGGGCGCGTTCGCTTCCAAGCCA
GCCGTGCCGAAGCCAGACGACGGCAGCTATAACCTGAAACAGAGCGTTCCGTCGCTGCCTTACGTGCTCGGGCGCGTCAA
GAAGGGTAGCGATTACGTCTTTCTAGAGGAGAAGGGCGGCAAGGCGCACCACATCATGGTGTGGGCGGGGCATCGCATAC
ATGCGTTCGTCTCCCACTACCTGCATGACGAAAAGGCCACCCTGAACGTCGACGGTGGCGTGACCGAGCCAGGCCATTAC
GACAAGGACGGTGTCAGCTTCGTTCACATCAAGACGAAGCTCGGGCTGAACGCCGAAACGGCATATTCCGACGTAGTTAC
CGCCTTTCCGACCATTTGGGACAACAACTGCCGCGGAGATGGACTCGCGTCTGTCTACATGACGTGCAGGACTGTCGATC
AGAAAGACTTTCTGGATGTCTACCCGAACCAGATGCCGGAGCATTCGGCGGTTGGTGACGGCGCGCTTCTGTATGATCCG
CGCAAAGACAGCACGCAGGGCGGATCCGGGGCGCACCGCTACAACAACCCACTGACGTGGGAGTTCTCGAGCAATCTGGC
GCTGATGCGCCTATGGCACCTCTGCCACCCCGTCGGCGGCAAGATGGCCTACGAGAACATGTATCTGCCCGACTGGGCGA
ATGCCGCTAACGTCTGTGACCAGAACGTCACGAACCGCAGCGGGGCAACGGAGAAGCGCTACCACGGCGGCTTCTGGTTC
CGCGCCAGCAATGACCCGATCGAAGTCGGGCGCATCATGGACGAAGCCGCCGAGATCGTTGTCTACGAGCGCGCCGACGG
CAAGATCGGCGTCCATGCCGGTGAGTTCGTCGCGCCCGATGTGCGGCTGGAGGCCAAGAGCATCTACAGCATCCGCGTCG
ACAAGAATAAGCGGCGCGCGAACACTGTGCTTGGCGTGCGCGGGCGGTACGTCAATACGGCCAAGGACTACATCACTGAA
GACGCCGCGATATACGGCGACCCGTATGCTGTCGTCGACGACAGCACGGAGCGCACGCGGACCTTCGACAATGCGGCAAT
CCAGAGCCACAACCACTGCCAGCGCAAGCAGAAGTTGACGTTTGTCAGGGCGAACGCTCGGCGCGTCTCGGTGGTCGCGG
ACTACACGGCAGACGGCGTTAGGGATATCCCTTACCGGCGCTTCGTGACGGTGCACTACCCTAGCCGGGGGCTGGCCGAA
GCCGTTGTTGAAATCACATCGAGCGTGACGATTGATCTGCGCAACATGCGCATTTCGTTCTCCGGCATTATCGTGTCACC
GAGCCTGTACGCCTTCAACGCCGCAACGGAGGAGGGCGAGCCTGGCGAGTCCGTCGAGCCATTGCCCGATGAGGGCGTCC
CGGTCCCGACGGGCTTCGTTCCGACGATCCAAACGGAAGTCGTTTCTGGCGGCGCCACGGCGGCATTCATCAATGCGACG
TGGACCTTCGTCGACGACACGCTGACTTACGAGCTCGAATACGACCGCACCAGCGGCTCGACGGGCGTGCAGTCGGTGTT
TTCAGTTGCTGGCGATACGCAGGTTCGTTCCGGCTATCTCGTCGACGGCGAGGAATACCGCGTCAGGCTGAGAGCATGGG
GCGGCGGCACGAAGTCCGAGTGGACCGATTACGTGCTTCTGACTGCTACGGCGGATCCGGTTGCGCCGGGGGCTGTTACG
GCGGTCAGCGTGGATGTGTCGACGCCGTCTGAAGCCGAGTTTGGCTGGACCGCGCCGAACAGCGCCAACTACTTCGCCTG
CCGCATTTACATCAACACCGTCGACAACCTGGGAACGGCAACGCTCGCGGCGACCGAATACGGGCCGCCTAGCGCGACCG
ACTTGCGCGTCGTCACGTCGCTCGCCGCCGGCACCTATTACGGCTGGCTTCGGTCGATCAACCCATCTGGCATCGCCGGT
ACGGCGGTAGCGACTGGGGCGTTTGTCGTGACGTAACGCCACCCGCCGACAGCACAATCTGGATTTTGCAGCCCGCCCTC
GCGCGGGCTTTTTCTTTACATGGAGCAAGCATGGCCATCACCGCAGCAGAGGCCT-3'

Ha nem tudjuk, hogy honnan kezdjük a bázistripletek dekódolását, akkor mindhárom esetet meg kell vizsgálnunk. Ráadásul a komplementer szálak mindegyike lehet kódoló szál, ezért összesen hat lehetséges leolvasási keretet kell számításba venni, ha egy adott szakaszon a lehetséges fehérje kódoló részt keressük.

A fenti szekvenciát tehát egy irányból három helyről kezdhetjük kodonokra bontani, és a kodonoknak megfelelő aminosavakat egymás után írni :
az 1. keretben a kezdő kodon  GCA (Ala),
a  2. keretben CAT (His),
a 3. keretben  ATG (Met). Mindhárom keret fordítása egyedi amonosavsorrendet eredményez.



A kodonok lefordítását egy adott kezdőponttól addíg folytathatjuk, ameddig stopkodon nem következik. Ez a lehetséges kódoló keret és egyben a lehetséges kódolt fehérje végét jelenti. Egy  nyitott leolvasási keret (open reading frame vagy ORF) tehát egy stopkodont követő kodontól a következő stopkodonig terjed. Ez a  maximális fehérjekódoló kapacitást jelenti. Mivel általában a kezdő kodon ATG, ezért  első megközelítésben helyesen járunk el, ha az adott szakasz által meghatározott fehéreszekvenciát az első ATG kodontól kezdődően írjuk fel. (Sok kivétel is előfordul!)

A fenti szekvencia összes lehetséges nyitott leolvasási keretét (ORF) mutatja mind a hat lehetséges leolvasási keretben (mindkét DNS-szálon) az alsó ábra. A leghosszabb ORF  az 1. keretben található. Ezt a kódoló szekvenciarészletet jelölik a szekvenciában a piros ill. sárga betűk. A kezdő ATG után ugyanabban a leolvasási keretben közel 1800 bp után következik csak egy TAA (UAA) stopkodon. Tehát az elemzéssel találtunk egy reális méretű fehérje (több mint 100 aminosav) kódolására alkalmas nyitott leolvasási keretet.
    példa  



Az eddig elmondott szabályok szerint csak a prokarióta DNS-szekvencián tudjuk minden nehézség nélkül megtalálni a feltételezett kódoló régiókat. Ugyanis a prokarióta gének esetében a fehérje kódoló régiók egybefüggőek, nem megszakítottak.
Az eukarióta gén (genomikus szekvencia) általában fehérje szakaszokat kódoló részekből (exonok) és nem kódoló, közbeékelt DNS-szekvenciákból (intronok) áll.
A mRNS szintézis (transzkripció) során a közbeékelt szekvenciák is lemásolódnak (pre-mRNS), de ezek később a mRNS érés folyamatában kivágódnak, még a sejtmagban (ez a splicing).

Az érés (splicing) során az exonok összeépülnek  érett mRNS-sé, ami már - a prokarióta génhez hasonlóan - egyetlen egybefüggő leolvasási keretet tartalmaz.  (cDNS szekvencia).
Ebből következően a genomikus szekvencia számítógépes elemzése során azokat a jeleket is meg kell találni, amelyek az exon-intron határokat jelölik ki. Így rekonstruálni tudjuk a teljes leolvasási keretet. A génhez tartozó cDNS-szekvencia kísérletes meghatározása igazolhatja a számítógépes  elemzés eredményét.

A GT_AG szabály: Az exon/intron határt konzerválódott DNS-szekvenciák jelzik. Az intron 5' végén (DNS-szinten) GT, a 3' végén AG bázisok találhatók. Ez minden eddig elemzett esetben így volt, így ezek a "jelek" 100%-ban konzerválódtak. A többi feltüntetett bázis előfordulása, a megadott számoknak megfelelően, kisebb gyakoriságú.


START kodon, RBS és promóter
Az ATG és a kevésbé gyakori GTG  START kodonok mellett ritkán előfordulhatnak más kezdő kodonok is. Kísérletesen a fehérje N-terminálisának meghatározásával lehet ezek létét bizonyítani.

Prokariótáknál a START kodon előtt 10 bázispárral található a riboszóma kötőhely vagy Shine-Dalgarno (rövidítve RBS vagy SD) szekvencia. Ez a 16S rRNS 3' végével komplementer szekvencia 3-4 bázispárnyi részlete (ábra). Az RBS vagy SD előtt található a promoter szekvencia.


Prokarióta riboszóma kötöhelyek

Az E. coli erős promóter konszenzus szekvenciája:
T82T84G78A65C54A45  - 17bp - T80A95T45A60A50T96



A fehérjék aminosavakból  felépülő polimerek. Az egyes építőköveket peptidkötés tartja össze. A legtöbb fehérje a megfelelő génről keletkezett mRNS alapján a riboszómákon készül el (transzláció).
A fehérjék elsődleges szerkezete az aminosavsorrend. A fontos szekvenciarészletek  megkeresésében a bioinformatika is segítséget ad. A jellegzetes  részek fontos funkcionális elemek lehetnek. Enzim aktív centrumok,  DNS-kötő domén, ... stb.

A fehérjék másodlagos szerkezetét az egyes aminosavmaradékok közötti kölcsönhatások alakítják ki (hidrogén-hidak). Jellegzetes másodlagos szerkezet az alfa-hélix.

A harmadlagos szerkezet egy fehérjelánc teljes három dimenziós térszerkezetét jelenti.

A negyedleges szerkezet azt mutatja, hogy egy funkcionális egység (pl. enzim) milyen polipeptid láncokból áll össze.