frissítve:2017.02.06.
2. Bioinformatika és internet
.
A különböző bioinformatikai intézetek honlapjain egyre több adatbázis és szekvencia elemzésre szolgáló program érhető el. Ezek a szolgáltatások bárki számára ingyenesek és használatukhoz csak egy internetre csatlakozó számítógépre van szükség.

Nehéz meghatározni, hogy mikortól számíthatjuk a bioinformatika fejlődését. Talán 1955-től, amikor az első fehérje szekvenciát (inzulin) Sanger és társai publikálták? Vagy 1965-től, amikor az első fehérje szekvencia atlasz (adatbázis) megjelent? A kétségtelen és ugrásszerű fejlődés a Sanger-féle nukleotidszekvencia meghatározás segítségével (1977) és annak automatizálásával jött el. Tekintsünk át néhány kiemelt mérföldkövet ebben a fejlődésben (3.táblázat).

Az elemzések elvégzéséhez nem kell rendelkezni sem a megfelelő adatbázisokkal, sem a szükséges számítógépes kapacitással. Összehasonlíthatatlanul gyorsabban elkészül a feladattal egy interneten keresztül elérhető, nagy teljesítményű számítógép, mint a helyi. Persze sok olyan feladat is van, amit a saját gépünkön vagy egy kisebb teljesítményű szerver használatával oldhatunk meg » 3. és 4. fejezet.


2.0. ábra:  Genomprojektek száma - 2017.

Mielőtt megismernénk a különböző lehetőségeket, fontos hangsúlyozni, hogy a számítógépes elemzés csak segédeszköz egy gén szerkezetének vagy egy fehérje funkciójának meghatározásában. Bármilyen erős is a hasonlóság, vagy egyértelmű egy motívum jelenléte, a kapott eredmény csak feltételezésnek (predikció) tekinthető. A bioinformatikai elemzés nem helyettesíti a biológiai kísérletet, de irányt mutathat a kísérletes munka folytatásához!


A kérdéses szekvencia (query sequence) az a nukleotid vagy fehérje szekvencia, amelyet a számítógépes programok segítségével vallatóra fogunk  (magyarul, a vizsgált szekvencia).

Alapvetően kétféle szekvencia analízis létezik, függetlenül attól, hogy DNS vagy fehérje szekvenciáról van-e szó. Az egyik az általános homológiakeresés, a másik a szekvencia belső sajátságainak elemzése. Természetesen a legjobb, ha mindkét megközelítést alkalmazzuk.

A homológiakeresés esetében a kérdéses szekvenciát hasonlítjuk össze az összes eddig ismert szekvenciával, majd a talált hasonló szekvenciák (gének, fehérjék) funkciójának ismeretében feltételezést teszünk a vizsgált gén vagy fehérje funkcióját illetően. Tehát a homológia elemzés adatbázisokban való keresést és a szekvenciák hasonlóságának meghatározását jelenti.

A “belső” sajátságok analízise vagy tartalom-elemzés több különböző művelet összege lehet, az exonoknak  a  szekvencia  statiszikai   jellemzőin

alapuló predikciójától a kódolt fehérjeszerkezet jóslásáig. Egyik jellemző formája a lokális bázisösszetétel elemzése. Ezt az teszi lehetővé, hogy a kódoló szekvenciák bázisösszetétele, kodonhasználata függ a kódolt információtól és az organizmustól. Ezzel szemben egy nem kódoló rész inkább hasonlít egy véletlenszerűen generált, random DNS-szekvenciára.

    A szekvencia elemzés első feltétele, hogy a vizsgálni kívánt szekvencia valamilyen fájl formájában jelen legyen a számítógépünkön. A szekvenciák meghatározásáról,  begépeléséről, szerkesztéséről, a különböző szekvencia formátumok egymásba alakításáról a 2.7.fejezet és a  4.3.fejezet ad bővebb információt. A következő részekben mindenütt találunk példa szekvenciákat, vagy olyan feladatokat, ahol a szekvencia adott.

A szekvencia birtokában a következő lényeges dolog, hogy ismerjük és elérjük az elemzéshez szükséges  adatbázisokat.




*

EBI

NCBI

GenBank

embl ENA

EMBL-stat

GenomPrj

UniProt

UniProtEBI

DBfetch

EMBL.ENA

WebIN

ENTREZ

PubMed

*
 
2.1. Szekvencia adatbázisok

A DNS- és fehérje szekvenálási módszerek elterjedésével szinte egy időben lépett fel az igény az adatokat összegyűjtő és számítógépes elemzéseket lehetővé tevő elektronikus adatbázisok létrehozására (3.táblázat). Elsődleges adatbázis az az adatbázis, ami direkt mérési, kísérletes adatokat tartalmaz. Ilyenek a nukleotidszekvencia adatbázisok. Csak kis részben felelnek meg ennek a feltételnek a fehérje szekvencia adatbázisok, melyek tartalma (ma már) főleg a feltételezett kódoló szekvenciák lefordításából ered. (Az első fehérje szekvencia atlasz még teljes egészében direkt kísérletes adatokat tartalmazott (1965; 3.táblázat), hiszen előbb tudtunk fehérje szekvenciákat meghatározni (lásd Sanger 1955 és 1977).

2.1.1. Nukleotidszekvencia adabázisok
Az első európai adatbázist 1980-ban alapították Heidelbergben. Ez az EMBL Nukleotidszekvencia Adatbázis, melynek székhelye ma a European Bioinformatics Institute (EBI)  Hinxton, UK.   Ez szoros együttműködésben áll a GenBank  (székhely: NCBI - National Center for Biotechnology Information, Bethesda, Maryland, USA) és a DDBJ (DNA Database of Japan, székhely: CIB - Center for Information Biology, Mishima, Japan) adatbázisokkal » 5.táblázat .

A napi adatcserének köszönhetően gyakorlatilag mindhárom adatbázis ugyanazt az adatállományt tartalmazza, melynek növekedését a különböző kutatócsoportok és genom-szekvenálási programok által beküldött szekvenciák biztosítják. Ma már csak olyan publikációt fogadnak el közlésre, melyben a 

.

meghatározott szekvenciát beküldték valamelyik adatbázisba, és a cikkben szerepel a szekvenciához kapott regisztrációs szám (AC vagy accesion number). Az új szekvencia a beküldést követő néhány napon belül már része az adatállománynak, így szerepel a különböző elemzésekben. A regisztrációs szám alapján pedig bárki lekérheti az interneten keresztül (2.1.1.).

Napjainkban a nukleotidszekvencia adatbázis nagyjából kétévente a duplájára nő » 2.1.ábra. 2007. október 1-én 105 millió (!) rekordból állt, melyek összesen 198 gigabázisnyi szekvenciát (198 x 109 betű) tartalmaztak. A fejlődés a genomprogramok (6.táblázat) elindulásával hihetetlen mértékben felgyorsult. 1999. első nyolc hónapjában 1.6 millió rekord (1.3 gigabázis) került regisztrálásra. Ez napi 6400 új rekordot és 5.4 megabázis szekvenciát jelent, ami megfelel egy baktérium teljes genomjának!

Érdekeségként említhető, hogy a projektek között már megtalálható a kacsacsőrű emlős  és a
                Homo neanderthalensis program is (6.táblázat).

Az EMBL Nukleotidszekvencia Adatbázis honlapján megtalálhatóak az adatbázis növekedését mutató ábrák és statisztikák is. Az aktuális adatbázis tartalma 2017. januárban már meghaladta a 2027 milliárd bázispárnyi szekvenciát és a 799 millió rekordot.



2.1.2. DNS-szekvencia források
Hagyományosan az adatbázisok két forrásból építkeztek. A kutatócsoportok által beküldött egyedi szekvenciák csak egy vagy néhány gént tartalmaztak, mind prokarióta, mind eukaróta esetben. A genomikus szekvencia mellett az eukarióta cDNS-szekvencia teljes meghatározása jelentette a másik fő forrást.

A szekvenálás automatizálása, az "áteresztő képesség" vagy szekvenáló kapacitás rohamos bővülése lehetővé tette a genomprojektek megvalósítását. Ma ezek szolgáltatják a legtöbb adatot. Új lehetőséget biztosít az EST, a GSS vagy a környezeti minták meghatározása is.

Az EST (expressed sequence tags, expresszálódó szekvencia jelek) módszernél  egy adott élőlény valamilyen mintájából (pl különböző szervek) származó összes cDNS-szekvencia teljes meghatározása helyett csak a klónok végét "olvassák el". Ezek a szekvenciák már alkalmasak az adott körülmények között expresszálódó gének azonosítására és más fajokban működő hasonló gének keresésére is. Az  EST adatbázis (dbEST) tehát csak részlegesen és nem is pontosan meghatározott cDNS-szekvenciák gyűjteménye (max. 500-800 bp, egyszeri olvasásból). Sokszor ezek a szekvenciák az első kísérletes bizonyítékai egy prediktált gén müködésének, vagy egy még bioinformatikai módszerekkel sem azonosított  új gén létezésének. 

4. táblázat:  A nukleotidszekvenciák forrása 353 374 faj (2009.)

GSS (genome survey sequences) adatbázis különböző genomikus részszekvenciákat tartalmaz. A kezdődő genomszekvenálás által szolgáltatott szekvenciák mellett ide sorolhatók egy géntár összes klónjának végszekvenciái, amelyek megmutatják, hogy az egyes klónok mely részét fedik le a genomnak. Nagyon hasznos az is, ha meghatározzák egy mobilis genetikai elemmel (pl T-DNS, P-elem) előállított teljes mutánspark összes inszerciójának beépülési helyét. Ezek az információk a teljes genomikus szekvencia elkészülése után válnak igazán értékessé, a további genetikai munka, a gének létezésének és funkciójának bizonyításához. Az adatokból megtudjuk, hogy van-e egy adott génben mutáció a rendelkezésünkre álló mutánsok között, illetve  komplementációs kísérletekhez ki tudunk válogatni megfelelő kiterjedésű kozmid vagy BAC klónokat.


A környezeti DNS-minták (environmental meta- genomics), ahogy az elnevezés jelzi, a környezetből tisztított DNS-minták direkt meghatározásából erednek. Jelentős részük az óceánokból származik (marine metagenome). A 2.2. ábrán látható, hogy  egyre nagyobb részét alkotják a meghatározott szekvenciáknak. A környezeti mintákkal olyan mikroorganizmusok szekvenciáihoz férhetünk hozzá, amelyeket még nem ismerünk, túlnyomó részük nem is tenyészthető.  



2.2. ábra:
Az EMBL Nukleotidszekvencia Adatbázis fő forrásai az ábrán látható projektek (összes nukleotid tartalom aránya, 2009. 12.).


Az  eddigi adatok  szerint  a   hagyományos mikrobiológiai módszerekkel kevesebb mint 1 %-a tenyészthető ki a ténylegesen létező fajoknak!

A kísérletes megközelítésből adódóan ezek a szekvenciák nem rakhatók össze egy teljes genommá, eredetük nem ismert. Azonban nagy számú minta meghatározásával megbecsülhetjük a genetikai sokféleséget, a környezetben lévő ismeretlen fajok számát, és az egyes mintákban képviselt gének rokonsági fokát.
.

.
2.2.a ábra: A legtöbb meghatározott nukleotidot adó első 20  élőlény  és a hozzájuk tartozó adatsor látható GenBank release 179 (8/2010)


2.1.3. Fehérje szekvencia adatbázisok
A SWISS-PROT fehérje szekvencia adatbázist 1986-ban kezdte el fejleszteni a Swiss Institute for Bioinformatics (SIB). 2003 óta a SIB, az EBI  és a  Protein Information Resource (PIR) kollaborációban gondozza. Ez  tényleg gondozást jelent, hiszen az új adatbázis rekordokat egyedi elbírálás alapján hozzák létre. A folyamat nem automatizált, hanem kurátorok (bioinformatikában jártas biológusok) végzik, akik a rekordokat folyamatosan frissítik és bővítik. A kiválogatott szekvenciák egy részét direkt fehérje szekvenálási módszerekkel határozták meg, vagy a fehérje létezésére ez a kísérleti adat is rendelkezésre áll. Ennek hiányában a gén transzkripciójára van kísérletes adat (cDNS), vagy a fehérje fontos és jellegzetes képviselője egy fehérje családnak. Elsősorban a modellszervezetek fehérjéinek feldolgozására koncentrálnak. (E. coli, Arabidopsis). Az adatbázis nem csak a fehérje elsődleges szekvenciáját tartalmazza, hanem funkciójának, poszttranszlációs módosításának, jellegzetes doménjeinek, másodlagos és negyedleges szerkezetének és homológjainak adatait is megtaláljuk benne.

A SWISS-PROT Release 2014_01 összesen 542.258 szekvenciát tartalmaz (statisztika). Ez csak töredéke a TrEMBL fehérje szekvencia adatbázisnak (lásd később). A SWISS-PROT ugyanis nem fogadja automatikusan a DNS-szekvenciákból következtetett fehérje szekvenciákat, ahogy az a fenti ismertetésből is következik. Viszont elmondható, hogy a legjobban jellemzett fehérjéket tartalmazza, és kereszthivatkozások révén 60 más adatbázissal van kapcsolatban.

Van egy külön TrEMBL fehérje-adatbázis, amely minden olyan kódoló szekvencia (CDS) "fordítását” tartalmazza, ami az EMBL Nukleotid Szekvencia Adatbázisba bekerül. A TrEMBL Release 2014_01 51.616.950 rekordból állt. Most ?

Az UniProt (Universal Protein Resource) több fehérje adatbázis egyesítéséből jött létre (SwissProt, TrEMBL, PIR). Az UniProt adatbázis átlagos fehérje szekvenciája 326 aminosav hosszú, de van benne egy 36805 AA hosszú szekvencia is (lásd a lenti ábrát).

Ismert térszerkezetű fehérjék adatbázisa a Protein Data Bank (PDB), mely több mint 97.000 rekordot és 3d képet tartalmaz.

Az említetteken kívül még számos adatbázis létezik, amelyeket részben más fejezetek említenek.


Friss információ található mindezekről a Nucleic Acids Research folyóirat évente megjelenő, adatbázisokról szóló külön kötetében is.

Sok fontos szempontot kell figyelembe venni az adatbázisokban való keresésnél, de talán a legfontosabb az, hogy megfelelően frissített, naprakész adatokkal tudjunk dolgozni. Egy szekvencia többször is előfordulhat az adatbázisokban, ezért  létrehoztak egy nem redundáns egyesített adatbázist is (nr adatbázis), mind DNS, mind fehérje szekvenciákból. Ezeket is naponta kiegészítik a beérkezett új adatokkal és hozzáférhetők a homológiakereső programok számára.

Az nr adatbázis összetevőiről mindig találunk leírást a homológiakeresés eredményét tartalmazó szövegben, és további információhoz juthatunk az NCBI honlapján keresztül is. Ha a célunk az, hogy megtaláljuk a vizsgált szekvenciára legjobban hasonlító ismert szekvenciát, akkor ezeket az adatbázisokat kell használni. Szükségtelen azonban — az első tesztet követően — mindig a teljes nr adatbázist átvizsgálni, ha csak arra kíváncsi valaki, hogy megjelent-e az újonnan beküldött szekvenciák között egy jobb egyezést mutató szekvencia. Ilyenkor a keresést le kell szűkíteni egy meghatározott időpont után regisztrált szekvenciák körére.


2.1.4. Az adatbázis rekord
Az adatbázisokba beküldött szekvenciák és a hozzájuk tartozó információk egységes formátumban kerülnek rögzítésre (adatbázis rekordok), így a számítógépes programok számára értelmezhetők, kezelhetők.

A nukelotidszekvenciák általában az őket leíró publikációknak megfelelően jelennek meg az adatbázisban. A szekvenciák mindig  5'—3' irányban szerepelnek, a bázisok pedig értelemszerűen az 5' vég első pozíciójától folyamatosan vannak számozva.

A cDNS-szekvenciákat RNS-ként tartják nyilván, a genomikus szekvenciáknál pedig a kódoló szál szekvenciája szerepel, ha minden gén egy irányban helyezkedik el rajtuk.



Általában csak a “vad típusú” szekvencia szerepel az adatbázisban. A különböző mutációk okozta eltérésekről a “feature table” rész tehet említést. A tRNS molekulákat, mint nem módosított RNS szekvenciákat regisztrálják, amelyek kolineárisak a genomi szekvenciával és a módosított bázisokról szintén a “feature table” részből kaphatunk adatokat.

A fehérjeszekvenciák az N-terminális végtől kezdődnek. Az adatbázisok mind a nukleotidok (9.táblázat), mind az aminosavak (10.táblázat) jelölésére egybetűs rövidítéseket alkalmaznak.  

Egy EMBL és egy SWISS-PROT rekordot mutat be a 2.3.   és a 2.4. ábra. Látható, hogy nagyon hasonló elvek alapján épülnek fel.  

2.3. ábra: Egy eukariota genomi szekvencia adatlapja az EMBL adatbázisból  (X51799)  és a GenBank adatbázisból. A pirossal jelzett részen két hiba található az exon-intron határok megadásában 

ID   ATCSCH42   standard; DNA; PLN; 6801 BP.
XX
AC   X51799;
XX
SV   X51799.1
XX
DT   16-MAR-1990 (Rel. 23, Created)
DT   11-MAR-1999 (Rel. 59, Last updated, Version 3)
XX
DE   Arabidopsis thaliana cs/ch-42 gene for a chloroplast protein (cs)
XX
KW   chlorata locus; chloroplast protein; unidentified reading frame.
XX
OS   Arabidopsis thaliana (thale cress)
OC   Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
OC   euphyllophytes; Spermatophyta; Magnoliophyta; eudicotyledons;
OC   core eudicots; Rosidae; eurosids II; Brassicales; Brassicaceae;
OC   Arabidopsis.
XX
RN   [1]
RP   1-6801
RA   Mayerhofer R.;
RT   ;
RL   Submitted (06-FEB-1990) to the EMBL/GenBank/DDBJ databases.
RL   Mayerhofer R., MPI fuer Zuechtungsforschung, Carl von Linne Weg 10, D 5000
RL   Koeln 30, F R G.
XX
RN   [2]
RP   1-6801
RA   Koncz C., Mayerhofer R., Koncz-Kalman Z., Nawrath C., Reiss B., Redei G.P.,
RA   Schell J.;
RT   Isolation of a gene encoding a novel chloroplast protein by T-DNA tagging
RT   in Arabidopsis thaliana;
RL   EMBO J. 9:1337-1347(1990).
XX
DR   AGIS; X51799; 17-SEP-1999.
DR   MENDEL; 12580; Arath;1780;12580.
DR   SWISS-PROT; P16127; CHLI_ARATH.
DR   SWISS-PROT; P16128; YCCH_ARATH.
XX
CC   Data kindly reviewed (02-APR-1990) by Mayerhofer R.
XX
FH   Key             Location/Qualifiers
FH
FT   source          1..6801
FT                   /chromosome=4
FT                   /db_xref=taxon:3702
FT                   /organism=Arabidopsis thaliana
FT                   /strain=columbia
FT                   /map=39.4
FT   CDS             complement(<1..872)
FT                   /db_xref=MENDEL:12580
FT                   /db_xref=SWISS-PROT:P16128
FT                   /note=ORF (291 AA)
FT                   /protein_id=CAA36096.1
FT                   /translation=MLCFSASRLDDFDLGSSPPKKGSKTTTKSMDCEEICASSKSDKSD
FT                   DLDFGLDLPITRQVPSKANTDVQAKASAEKESQNYKTTDTLVVNKSKNSNQAALESMGD
FT                   FEAVESPQGSRKKASQTHTMCVQPQSVDTSPLKTSCSKVEEKNEPCPSNETIAPSPLHA
FT                   SEIAHIAVNRETSPDIHELCRSGTKEDCPIDPENANKKMITTMESSYEKIEQTSPSISS
FT                   HLCSDKIEHQQEEMGTDTQAEIQDNTKGALYNSDAGHSLTTLSGKISPGTRTSQTAKVQ
FT                   DLSEKLPLDP
FT   precursor_RNA   2770..4382
FT                   /note=primary transcript
FT   mRNA            join(2770..2899,2981..3095,3205..4382)
FT                   /note=exon 1
FT   CDS             join(2796..2899,2981..3095,3205..4260)
FT                   /db_xref=SWISS-PROT:P16127
FT                   /note=chloroplast protein
FT                   /protein_id=CAB38561.1
FT                   /translation=MASLLGTSSSAIWASPSLSSPSSKPSSSPICFRPGKLFGSKLNAG
FT                   IQIRPKKNRSRYHVSVMNVATEINSTEQVVGKFDSKKSARPVYPFAAIVGQDEMKLCLL
FT                   LNVIDPKIGGVMIMGDRGTGKSTTVRSLVDLLPEINVVAGDPYNSDPIDPEFMGVEVRE
FT                   RVEKGEQVPVIATKINMVDLPLGATEDRVCGTIDIEKALTEGVKAFEPGLLAKANRGIL
FT                   YVDEVNLLDDHLVDVLLDSAASGWNTVEREGISISHPARFILIGSGNPEEGELRPQLLD
FT                   RFGMHAQVGTVRDADLRVKIVEERARFDSNPKDFRDTYKTEQDKLQDQISTARANLSSV
FT                   QIDRELKVKISRVCSELNVDGLRGDIVTNRAAKALAALKGKDRVTPDDVATVIPNCLRH
FT                   RLRKDPLESIDSGVLVSEKFAEIFS
FT   exon            2770..2899
FT                   /number=1
FT   intron          2900..2980
FT                   /number=1
FT   exon            2981..3095
FT                   /number=2
FT   intron          3096..3204
FT                   /number=2
FT   exon            3205..4382
FT                   /number=3
FT   polyA_signal    4378..4382
XX
SQ   Sequence 6801 BP; 2093 A; 1242 C; 1374 G; 2092 T; 0 other;
     ggatccagtg gtagcttttc actcaaatct tgtaccttgg cagtttggct tgtacgagtg        60
     cctggtgata ttttgcctga gagggttgtt agagaatgtc cagcatctga gttatacagt       120
     gctcctttag tgttatcctg tatttctgcc tgagtgtctg tacccatttc ttcctgttga       180
     tgttctatct tgtctgaaca taaatgagat gagatgcttg gtgaagtctg ..........

A rekord az annotációból (magyarázatok, megjegyzések) és magából a szekvenciából áll. Az annotáció elején a szekvencia rövid leírása és az azonosító adatok találhatók. A szekvencia elnevezése, a rekord státusza, a molekulatípus, a taxonómiai beosztás (baktérium, növény ...stb) és a teljes szekvencia hossza található az :
  • ID ( identification ) sorban.
  • AC ( accession number ) ebben a sorban található a regisztrációs szám . Lehet több is belőle.
    A további sorok jelentése a következő :
  • SV ( sequence version ) szekvencia-változat,
  • DT ( date ) a beküldés és a módosítás dátuma,
  • DE ( description ) a szekvencia rövid leírása,
  • KW ( keyword ) kulcsszavak,
  • OS ( organism species ) a szekvencia forrásaként szolgáló faj megnevezése,
  • OC ( organism classification ) taxonómiai besorolás,
  • OG ( organelle ).
Ezek után következnek az irodalmi hivatkozásokat tartalmazó bejegyzések :
  • RN ( reference number),
  • RC ( reference comment ),
  • RP ( reference positions ),
  • RX ( reference cross-reference ),
  • RA ( reference authors ),

  • RT ( reference title ),
  • RL ( reference location ),
  • DR ( database cross-reference ),
  • CC (comments).
Első referenciaként a szekvenciát beküldők adatai szerepelnek, utána pedig a szekvenciával kapcsolatos cikkek, ha a beküldők frissítették az első beküldés után az adatokat.

A harmadik adatcsoport, a “feature table”, a szekvencia jellemzői
  • FH (feature table header) fejléc és
  • FT (feature table data) adatsorokon keresztül, megadva a kódoló (CDS) szekvenciák, az exon-intron határok, promoter, terminátor ... stb. helyek koordinátáit és a kódoló régió(k) által meghatározott fehérjé(k) szekvenciáját. SWISS-PROT rekord esetében az ismert domének, aktív helyek jellemzői szerepelnek ezen a helyen. WebFeat
  • XX  (spacer line) üres sorok átláthatóbbá teszik az egész adathalmazt.
    Végül, a rekord második felében található maga a szekvencia a megfelelő számozással ellátva. Az
  • SQ (sequence header) sorban a szekvencia teljes hossza és bázisösszetétele található.


A GenBank rekord az előbbiekhez hasonló felépítésű, de a sorok elején található kétbetűs jelölések helyett általában egész szavak szerepelnek, így például:
 a DE helyett DEFINITION,
az AC helyett ACCESSION,
a KW helyett KEYWORDS (X51799).

Fontos tudni, hogy a rekord — néhány kötelező információn kívül — azt tartalmazza, amit a szerzők jónak láttak megadni! Ezt az adatbázis kezelők csak a szerzők kérésére javítják illetve egészítik ki. Ezért sokszor előfordul, hogy egy rekord nem naprakész és téves információkat is hordoz. Ne vegyünk mindent készpénznek! Ellenőrizzük több oldalról is a számunkra lényeges adatokat !        



PÉLDÁK:

prokarióta szekvencia:                        AJ245399
eukarióta genomikus szekvencia:          X82824
cDNS szekvencia = RNS szekvencia:   X82825
protein szekvencia                                  P16127

2.4. ábra :  Egy SWISS-PROT rekord felépítése  (P16127)                                                                                  » 2.1.3 fejezet
                                                                     A 2.4. ábra megtekintése
 
2.1.5. Szekvencia lekérés különböző formákban
A DNS- és fehérje szekvencia rekordokat az EMBL, GenBank vagy SWISS-PROT adatbázisok honlapján keresztül lehet lekérni, a regisztrációs szám megadásával (5.táblázat). Mivel az EMBL és a GenBank adatbázis is tartalmaz minden beküldött szekvenciát, ezért nincs jelentősége annak, hogy azt eredetileg hova küldték be, mert ugyanazt a regisztrációs számot kapja mindkét adatbázisban. Az EBI külön oldalt tart fent a lekérések segítésére, ahol nemcsak nukleotid, hanem fehérje adatbázisokat is elérünk. Ez a Dbfetch.

Ha nem tudjuk a regisztrációs számot, akkor használjuk az ENTREZ rendszert a kérdéses gén- vagy fehérje szekvencia rekordjának megkeresésére  » 2.2.


(a) FASTA szekvencia formátum
Van egy rövidebb adatbázis-rekord forma is, mely a szekvencián kívül csak a regisztrációs számot és egy rövid leíró fejlécet tartalmaz. (2.5.ábra). A homológia kereséseket végző programok az ilyen rövid változatokból álló, egyesített adatbázisokkal dolgoznak.

Sokszor a FASTA-formátumot kell a szekvencia elemzéseket végző honlapokon használni, azaz az első sorban az első karakter a  > (nagyobb mint) jel. Ez után lehet az elemzésre elküldött szekvencia nevét és az esetleges megjegyzéseket írni. A második sortól következik a számozás nélküli szekvencia. Minden sor legfeljebb 80 karakter lehet.


2.5. ábra: Egy DNS szekvencia FASTA formátumban

>proba.seq  -  ide bármi kerülhet pl. szekvencia neve (egy sor !)
CTGCAGCCGGTCGGAACGCGTGCCCATGTCCAGGTCTGCGGCACCACGCCCTGCATGCTGCGCGGCGCCGAAGACCTGAT
CAAGATCTGCAAGAAGAAGATCGCCAGCGAACCGTTCACCCTCAATGAGGGCGGCACGCTTTCCTGGGAAGAGGTCGAAT
GTCAGGGCGCCTGCGTCAACGCGCCGATGGTCATGATCTTCAAGGGACACGTTCGAGGATCTGACGCCGGAGCGGCTCGA


(b) Átalakítás FASTA formátumba:
Az adatbázisok honlapján a lekért szekvenciát a FASTA formátum választásával alakíthatjuk át a megfelelő formába. Ehhez egy GenBank rekord esetén az oldal bal felső részén csak rá kell "kattintani" a FASTA feliratra, vagy a "Display Settings" lehúzható ablaknál beállítani (lásd a lenti ábrát).


Az EMBL adatbázis esetén egy külön lekérő oldal van (EBI DbFetch), aminél előre kell beállítani, hogy milyen formátumban kérjük a rekordot.

GenBank példa:       X51799
EBI Dbfetch példa:  X51799,    fehérje: P16127

(c) Grafikus megjelenítés
Ha több gént is tartalmaz a rekord, akkor hasznos lehet a grafikus megjelenítés. Ez egy annotációs adatok (FT sorok) alapján készült géntérkép, amelyen könnyebb eligazodni, mint az eredeti rekord koordináta-erdőjében.

A GenBank adatbázis rekordnál csak a "Graphics" gombra kell kattintani ehhez az ábrázoláshoz. Utólag is beállíthatók és módosíthatók rajta az ábrázolni kívánt szekvencia koordinátái, az egyes megjelenítendő részletek.


Az EMBL ENA (European Nucleotide Archive) oldal is alkalmas a FASTA és a grafikus megjelenítésre, de használata nehézkesebb, mint a GenBank oldalé.


Grafikus megjelenítés és egy részletének nagyítása



(d) Egyes részletek megjelenítése, lekérése
Szükségünk lehet a szekvencia rekord egy részének elkülönítésére, elemzésére, más szekvenciákkal való összehasonlítására. Ebben az esetben is praktikus a GenBank adatbázist használni, ahol a FASTA formává alakítás mellett kijelölhetjük részszekvenciák annotációjának vagy grafikus ábrázolásának megjelenítését. A CHANGE REGION SHOWN ablak  segítségével megadhatjuk a részlet koordinátáit (lásd lent balra).

A CUSTOMIZE VIEW ablakban a kijelölt szekvencia megfordítását is beállíthatjuk, ha az adott szakasz lekérése számunkra úgy praktikus (pl. fordítva állnak rajta a gének). Az anotáció rész ilyenkor a kijelölt részen belül az újra számolt koordinátákat mutatja. Ezt a szöveget illetve a szekvencia FASTA formáját copy/paste segítségével el is menthetjük saját gépünkre.

PÉLDÁK:
GenBank példa: X51799,   NC_003065,
EMBL példa:  X51799






2.1.6. Szekvencia beküldés
Az új nukleotidszekvenciát a legcélszerűbb az ENA Submit&Update honlapon keresztül elérhető, szekvencia beküldéshez készített oldalak kérdéseinek megválaszolásával regisztráltatni » 5.táblázat .

A beküldési oldalakon részletes segítséget kapunk ehhez. Tanácsos minden szükséges adatot előre összeírni — egy EMBL rekordot segítségként használva —, mert a beküldés még ezzel is sok időbe telik.

Ellenőrizzük a megadott transzlációs start és stop kodonok, az exon-intron határok általunk megadott koordinátáit úgy, hogy a megfelelő programok segítségével előállítjuk a génterméket a beküldésre szánt szekvenciából kiindulva.
» 2.3.fejezet és 4.4.2. TRANSLATE.

A Webin honlapon keresztül történő beküldés esetén kapunk egy külön azonosító számot is, melynek segítségével a félbeszakadt beküldést folytathatjuk egy későbbi időpontban. Igy nem kell elölről kezdeni a folyamatot. Sikeres beküldés estén azonnal kapunk egy automatikus e-mail üzenetet. A regisztrációs számot pedig egy héten belül kapjuk kézhez.

A beküldött adatokat később, a honlapon keresztül, bármikor kiegészíthetjük, módosíthatjuk. Ez nemcsak lehetőség, hanem kötelesség is, hiszen csak akkor marad naprakész az adatbázis, ha az újabb információkat a szerzők elhelyezik benne.

E-mail segítségével illetve a hagyományos, posta útján való regisztrációra már nincs lehetőség.

- kezdőlap   - 2.1. fejezet  - 2.2.  fejezet  -  2.3. fejezet  -   2.4. fejezet  -  2.5. fejezet  - 2.6. fejezet  2.7. fejezet  - jelölések  -