.
SZÁMÍTÓGÉPES SZEKVENCIA ELEMZÉS
Jegyzet a  PTE TTK "Bioinformatika" c. biológia BSc kurzushoz.

PUTNOKY PÉTER  -  PTE TTK Genetikai és Molekuláris Biológiai Tanszék
2016.11.16.

   
 Bevezető - 2000.    -    Bevezető - 2003.

            
Bioinformatika és internet
                   Szekvencia-adatbázisok
                           Szöveg alapú keresés
                                  Génkeresés
                                       Szekvenciák összehasonlítása
                                             Több szekvencia illesztése 
                                                        Fehérje domének és más  jellegzetes részlek
                                                                Szekvencia javítás, illesztés
                                                                       Primer tervezés
                                                                                  Egy komplex feladatRégebbi, már nem gondozott fejezetek:
1.   Informatika és internet
2.   Bioinformatika és internet (lásd fent)
3.   Minimális UNIX ismeretek
4.   A GCG programcsomag
5.   Az EMBOSS programcsomag
6.   A DNS 50 éve - cikkek, linkek
7.   DNS, gének, fehérjék 
 
Bevezető -2000.

   A számítógépes adatbázisok, hálózatok és programok ma már nélkülözhetetlen eszközök a molekuláris biológiában. A jól csengő "bioinformatika" kifejezés használatos arra, hogy összefogja mindazokat a módszereket és műveleteket — kezdve a laboratóriumi adatkezeléstől az eredmények értékelésén keresztül az elektronikus publikálásig, a DNS- és fehérjeszekvenciák adatbázisokba való gyűjtéséig —, melyek célja a kísérletes munka segítése, a molekuláris evolúciós folyamatok megértése, a gének és fehérjék szerkezetének és funkciójának becslése számítógépes elemzés segítségével. Tágabb értelemben a bioinformatikához tartozik minden biológiával kapcsolatos számítógépes adatfeldolgozás és értékelés, így például a különböző poliszacharidok szerkezetét tartalmazó adatbázisok alkalmazása is, de ez a jegyzet csak a DNS- és fehérjeszekvenciák elemzésével, a bennük rejlő biológiai információ számítógépes előrejelzésével foglalkozik. 

   Számos prokariota genom, az élesztő (Saccharomyces cerevisiae), egy nematoda faj (Caenorhabditis elegans) és az ecetmuslica (Drosophila melanogaster) teljes DNS-szekvenciáját meghatározták már és több más eukariota modellszervezet szekvenciaanalízise lendületesen folyik.  Mára már ismert a 22. humán kromoszóma szekvenciája és a teljes humán genom bázissorrendjének meghatározása is hamarosan befejeződik. Az adatok feldolgozása és értékelése elképzelhetetlen bioinformatikai programok és ismeretek nélkül.

   Természetesen a számítógépes elemzés csak egy újabb, egyre hatékonyabb eszköz. Nagyon sokat segíthet egy adott szerkezet vagy funkció tisztázásában, de mindaddig, amíg ennek kísérletes bizonyítékát nem szolgáltatjuk, bármilyen egyértelmű is az eredmény, azt csak feltételezésnek tekinthetjük. Tehát az elemzés nem helyettesíti a biológiai kísérletet, hanem ötleteket szolgáltat és irányt szab a kísérletek tervezéséhez. 

   A bioinformatika gyorsan fejlődik. Folyamatosan új eljárások, programok látnak napvilágot és egyre inkább az interneten — és azon belül is a weben — keresztül érhetők el az elemzésekhez szükséges legújabb eszközök és információk. Ez a jegyzet összefoglalja az alapvető ismereteket, bemutatva néhány alkalmazást és információs csatornát. A megszerzett alapismeretek a személyes érdeklődési körnek, a kutatási témának megfelelően bővíthetők tovább.

   Jó böngészést !


 


Bevezető -2003.

E honlap első változatának készültekor, 1999. októberében, a teljes nukleotid adatbázis 4.7 millió  rekordból állt, melyek összesen 3.6 milliárd bázisnyi szekvenciát (3.6 x 109 betű) tartalmaztak. Mára, csak a humán genom bázissorrendjének meghatározása révén szinte ugyanennyi bázispárnyi szekvencia került az adatbázisokba, de - a különböző genomprojekteknek köszönhetően - a teljes tárolt információ meghaladja a 30 milliárd bázispárt. Hihetetlen adattömeg, ami még mindíg exponenciálisan növekszik! Az informatika és az internet fejlődésének köszönhetően mégis kezelhető, nyilvános és meghatározó hajtóereje a biológia, az orvostudomány fejlődésének.

Gondoljunk csak bele! 1953-ban jelent meg Watson és Crick cikke a Nature folyóiratban a DNS szerkezetének javasolt megfejtésével. 1970-ben a DNS darabolását még finom lézersugár segítségével képzelte el  Taylor, tekintélyes tudósokkal való beszélgetései nyomán, a Biológiai pokolgép című könyvében. Arber, Smith és Nathans 1978-ban már Nobel-díjat kap a restrikciós enzimek felfedezéséért és a molekuláris biológiában való alkalmazásukért. Két évvel később, 1980-ban Gilbert és Sanger kapott Nobel-díjat a DNS bázissorrendjének meghatározására kidolgozott módszerekért. Mindenféle DNS klónozása, géntárak készítése, gének izolálása, bázissorrendjük meghatározása nyomán ekkor indult fejlődésnek a bioinformatika is.  Alig 50 évvel a DNS jelentőségének felismerése után elvben bárki megtudhatja, milyen genetikai betegségek hordozója, megismerheti génjeit.

Ezt a gyors változást követni is nehéz. Minden vetületében nem is lehet egyetlen honlap bővítésével. Az elmúlt hónapokban két új fejezetet hoztunk létre, melyeket szintén folymatosan gondozunk. Az 5. fejezet az EMBOSS programcsomag ismertetésével foglakozik, míg a 6. fejezet ízelítőt ad a DNS megismerésének elmúlt 50 évéről.

A közel 20 éve fejlesztés alatt álló GCG programcsomag több biológus generációt kiszolgált, de sajnos az ára is egyre borsosabb lett. Itthon nehezen hozzáférhető. Az EMBOSS programcsomag sok tekintetben máris felveszi vele a versenyt, folyamatosan fejlesztik a világ számos pontján a LINUX filozófia szerint, ezért szabadon letölthető és használható, sőt fejleszthető is. Ajánljuk mindenki szíves figyelmébe !

Jó böngészést !