Genomics: Structural and Functional Studies of Genomics

Genomics: Structural and Functional Studies of Genomics!

Betegnelsen genom blev introduceret af H. Winkler (1920) for at angive det komplette sæt af kromosomale og ekstra kromosomale gener, som er til stede i en organisme, herunder en virus.

Udtrykket genomics coined af TH Roderick (1987) betyder kortlægning og sekventering for at analysere strukturer og organisering af genomer. Men i øjeblikket genomics omfatter sekventering af genomer, bestemmelse af det komplette sæt af proteiner kodet af en organisme, og generernes funktion og metabolske veje i en organisme.

Studiet af genomik er opdelt i følgende to domæner:

1. Strukturell genomik behandler bestemmelsen af ​​den komplette sekvens af genomer eller det komplette sæt af proteiner produceret af en organisme. De forskellige trin involveret er: (i) konstruktion af genetiske og fysiske kort med høj opløsning, (ii) sekvensering af genomet, og (iii) bestemmelse af det komplette sæt proteiner i en organisme. Det omfatter også bestemmelsen af ​​de tredimensionelle strukturer af de pågældende proteiner.

2. Funktionelle genomics undersøger funktionen af ​​gener og metaboliske veje, dvs. genekspression mønstre i organismer.

Sekventering af genomer:

Sekventering af genomer er en yderst sofistikeret og teknisk krævende proces. På en gang kan et fragment på 500-600 bp sekventeres. I modsætning hertil er genomerne ekstremt store, fx 4, 2 x 10 6 for E. coli og 3, 2 x 10 9 bp for mennesker. Derfor har sekvensen af ​​genoxne opnået i et ekstremt stort antal små stykker, disse stykker samles derefter til en sekvens for genomet.

De stykker, der anvendes til sekventering, genereres ved at bryde det genomiske DNA i fragmenter ved tilfældige punkter. Som følge heraf skal placeringen af ​​fragmentet i genomet bestemmes eksperimentelt. Alle fragmenter opnået fra genomisk DNA af en organisme klones i en egnet vektor, hvilket frembringer et genomisk bibliotek af organismen. De to fremgangsmåder til sekventering af genomer er: (a) klon-for-klon sekventering og (b) shot-gun sekvensering.

(a) klon-ved-klon sekventering:

I denne metode er fragmenterne først justeret i kontiger også kaldet som rettet sekventering af BAC contigs. En contig består af en række kloner, der indeholder overlappende stykker DNA, der omdanner en specifik region af et kromosom eller endog hele kromosomet. De er normalt konstrueret ved hjælp af BAC (bakteriel kunstig kromosom) og kosmidkloner.

Den generelle tilgang til oprettelse af contigs er at identificere klonerne, der har tilstødende DNA-segmenter fra kromosomet, fx kromosomvandring, kromosomspring osv. Således skal medlemmerne af en contig indeholde samme overlappende region for at tillade den præcise bestemmelse af deres placering - i kontingenten Det endelige mål med fysiske kortlægningsprocedurer er at opnå en komplet contig for hvert kromosom af genomet.

De klonede DNA-fragmenter af en contig kan korreleres med steder langs et kromosom opnået ved binding eller cytogenetisk kortlægning. Dette kan opnås ved at identificere medlemmer af contig'en, der indeholder indsatser med sådanne gener, der allerede er blevet kortlagt ved binding eller cytologiske metoder. Dette ville tillade tilpasningen af ​​de andre medlemmer af konturen langs kromosomet. Alternativt kan RFLP (restriktionsfragmentlængdepolymorfisme) og andre DNA markører anvendes til at korrelere lokaliteterne i et koblingskort med medlemmerne af en contig.

(b) Shot-Gun Sequencing:

I denne fremgangsmåde sekventeres vilkårligt udvalgte kloner, indtil alle kloner i det genomiske bibliotek analyseres. Assembler-software organiserer nukleotidsekvensinformationen således opnået i en genomsekvens. Denne strategi virker meget godt med prokaryotiske genomer, der har lidt repeterende DNA. Men eukaryotiske genomer har mange gentagne sekvenser, som skaber forvirring i rækkefølgen af ​​sekvensen. Disse problemer løses ved at bruge enorme databehandlingsmagter, specialiseret software og undgå sådanne regioner, der er rige på gentagende DNA (fx centromeriske og telomeriske regioner).

Genom sekvens kompilering:

Genomsekvenseringsprojekter nødvendiggjorde udviklingen af ​​high throughput-teknologier, der genererer data med en meget hurtig hastighed. Dette nødvendiggjorde brugen af ​​computere til at håndtere denne oversvømmelse af information og har født en ny disciplin kaldet bioinformatik. Bioinformatik beskæftiger sig med opbevaring, analyse, fortolkning og udnyttelse af informationen om biologiske systemer (aktiviteter som kompilering af genometsekvenser, identifikation af gener, tildeling af funktioner til de identificerede gener, udarbejdelse af databaser osv.).

For at sikre, at nukleotidsekvensen af ​​et genom er fuldstændigt og fejlfrit, er genomet sekventeret mere end én gang. Når genen af ​​en organisme er sekventeret, kompileret og korrekturlæst (korrigering af fejlene), begynder den næste fase af genomik, dvs. annotation.

Gene Prediction and Counting:

Når en genomsekvens er blevet opnået og kontrolleret for nøjagtighed, er den næste opgave at finde alle de gener, der koder for proteiner. Dette er det første skridt i annotation. Annotation er en proces, der identificerer gener, deres regulatoriske sekvenser og deres funktion (er). Det identificerer også ikke-protein kodende gener, herunder dem, der koder for r-RNA, t-RNA og små nukleare RNA'er. Derudover identificeres og genetableres mobile genetiske elementer og repetitive sekvensfamilier.

Lokalisering af proteinkodende gener udføres ved at inspicere sekvensen ved hjælp af en computersoftware eller ved øje. Proteinkodende gener identificeres ved åbne læserammer (ORF'er). En ORF har en serie en kodon, der angiver en aminosyresekvens, den begynder med et initieringskodon (sædvanligvis ATG) og slutter med en termineringskodon (TAA) TAG eller TGA). ORF'er identificeres normalt af en computer og er en effektiv metode til bakterielle genomer.

Gen i eukaryotiske genomer (herunder det menneskelige genom) har flere funktioner, der gør direkte søgning mindre nyttigt. For det første har de fleste eukaryote gener et mønster af exoner (kodende regioner) vekslet med introner (ikke-kodende regioner). Som følge heraf er disse gener ikke organiseret som kontinuerlige ORF'er. For det andet er gener i mennesker og andre eukaryoter ofte vidt forskellede, hvilket øger chancerne for at finde falske gener. Men nyere versioner af ORF-scanningsprogrammer til eukaryotiske genomer gør scanning mere effektiv.

Efter en genomisk sekvens er analyseret og gener forudsiges, hvert gen undersøges en ad gangen for at identificere funktionen af ​​det kodede genprodukt og klassificeres i funktionelle grupper. Denne analyse involverer flere programmer. For eksempel kan man søge databaser som Gene Bank, for at finde lignende gener isoleret fra andre organismer. De forudsagte ORF'er kan sammenlignes med dem fra kendte, velkarakteriserede bakteriegener. Endelig kan man se efter sådanne nukleotidsekvenser for funktionsmotiver, der koder for proteinområder involveret i specifikke funktioner.

Målet med genomanalyse er således at bestemme alle genernes funktioner og forstå, hvordan disse gener interagerer med organismens udvikling og funktion.

Funktionelle genomics:

Det kan defineres som bestemmelsen af ​​funktionen af ​​alle genprodukter kodet af genomet af en organisme. Den omfatter følgende parametre: (1) hvornår og hvor bestemte gener udtrykkes (ekspressionsprofilering), (ii) funktionerne af specifikke gener ved selektivt at mutere de ønskede gener og (iii) de interaktioner, der finder sted mellem proteiner og mellem protein og andre molekyler. Funktionelle genomik forsøger at undersøge alle de gener, der er til stede i genomet på én gang. Derfor muliggør de teknikker, der anvendes i funktionelle genomics, en høj gennemstrømningsanalyse, der muliggør en meget hurtig dataakkumulering.

(i) Ekspressionsprofilering:

Bestemmelse af celletyperne / vævene, hvori et gen udtrykkes, såvel som når genet udtrykkes, kaldes ekspressionsprofilering. Formålet med funktionelt genomik er at studere ekspressionsmønsteret for alle de gener, der er til stede i genomet på samme tid; dette kaldes global udtryk profilering. Dette kan ske enten på RNA-niveau eller på proteinniveau. På RNA-niveauet kunne man enten anvende direkte sekvensprøvetagning eller DNA-arrays.

På proteinniveauet kan man anvende enten todimensionel elektroforese, efterfulgt af massespektrometri eller proteinarrayer. Global expression profiling giver indsigt i komplekse biologiske fænomener, herunder differentiering, respons på stress, sygdomsbegyndelse osv. Det giver også en ny måde at definere cellulære fænotyper på.

(ii) Genfunktionsbestemmelse:

Et vigtigt aspekt ved funktionel genomik er at bestemme funktionen af ​​specifikke gener / anonyme sekvenser. En potent måde er at opnå dette er at klone genet, mutere det in vitro og genindføre det muterede gen i værtsorganismen og analysere dets virkning. Genom under mutante biblioteker er blevet udviklet i flere modelorganismer som bakterier, gær, planter og pattedyr. Dette omtales undertiden som mutationsgenetik. Et sådant bibliotek kan genereres på en af ​​følgende tre måder:

(a) Systematisk mutation af hvert enkelt gen en til gang, som vil danne en bank med specifikke mutantstammer.

(b) I den tilfældige tilgang er gener muteret uden forskel, individuelle mutationer karakteriseres derefter og katalogiseres.

(c) I denne tilgang anvendes en gruppe teknikker til at forhindre ekspression af specifikke / grupper af gener.

(iii) Proteininteraktioner:

Gene-funktion afspejler adfærd af proteiner kodet af dem. Denne adfærd kan ses som en serie af interaktioner mellem forskellige proteiner og mellem proteiner og andre molekyler. Proteininteraktioner undersøges ved anvendelse af high throughput-teknikker. En række biblioteksbaserede proteininteraktionskortlægningsmetoder tillader hundredvis eller tusindvis af proteiner at blive screenet ad gangen. Disse interaktioner kan analyseres in vitro eller in vivo. Proteininteraktionsdata fra forskellige kilder er assimileret i databaser.