Biotechnologia_

advertisement
BIOINFORMATYKA
Monika Drobna, Natalia Mazurkiewicz, Biotechnologia
StemChecker to program umożliwiający sprawdzenie czy analizowane geny mogą być
powiązane zfunkcjonowaniem i charakterystycznymi właściwościami różnych typów komórek
macierzystych. Wtym celu wybrane przez użytkownika geny są porównywane z genami
zgromadzonymi w baziedanych programu. Program ocenia czy wskazane geny mają związek
ze specyficznymi cechamiróżnych typów komórek macierzystych („stemness signatures”) na
podstawie takich kryteriów jak profil ekspresji, dane literaturowe, interferencja RNA. Oceniane
jest też czy ich aktywność jestregulowana przez czynniki transkrypcyjne charakterystyczne
dla komórek macierzystych.
Program StemCheker jest dostępny na stronie http://stemchecker.sysbiolab.eu/
a) W bazie GenBank (NCBI, zakładka „gene”) znajdź geny o numerach ID: 6657, 701, 22,
5460 oraz 10370.
b) Przejdź na stronę programu StemCheker, wybierz zakładkę „Analysis” i wprowadź
wodpowiednie pole wszystkie pięć oficjalnych symboli znalezionych wcześniej genów.
c) Uruchom analizę (submit).
d) Jakiego typu informacje można uzyskać dzięki użyciu programu? W jakich typach
komórek macierzystych wybrane geny wykazują działanie? Na podstawie jakich
kryteriów wybrane geny zostały ocenione jako powiązane z funkcjonowaniem komórek
macierzystych („stemness”)? Sprawdź otrzymane wyniki w zakładce „Stemness
signatures”.
e) Czy aktywność analizowanych genów jest regulowana przez czynniki transkrypcyjne
występujące w komórkach macierzystych? Jakie to czynniki?
Witold Światowy, Biotechnologia
Strona Biocyc.org umożliwia poznanie szczegółowych informacji o poznanym, wybranym
szlaku metabolicznym, takich jak etapy szlaku, reakcje jakie zachodzą na tych etapach nawet
na poziomie atomu, opis danej reakcji, informację o enzymach, genach i ich regulatorach.
Bardzo ciekawym narzędziem jest porównanie szlaków metabolicznych między sobą, np. czy
reakcja powtarza się, gen występuje w innych szlakach. Także istnieje rozbudowany dostęp
do strony z urządzeń mobilnych. Do pełnego wykorzystania strony, po pewnym czasie
wymagana jest rejestracja bez potwierdzenia adresu e-mail, czyli nie nastręcza to problemu.
Narzędziem do analizy będzie www.biocyc.org
1. Wyszukać szlak glikolizy u E.coli
2. Znaleźć Gene ID pierwszego enzymu biorącego udział w szlaku glikolizy.
3. Znaleźć na stronie szczegółowe informacje dotyczące tego enzymu.
4. Odczytać długość genu, a także jego wagę cząsteczkową i sprawdzić czy jest
możliwość odczytania sekwencji nukleotydowej i aminokwasowej. Jaki czynnik reguluje
jego transkrypcję?
5. Także można sprawdzić numer reakcji, w której bierze udział enzym.
6. Używając narzędzia Metabolism -> Cellular Overview można wyszukać np. w jakich
innych szlakach metabolicznych zachodzi ta reakcja, ale także czy jakiś gen
wykorzystywany jest także w innych szlakach metabolicznych. Sprawdź czy reakcja, w
której udział bierze wcześniej omawiany enzym zachodzi też w innych szlakach
metabolicznych u E.coli, a jeśli zachodzi to w jakich?
Julita Matecka, Biotechnologia
DisGeNET to kompleksowa platforma, zaprojektowana w celu dostarczania informacji o
podłożu genetycznym chorób człowieka. Baza obejmuje ponad 16000 genów i 13000
sprzężonych z nimi chorób. Platforma dedykowana jest różnym użytkownikom, w
szczególności biologom i bioinformatykom.
Korzystając z DisGeNET (http://www.disgenet.org/) wykonaj następujące polecenia:
1) Otyłość to przewlekła choroba, charakteryzująca się nadmiernym nagromadzeniem tkanki
tłuszczowej, prowadzącym do zaburzeń stanu zdrowia. Coraz częściej nazywana jest
pandemią XXI wieku.
Czy przyczynę otyłości mogą stanowić czynniki genetyczne?
2) Podaj symbol i pełną nazwę genu, którego mutacja najczęściej leży u podłoża tej choroby.
Jaką funkcję pełni białko kodowane przez ten gen? Ile aminokwasów zawiera to białko?
(wykorzystaj UniProt)
3) Geny zaangażowane w rozwój otyłości są przyczyną również innych schorzeń. Jakich?
4) Wyszukaj gen CFTR. Podaj nazwę choroby, z której występowaniem jest związany.
5) Posługując się bazą danych OMIM (http://www.ncbi.nlm.nih.gov/  zakładka OMIM),
określ dokładną lokalizację chromosomową tego genu.
6) O czym jeszcze informuje baza OMIM? Analizując informacje zawarte pod hasłem
„Inheritance” określ wzór dziedziczenia mukowiscydozy (dominujący lub recesywny).
7) Korzystając z zakładki „Clinical Resources”, a następnie „Clinical Trials” określ możliwości
leczenia mukowiscydozy. Wskaż w których państwach prowadzi się najwięcej badań nad
tym schorzeniem? W tym celu posłuż się mapą.
Karolina Jankowska, Paulina Kaszyńska, Biotechnologia
Program
„catRAPID
omics”
(ogólnodostępny
na
stronie
internetowej:
http://service.tartaglialab.com/page/catrapid_omics_group) to serwer obliczający na dużą
skalę oddziaływania RNA-białko. Pozwala on: (i) dokonać przewidywań na poziomie
proteomicznym i transkryptomicznym; (ii) analizować regiony białka wiążącego kwas
nukleinowy; oraz (iii) wykrywać motywy RNA biorące udział w rozpoznawaniu białka. Do
przewidywania oddziaływań w kompleksach rybonukleoproteinowych algorytm ten
wykorzystuje szereg wstępnie obliczonych zestawów danych referencyjnych (odniesienia),
pochodzących z danych doświadczalnych dotyczących znanych kompleksów RNA-białko.
Korzystając z powyższego programu przeprowadź analizy na cząsteczkach RNA i odpowiedz
na pytania:
•
•
•
•
Po uruchomieniu programu, wybierz drugą opcję przewidywań oddziaływań RNAbiałko i wprowadź w okno następujące sekwencje snoRNA:
1. AUACAUGAUGAUCUCAAUCCAACUUGAACUCUCUCACUGAUUACUUGAUGAC
AAUAAAAUAUCUGAUA
2. UAUCUGUGAUGAUCUUAUCCCGAACCUGAACUUCUGUUGAAAAAAAAAAAC
W celu skupienia się na konkretnych oddziaływaniach, wybierz gatunek Homo sapiens,
weź pod uwagę wyłącznie całe białka, wyszukaj białka oddziałujące jedynie z RNA i
zrezygnuj z opcji wyboru białek nieuporządkowanych. Listę potencjalnych białek
uszereguj wg malejących wartości dla: wskaźnika Z-score, mocyróżnicującej i siły
oddziaływań. Na tej podstawie wybierz najlepszych partnerów białkowych (najlepsze
oddziaływania RNA-białko występują gdy spełnione są następujące warunki: Z-score
dodatni, moc różnicująca minimum 50%, siła oddziaływań minimum 50%) i za pomocą
bazy danych UniProtKB odszukaj pełniące przez nie funkcje.
Czy można zauważyć podobieństwo między oddziaływaniem analizowanych sekwencji
snoRNA z białkami?
W celu dalszej analizy oddziaływań białek z powyższymi cząsteczkami RNA skorzystaj
z
programu
„Primer”
(ogólnodostępny
na
stronie
internetowej:
http://bclab.inha.ac.kr/primer/). Umożliwia on przewidywanie nukleotydów w sekwencji
RNA, które potencjalnie wiążą białka. Program „Primer” niejako ze swojej natury może
przewidywać wyłącznie oddziaływania mające charakter wiązań wodorowych.
Porównaj obydwie sekwencje pod względem uczestnictwa wiązań wodorowych
biorących udział w oddziaływaniach z białkami. Która z sekwencji charakteryzuje się
większą ich ilością?
Eliza Maciejewska, Biotechnologia
1. Zapoznaj się z bazą danych LifeMap Discovery®. Ta baza danych jest kompendium wiedzy
o rozwoju zarodka, komórkach macierzystych oraz o medycynie regeneracyjnej. Jedna ze
składowych bazy dotycząca rozwoju embrionalnego dostarcza szerokiej wiedzy na temat
różnicowania komórek, które ma miejsce podczas rozwoju ssaków. Korzystając z informacji
zawartych pod adresem http://discovery.lifemapsc.com odpowiedz na pytania:
a) (a) Z czego podczas życia płodowego rozwija się jajowód (oviduct)? Wskazówka: Użyj
zakładki Anatomical Development.
b) Jakie są znane synonimy dla tego narządu?
c) Jaką funkcję pełnią jajowody?
d) Ile genów podlega ekspresji w jajowodzie?
e) Znajdź gen kodujący receptor hormonu luteinizującego/ choriogonadotropiny ;
1. Podaj symbol tego genu.
2. Określ komórkową lokalizację tego białka.
3. Na którym chromosomie występuje u człowieka?
4. Jaką chorobę u mężczyzn wywołuje mutacja tego genu i czym się ona przejawia?
5. Czy w mózgu zdrowego człowieka występuje ekspresja tego genu?
6. Ile paralogów i ortologów posiada ten gen?
2.Korzystając z bazy danych LifeMap Discovery® sprawdź jakie możliwości daje nam
medycyna regeneracyjna w leczeniu cukrzycy typu II u ludzi (Type 2 Diabetes Mellitus):
a) Jaka liczba terapii komórkowych została opracowana dla tej choroby?
b) Ile modeli zwierzęcych jest dostępnych dla badań przedklinicznych cukrzycy typu II?
Katarzyna Białas, Aleksandra Malinowska, Biotechnologia
MetaCyc jest obszerną bazą powstałą w 1999 roku, wchodzącą w skład bazy BioCyc.
Zawiera szlaki metaboliczne zachodzące w różnych organizmach żywych, zarówno
prokariotycznych jak i eukariotycznych, dotyczące metabolitów pierwotnych, a także
wtórnych. Baza uwzględnia wszystkie enzymy biorące udział w poszczególnych etapach
szlaku, udostępnia ich skróconą charakterystykę a także odnośniki do innych baz, w których
można znaleźć dodatkowe informacje na temat danego białka enzymatycznego.
UWAGA! Pośpiesz się z rozwiązywaniem zadań. W przeciwnym razie będziesz musiał się
zalogować, podając adres e-mail. Spokojnie, rejestracja jest bezpłatna, a konto na pewno
przyda Ci się w przyszłości.
1) Ile szlaków metabolicznych dostępnych jest w bazie? (ODPOWIEDŹ: 2260)
β-karoten jest najbardziej rozpowszechnionym z karotenoidów i występuje naturalnie w wielu
warzywach i owocach. Jest głównym prekursorem witaminy A oraz ma właściwości
antyoksydacyjne.
2) Znajdź w bazie szlak biosyntezy β-karotenu.
3) Dla ilu organizmów jest opisany ten szlak (razem z enzymami biorącymi nim udział)?
(ODPOWIEDŹ: 4)
4) Prekursorem jakich szlaków jest β-karoten? (ODPOWIEDŹ: szlaku biosyntezy:
zeaksantyny, kantaksantyny, astaksantny, synechoksantyny)
5) Jaki enzym katalizuje reakcję cyklizacji likopenu u Arbidopsis thaliana?
6) Jaki gen koduje to białko? (ODPOWIEDŹ: cyklaza likopenu, LYC AT3G10230)
•
Jaki jest punkt izoelektryczny enzymu? (ODPOWIEDŹ: pI 5.7)
•
Na stronie z informacjami dotyczącymi wyżej wymienionego enzymu znajdź odnośnik
do bazy UniProt. (UniProt:Q38933)
7) Ile jest wyszczególnionych publikacji powiązanych z tym enzymem? (ODPOWIEDŹ: 6)
8) Jakiej długości jest sekwencja aminokwasowa tego białka (izoform 1 i 2)?
(ODPOWIEDŹ: 501, 369)
Daria Kaźmierczka, Dorota Kucharczak, Biotechnologia
Odpowiedz na pytania dla każdej z podanych sekwencji:
NM_178861, NM_010106, NR_028265
a) Z jakiego organizmu pochodzi sekwencja, jaka jest nazwa genu oraz położenie
chromosomowe?
b) Podaj dostępne informacje o sekwencji np. położenie genu, sekwencji kodującej,
eksonów itp.
c) Czy sekwencja koduje białko? Jeśli koduje białko - co to za białko i jakie są dostępne
informacje o tym białku?
Wykonaj przeszukiwanie programem BLAST (narzędzie blastx).
a) Jeśli nie koduje białka - jaką inną funkcję może pełnić? Czy jest to miRNA, snRNA,
rRNA, tRNA?
b) Jaka jest ekspresja transkryptu w różnych tkankach?
Wykorzystaj bazę danych UniGene.
a) Znajdź trzy sekwencje homologiczne z innych organizmów. Podaj organizm i numer
dostępu sekwencji oraz zakres podobieństwa.
Wykorzystaj narzędzie blastn.
Daria Marszałek, Biotechnologia
NebCutter
V2.0
jest
to
program
dostępny
za
pośrednictwem
serwera:
http://tools.neb.com/NEBcutter, który pozwala na analizę wybranej przez nas sekwencji DNA
z udziałem enzymów restrykcyjnych. Przykładowe działania, jakie możemy wykonać za
pośrednictwem NebCutter’a to np. tworzenie map restrykcyjnych danego odcinka DNA lub
projektowanie cięć restrykcyjnych kontrolnych, którym możemy poddać używane przez nas
wektory plazmidowe.
Projektowanie trawień kontrolnych:
a) Poprzez przeglądarkę internetową uruchom program NebCutter V2.0 z serwera
http://tools.neb.com/NEBcutter.
b) Z listy „Standardowych sekwencji” wybierz wektor plazmidowy o nazwie: pKLAC1Gluc. W opcjach zaznacz, że sekwencja jest kolista oraz, że będziesz używał
enzymów, które udostępnia New England BioLabs Inc. i naciśnij przycisk wykonujący
polecenie.
c) W tabelce „Display” zaznacz opcję, która pozwoli programowi wyświetlić na obrazie
wektora tylko te enzymy, które dany plazmid hydrolizują wyłącznie jeden raz.
d) W tabelce „Main option” wybierz opcję „custom digest”, która wyświetli tabelę z
dostępnymi dla sekwencji enzymami restrykcyjnymi. Zapoznaj się z nią. Najważniejszą
informacją z tej tabeli w wykonywanym zadaniu są dane zawarte w ostatnich 4
kolumnach, które informują nas o procentowej aktywności wybranego enzymu
restrykcyjnego działającego w 4 buforach: 1.1, 2.1, 3.1, CS. Przyciskiem wstecz wróć
do poprzedniego widoku.
e) Przeanalizuj dokładnie otrzymany obraz i wybierz takie dwa enzymy restrykcyjne, które
pozwolą na otrzymanie dwóch fragmentów DNA, z czego:
• krótszy będzie zawierał sekwencję regionu c (Gluc) wektora,
• dłuższy będzie zawierał sekwencję pozostałych regionów, czyli a (amdS) i b (bla)
UWAGA!! Przy wyborze restryktaz kieruj się również informacjami o aktywnościach enzymów
w buforach. Idealną parę będą stanowić endonukleazy, które wykazują 100% aktywności w
tym samym buforze.
f) Wybierając ponownie opcję „custom digest” zaznacz w tabeli zaproponowane przez
Ciebie enzymy i wykonaj cięcia.
g) Uzyskałeś obraz wektora plazmidowego z zaznaczonymi na nim miejscami
restrykcyjnymi, które rozpoznają wybrane przez Ciebie enzymy.
h) Z tabeli „Main option” wybierz opcję „view gel”. Otworzy się nowe okno, które zawiera
wirtualny obraz elektroforezy w żelu agarozowym. Twój wynik powinien zwierać dwa
prążki: jeden na wysokości ok. 10 000 par zasad, a drugi na wysokości ok. 500 – 1 000
par zasad. W ustawieniach wybierz procentowość żelu agarozowego, która pozwoli na
uzyskanie lepszego obrazu rozdziału fragmentów DNA oraz dołącz marker wielkości
prążków 1 kb DNA Ladder.
Rozwiązanie: Proponowane pary starterów: HindIII i XcmI; AvrII i XcmI; KpnI i XcmI; BlpI i
XcmI oraz MscI i XcmI
Alicja Smolarz, Biotechnologia
Jednym z mechanizmów regulacji transkrypcji genów w komórkach są jednoniciowe
cząsteczki RNA o długości od 21 do 23 nt., tzw. mikroRNA (miRNA). Mogą się one przyłączać
na zasadzie komplementarności do mRNA danego genu, powodując wyciszenie jego
transkrypcji. Chcąc dowiedzieć się czy dany gen posiada odpowiadającą mu cząsteczkę
miRNA wpływającą na jego transkrypcję należy skorzystać z narzędzia bioinformatycznego
MicroCosm Targets dostępnego na stronie http://www.ebi.ac.uk/enrightsrv/microcosm/htdocs/targets/v5/ . Wiedza ta może być wykorzystana do ustalania miRNA
zaangażowanych w proces nowotworzenia, ponieważ wiele z cząsteczek miRNA ulega
nadekspresji podczas rozwoju nowotworu w organizmie.
a) Odszukaj oficjalny skrót dla genu receptora laminy B człowieka (WSKAZÓWKA:
możesz skorzystać ze strony http://www.genenames.org/), a następnie za pomocą
narzędzia MicroCosm Targets odszukaj liczbę miRNA, które są komplementarne do
transkryptu tego genu.
b) Jedną z cząsteczek miRNA komplementarnych wobec transkryptu genu receptora
laminy B człowieka jest cząsteczka hsa-miR-522. Podaj pozycję nt w transkrypcie
genu receptora laminy od której jest ona komplementarna.
c) Podaj ilość punktów które przyporządkował algorytm miRanda (z którego korzysta to
narzędzie bioinformatyczne) transkryptowi genu laminy B człowieka, o numerze
identyfikacyjnym ENST00000338179, dla którego istnieje co najmniej 5
komplementarnych cząsteczek miRNA.
Odpowiedzi:
a) http://www.ebi.ac.uk/enright-srv/microcosm/cgi-bin/targets/v5/hit_list.pl?
genome_id=2964&mirna_id=&external_name=LBR&gene_id=&go_class=function&go_
term=&logic=phrase&terms=
b) 538
c) 96
Paulina Kolasa, Zuzanna Zielińska, Biotechnologia
Polimorfizm pojedynczego nukleotydu (SNP) to zmienność sekwencji nici DNA polegająca na
istnieniu różnic w pojedynczych nukleotydach pomiędzy allelami, bądź osobnikami tego
samego gatunku. SNP reprezentuje około 90% całej zmienności ludzkiego genomu. Taki
polimorfizm należy do najczęstszych przyczyn zachorowań o podłożu genetycznym.
Przykładowo w dwóch sekwencjach DNA od różnych osobników, AAGCCTA i AAGCTTA,
występuje różnica w jednym nukleotydzie. W tym wypadku mówimy o 2allelach: C i T.
Możemy mówić o allelach o charakterze protekcyjnym lub zwiększających ryzyko
zachorowania. W zależności od analizowanej choroby allel polimorficzny może spełniać
odmienne role. 1.2.3.4.5.6.
1. Na stronie NCBI w opcji GENE wyszukaj gen BRCA1 Homo sapiens.
2. W jakiej ilości występują SNP dla tego genu?
3. Znajdź SNP rs730882166. Sprawdź gdzie występuje zamiana nukleotydu, określ czy
następuje zmiana w sekwencji aminokwasowej. Sprawdź z jaką chorobą jest związany
ten polimorfizm i który z alleli jest patologiczny.
4. Wykonaj punkt 1, 2 i 3 dla dwóch dowolnych innych SNP genu BRCA1 oraz dla dwóch
SNP genu BRCA2 (Homo sapiens): rs730882169 i rs730881607.
5. Jakie dostrzegasz różnice SNP w przypadku tych dwóch genów?
6. Czy ortolog tego genu występuje u myszy? Jeśli tak określ u jakiego gatunku ilość
SNP jest większa.
Monika Kowalska, Biotechnologia
CRISPRs Web Browser (http://crispr.u-psud.fr/) to zbiór narzędzi służących do pracy nad
sekwencjam CRISPR, czyli „zgrupowanymi, regularnie przerywanymi, krótkimi powtórzeniami
palindromicznymi” (z ang. Clustered Regularly Interspaced Short Palindromic Repeats). W
1987 roku zidentyfikowano je po raz pierwszy w genomie Escherichia coli. Uznaje się, że
system CRISPR jest naturalnym, powszechnie występującym mechanizmem obrony
prokariotów (bakterii i archeonów) przed np. fagami,plazmidami. Na jego podstawie
opracowano system CRISPR-Cas9 wykorzystywany jako rewolucyjna metoda w inżynierii
genetycznej.
a) Z menu po lewej stronie wybierz „CRISPR database”. Odpowiedz na pytania: ile
genomów bakteryjnych zostało przeanalizowanych? Ile spośród nich zawiera
sekwencje CRISPR? Porównaj znalezione informacje z domeną archeonów.
b) Na podstronie z podpunktu a znajduje się lista różnych gatunków bakterii, różnych
szczepów. Krótko przeanalizuj listę. Czy wszystkie bakterie posiadają sekwencje
CRISPR? Uzasadnij odpowiedź – określ co wynika z takiej sytuacji. Czy dostrzegasz
podobieństwo w liczbie tych sekwencji między rożnymi szczepami danego gatunku?
Czy przy obecnym stanie wiedzy można z całkowitą pewnością można określić liczbę
tych sekwencji w danym szczepie?
c) CRISPRFinder to narzędzie internetowe pozwalające na wyszukiwanie sekwencji
CRISPR w genomach. Pobierz z bazy Nucleotide w NCBI w formacie FASTA
sekwencję o ID BA000007.2. Korzystając z narzędzia CRISPRFinder przeanalizuj
pobraną sekwencję. Ile potencjalnych sekwencji CRISPR znajduje się w tym genomie?
Na stronie wynikowej możesz zobaczyć na schemacie rozmieszczenie tychże
względem siebie. Wykonaj podobną analizę dla sekwencji o ID AL590842.1.
d) Korzystając z narzędzia CRISPRCompar porównaj oba genomy (należy wyszukać
określone organizmy z listy). Zinterpretuj wyniki.
e) Na podstawie podpunktu d wykonaj to samo polecenie dla dwóch szczepów E. Coli:
55989 i APEC O78 Za pomocą przycisku Compare Spacers -> Find CRISPRs ->
continue dokonaj dokładniejszej analizy tych sekwencji. Jakie informacje możemy
uzyskać dzięki temu narzędziu?
Justyna Nadbrzeżna, Biotechnologia
Baza PIR została założona w 1984 roku przez National Biomedical Research Foundation
(NBRF),aby pomóc naukowcom w identyfikacji i interpretacji informacji sekwencji białek. Jest
to jedna z baz sekwencji białkowych.
a) Wejdź na stronę www.pir.georgetown.edu i zapoznaj się z historią tej witryny. Na czym
polega działanie tej bazy.
b) Koncepcja PIRSF jest używany jako wiodąca metoda do grupowania sekwencji z bazy
UniProtKB w celu odzwierciedlenia ich hierarchicznych relacji i ewolucji. Z zakładki
Search/Analysis wybierz opcję text serach. Przeszukiwać będziemy za pomocą PIRSF,
w pole wyboru wklej następujący numer PIRSF ID PIRSF006519.
c) Podaj nazwę i wielkość odnalezionej sekwencji, zakres wielkości , przeczytaj u których
organizmów wykryto takie domeny GOAT.
d) Wyświetl architekturę domeny, użyj następnego łącza aby zobaczyć wszystkie
domeny.
e) Zapoznaj się z inną klasyfikacją (linki na dole strony) i powiedz jakie widzisz różnice.
Justyna Grabowska, Biotechnologia
Rodopsyna jest światłoczułym barwnikem wzrokowym znajdującym się w pręcikach siatkówki
oka ssaków, ptaków, płazów, ryb morskich i bezkręgowców, warunkujący widzenie zmrokowe
(odcienie szarości). W sekwencji rodopsyny występują charakterystyczne motywy dobrze
zachowane w procesie ewolucji. Pobierz w formacie FASTA sekwencje aminokwasowe tego
samego białka NP_000530.1, XP_516740.2, NP_001014890.1, NP_663358.1, NP_254276.1,
NP_990821.1, NP_571159.1 należące kolejno do takich sztandarowych gatunków jak:
człowiek, szympans, pies, bydło, mysz, szczur, kura, danio pręgowany. Następnie za pomocą
algorytmu ClustalW2 porównaj pobrane sekwencje.
1) Za pomocą zakładki Result Summary sprawdź wartość dopasowania otrzymaną przez
porównanie sekwencji. Co oznacza wartość Score równa 95%? Czy wartości są zgodne z
oczekiwaniami co do porównania poszczególnych gatunków?
2) W zakładce Guide Tree możesz sprawdzić jak wygląda drzewo filogenetyczne
wykorzystane do stworzenia tego dopasowania. Czy drzewo niesie za sobą rzeczywistą
informację co do wzajemnego pochodzenia gatunków?
3) Za pomocą zakładki Show Colors możesz sprawdzić wyniki dopasowania sekwencji.
Sprawdź czy aminokwasy w tych samych kolumnach mają takie same właściwości.
Wymień kilka pozycji konserwatywnych dla tego białka.
4) W zakładce Result summary dostępna jest funkcja Jalviw służąca do obrazowania
dopasowania. Obejrzyj dopasowanie ponownie i zwróć uwagę na sekwencję
konsensusową. Do czego odnoszą się plusy w tej sekwencji?
5) Z funkcji Colour wybierz opcję Hydrophobicity, aby zobaczyć jak zmienią się kolory
aminokwasów zależnie od hydrofobowości. Zidentyfikuj i wypisz kilka miejsc, w których
zaszła zmiana w hydrofobowości.
Paulina Bahłaj, Natasza Kokocińska, Biotechnologia
Domena homologiczna to dłuższy niż motyw białkowy fragment wskazujący na wspólne
ewolucyjne pochodzenie kilku białek. Czasem domena obejmuje całe białko. Bazą służącą do
analizy homologicznych domen jest ProDom. Zasoby bazy danych ProDom generowane są w
sposób automatyczny. Do konstruowania rodzin białek w bazie ProDom wykorzystuje się
program MKDOM2, który iteracyjnie przegląda bazy danych sekwencji białkowych za pomocą
algorytmu PSI-BALAST (Position specific iterative BLAST) w poszukiwaniu homologicznych
domen. Sekwencje źródłowe wykorzystywane do zbudowania bazy ProDom pochodzą z bazy
UniProtKB/Swiss-Prot i są to tylko sekwencje ciągłe (tj. pozbawione przerw), natomiast do
inicjalizacji procedury grupowania wykorzystano domeny pochodzące z bazy danych SCOP.
Znalezione sekwencje tworzące rodzinę są do siebie dopasowywane.
1) Zapoznaj się z bazą danych ProDom:
[http://prodom.prabi.fr/prodom/current/html/home.php]. Kto zajmuje się utrzymaniem i
rozwijaniem tej bazy danych? Informacje o ilu domenach zawiera baza?
2) Jaki procent białek z bazy UniProtKB/Swiss-Prot jest reprezentowany w bazie ProDom?
3) Pobierz z bazy UniProtKB/Swiss-Prot sekwencję o nr P01308 i zapisz ją w formacie
FASTA. Jakie białko koduje dana sekwencja? Przeanalizuj ją używając bazy danych
ProDom i odpowiedz na pytania:
a. Ile domen białkowych należy do rodziny o największym podobieństwie (odsetek
identyczności)?
b. Po załadowaniu strony z interpetacją graficzną wyników i kliknięciu na ikonki z
lewej i prawej strony ikony drzewka można uzyskać dostęp do listy wszystkich
białek, które zawierają co najmniej jedną tą samą domenę, co insulina. Podaj 5
gatunków zwierząt, których białka należą do tej samej rodziny, co ludzka insulina.
Czy wszystkie są insulinami, czy może pełnią jakieś inne funkcje?
Anna Kotowska, Biotechnologia
Wewnętrznie nieuporządkowane białka (IDP) są białkami, w których brak jest stałej i
uporządkowanej struktury trzeciorzędowej. Ta klasa białek obejmuje szereg białek, od w
pełni nieuporządkowanych do częściowo nieuporządkowanych i zawierających w sobie m.in.
przypadkowe pętle i białka złożone z wielu domen połączonych elastycznymi łącznikami,
zbudowanych z wielu struktur pozostających z sobą w równowadze. DisCons jest narzędziem
pozwalającym badać ilościowo nieuporządkowania w budowie białek na poziomie
aminokwasów i klasyfikować je pod względem specjalnie dobranych kategorii , na podstawie
sekwencji i skłonności fragmentu białka do występowania zaburzeń. Klasyfikacja taka
pozwala na wskazanie czy dany nieuporządkowany segment jest funkcjonalnie ważny i może
dać wskazówki dotyczące jego funkcji, np. regiony elastyczne pod względem struktury, mogą
dotyczyć regionów, w których zachodzi wiązanie do receptorów i potranslacyjne modyfikacje.
1) Skorzystaj ze strony: http://pedb.vib.be/discons/ i dowiedz się na jakie jeszcze
kategorie program dzieli segmenty białek.
2) Wyszukaj w bazie UniProt sekwencję aminokwasową białka p53 człowieka (Homo
sapiens) i zastosuj szybki wariant narzędzia DisCons. Ile program zastosował
dopasowań? Jaką część stanowi każda z grup sklasyfikowanych segmentów? Których
z nich jest najwięcej?
3) Wyszukaj teraz sekwencję lizozymu człowieka i zastosuj narzędzie DisCons. Jak
wyglądają wyniki w tym przypadku? Które z białek jest bardziej „nieuporządkowane” i o
czym to może świadczyć?
4) Wykorzystaj sekwencję białka p53 i zastosuj zaawansowany wariant programu.
Zastosuj różne parametry. Czy umożliwia to uzyskanie bardziej precyzyjnych wyników?
Julia Rosiak, Biotechnologia
Agregacja białek koreluje z rozwojem wielu chorób neurodegeneracyjnych takich jak np.
choroba Alzheimera czy Parkinsona. Problemem w tych chorobach jest akumulacja
rekombinowanych białek w formie agregatów białkowych co prowadzi do wyniszczania
mózgu. Dlatego na uwagę zasługuje rozwój metod przewidywania właściwości agregacji
polipeptydów. AGGRESCAN to internetowe oprogramowanie do przewidywania podatnych
fragmentów sekwencji białkowych do agregacji, w tym analizy wpływu mutacji na skłonności
do agregacji białek i porównywania właściwości agregacji różnych białek lub zestawów białek.
AGGRESCAN opiera się na skłonności naturalnych aminokwasów pochodzących z badań in
vivo do agregacji, oraz przy założeniu, że krótkie i specyficzne obszary sekwencji modulują
agregację
białka.
Program
AGGRESCAN
dostępny
jest
na
stronie:
http://bioinf.uab.es/aggrescan/
1. a) Znajdź sekwencje białkowe: Aβ42 peptide oraz synuclein w UniProt. Wprowadź je
do programu AGGRESCAN w formacie FASTA.
2. b) Porównaj oba białka występujące w chorobach neurodegenracyjnych pod względem
takich parametrów jak: a3vSA (agregacja aminokwasów -częstotliwość występowania
agregacji), nHS (liczba „hot spot”), NnHS (znormalizowana liczba „hot spot” dla 100
reszt), AAT (poziom agregacji powyżej progu „hot spot”, THSA (całkowita ilość „hot
spot”), TA (całkowity profil poziomu agregacji), AATr (AAT podzielona przez liczbę
reszt w sekwencji aminokwasowej wejściowej), THSAr (THSA podzielona przez liczbę
reszt w sekwencji aminokwasowej wejściowej), Na4vSS (a4vSS podzielona przez
liczbę reszt w sekwencji aminokwasowej wejściowych i pomnożona przez 100)
3. c) Kliknij w znak zapytania z lewej strony wartości aby zobaczyć dokładne wyjaśnienia
dla powyższych parametrów. W podpunkcie amino-acid aggregation-propensity value.
(a3v) kliknij w link do tabeli aby zobaczyć wartości a3v dla 20 prawidłowych
aminokwasów.
4. d) Kliknij w ikony P, A i A/N przy Graphics aby zobaczyć przedstawienie graficzne dla
tych białek.
Ewelina Sikora, Aleksandra Stachowiak, Biotechnologia
W celu analizy genomu bakterii możemy posłużyć się obszerną bazą danych PubMLST
(www.pubmlst.org ), która gromadzi szczegółowo opisane genomy poznanych dotąd bakterii
(ale także niektórych org. eukariotycznych). Do oceny możemy użyć własnej sekwencji i
porównać ją z dostępną bazą danych online, jak również pobierać dane (zarówno w formacie
tekstowym, jak i FASTA) dla własnej analizy.
1. Wejdź na stronę bazy danych PubMLST.
2. Wybierz jedną z bakterii, np. Bacillus cereus i wejdź w zakładkę Isolates. Następnie, w
dolnej sekcji pod tytułem Breakdown, wybierz Single field - w załadowanym oknie będą
widoczne statystyki dotyczące różnorodności serotypów, m.in. miejsca oraz czasu
wystąpienia, źródła czy rodzaju choroby, którą wywołały. Uzyskane dane możliwe są do
pobrania w rozszerzeniu xls.
3. Powróć do poprzedniego okna i wybierz Polymorphic Sites (w sekcji pod tytułem
Breakdown). W tym miejscu będziemy mogli śledzić częstość występowania alleli. Wybierz
jeden z alleli, np. glp, klikając Analyse, potem Follow the progress of this job and view the
output, a na koniec w Locus schematic (HTML format).
Ile alelli zostało poddanych analizie? Ile znaleziono polimorfizmów? Jak myślisz,
poddany analizie fragment charakteryzuje się dużą zmiennością czy
konserwatyzmem?
4. Czy te warianty mają wpływ na sekwencję białka? Cofnij się do widoku głównego (tam
gdzie wybierane było Isolates) i tym razem wybierz Sequence and profile definitions,
następnie Locus Explorer. Wybierz glp i kliknij All oraz Translate. Dokonaj tego samego dla
gmk.
5. Czy zaobserwowałeś dużo zmian w sekwencji dla tej analizy? Czy mogą mieć one wpływ
na funkcje białka?
6. Przy pomocy tej bazy danych możesz również pobrać profile alleli. W tym celu cofnij się do
okna Sequence and profile definitions i w sekcji Downloads wybierz MLST profiles. Liczby
ukazują liczbę alleli tworzących każdy z rodzajów sekwencji.
* - koniec translacji
“-” - przerwa długości nieokreślonej
Sandra Górna, Katarzyna Jankowiak, Biotechnologia
1. Na stronie www.ebi.ac.uk wyszukać białko HBB
2. Co to za białko, podać nazwę genu, organizm, na jakim chromosomie leży gen
kodujący to białko
3. Podać dostępne informacje o sekwencji np. położenie genu, sekwencji kodującej,
eksonów, ilość ontologów i paralogów
4. Podać numer dostępu i dostępne informacje o sekwencji białka.
5. Skopiować sekwencje podanego białka i za pomocą programu BLAST znaleźć trzy
sekwencje homologiczne z innych organizmów. Podać organizm i numer dostępu
sekwencji oraz zakres podobieństwa.
6. Określić czy różnice pomiędzy znalezionymi sekwencjami powodują zmianę w
sekwencji białka
Daria Białasik, Ilona Mądrawska, Biotechnologia
Znajdź najlepsze lokalne dopasowanie dwóch sekwencji:
- ontologów: NM_145719 i NM_001243843
- para logów: NM_145719 i NM_145702
Zastosuj macierz PAM120 oraz kary za wprowadzenie przerwy i jej poszerzenie 9 i 5
odpowiednio. Porównaj otrzymany wynik z dopasowaniem globalnym. W zadaniu można
posłużyć się programami water oraz needle (EMBOSS).
Patrycja Marciniak, Biotechnologia
Obecnie dostępnych jest wiele narzędzi bioinformatycznych umożliwiających przedstawienie
sekwencji biologicznych, jednakże sporym problemem jest skuteczny sposób tworzenia
sekwencji z dyskretnych modeli lub wektorów, które właściwie odzwierciedlają informacje o
ich wzorze i kluczowych cechach.
Wykorzystaj
narzędzie
‘PseDAC
General’
dostępne
na
stronie
http://bioinformatics.hitsz.edu.cn/Pse-in-One/server/ do wygenerowania różnych form
pseudo kompozycji kwasu deoksyrybonukleinowego dla sekwencji DNA zamieszczonej
poniżej:
>misc_ppid_8090
CTTCGCCAGCCACTCTTAGTCCGCCAGCGCGTGCGGCGGAGGCCGAGCGTCTCTATGAT
CCTGGCTTCTG
GCAACGTCATCGTCACGCGCCGGATCCAACCCCCAACCACTTTAGCCAGCTCTAGAGGC
GCGCGTGGCCG
GGACGGAAGTGCGCGCGGGTGTCGCCGGGAGTGCGCGCTCCTCTGGCTGACGGGCG
GGCCGGGCATGCGC
CGCGGGCGTTTTGGCGGGAAGCGCGGGGCGGGCCGGACAATGAGAGTGTCCGCCTCC
4) PSE-in-One jest w stanie wygenerować na 28 różnych sposobów pseudo elementy dla
danej sekwencji (w tym 14 dla DNA). Co oznacza moduł KMER, na czym polega i kiedy
się go stosuje? Przyjrzyj się również innym opcjom stosowanym dla sekwencji DNA.
5) Co oznacza parametr k? Porównaj wyniki otrzymane po zastosowaniu odpowiednio k=1,
k=2, k=3 dla trybu Kmer.
6) Na podstawie otrzymanej wizualizacji wyników przedstawiającej kompozycję
trójnukleotydów (k=3), określ który posiada największą wartość i podaj jego współrzędne.
Klaudia Poźniak, Bioinformatyka
1. Uruchom bazę Ecocyc http://ecocyc.org/.
5) Do czego służy ta baza danych ?
2. Za pomocą bazy Ecocyc wyszukaj polimerazę I DNA.
7) Jakie są jej biologiczne funkcje ?
8) Jak nazywa się gen kodujący tą polimerazę ?
9) W którym miejscu genomu E.Coli się on znajduje ?
3. Za pomocą bazy Ecocyc wyszukaj genu yihQ,
 Co koduje ten gen, jak długa jest jego sekwencja ?
10) Jakie genu znajdują się obok genu yihQ i za co odpowiadają ?
11) Zapisz sekwencję nukleotydową enzymu kodowanego przez yihQ w formacie FASTA.
4. Uruchom bazę BsubCyc http://bsubcyc.org/.
a) Do czego służy ta baza danych ?
b) Wyszukaj jak przebiega glikoliza u Bacillus subtilis, na czym polega ?
c) Wyszukaj polimerazę I DNA, jaki gen ją koduje, czy jego sekwencja ma taką samą
długość jak sekwencja genu kodującego polimerazę I u E.Coli ?
5. Uruchom narzędzie NebCutter http://nc2.neb.com/NEBcutter2/index.php.
 Sprawdź czy zapisana wcześniej sekwencja (pkt.3) może ulec przecięciu przez enzym
BaeGI.
 W jakiej pozycji enzym przecina sekwencję ?
 Z jakiego organizmu pochodzi ten enzym ?
 Czy ma jakieś izoschizomery ?
Jakub Nowakowski , Biotechnologia
Następujące zadanie zaznajomi Cię z programem Primer-BLAST, który pozwala na
odnalezienie specyficznych starterów wymaganych przy amplifikacji dowolnie wybranej
sekwencji. Wybór odpowiednich starterów jest podstawą poprawnie przeprowadzonej reakcji
PCR. Primer-BLAST pozwala na dobór starterów:
- o odpowiedniej długości (18-30 bp)
- o porównywalnej temperaturze topnienia (zależy to od zawartości par GC w łańcuchu)
- o wysokiej specyficzności w stosunku do amplifikowanej sekwencji.
Dowiesz się również do czego służy program NEBcutter2, który jest narzędziem
pozwalającym odnaleźć enzymy restrykcyjne tnące stworzony produkt PCR na dwa, trzy lub
cztery fragmenty. Enzymy restrykcyjne są niezwykle przydatne w biologii molekularnej, gdyż
mają zdolność trawienia DNA. Pozwalają na:
- tworzenie map genetycznych
- izolację oraz identyfikację poszczególnych genów
- sekwencjonowanie DNA
- rekombinowanie i klonowanie genów
- ustalanie zgodności tkankowej
Użyj podanej poniżej nici nukleotydowej oraz narzędzia „Primer-BLAST” dostępnego
na stronie http://www.ncbi.nlm.nih.gov/tools/primer-blast/ do stworzenia starterów
pozwalających amplifikować jak najdłuższy produkt.
TTTACGCAGACTCCTTGTAAGGATCCTCCGGACAAGTTGTTTACGGTTCACGGTTTGTGGCCCTCAAGCGT
AATCAGATCGTAATATTGTTTATTTCCTTTATGTACTTGTGCGTGTGTTTGTGTATAGTTTAAAATATAATCATA
ATTTTTTTTTTCTTTTGTGCATACCAGAGAGAAAAATTACTCACTCCTTGTAAGGATCCTCCGGACAAGTTGT
TTACGGTTCACGGTTTGTGGCCCTCAAGCACGATAGGACCTGACCCAAGTAATTGCCCGATAAGGAACATT
CGGAAGGTAATATTATAACCTGACCCAAGTAATTGCCCGATAATCCTCAAACATAGATTTTCATGCACGTGT
GTACAAATATTACAATTAGTTTAAAATATAATCATAATTTTTTTTTTCTTTTGTGCATACCAGAGAGAAAAATTA
CTC
Powiedz:
a) Jaką długość ma amplifikowany produkt?
b) Jaka jest sekwencja starterów nici plus oraz nici minus oraz jaka jest ich długość?
c) Jaka jest zawartość procentowa par GC starterów oraz temperatura ich topnienia? Czy są
podobne?
c) W których miejscach na nici program zaprojektował startery?
Następnie po ustaleniu jaka sekwencja zostanie poddana amplifikacji (pamiętaj – by
odnaleźć na sekwencji starter nici minus, należy zamienić G ◄► C ; A ◄► T oraz
odczytywać jego sekwencję od końca!) , przy wykorzystaniu programu NEBcutter2
dostępnego na stronie http://nc2.neb.com/NEBcutter2/ określ:
a) Zawartość procentową par GC oraz AT w produkcie PCR
b) Czy produkt może być przecięty na dwa fragmenty przez poniższe enzymy, podaj miejsca
ewentualnego cięcia oraz czy powstają końce tępe czy lepkie:
- BpuEI
- DraI
- CviQI
c) Jakie enzymy potną produkt PCR na dwie, trzy lub cztery równe lub prawie równe części?
d) Jaka jest ilość enzymów niezdolnych do przecięcia produktu PCR?
Marta Trzeciak, Wojciech Langwiński, Biotechnologia
Mikromacierze są szeroko stosowane w badaniach nad ekspresją genów, szczególnie
użyteczne są przy badaniu m.in. odpowiedzi immunologicznej czy też cyklu komórkowego.
Analiza danych pochodzących z mikromacierzy dostarcza ogromnej liczby wyników
uzyskiwanych w trakcie serii eksperymentów, dlatego należy te dane wstępnie przetworzyć,
grupując geny ulegające podobnej ekspresji celem znalezienia wzorca. Sprowadzenie danej
grupy wyrazów stanowiących odmianę danego zwrotu do wspólnej postaci, umożliwiającej
traktowanie ich wszystkich jako te samo słowo nazywamy lematyzacją.
STEM (ang. The Short Time-series Expression Miner) jest programem do analizy
klasterowej, porównywania i wizualizacji krótkich serii danych pochodzących z mikromacierzy
(8 punktów czasowych lub mniej). Algorytm STEM pozwala na zidentyfikowanie statystycznie
znaczącego profilu ekspresji genów oraz jego zmian w czasie. STEM jest w pełni
zintegrowany z bazą Gene Ontology (GO) i umożliwia określenie oraz wizualizację zachowań
genów, które należą do danej kategorii bądź zestawu znajdujących się w GO.
Uwaga: STEM służy przede wszystkim do analizy danych z krótkiej serii eksperymentów.
Celem zadania jest wykorzystanie algorytmu STEM do stworzenia i oszacowania
profili ekspresji genów miRNA. Doświadczenie prowadzone było w aspekcie jednej z
najpoważniejszych, przewlekłych chorób układu oddechowego - astmy oskrzelowej.
Uszkodzenia nabłonka oddechowego, powstające podczas tej choroby, odtwarzano
mechanicznie wykorzystując do tego celu hodowlę komórek in vitro (linia 16HBE14o).
W załączniku 1 zamieszczono dane zawierające zmiany ekspresji miRNA na sześciu
punktach czasowych od momentu uszkodzenia monowarstwy komórek.
1) W celu pobrania algorytmu STEM wejdź na stronę http://www.cs.cmu.edu/~jernst/stem/ ,
zarejestruj się i pobierz darmową wersję programu.
2)
3) Rozpakuj plik i uruchom program STEM.
4) Po wyświetleniu głównego panelu w punkcie Data file załaduj dokument tekstowy
(Załącznik 1) dołączony do zadania.
5) Przeprowadź normalizację wyników
przy
wykorzystaniu
Wprowadzone dane nie posiadają przypisanego numeru ID.
opcji
Normalize
data.
6) W drugiej części panelu (Gene info) zaznacz, że odnosisz sie do organizmu człowieka
(GO), w drugim polu ustaw opcje: No cross references.
7) W trzecim panelu (Options) pozostaw opcje domyślnie sugerowane przez program:
a. Clustering Method: STEM
b. Maximum Number of Model Profiles: 50
c. Maximum Unit Change in Model Profiles between Time Points: 2
8) Rozpocznij poszukiwanie profili ekspresji (Execute).
9) Określ, które z nich są statystycznie istotne i podaj wyliczoną dla nich wartość "p".O czym
mówi wartość "p"?
10)Wybierz profil, zawierający miRNA, których ekspresja zmienia się znacząco na przestrzeni
48 godzin? Podaj ich nazwy.
11)
12) Wykorzystując
bazę
danych
miRNA
body
map
(dostępną
na
stronie:
http://mellfire.ugent.be/public/body_map/index.php) (a) określ w jakie szlaki metaboliczne
zaangażowane są te geny, (b) podaj ich geny docelowe (targety), (c) ustal czy ich funkcję
można powiązać z naprawą uszkodzeń w nabłonku oddechowym?
Bibliografia:
[1] N. C. for B. Information, U. S. N. L. of M. 8600 R. Pike, B. MD, i 20894 Usa, „Asthma National Library of Medicine”, PubMed Health.
[2] J. Ernst, G. J. Nau, i Z. Bar-Joseph, „Clustering short time series gene expression data”,
Bioinformatics, t. 21, nr suppl 1, ss. i159–i168, sty. 2005.
[3] J. Ernst i Z. Bar-Joseph, „STEM: a tool for the analysis of short time series gene
expression data”, BMC Bioinformatics, t. 7, nr 1, s. 191, kwi. 2006.
[4] A. Szczepankiewicz, P. M. Lackie, i J. W. Holloway, „Altered microRNA expression profile
during epithelial wound repair in bronchial epithelial cells”, BMC Pulm. Med., t. 13, nr 1, s. 63,
lis. 2013.
Patrycja Gubańska, Katarzyna Grzesiowska, Biotechnologia
W ciągu ostatnich 15 lat komputer stał się niezbędnym towarzyszem każdego biologa
molekularnego. Bioinformatyka jest interdyscyplinarną dziedziną nauki wykorzystująca
metody i narzędzia programistyczne do rozwiązywania problemów z nauk biologicznych.
Jednym z podstawowych zadań, które bioinformatyka pomaga rozwiązać jest projektowanie
starterów do reakcji PCR, sekwencjonowania oraz hybrydyzacji. Obecnie istnieje szereg
programów ułatwiających projektowanie starterów i jednym z nich jest PrimerPremier,
działający w systemie Windows i Power Macintosh.
6) Na podstawie sekwencji z bazy GenBank o numerze akcesyjnym U62898 zaprojektuj
parę starterów dla genu ALX Danio pręgowanego, tak aby objąć amplifikacją minimum
90% sekwencji kodującej tego genu. Użyj do tego programu PrimerPremier na stronie
http://www.premierbiosoft.com/
7) Podaj długość sekwencji kodującej oraz ilość występujących egzonów.
8) Ile par starterów wygenerował program? Czy wszystkie spełniają podany warunek?
9) Wybierz najlepszą parę starterów i podaj ich długość.
10) Podaj wielkość specyficznego produktu otrzymanego z wybranej przez ciebie pary
starterów.
11) Podaj przewidywaną temperaturę topnienia Tm oraz procentowy udział par GC dla
każdego startera.
12)Następnie sprawdź za pomocą programu Nebcutter V2.0 czy ta sekwencja jest
trawiona enzymem HincII. Jeśli tak, podaj miejsce,
w którym tnie sekwencję.
13)
Zaproponuj enzym restrykcyjny, który przetnie
produkt PCR z wybranymi przez ciebie starterami na dwa
fragmenty podobnej długości. Podaj długość powstałych
fragmentów.
Tomasz Jamruszka, Biotechnologia
Odkrycie w 1985 roku telomerazy zainicjowało lawinę badań nad jej aktywnością w
komórkach, związkiem z procesami starzenia oraz chorobami powiązanymi z jej mutacjami.
Podsumowaniem starań nad wyjaśnieniem jej natury jest baza Telomerase Database
(telomerase.asu.edu). To platforma zawierająca cenne informacje dotyczące enzymu
telomerazy, jego struktury oraz funkcji. W oparciu o Telomerase Database odpowiedz na
pytania:
1. Z jakich źródeł czerpie informacje?
2. Jak zbudowana jest telomeraza i u jakiego organizmu po raz pierwszy ją odkryto?
3. Czy sekwencje DNA telomerowego kręgowców są bardziej zróżnicowane niż
sekwencje innych grup organizmów?
4. Znajdź w bazie nazwę białka telomerowego, produktu genu TINF2, którego mutacja
powoduje dyskeratozę wrodzoną (DC) i za pomocą bazy TeloPIN
(songyanglab.sysu.edu.cn/telopin) sprawdź, czy wśród białek komórkowych z nim
oddziaływających jest CCDC43?
Marta Kazimierska, Kamila Jaworska, Biotechnologia
UniProt jest bazą zawierającą informacje na temat struktury i funkcji białek. Korzystając
z serweru LigDig można dodatkowo wykonać podstawowe manipulacje i analizy struktury
kompleksów białko-ligand. LigDig został zaprojektowany by odpowiedzieć na pytania, które
wcześniej wymagały kilku niezależnych zapytań do różnych źródeł danych. Korzystając z
serweru można zdobyć informacje o kofaktorach i ligandach danego białka oraz znaleźć ich
prawdopodobną funkcję. LigDig posługuje się bazami danych, takimi jak- ChEMBL,
PubChem, Sabio-RK oraz programami- cytoscape.js, PDB2PQR, Probis, Fconv.
1) W bazie UniProt znajdź nr referencyjny białka- trypsyny 1, występującej u człowieka.
Podaj jego masę (Da), długość sekwencji aminokwasowej oraz gen kodujący to białko.
2) Przejdź na stronę: http://mcm.h-its.org/ligdig i odszukaj inhibitory powyższego białka
[Ligand Winding affinity (nM)=10, Off-target Winding affinity (nM)=100000]. Podaj nazwy
inhibitorów (przejdź do bazy ZINC), zakres pH w jakim działają oraz określ, który z nich
ma większe powinowactwo do trypsyny 1.
3) Sprawdź, jakie ligandy mogą przyłączyć się do trypsyny 1, używając funkcji Find protein
structures i numeru dostępu: 1a0j.
4) Znajdź przestrzenną strukturę trypsyny 1, korzystając z numeru EC 3.4.21.4. Do jakiej
grupy enzymów należy trypsyna 1?
5) Z ilu podjednostek i domen składa się trypsyna 1? Jakimi wiązaniami połączone są
poszczególne podjednostki? (skorzystaj z PDBsum).
Źródło:
Jonathan C. Fuller, Michael Martinez, Stefan Henrich, Antonia Stank, Stefan Richter, Rebecca
C. Wade, LigDig: a web server for querying ligand–protein interactions,
Bioinformatics (2015) 31 (7): 1147-1149 doi:10.1093/bioinformatics/btu784
Weronika Speier, Kamil Pietruczanis, Biotechnologia
Program InterPro (http://www.ebi.ac.uk/interpro/) łączy w sobie informacje na temat
klasyfikacji białek pochodzące z różnych baz danych, takich jak UniProt, MEROPS, Pfam, czy
IntAct i umożliwia analizę sekwencji aminokwasowych. Znajdź sekwencję aminokwasową
białka o sygnaturze F1LKH9.1 w formacie FASTA, przeanalizuj ją w programie InterPro i
wykonaj poniższe polecenia:
1) Podaj nazwę tego białka, powiedz skąd pochodzi oraz określ jego długość.
2) Określ do jakiej rodziny białek należy.
3) Wymień jakiego typu domeny, wchodzące w skład tego białka, sugeruje program. Podaj
ich długość.
4) Ile miejsc aktywnych posiada to białko? W jakim położeniu się one znajdują?
5) Opisz w jakich procesach biologicznych bierze udział to białko oraz jakie ma funkcje
molekularne.
Odpowiedzi
1. Syntaza poliketydowa 5 (PKSG5), pochodzi z rośliny Cannabis sativa, ma 385
aminokwasów
2. Białko PKSG5 należy do rodziny białek syntaz poliketydowych typu III
3. Domeny: tiolazowa (220 aminokwasów), chalkonowa na N – końcu (217
aminokwasów), chalkonowa na C – końcu (50 aminokwasów)
4. 1 miejsce aktywne (pozycja 149 – 165, w obrębie domeny chalkonowej na N - końcu)
5. Procesy biologiczne: metabolizm, procesy biosyntezy metabolitów wtórnych
Funkcje molekularne: aktywność katalityczna, aktywność transferazy (transferowanie
grup acetylowych i innych grup amino – acylowych).
Aleksandra Pikuła, Biotechnologia
1) Wejdź na stronę NCBI (National Center of Biotechnology Information) i analizując listę
zasobów (resource list) odszukaj bazę danych OMIM (Online Mendelian Inheritance in
Man).
2) Rozpoczynając pracę w wyżej wymienionej bazie danych (naciśnij łącze „getting started“),
dowiedz się co to za baza danych i jakie informacje możesz w niej znaleźć.
3) Odszukaj w bazie danych OMIM choroby zwanej pląsawica Huntingtona wpisując w okno
wyszukiwania numer 143100.
4) Podaj podstawowe informacje na temat pląsawicy Huntingota. Mutacja w genie kodującym
pewne białko powoduje tą chorobę. Jak nazywa się to białko? Podaj lokalizację
chromosomową genu kodującego to białko. Odszukaj osobny rekord opisujący wyłącznie
to białko w bazie danych OMIM. Następnie analizując strukturę genu kodującego to białko
opisz jego długość, liczbę eksonów oraz ich średnią długość.
5) W zakładkach znajdujących się po prawej stronie odszukaj link do bazy danych UniProt,
gdzie możemy znaleźć szczegółowe informacje dotyczące białka, którego mutacja
powoduje pląsawicę Huntingtona, w tym jego dokładną sekwencję. Z ilu aminokwasów się
ona składa i jaka jest średnia masa tego białka?
6) Poniżej znajdują się odnośniki do powiązanych baz danych. Odszukaj odnośniki do baz
danych zawierających struktury 3D białek i obejrzyj strukturę naszego białka.
Anna Dajczak, Aleksandra Piłat, Biotechnologia
Celem zadania jest utworzenie drzewa filogenetycznego dla pospolitych rodzajów bakterii i
analiza odległości filogenetycznej między nimi, a także odniesienie uzyskanych wyników do
obowiązującej systematyki Procaryota. Wybrano dziewięć rodzajów bakterii. Wszystkie
wykazują lub w zależności od szczepu mogą wykazywać właściwości chorobotwórcze. Do
analizy wykorzystany zostanie program MEGA będący zintegrowanym narzędziem służącym
do przeszukiwania baz danych, porównywania sekwencji i tworzenia drzew filogenetycznych.
1. Ze strony www.megasoftware.net pobierz darmowy program MEGA, zapisz go na
dysku.
2. Z Align otwórz Query Databanks, a następnie korzystając z wyszukiwarki programu
znajdź sekwencje o podanych niżej numerach dostępu (każdemu numerowi
akcesyjnemu dopasuj nazwę gatunkową mikroorganizmu mu odpowiadającemu):
a) NR_074453.1
b) NR_074540.1
c) M59291.1
d) M25588.1
e) NR_074913.1
f) U90314.1
g) U92192.1
h) X80680.1
i) NR_074894.1
Pamiętaj, by każdorazowo po wyszukaniu kliknąć Add To Aligment.
3. Wypisz podstawowe informacje o znalezionych sekwencjach. Podaj:
a) Przynależność mikroorganizmu do rodziny.
b) Długość sekwencji.
c) Co koduje dana sekwencja.
d) Zastanów się, dlaczego do analizy wybrano cząsteczkę 16S rRNA.
4. Za pomocą Align by ClustalW dokonaj przyrównania sekwencji.
5. Zbiór zapisz w formacie MEGA - nadaj nazwę „Phylogenetic tree”.
6. Rozwiń Phylogeny i wybierz Construct/Test Neighbor- Joining Tree (NJ).
7. Stwórz graficzną prezentację drzewa filogenetycznego rozpatrywanych gatunków i
dokonaj jego interpretacji.
8. Sprawdź funkcje pozwalające zmienić wygląd drzewa i nadaj mu wybraną formę.
9. Na podstawie stworzonego drzewa filogenetycznego dokonaj klasyfikacji wybranych
mikroorganizmów i odnieś uzyskane wyniki do obowiązującej systematyki.
Przemysław Bartz, Jakub Dziubakiewicz, Biotechnologia
Białka z rodziny Rho (RhoA, Rac1, Cdc42) działają na zasadzie molekularnych
przełączników, regulują wiele procesów komórkowych. Zaangażowane są m.in. w migrację
komórek, kontrolę cyklu komórkowego, procesy apoptozy i regulację transkrypcji genów.
Białka Rho są aktywne przede wszystkim w cytoszkielecie komórki, biorąc udział w
reorganizacji mikrofilamentów aktynowych oraz mikrotubul. W ciągu ostatnich lat dokonał się
znaczący postęp w zrozumieniu biochemicznej i genetycznej natury wielu procesów, w które
są zaangażowane białka Rho.
1) Zapoznaj się z bazą danych HPRD – Human Protein Reference Database
(http://www.hprd.org/index_html)
a. Kto zarządza bazą?
b. Jakie informacje są w niej gromadzone?
2) Korzystając z opcji BLAST na stronie HPRD - znajdź proteinę do której należy podana
sekwencja:
ATGCAGAC AATTAAGTGT GTTGTTGTGG GCGATGGTGC TGTTGGTAAA
ACATGTCTCC TGATATCCTA CACAACAAAC AAATTTCCAT CGGAATATGT
ACCGACTGTT TTTGACAACT ATGCAGTCAC AGTTATGATT GGTGGAGAAC
CATATACTCT TGGACTTTTT GATACTGCAG GGCAAGAGGA TTATGACAGA
TTACGACCGC TGAGTTATCC ACAAACAGAT GTATTTCTAG TCTGTTTTTC
AGTGGTCTCT CCATCTTCAT TTGAAAACGT GAAAGAAAAG TGGGTGCCTG
AGATAACTCA CCACTGTCCA AAGACTCCTT TCTTGCTTGT TGGGACTCAA
ATTGATCTCA GAGATGACCC CTCTACTATT GAGAAACTTG CCAAGAACAA
ACAGAAGCCT
ATCACTCCAG
AGACTGCTGA
AAAGCTGGCC
CGTGACCTGA AGGCTGTCAA GTATGTGGAG TGTTCTGCAC TTACACAGAA
AGGCCTAAAG AATGTATTTG ACGAAGCAAT ATTGGCTGCC CTGGAGCCTC
CAGAACCGAA GAAGAGCCGC AGGTGTGTGC TGCTATGA
3) Poszukaj informacji na temat białka, które uzyskało najwyższy wynik, podaj:
a. HPRD ID
b. Masę molekularną
c. Symbol genu
d. Lokus na mapie genowej
e. Lokalizację podstawową i 3 alternatywne
4) Klikając w Gene symbol przejdź do bazy HGNC:
a. Rozwiń skrót HGNC
b. Zapoznaj się z wyświetloną stroną w HGNC, co możemy na niej odnaleźć?
c. Wypisz, w których chromosomach leżą przewidywane ortologi genu u:
i. Szympansa
ii. Makaka
iii. Myszy
iv. Szczura
v. Psa
5)
Poprzez bazę białkową – PDBe (odnośnik na stronie bazy HGNC) Sprawdź z jakimi
związkami wchodzi w interakcję podane białko?
Ania Typańska, Biotechnologia
Program Cn3D służy do oglądania struktury przestrzennej białek. Białko można oglądać pod
dowolnym kątem i w dowolnym powiększeniu. Dzięki temu narzędziu możemy wyświetlać
sekwencję białka i jego strukturę trzeciorzędową, analizować miejsca oddziaływania ze
związkami czy metalami. Program pozwala również na porównywanie białek, pozwala na
dopasowanie dwóch sekwencji poprzez ich wyrównanie.
Molecular Modeling Database zawiera struktury przestrzenne białek pochodzących z bazy
Protein. Znajomość struktury trzeciorzędowej pozwala na przewidzenie relacji sekwencja –
struktura, interakcji czy miejsc aktywnych. Każde białko, dla którego znana jest struktura
przestrzenna opisane jest w ten sam sposób w trzech „oknach”. W pierwszym oknie
przedstawiony jest schemat białka z opisem w tabeli poniżej (podjednostki białka, domeny
przestrzenne z przypisami oraz związki z którymi oddziałuje). W środkowym oknie widzimy
strukturę przestrzenną otrzymaną na drodze eksperymentalnej, z wykorzystaniem
rentgenografii. Kolejne okno służy do otwierania struktury przestrzennej. W opisie dostępne
jest również narzędzie VAST+, które szuka białek o podobnej strukturze.
1) Pobierz program Cn3D ze strony :
http://www.ncbi.nlm.nih.gov/Structure/CN3D/cn3dinstall.shtml
2) Ze strony głównej NCBI wybierz zakładkę Domains & structure i otwórz bazę Structure
(Molecular Modeling Database).
3) Wyszukaj strukturę numer:
- 100276 ( dynamina )
- 32872 (insulina syntetyczna)
- 7045 (insulina hormon)
- 108281 (Htt – Huntingtyna )
4) Odpowiedz na pytania:
- z ilu podjednostek składa się białko
- jakie grupy prostetyczne są z nim związane i ile ich jest
- ile jest domen przestrzennych i czy są ciągłe czy poprzerywane ( jeśli jest
podane). Wskazówka – „show annotation”
5) Następnie otwórz strukturę przestrzenną białka w programie Cn3D (View structure).
Zaznacz grupę prostetyczną dowolnej podjednostki, następnie sformatuj obraz korzystając
z zakładki Style -> select by distance -> ustaw dystans na 5. Odpowiedz na pytanie ile
aminokwasów oddziałuje z wybraną przez Ciebie grupą, z której podjednostki dane
aminokwasy pochodzą. Wykonaj ćwiczenie dla każdego białka.
6) Wyszukaj strukturę numer 56037 ( enolaza), korzystając z narzędzia VAST+ wyszukaj
podobne białka. Rozwiń rekord o 99% identyczności np. 2XH2. Czym różnią się białka?
Otwórz porównane struktury w programie Cn3D, sprawdź jaką ilością aminokwasów
różnią się sekwencje. (Możesz skorzystać z funkcji Select ->unaligned residues ).
Agata Sienkiewicz, Izabela Jagiełło, Biotechnologia
CRISPRdirect jest programem umożliwiającym sprawne projektowanie sekwencji
RNA(gRNA) w stosunku do każdej wyjściowej sekwencji DNA. Z kolei to umożliwia
korzystanie z technologii CRISPR System/Cas genom, pozwalającej na znalezienie
dowolnego miejsca, w którym zostanie przecięty genom. Pocięcie nici DNA stwarza
możliwości do manipulacji fragmentami sekwencji, edycji genów poprzez zmianę kolejności
określonych zasad oraz ich regulację u wszystkich organizmów żywych. Stąd wzięła się
potrzeba utworzenia programów, które będą dostarczały powyższych informacji w sposób
szybki i dokładny. Metoda przewidywania miejsc docelowych w genomie jest liczona za
pomocą Jellyfish, narzędzia czytającego format FASTA, którego działanie polega na
efektywnym liczeniu częstości k-merów (sekwencji o długości k) w DNA. Program
CRISPS/direct daje duże możliwości w pozyskaniu informacji, które w przyszłości mogą
pomóc w modyfikacji genów, zdolnych do zmieniania genomów całych populacji. Dostępny
jest pod adresem:
1) http://crispr.dbcls.jp/
2) Polecenie:
3) Znajdź sekwenecję nukleotydową genu SCN1A człowieka, pobierz go i zapisz w
formacie FASTA. Wprowadź sekwencję do programu CRISPRdirect, wybierz funkcję PAM
sequence requirement- NGG.
4) a.)zaobserwuj różnice w procentowności wystąpień par GC oraz różnorodność wartości
temperatury topnienia,
w ilu pozycjach można zauważyć występowanie
charakterystycznych powtórzeń (TTTT)?
5) b.)za pomocą funkcji detail wskaż miejsca niedopasowania i wyjaśnij prawdopodobną
przyczynę ich występowania.
c.) sprawdź który dopasowany fragment sekwencji nie posiada miejsca pasującego do
miejsca docelowego sekwencji genu SCN1A.
Piotr Bilman, Biotechnologia
Zadanie ma na celu przygotowanie do praktycznego wykorzystanie dostępnych baz
danych i programów, oraz nauczenie płynnego poruszania się po dostępnym interejsie, aby
coraz wnikliwiej analizować dostępne informacje.
Korzystają z wiedzy wyniesionej z zajęć oraz dostępnych baz danych(GENOME, PUBMED,
NUCLEOTIDE, BLAST) :
1) Znajdz informacje o genomie człowieka
2) Odnajdź na chromosomie 5 sekwencję : „microRNA 146a” o kodzie dostępu MIR146A
3) Sprawdź i przypomnij sobie informacje o microRNA które są dostępne w wyszukanym
źródle
4) Przejdź do artykułów dotyczących microRNA 146a zawartych w bazie PubMed
5) Znajdź artykuł dotyczący wpływy microRNA 146a na atopowe zapalenie skóry, autorzy :
Rebane A1, Runnel T, Aab A3, Maslovskaja J.
6) Zapoznaj się z wynikiem badania w powyższym artykule oraz znajdz informacje dotyczące
genu „CCL5” dla homo sapiens, pełniącego istotną rolę w wynikach badać
7) Odpowiedz na pytania
a. Z ilu składa się nukleotydów
b. Ile posiada eksonów
c. Czy jest cząsteczką kolistą czy liniową
8) Za pomocą programu BLAST sprawdz czy dla świni domowej (sus scrofa) istnieją geny o
podobnej sekwencji, jeżeli tak to jakie i w jakim stopniu.
9) Poprzez kod dostępu, wejdź w informacje o najbardziej zbliżonym wyniku
10)Przejdź do formatu FASTA
11) Co oznaczają licznie występujące „N” w sekwencji nukleotydowej
Kinga Kwiatkowksa, Dominika Nowaczyk, Biotechnologia
ZADANIE 1. – porównanie lokalne i globalne sekwencji białkowych
Pobierz z bazy danych NCBI sekwencje : NG_000007.3 oraz NC_005100.4 w formacie
FASTA. Są to geny hemoglobiny człowieka i szczura norweskiego.
a) dopasowanie globalne:
Porównaj obie sekwencje przy pomocy programu EMBOSS Needle.
Wejdź na stronę : http://www.ebi.ac.uk/Tools/psa/emboss_needle/ .
Wpisz porównywane sekwencje i podaj:
1. jakie jest podobieństwo sekwencji
2. najlepsze dopasowanie porównywanych sekwencji.
b) dopasowanie lokalne:
Porównaj obie sekwencje przy pomocy programu LALIGN (FASTA).
Wejdź na stronę: http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=lalign
Wpisz porównywane sekwencje i podaj:
1. jakie jest stopień podobieństwa sekwencji
2. jakie jest najlepsze dopasowanie lokalne sekwencji
Dokonaj analizy otrzymanych wyników i wybierz, które programowanie daje bardziej
optymalny wynik.
ZADANIE 2. – badanie predykcji genów
W przypadku badania predykcji genów u prokariotów jedną z najlepszych metod jest badanie
predykcji otwartych ramek odczytu (ORF). W nawiązaniu do poprzedniego zadania pobierz z
GenBanku sekwencję genu kodującego hemoglobinę człowieka NG_000007.3 oraz szczura
norweskiego NC_005100.4.
- Wykorzystując program plotorf (http://emboss.bioinformatics.nl/cgibin/emboss/plotorf) znajdź jakie są możliwie występujące otwarte ramki odczytu. Która z
ramek może być najbardziej prawdopodobna oraz jaka może być jej długość?
- Porównaj obie sekwencję przy pomocy programu getorf
(http://emboss.bioinformatics.nl/cgi-bin/emboss/getorf).
W tym przypadku uzyskaj szczegółowe informacje o najdłuższym ORF.
W kontekście analizy porównaj wyniki z opisem tych sekwencji w GenBanku.
Agata Wesołowska, Biotechologia
Sabio-RK (System for the Analysis of Biochemical Pathways - Reaction Kinetics) to
ogólnodostępna internetowa baza danych przechowująca wyczerpujące informacje na temat
reakcji biochemicznych i ich właściwości kinetycznych. Baza oferuje ujednolicone dane
literaturowe oraz dane pochodzące bezpośrednio z eksperymentów laboratoryjnych.
Obejmuje wszystkie dostępne parametry kinetyczne wraz z ich równaniami szybkości a także
prezentuje warunki eksperymentalne i środowiskowe, w jakich dane reakcji zostały
przeprowadzone. Sabio-RK zawiera informacje o podstawowych reakcjach i szlakach
biochemicznych, ich komponentach, lokalizacji komórkowej a także uczestniczących w
reakcjach enzymach.
Program jest dostępny na stronie: http://sabiork.h-its.org/
1) Poprzez przeglądarkę internetową uruchom program Sabio-RK.
2) Wyszukaj w bazie szlak glikolizy (glycolysis).
3) Korzystając z danych zawartych w bazie podaj: jakie są substraty oraz produkty pierwszej
reakcji (Glucose + ATP = ADP + Glucose 6-phosphate ) a także jaki enzym katalizuje tą
reakcję. W jakiej tkance zachodzi ta reakcja?
4) Jakie są parametry tej reakcji (pH oraz temperatura)? Jakie parametry fizykochemiczne
reakcji znamy?
5) Czy reakcja została przeprowadzona w warunkach in vitro czy in vivo?
6) Korzystając z odnośnika przejdź do bazy UniProt i sprawdź jaki pierwiastek chemiczny
jest kofaktorem enzymu katalizującego reakcję i z jakiego organizmu on pochodzi. Jaka
jest długość i masa cząsteczkowa tego białka ?
7) Ile jest publikacji związanych z tym enzymem?
Magdalena Kędziora, Biotechnologia
Primer – BLAST stosuje się do projektowania starterów. Można wykorzystać go gdy chcemy
za projektować startery dla wektora, który będzie wprowadzony do innego organizmu, żeby
potem produkował nam określone białko.
W ćwiczeniu zaprojektuj wektor dla produkcji ureazy z Klebsiella pneumoniae w E.coli
1. W bazie danych NCBI znajdź urease pochodzącą z Klebsiella pneumoniae
(KPHS_45970) i skopiuj sekwencje cDNA lub zapisz w formacie FASTA
2. W programie NEBcutter sprawdź, który enzym tnie wybrane białko. Pamiętaj żeby
enzym nie miał miejsc restrykcyjnych w obrębie białka.(Przykładowy enzym XhoI)
3. Za pomocą programu Primer-Blast zaprojektuj starter. Wklej sekwencję, wpisz
przedział długości starterów (19-22nt), temperature (49-60°C). Wybierz startery F i R,
które są najbardziej zbliżone do siebie.
4. Wybierz odpowiedni starter z bazy NOWAGEN. Sprawdź czy wektor posiada domenę
Hist-tag, kodon Stop, miejsce restykcyjne dla enzymu, sekwencję promotorową i
terminatorową dla polimerazy RNA faga T7
Filip Misiewicz, Biotechnologia
Rzodkiewnik pospolity (Arabidopsis thaliana), jest jedną z podstawowych roślin modelowych
wykorzystywanych w genetyce. Posiada wiele specyficznych cech ułatwiających jej
studiowanie. Arabidopsis thaliana może być uprawiana w dużych ilościach w warunkach
laboratoryjnych, ze względu na niewielki rozmiar, odporność na choroby ,a także krótki cykl
rozwojowy sięgający zaledwie 6 tygodni. Jest przy tym rośliną bardzo płodną, wydającą
nawet ponad 10 tyś nasion. Roślina posiada 5 dużych, wyraźnych chromosomów, przy czym
posiada relatywnie małą liczbę genów. Dzięki tym cechom, rzodkiewnik jest bardzo dobrym
organizmem modelowym, który został całkowicie zsekwencjonowany.
Niniejsze zadanie ma na celu zapoznanie studenta z bazą całkowicie dedykowaną
Arabidopsis thaliana.
1) Wejdź na bazę danych TAIR pod adresem www.arabidopsis.org .
2) Otwórz rozwijaną zakładkę w prawym górnym rogu i wybierz opcje Gene. Wpisz w
wyszukiwarkę id genu: AT1G02190 . Odczytaj funkcje danego locus
3) Sprawdź tkanki oraz warunki w których dochodzi do ekspresji genu znajdującego się w
tym locus. Zastanów się czemu podlega ekspresja tego genu.
4) Wejdź w gen opatrzony numerem AT1G02190.1. Sprawdź ilość aminokwasów w
kodowanym białku, a także ilość eksonów i intronów w tym genie.
5) Zauważ że w bazie występuje alternatywny gen oznaczony numerem AT1G02190.2.
Czym różnią się te dwie wersje? Porównaj sekwencję nukleotydową i aminokwasową
obydwu sekwencji. W tym celu posłuż się WU-BLASTem znajdującym się w bazie TAIR.
6) Baza TAIR jest również połączona z baza szlaków metabolicznych AryaCyc. Aby ją
uruchomić wejdź w Tools > AraCyc Pathways
7) Korzystając z wyszukiwarki, znajdź szlak alfa-oksydacji kwasów tłuszczowych dla
Arabidopsis thaliana.
8) Zapoznaj się ze schematem i informacjami znajdującymi się w bazie.
Paulina Walkowiak, Klaudia Wieczorek, Biotechnologia
OMIM to baza danych zawierająca opis genów i zaburzeń genetycznych występujących u
człowieka. Gromadzi ona informacje o fenotypach chorobowych oraz genach, których
mutacje są związane z wystąpieniem określonych schorzeń. Choroby oraz geny mają
przypisany sześciocyfrowy kod, czasami poprzedzony dodatkowymi oznaczeniami.
W bazie OMIM (www.omim.org) zapoznaj się z systemem numerowania oraz symbolami dla
kodów znajdującymi się w zakładce FAQ. Następnie wyszukaj hasło breast cancer i wykonaj
poniższe polecenia:
1. Znajdź fenotypowy numer MIM, co możesz powiedzieć na jego podstawie? Jaki jest to
sposób dziedziczenia?
2. Opisz krótko chorobę oraz podaj jej synonimy.
3. Jakie geny/mutacje genów wywołują raka piersi, a także które z nich są najbardziej
istotne oraz dlaczego? Znajdź ich numery MIM.
4. Jak można zdiagnozować raka piersi?
Wykorzystując zakładkę External Links for Entry, odpowiedz na poniższe pytania:
5. Ile genów odpowiedzialnych za występowanie raka piersi znajduje się w bazie UniProt
oraz który z nich jest najdłuższy?
6. Wyszukaj informacje na temat badań klinicznych w serwisie Clinical Trials. Czy któreś
z nich są aktualnie prowadzone?
7. Wykorzystując bazę danych OMIA, odpowiedz na pytanie czy nowotwory piersi mogą
także występować u innych organizmów?
Baza OMIM prowadzi statystyki dotyczące zawartych w niej genów oraz fenotypów
chorobowych. W oparciu o nie odpowiedz na pytania:
8. Ile pozycji opisanych w bazie znajduje się na chromosomie Y?
9. Jaka jest liczba wszystkich pozycji w OMIM?
Kamila Greczyn, Karolina Seraszek, Biotechnologia
ConSurf to narzędzie bioinformatyczne służące do szacowania regionów konserwatywnych,
opierające się na danych ewolucyjnych. Polega na określeniu pozycji regionów
konserwatywnych aminokwasów lub kwasów nukleinowych. Stopień konserwatywności ściśle
zależy od jego struktury i funkcji. Szybko ewoluujące pozycje są zmienne, natomiast pozycje
zmieniające się wolneij są bardziej konserwatywne. Analiza pozycji regionów
konserwacyjnych pomiędzy członkami tej samej rodziny może ujawnić znaczenie każdej
pozycji w strukturze lub funkcji białka/kwasu nukleinowego. Jedną z zalet tego narzędzia jest
dokładne obliczenie stopnia ewolucji przy użyciu metody bayesowskiej lub metody
maksymalnego
prawdopodobieństwa
(ML).
Odszukaj w bazie NCBI (http://www.ncbi.nlm.nih.gov/) informacje na temat genu IGF2
u Homo sapiens. Wykonaj polecenia a-d, następnie zapisz sekwencję w formacie FASTA.
1)
2)
3)
4)
Do jakiej rodziny należy ten gen?
Ile ortologów ma ten gen?
Z ilu par zasad składa się ten gen?
Ile regionów kodujących posiada ten gen?
Wybierając odpowiednie polecenia w programie ConSurf (http://consurf.tau.ac.il/) , dokonaj
analizy regionów konserwatywnych metodą bayesowską. W tym celu pobierz sekwencję genu
IGF1 i za pomocą programu Clustalw2 (http://www.ebi.ac.uk/Tools/msa/clustalw2/) porównaj te
sekwencje ze sobą i stwórz drzewo filogenetyczne. Napisz wyniki i wprowadź je do ConSurf.
Agnieszka Sobecka, Biotechnologia
Baza
Structure
(Molecular
Modeling
Database)
dostarczona
przez
NCBI
(http://www.ncbi.nlm.nih.gov/) udostępnia nam informacje o strukturze, funkcji i historii
ewolucyjnej makromolekuł. Uzupełnienie jej narzędziem pomocniczym Cn3D („see in 3D”)
pozwala na obrazowanie trójwymiarowej struktury (np. wyszczególnianie domen białkowych)
i dopasowań pomiędzy cząsteczkami należącymi do poszczególnych rodzin.
1) Przejdź do bazy Structure (http://www.ncbi.nlm.nih.gov/structure) i wyszukaj strukturę
ludzkiej deoksyhemoglobiny (MMDB ID: 3173; PDB ID: 4HHB).
2) Na podstawie schematu cząsteczki i krótkiego opisu określ, z jakich domen składa się
białko i jakie cząstki wchodzą z nim w interakcje.
3) Pobierz Cn3D (odnośnik Download Cn3D) i za jego pomocą zobrazuj strukturę białka
(View structure).
4) Na trójwymiarowym modelu odszukaj cząsteczki hemu. Zaznacz jedną z nich (np. tę
położoną przy domenie A) dwukrotnym kliknięciem myszy, a następnie uwidocznij na
modelu te aminokwasy, które znajdują się w ich najbliższym sąsiedztwie
(Select > Select by Distance… > dystans 5 Å > OK).
5) Fragmenty podświetlone na żółto prawdopodobnie bezpośrednio oddziałują z
zaznaczoną przez Ciebie cząsteczką hemu. W sekwencji aminokwasowej widocznej w
oknie poniżej odszukaj, jakie to aminokwasy.
Conserved Domain Database (CDD) jest bazą domen konserwatywnych dostarczaną przez
NCBI. Stanowi kolekcję alignmentów (porównań) sekwencji oraz profili reprezentujących
domeny białek zachowane w ewolucji molekularnej. CDD zawiera ponad 12 000 modeli
domen białkowych importowanych ze źródeł zewnęrznych, takich jak Pfam i SMART.
1. Przejdź do CDD (http://www.ncbi.nlm.nih.gov/cdd/) i wyszukaj rodzinę alfa-podobnych
podjednostek hemoglobiny (PSSM-Id: 271278).
2. U dołu strony widoczne jest dopasowanie sekwencji domeny dla różnych,
posiadających ją organizmów. Ustal, jaka jest całkowita liczba organizmów, u których
znaleziono tę domenę.
3. W celu zobrazowania stopnia konserwatywności poszczególnych fragmentów
sekwencji białkowej, zobrazuj domenę za pomocą modelu 3D w programie Cn3D. W
tym celu w pasku Structure po prawej stronie wybierz Structure view, uprzednio
ustalając liczbę porównywanych rekordów (Aligned rows) na maksymalnie 5.
4. Wyświetlony model obrazuje dopasowanie sekwencji aminokwasowych podjednostki
alfa hemoglobiny dla pięciu organizmów: człowieka dorosłego, płodu człowieka,
ogończy japońskiej (Dasyatis akajei), kulbińca (Leiostomus xanthurus) i trematomy
lodowej (Trematomus bernacchii). Porównując model i widoczne poniżej sekwencje
aminokwasowe, ustal, zgodnie z jaką zasadą zabarwione zostały poszczególne
obszary cząsteczki (wskaż związek pomiędzy barwą fragmentu a stopniem jego
konserwatywności).
5. Ustal, jakim stopniem konserwatywności charakteryzują się te fragmenty białka, które
bezpośrednio oddziałują z cząsteczką hemu.
Anna Hermann, Biotechologia
Poszukaj informacji dotyczących genu o nazwie ‘PAH’ występującym w organizmie człowieka.
Skorzystaj z wyszukiwarki NCBI lub Ensembl i odpowiedz na pytania:
7. Jak jest pełna nazwa genu?
8. Gdzie zlokalizowany jest gen?
9. Z ilu eksonów się składa?
10. Ile występuje transkryptów danego genu i ile z nich koduje białka?
11. Ile par zasad ma najdłuższy transkrypt i ile aminokwasów koduje?
12. Ile mutacji zlokalizowano w najdłuższym transkrypcie?
13. Czy możliwe jest sprawdzenie ilości SNP w genie ‘PAH’?
14. Ile występuje homologów genu ‘PAH’?
15. Znajdź 3 ortologi występujące u ssaków łożyskowych, które mają największy zakres
podobieństwa.
Patrycja Nycz, Przemsyław Olejnik, Biotechnologia
Modyfikacja potranslacyjna białka może wpływać na jego właściwości chemiczne i fizyczne,
jego stabilność i aktywność, a co za tym idzie funkcję. Do modyfikowania białek organizmy
wykorzystują różne procesy, takie jak odcinanie fragmentów białka lub dołączanie do niego
grup chemicznych.
Proces przyłączenia reszty kwasu fosforowego do określonych związków chemicznych
jest katalizowany przez enzymy zwane kinazami, które transportują reszty kwasowe
na białka, nukleozydy i nukleotydy, cukry, lipidy i in. Proces ten nazywamy fosforylacją. Przy
nadekspresji białek warto wiedzieć, w którym miejscu zachodzi fosforylacja. Aby to sprawdzić
można wykorzystać program NetPhos.
Program NetPhos dostępny jest na stronie http://www.cbs.dtu.dk/services/NetPhos/
1. Pobierz sekwencję białka ludzkiej kazeiny w formacie FASTA.
2. Pobraną sekwencję przekopiuj do programu NetPhos.
3. Czy dane białko podlega fosforylacji? W jakich pozycjach fosforylacja zachodzi?
4. Który aminokwas najczęściej ulega fosforylacji?
Przy planowaniu nadekspresji białka w systemie prokariotycznym warto również zwrócić
uwagę na możliwość występowania glikozylacji w produkowanym białku. Modyfikacja ta
polega na przyłączaniu do określonych aminokwasów reszt cukrowych za pośrednictwem
wiązania N-glikozydowego lub O-glikozydowego wpływając zarówno na aktywność białka jak i
na jego lokalizacje w komórce.
1. Przy pomocy dostępnych na stronie http://www.cbs.dtu.dk/services/index.php narzędzi
NetOGlyc oraz NetNGlyc sprawdź czy dane badane białko podlega N- lub
O-glikozylacji.
2. Wskaż pozycje, w których może dojść do modyfikacji.
3. Na podstawie uzyskanych wyników zdecyduj czy badane białko może być
produkowane w prokariotycznym systemie ekspresyjnym.
Maryna Kurstak, Biotechnologia
Wykorzystaj program GENSCAN dla poszukiwania genów w zadanych fragmentach DNA:
Gen1.txt i Gen2.txt dołączonych do zadania.
d) Przeszukaj sekwencje DNA z obydwu plików. W poszukiwaniu genów wykorzystaj
program GENSCAN. Obejrzyj wyniki. Znajdź eksony 3 różnych typów i zapisz współrzędne
na których
zostały odnalezione, nić i ramkę odczytu.
e)
Czy te sekwencje rzeczywiście zawierają geny? Odszukaj prawdziwie geny
odpowiadające
tym sekwencjom na NCBI, znajdź nazwy tych genów.
f)
Na stronie bazy GENE w sekcji Genomic regions, transcripts and products można
obejrzeć
strukturę eksonów w genie w oknie graficznym. Jeśli przejdziemy do formatu GenBank,
znajdziemy dokładne współrzędne eksonów, porównaj prawdziwe eksony z
przewidywanymi dla obu genów.
Przemysław Piotr Olejnik, Biotechnologia
Pobierz z bazy danych GeneBank sekwencje genu mcyA, pochodzącego z sinic i
będącego jednym z odpowiedzialnych za syntezę toksyny sinicowej - mikrocystyny. Wybrane
fragmenty sekwencji, kodujące gen mcyA, pobierz całych sekwencji genomowych o
numerach dostępu: NZ_CM002803, NZ_KE734695, NC_010296, NZ_ASZQ01000275. Zwróć
uwagę na pochodzenie sekwencji - z innych regionów świata oraz organizmów.
Pobrane sekwencje genu mcyA porównaj w programie
ClustalW2
(http://www.ebi.ac.uk/Tools/msa/clustalw2/), który służy do porównywania sekwencji. Zwróć
uwagę na otrzymane wyniki i podobieństwo użytych sekwencji, które kodują ten sam enzym,
odpowiedzialny za funkcje takie same funkcje katalityczne w różnych gatunkach sinic.
Ponadto sprawdź drzewo filogenetyczne dla tych sekwencji, czy dane te zgadzają się z
procentowym podobieństwem genów?
Download