BIOINFORMATYKA Monika Drobna, Natalia Mazurkiewicz, Biotechnologia StemChecker to program umożliwiający sprawdzenie czy analizowane geny mogą być powiązane zfunkcjonowaniem i charakterystycznymi właściwościami różnych typów komórek macierzystych. Wtym celu wybrane przez użytkownika geny są porównywane z genami zgromadzonymi w baziedanych programu. Program ocenia czy wskazane geny mają związek ze specyficznymi cechamiróżnych typów komórek macierzystych („stemness signatures”) na podstawie takich kryteriów jak profil ekspresji, dane literaturowe, interferencja RNA. Oceniane jest też czy ich aktywność jestregulowana przez czynniki transkrypcyjne charakterystyczne dla komórek macierzystych. Program StemCheker jest dostępny na stronie http://stemchecker.sysbiolab.eu/ a) W bazie GenBank (NCBI, zakładka „gene”) znajdź geny o numerach ID: 6657, 701, 22, 5460 oraz 10370. b) Przejdź na stronę programu StemCheker, wybierz zakładkę „Analysis” i wprowadź wodpowiednie pole wszystkie pięć oficjalnych symboli znalezionych wcześniej genów. c) Uruchom analizę (submit). d) Jakiego typu informacje można uzyskać dzięki użyciu programu? W jakich typach komórek macierzystych wybrane geny wykazują działanie? Na podstawie jakich kryteriów wybrane geny zostały ocenione jako powiązane z funkcjonowaniem komórek macierzystych („stemness”)? Sprawdź otrzymane wyniki w zakładce „Stemness signatures”. e) Czy aktywność analizowanych genów jest regulowana przez czynniki transkrypcyjne występujące w komórkach macierzystych? Jakie to czynniki? Witold Światowy, Biotechnologia Strona Biocyc.org umożliwia poznanie szczegółowych informacji o poznanym, wybranym szlaku metabolicznym, takich jak etapy szlaku, reakcje jakie zachodzą na tych etapach nawet na poziomie atomu, opis danej reakcji, informację o enzymach, genach i ich regulatorach. Bardzo ciekawym narzędziem jest porównanie szlaków metabolicznych między sobą, np. czy reakcja powtarza się, gen występuje w innych szlakach. Także istnieje rozbudowany dostęp do strony z urządzeń mobilnych. Do pełnego wykorzystania strony, po pewnym czasie wymagana jest rejestracja bez potwierdzenia adresu e-mail, czyli nie nastręcza to problemu. Narzędziem do analizy będzie www.biocyc.org 1. Wyszukać szlak glikolizy u E.coli 2. Znaleźć Gene ID pierwszego enzymu biorącego udział w szlaku glikolizy. 3. Znaleźć na stronie szczegółowe informacje dotyczące tego enzymu. 4. Odczytać długość genu, a także jego wagę cząsteczkową i sprawdzić czy jest możliwość odczytania sekwencji nukleotydowej i aminokwasowej. Jaki czynnik reguluje jego transkrypcję? 5. Także można sprawdzić numer reakcji, w której bierze udział enzym. 6. Używając narzędzia Metabolism -> Cellular Overview można wyszukać np. w jakich innych szlakach metabolicznych zachodzi ta reakcja, ale także czy jakiś gen wykorzystywany jest także w innych szlakach metabolicznych. Sprawdź czy reakcja, w której udział bierze wcześniej omawiany enzym zachodzi też w innych szlakach metabolicznych u E.coli, a jeśli zachodzi to w jakich? Julita Matecka, Biotechnologia DisGeNET to kompleksowa platforma, zaprojektowana w celu dostarczania informacji o podłożu genetycznym chorób człowieka. Baza obejmuje ponad 16000 genów i 13000 sprzężonych z nimi chorób. Platforma dedykowana jest różnym użytkownikom, w szczególności biologom i bioinformatykom. Korzystając z DisGeNET (http://www.disgenet.org/) wykonaj następujące polecenia: 1) Otyłość to przewlekła choroba, charakteryzująca się nadmiernym nagromadzeniem tkanki tłuszczowej, prowadzącym do zaburzeń stanu zdrowia. Coraz częściej nazywana jest pandemią XXI wieku. Czy przyczynę otyłości mogą stanowić czynniki genetyczne? 2) Podaj symbol i pełną nazwę genu, którego mutacja najczęściej leży u podłoża tej choroby. Jaką funkcję pełni białko kodowane przez ten gen? Ile aminokwasów zawiera to białko? (wykorzystaj UniProt) 3) Geny zaangażowane w rozwój otyłości są przyczyną również innych schorzeń. Jakich? 4) Wyszukaj gen CFTR. Podaj nazwę choroby, z której występowaniem jest związany. 5) Posługując się bazą danych OMIM (http://www.ncbi.nlm.nih.gov/ zakładka OMIM), określ dokładną lokalizację chromosomową tego genu. 6) O czym jeszcze informuje baza OMIM? Analizując informacje zawarte pod hasłem „Inheritance” określ wzór dziedziczenia mukowiscydozy (dominujący lub recesywny). 7) Korzystając z zakładki „Clinical Resources”, a następnie „Clinical Trials” określ możliwości leczenia mukowiscydozy. Wskaż w których państwach prowadzi się najwięcej badań nad tym schorzeniem? W tym celu posłuż się mapą. Karolina Jankowska, Paulina Kaszyńska, Biotechnologia Program „catRAPID omics” (ogólnodostępny na stronie internetowej: http://service.tartaglialab.com/page/catrapid_omics_group) to serwer obliczający na dużą skalę oddziaływania RNA-białko. Pozwala on: (i) dokonać przewidywań na poziomie proteomicznym i transkryptomicznym; (ii) analizować regiony białka wiążącego kwas nukleinowy; oraz (iii) wykrywać motywy RNA biorące udział w rozpoznawaniu białka. Do przewidywania oddziaływań w kompleksach rybonukleoproteinowych algorytm ten wykorzystuje szereg wstępnie obliczonych zestawów danych referencyjnych (odniesienia), pochodzących z danych doświadczalnych dotyczących znanych kompleksów RNA-białko. Korzystając z powyższego programu przeprowadź analizy na cząsteczkach RNA i odpowiedz na pytania: • • • • Po uruchomieniu programu, wybierz drugą opcję przewidywań oddziaływań RNAbiałko i wprowadź w okno następujące sekwencje snoRNA: 1. AUACAUGAUGAUCUCAAUCCAACUUGAACUCUCUCACUGAUUACUUGAUGAC AAUAAAAUAUCUGAUA 2. UAUCUGUGAUGAUCUUAUCCCGAACCUGAACUUCUGUUGAAAAAAAAAAAC W celu skupienia się na konkretnych oddziaływaniach, wybierz gatunek Homo sapiens, weź pod uwagę wyłącznie całe białka, wyszukaj białka oddziałujące jedynie z RNA i zrezygnuj z opcji wyboru białek nieuporządkowanych. Listę potencjalnych białek uszereguj wg malejących wartości dla: wskaźnika Z-score, mocyróżnicującej i siły oddziaływań. Na tej podstawie wybierz najlepszych partnerów białkowych (najlepsze oddziaływania RNA-białko występują gdy spełnione są następujące warunki: Z-score dodatni, moc różnicująca minimum 50%, siła oddziaływań minimum 50%) i za pomocą bazy danych UniProtKB odszukaj pełniące przez nie funkcje. Czy można zauważyć podobieństwo między oddziaływaniem analizowanych sekwencji snoRNA z białkami? W celu dalszej analizy oddziaływań białek z powyższymi cząsteczkami RNA skorzystaj z programu „Primer” (ogólnodostępny na stronie internetowej: http://bclab.inha.ac.kr/primer/). Umożliwia on przewidywanie nukleotydów w sekwencji RNA, które potencjalnie wiążą białka. Program „Primer” niejako ze swojej natury może przewidywać wyłącznie oddziaływania mające charakter wiązań wodorowych. Porównaj obydwie sekwencje pod względem uczestnictwa wiązań wodorowych biorących udział w oddziaływaniach z białkami. Która z sekwencji charakteryzuje się większą ich ilością? Eliza Maciejewska, Biotechnologia 1. Zapoznaj się z bazą danych LifeMap Discovery®. Ta baza danych jest kompendium wiedzy o rozwoju zarodka, komórkach macierzystych oraz o medycynie regeneracyjnej. Jedna ze składowych bazy dotycząca rozwoju embrionalnego dostarcza szerokiej wiedzy na temat różnicowania komórek, które ma miejsce podczas rozwoju ssaków. Korzystając z informacji zawartych pod adresem http://discovery.lifemapsc.com odpowiedz na pytania: a) (a) Z czego podczas życia płodowego rozwija się jajowód (oviduct)? Wskazówka: Użyj zakładki Anatomical Development. b) Jakie są znane synonimy dla tego narządu? c) Jaką funkcję pełnią jajowody? d) Ile genów podlega ekspresji w jajowodzie? e) Znajdź gen kodujący receptor hormonu luteinizującego/ choriogonadotropiny ; 1. Podaj symbol tego genu. 2. Określ komórkową lokalizację tego białka. 3. Na którym chromosomie występuje u człowieka? 4. Jaką chorobę u mężczyzn wywołuje mutacja tego genu i czym się ona przejawia? 5. Czy w mózgu zdrowego człowieka występuje ekspresja tego genu? 6. Ile paralogów i ortologów posiada ten gen? 2.Korzystając z bazy danych LifeMap Discovery® sprawdź jakie możliwości daje nam medycyna regeneracyjna w leczeniu cukrzycy typu II u ludzi (Type 2 Diabetes Mellitus): a) Jaka liczba terapii komórkowych została opracowana dla tej choroby? b) Ile modeli zwierzęcych jest dostępnych dla badań przedklinicznych cukrzycy typu II? Katarzyna Białas, Aleksandra Malinowska, Biotechnologia MetaCyc jest obszerną bazą powstałą w 1999 roku, wchodzącą w skład bazy BioCyc. Zawiera szlaki metaboliczne zachodzące w różnych organizmach żywych, zarówno prokariotycznych jak i eukariotycznych, dotyczące metabolitów pierwotnych, a także wtórnych. Baza uwzględnia wszystkie enzymy biorące udział w poszczególnych etapach szlaku, udostępnia ich skróconą charakterystykę a także odnośniki do innych baz, w których można znaleźć dodatkowe informacje na temat danego białka enzymatycznego. UWAGA! Pośpiesz się z rozwiązywaniem zadań. W przeciwnym razie będziesz musiał się zalogować, podając adres e-mail. Spokojnie, rejestracja jest bezpłatna, a konto na pewno przyda Ci się w przyszłości. 1) Ile szlaków metabolicznych dostępnych jest w bazie? (ODPOWIEDŹ: 2260) β-karoten jest najbardziej rozpowszechnionym z karotenoidów i występuje naturalnie w wielu warzywach i owocach. Jest głównym prekursorem witaminy A oraz ma właściwości antyoksydacyjne. 2) Znajdź w bazie szlak biosyntezy β-karotenu. 3) Dla ilu organizmów jest opisany ten szlak (razem z enzymami biorącymi nim udział)? (ODPOWIEDŹ: 4) 4) Prekursorem jakich szlaków jest β-karoten? (ODPOWIEDŹ: szlaku biosyntezy: zeaksantyny, kantaksantyny, astaksantny, synechoksantyny) 5) Jaki enzym katalizuje reakcję cyklizacji likopenu u Arbidopsis thaliana? 6) Jaki gen koduje to białko? (ODPOWIEDŹ: cyklaza likopenu, LYC AT3G10230) • Jaki jest punkt izoelektryczny enzymu? (ODPOWIEDŹ: pI 5.7) • Na stronie z informacjami dotyczącymi wyżej wymienionego enzymu znajdź odnośnik do bazy UniProt. (UniProt:Q38933) 7) Ile jest wyszczególnionych publikacji powiązanych z tym enzymem? (ODPOWIEDŹ: 6) 8) Jakiej długości jest sekwencja aminokwasowa tego białka (izoform 1 i 2)? (ODPOWIEDŹ: 501, 369) Daria Kaźmierczka, Dorota Kucharczak, Biotechnologia Odpowiedz na pytania dla każdej z podanych sekwencji: NM_178861, NM_010106, NR_028265 a) Z jakiego organizmu pochodzi sekwencja, jaka jest nazwa genu oraz położenie chromosomowe? b) Podaj dostępne informacje o sekwencji np. położenie genu, sekwencji kodującej, eksonów itp. c) Czy sekwencja koduje białko? Jeśli koduje białko - co to za białko i jakie są dostępne informacje o tym białku? Wykonaj przeszukiwanie programem BLAST (narzędzie blastx). a) Jeśli nie koduje białka - jaką inną funkcję może pełnić? Czy jest to miRNA, snRNA, rRNA, tRNA? b) Jaka jest ekspresja transkryptu w różnych tkankach? Wykorzystaj bazę danych UniGene. a) Znajdź trzy sekwencje homologiczne z innych organizmów. Podaj organizm i numer dostępu sekwencji oraz zakres podobieństwa. Wykorzystaj narzędzie blastn. Daria Marszałek, Biotechnologia NebCutter V2.0 jest to program dostępny za pośrednictwem serwera: http://tools.neb.com/NEBcutter, który pozwala na analizę wybranej przez nas sekwencji DNA z udziałem enzymów restrykcyjnych. Przykładowe działania, jakie możemy wykonać za pośrednictwem NebCutter’a to np. tworzenie map restrykcyjnych danego odcinka DNA lub projektowanie cięć restrykcyjnych kontrolnych, którym możemy poddać używane przez nas wektory plazmidowe. Projektowanie trawień kontrolnych: a) Poprzez przeglądarkę internetową uruchom program NebCutter V2.0 z serwera http://tools.neb.com/NEBcutter. b) Z listy „Standardowych sekwencji” wybierz wektor plazmidowy o nazwie: pKLAC1Gluc. W opcjach zaznacz, że sekwencja jest kolista oraz, że będziesz używał enzymów, które udostępnia New England BioLabs Inc. i naciśnij przycisk wykonujący polecenie. c) W tabelce „Display” zaznacz opcję, która pozwoli programowi wyświetlić na obrazie wektora tylko te enzymy, które dany plazmid hydrolizują wyłącznie jeden raz. d) W tabelce „Main option” wybierz opcję „custom digest”, która wyświetli tabelę z dostępnymi dla sekwencji enzymami restrykcyjnymi. Zapoznaj się z nią. Najważniejszą informacją z tej tabeli w wykonywanym zadaniu są dane zawarte w ostatnich 4 kolumnach, które informują nas o procentowej aktywności wybranego enzymu restrykcyjnego działającego w 4 buforach: 1.1, 2.1, 3.1, CS. Przyciskiem wstecz wróć do poprzedniego widoku. e) Przeanalizuj dokładnie otrzymany obraz i wybierz takie dwa enzymy restrykcyjne, które pozwolą na otrzymanie dwóch fragmentów DNA, z czego: • krótszy będzie zawierał sekwencję regionu c (Gluc) wektora, • dłuższy będzie zawierał sekwencję pozostałych regionów, czyli a (amdS) i b (bla) UWAGA!! Przy wyborze restryktaz kieruj się również informacjami o aktywnościach enzymów w buforach. Idealną parę będą stanowić endonukleazy, które wykazują 100% aktywności w tym samym buforze. f) Wybierając ponownie opcję „custom digest” zaznacz w tabeli zaproponowane przez Ciebie enzymy i wykonaj cięcia. g) Uzyskałeś obraz wektora plazmidowego z zaznaczonymi na nim miejscami restrykcyjnymi, które rozpoznają wybrane przez Ciebie enzymy. h) Z tabeli „Main option” wybierz opcję „view gel”. Otworzy się nowe okno, które zawiera wirtualny obraz elektroforezy w żelu agarozowym. Twój wynik powinien zwierać dwa prążki: jeden na wysokości ok. 10 000 par zasad, a drugi na wysokości ok. 500 – 1 000 par zasad. W ustawieniach wybierz procentowość żelu agarozowego, która pozwoli na uzyskanie lepszego obrazu rozdziału fragmentów DNA oraz dołącz marker wielkości prążków 1 kb DNA Ladder. Rozwiązanie: Proponowane pary starterów: HindIII i XcmI; AvrII i XcmI; KpnI i XcmI; BlpI i XcmI oraz MscI i XcmI Alicja Smolarz, Biotechnologia Jednym z mechanizmów regulacji transkrypcji genów w komórkach są jednoniciowe cząsteczki RNA o długości od 21 do 23 nt., tzw. mikroRNA (miRNA). Mogą się one przyłączać na zasadzie komplementarności do mRNA danego genu, powodując wyciszenie jego transkrypcji. Chcąc dowiedzieć się czy dany gen posiada odpowiadającą mu cząsteczkę miRNA wpływającą na jego transkrypcję należy skorzystać z narzędzia bioinformatycznego MicroCosm Targets dostępnego na stronie http://www.ebi.ac.uk/enrightsrv/microcosm/htdocs/targets/v5/ . Wiedza ta może być wykorzystana do ustalania miRNA zaangażowanych w proces nowotworzenia, ponieważ wiele z cząsteczek miRNA ulega nadekspresji podczas rozwoju nowotworu w organizmie. a) Odszukaj oficjalny skrót dla genu receptora laminy B człowieka (WSKAZÓWKA: możesz skorzystać ze strony http://www.genenames.org/), a następnie za pomocą narzędzia MicroCosm Targets odszukaj liczbę miRNA, które są komplementarne do transkryptu tego genu. b) Jedną z cząsteczek miRNA komplementarnych wobec transkryptu genu receptora laminy B człowieka jest cząsteczka hsa-miR-522. Podaj pozycję nt w transkrypcie genu receptora laminy od której jest ona komplementarna. c) Podaj ilość punktów które przyporządkował algorytm miRanda (z którego korzysta to narzędzie bioinformatyczne) transkryptowi genu laminy B człowieka, o numerze identyfikacyjnym ENST00000338179, dla którego istnieje co najmniej 5 komplementarnych cząsteczek miRNA. Odpowiedzi: a) http://www.ebi.ac.uk/enright-srv/microcosm/cgi-bin/targets/v5/hit_list.pl? genome_id=2964&mirna_id=&external_name=LBR&gene_id=&go_class=function&go_ term=&logic=phrase&terms= b) 538 c) 96 Paulina Kolasa, Zuzanna Zielińska, Biotechnologia Polimorfizm pojedynczego nukleotydu (SNP) to zmienność sekwencji nici DNA polegająca na istnieniu różnic w pojedynczych nukleotydach pomiędzy allelami, bądź osobnikami tego samego gatunku. SNP reprezentuje około 90% całej zmienności ludzkiego genomu. Taki polimorfizm należy do najczęstszych przyczyn zachorowań o podłożu genetycznym. Przykładowo w dwóch sekwencjach DNA od różnych osobników, AAGCCTA i AAGCTTA, występuje różnica w jednym nukleotydzie. W tym wypadku mówimy o 2allelach: C i T. Możemy mówić o allelach o charakterze protekcyjnym lub zwiększających ryzyko zachorowania. W zależności od analizowanej choroby allel polimorficzny może spełniać odmienne role. 1.2.3.4.5.6. 1. Na stronie NCBI w opcji GENE wyszukaj gen BRCA1 Homo sapiens. 2. W jakiej ilości występują SNP dla tego genu? 3. Znajdź SNP rs730882166. Sprawdź gdzie występuje zamiana nukleotydu, określ czy następuje zmiana w sekwencji aminokwasowej. Sprawdź z jaką chorobą jest związany ten polimorfizm i który z alleli jest patologiczny. 4. Wykonaj punkt 1, 2 i 3 dla dwóch dowolnych innych SNP genu BRCA1 oraz dla dwóch SNP genu BRCA2 (Homo sapiens): rs730882169 i rs730881607. 5. Jakie dostrzegasz różnice SNP w przypadku tych dwóch genów? 6. Czy ortolog tego genu występuje u myszy? Jeśli tak określ u jakiego gatunku ilość SNP jest większa. Monika Kowalska, Biotechnologia CRISPRs Web Browser (http://crispr.u-psud.fr/) to zbiór narzędzi służących do pracy nad sekwencjam CRISPR, czyli „zgrupowanymi, regularnie przerywanymi, krótkimi powtórzeniami palindromicznymi” (z ang. Clustered Regularly Interspaced Short Palindromic Repeats). W 1987 roku zidentyfikowano je po raz pierwszy w genomie Escherichia coli. Uznaje się, że system CRISPR jest naturalnym, powszechnie występującym mechanizmem obrony prokariotów (bakterii i archeonów) przed np. fagami,plazmidami. Na jego podstawie opracowano system CRISPR-Cas9 wykorzystywany jako rewolucyjna metoda w inżynierii genetycznej. a) Z menu po lewej stronie wybierz „CRISPR database”. Odpowiedz na pytania: ile genomów bakteryjnych zostało przeanalizowanych? Ile spośród nich zawiera sekwencje CRISPR? Porównaj znalezione informacje z domeną archeonów. b) Na podstronie z podpunktu a znajduje się lista różnych gatunków bakterii, różnych szczepów. Krótko przeanalizuj listę. Czy wszystkie bakterie posiadają sekwencje CRISPR? Uzasadnij odpowiedź – określ co wynika z takiej sytuacji. Czy dostrzegasz podobieństwo w liczbie tych sekwencji między rożnymi szczepami danego gatunku? Czy przy obecnym stanie wiedzy można z całkowitą pewnością można określić liczbę tych sekwencji w danym szczepie? c) CRISPRFinder to narzędzie internetowe pozwalające na wyszukiwanie sekwencji CRISPR w genomach. Pobierz z bazy Nucleotide w NCBI w formacie FASTA sekwencję o ID BA000007.2. Korzystając z narzędzia CRISPRFinder przeanalizuj pobraną sekwencję. Ile potencjalnych sekwencji CRISPR znajduje się w tym genomie? Na stronie wynikowej możesz zobaczyć na schemacie rozmieszczenie tychże względem siebie. Wykonaj podobną analizę dla sekwencji o ID AL590842.1. d) Korzystając z narzędzia CRISPRCompar porównaj oba genomy (należy wyszukać określone organizmy z listy). Zinterpretuj wyniki. e) Na podstawie podpunktu d wykonaj to samo polecenie dla dwóch szczepów E. Coli: 55989 i APEC O78 Za pomocą przycisku Compare Spacers -> Find CRISPRs -> continue dokonaj dokładniejszej analizy tych sekwencji. Jakie informacje możemy uzyskać dzięki temu narzędziu? Justyna Nadbrzeżna, Biotechnologia Baza PIR została założona w 1984 roku przez National Biomedical Research Foundation (NBRF),aby pomóc naukowcom w identyfikacji i interpretacji informacji sekwencji białek. Jest to jedna z baz sekwencji białkowych. a) Wejdź na stronę www.pir.georgetown.edu i zapoznaj się z historią tej witryny. Na czym polega działanie tej bazy. b) Koncepcja PIRSF jest używany jako wiodąca metoda do grupowania sekwencji z bazy UniProtKB w celu odzwierciedlenia ich hierarchicznych relacji i ewolucji. Z zakładki Search/Analysis wybierz opcję text serach. Przeszukiwać będziemy za pomocą PIRSF, w pole wyboru wklej następujący numer PIRSF ID PIRSF006519. c) Podaj nazwę i wielkość odnalezionej sekwencji, zakres wielkości , przeczytaj u których organizmów wykryto takie domeny GOAT. d) Wyświetl architekturę domeny, użyj następnego łącza aby zobaczyć wszystkie domeny. e) Zapoznaj się z inną klasyfikacją (linki na dole strony) i powiedz jakie widzisz różnice. Justyna Grabowska, Biotechnologia Rodopsyna jest światłoczułym barwnikem wzrokowym znajdującym się w pręcikach siatkówki oka ssaków, ptaków, płazów, ryb morskich i bezkręgowców, warunkujący widzenie zmrokowe (odcienie szarości). W sekwencji rodopsyny występują charakterystyczne motywy dobrze zachowane w procesie ewolucji. Pobierz w formacie FASTA sekwencje aminokwasowe tego samego białka NP_000530.1, XP_516740.2, NP_001014890.1, NP_663358.1, NP_254276.1, NP_990821.1, NP_571159.1 należące kolejno do takich sztandarowych gatunków jak: człowiek, szympans, pies, bydło, mysz, szczur, kura, danio pręgowany. Następnie za pomocą algorytmu ClustalW2 porównaj pobrane sekwencje. 1) Za pomocą zakładki Result Summary sprawdź wartość dopasowania otrzymaną przez porównanie sekwencji. Co oznacza wartość Score równa 95%? Czy wartości są zgodne z oczekiwaniami co do porównania poszczególnych gatunków? 2) W zakładce Guide Tree możesz sprawdzić jak wygląda drzewo filogenetyczne wykorzystane do stworzenia tego dopasowania. Czy drzewo niesie za sobą rzeczywistą informację co do wzajemnego pochodzenia gatunków? 3) Za pomocą zakładki Show Colors możesz sprawdzić wyniki dopasowania sekwencji. Sprawdź czy aminokwasy w tych samych kolumnach mają takie same właściwości. Wymień kilka pozycji konserwatywnych dla tego białka. 4) W zakładce Result summary dostępna jest funkcja Jalviw służąca do obrazowania dopasowania. Obejrzyj dopasowanie ponownie i zwróć uwagę na sekwencję konsensusową. Do czego odnoszą się plusy w tej sekwencji? 5) Z funkcji Colour wybierz opcję Hydrophobicity, aby zobaczyć jak zmienią się kolory aminokwasów zależnie od hydrofobowości. Zidentyfikuj i wypisz kilka miejsc, w których zaszła zmiana w hydrofobowości. Paulina Bahłaj, Natasza Kokocińska, Biotechnologia Domena homologiczna to dłuższy niż motyw białkowy fragment wskazujący na wspólne ewolucyjne pochodzenie kilku białek. Czasem domena obejmuje całe białko. Bazą służącą do analizy homologicznych domen jest ProDom. Zasoby bazy danych ProDom generowane są w sposób automatyczny. Do konstruowania rodzin białek w bazie ProDom wykorzystuje się program MKDOM2, który iteracyjnie przegląda bazy danych sekwencji białkowych za pomocą algorytmu PSI-BALAST (Position specific iterative BLAST) w poszukiwaniu homologicznych domen. Sekwencje źródłowe wykorzystywane do zbudowania bazy ProDom pochodzą z bazy UniProtKB/Swiss-Prot i są to tylko sekwencje ciągłe (tj. pozbawione przerw), natomiast do inicjalizacji procedury grupowania wykorzystano domeny pochodzące z bazy danych SCOP. Znalezione sekwencje tworzące rodzinę są do siebie dopasowywane. 1) Zapoznaj się z bazą danych ProDom: [http://prodom.prabi.fr/prodom/current/html/home.php]. Kto zajmuje się utrzymaniem i rozwijaniem tej bazy danych? Informacje o ilu domenach zawiera baza? 2) Jaki procent białek z bazy UniProtKB/Swiss-Prot jest reprezentowany w bazie ProDom? 3) Pobierz z bazy UniProtKB/Swiss-Prot sekwencję o nr P01308 i zapisz ją w formacie FASTA. Jakie białko koduje dana sekwencja? Przeanalizuj ją używając bazy danych ProDom i odpowiedz na pytania: a. Ile domen białkowych należy do rodziny o największym podobieństwie (odsetek identyczności)? b. Po załadowaniu strony z interpetacją graficzną wyników i kliknięciu na ikonki z lewej i prawej strony ikony drzewka można uzyskać dostęp do listy wszystkich białek, które zawierają co najmniej jedną tą samą domenę, co insulina. Podaj 5 gatunków zwierząt, których białka należą do tej samej rodziny, co ludzka insulina. Czy wszystkie są insulinami, czy może pełnią jakieś inne funkcje? Anna Kotowska, Biotechnologia Wewnętrznie nieuporządkowane białka (IDP) są białkami, w których brak jest stałej i uporządkowanej struktury trzeciorzędowej. Ta klasa białek obejmuje szereg białek, od w pełni nieuporządkowanych do częściowo nieuporządkowanych i zawierających w sobie m.in. przypadkowe pętle i białka złożone z wielu domen połączonych elastycznymi łącznikami, zbudowanych z wielu struktur pozostających z sobą w równowadze. DisCons jest narzędziem pozwalającym badać ilościowo nieuporządkowania w budowie białek na poziomie aminokwasów i klasyfikować je pod względem specjalnie dobranych kategorii , na podstawie sekwencji i skłonności fragmentu białka do występowania zaburzeń. Klasyfikacja taka pozwala na wskazanie czy dany nieuporządkowany segment jest funkcjonalnie ważny i może dać wskazówki dotyczące jego funkcji, np. regiony elastyczne pod względem struktury, mogą dotyczyć regionów, w których zachodzi wiązanie do receptorów i potranslacyjne modyfikacje. 1) Skorzystaj ze strony: http://pedb.vib.be/discons/ i dowiedz się na jakie jeszcze kategorie program dzieli segmenty białek. 2) Wyszukaj w bazie UniProt sekwencję aminokwasową białka p53 człowieka (Homo sapiens) i zastosuj szybki wariant narzędzia DisCons. Ile program zastosował dopasowań? Jaką część stanowi każda z grup sklasyfikowanych segmentów? Których z nich jest najwięcej? 3) Wyszukaj teraz sekwencję lizozymu człowieka i zastosuj narzędzie DisCons. Jak wyglądają wyniki w tym przypadku? Które z białek jest bardziej „nieuporządkowane” i o czym to może świadczyć? 4) Wykorzystaj sekwencję białka p53 i zastosuj zaawansowany wariant programu. Zastosuj różne parametry. Czy umożliwia to uzyskanie bardziej precyzyjnych wyników? Julia Rosiak, Biotechnologia Agregacja białek koreluje z rozwojem wielu chorób neurodegeneracyjnych takich jak np. choroba Alzheimera czy Parkinsona. Problemem w tych chorobach jest akumulacja rekombinowanych białek w formie agregatów białkowych co prowadzi do wyniszczania mózgu. Dlatego na uwagę zasługuje rozwój metod przewidywania właściwości agregacji polipeptydów. AGGRESCAN to internetowe oprogramowanie do przewidywania podatnych fragmentów sekwencji białkowych do agregacji, w tym analizy wpływu mutacji na skłonności do agregacji białek i porównywania właściwości agregacji różnych białek lub zestawów białek. AGGRESCAN opiera się na skłonności naturalnych aminokwasów pochodzących z badań in vivo do agregacji, oraz przy założeniu, że krótkie i specyficzne obszary sekwencji modulują agregację białka. Program AGGRESCAN dostępny jest na stronie: http://bioinf.uab.es/aggrescan/ 1. a) Znajdź sekwencje białkowe: Aβ42 peptide oraz synuclein w UniProt. Wprowadź je do programu AGGRESCAN w formacie FASTA. 2. b) Porównaj oba białka występujące w chorobach neurodegenracyjnych pod względem takich parametrów jak: a3vSA (agregacja aminokwasów -częstotliwość występowania agregacji), nHS (liczba „hot spot”), NnHS (znormalizowana liczba „hot spot” dla 100 reszt), AAT (poziom agregacji powyżej progu „hot spot”, THSA (całkowita ilość „hot spot”), TA (całkowity profil poziomu agregacji), AATr (AAT podzielona przez liczbę reszt w sekwencji aminokwasowej wejściowej), THSAr (THSA podzielona przez liczbę reszt w sekwencji aminokwasowej wejściowej), Na4vSS (a4vSS podzielona przez liczbę reszt w sekwencji aminokwasowej wejściowych i pomnożona przez 100) 3. c) Kliknij w znak zapytania z lewej strony wartości aby zobaczyć dokładne wyjaśnienia dla powyższych parametrów. W podpunkcie amino-acid aggregation-propensity value. (a3v) kliknij w link do tabeli aby zobaczyć wartości a3v dla 20 prawidłowych aminokwasów. 4. d) Kliknij w ikony P, A i A/N przy Graphics aby zobaczyć przedstawienie graficzne dla tych białek. Ewelina Sikora, Aleksandra Stachowiak, Biotechnologia W celu analizy genomu bakterii możemy posłużyć się obszerną bazą danych PubMLST (www.pubmlst.org ), która gromadzi szczegółowo opisane genomy poznanych dotąd bakterii (ale także niektórych org. eukariotycznych). Do oceny możemy użyć własnej sekwencji i porównać ją z dostępną bazą danych online, jak również pobierać dane (zarówno w formacie tekstowym, jak i FASTA) dla własnej analizy. 1. Wejdź na stronę bazy danych PubMLST. 2. Wybierz jedną z bakterii, np. Bacillus cereus i wejdź w zakładkę Isolates. Następnie, w dolnej sekcji pod tytułem Breakdown, wybierz Single field - w załadowanym oknie będą widoczne statystyki dotyczące różnorodności serotypów, m.in. miejsca oraz czasu wystąpienia, źródła czy rodzaju choroby, którą wywołały. Uzyskane dane możliwe są do pobrania w rozszerzeniu xls. 3. Powróć do poprzedniego okna i wybierz Polymorphic Sites (w sekcji pod tytułem Breakdown). W tym miejscu będziemy mogli śledzić częstość występowania alleli. Wybierz jeden z alleli, np. glp, klikając Analyse, potem Follow the progress of this job and view the output, a na koniec w Locus schematic (HTML format). Ile alelli zostało poddanych analizie? Ile znaleziono polimorfizmów? Jak myślisz, poddany analizie fragment charakteryzuje się dużą zmiennością czy konserwatyzmem? 4. Czy te warianty mają wpływ na sekwencję białka? Cofnij się do widoku głównego (tam gdzie wybierane było Isolates) i tym razem wybierz Sequence and profile definitions, następnie Locus Explorer. Wybierz glp i kliknij All oraz Translate. Dokonaj tego samego dla gmk. 5. Czy zaobserwowałeś dużo zmian w sekwencji dla tej analizy? Czy mogą mieć one wpływ na funkcje białka? 6. Przy pomocy tej bazy danych możesz również pobrać profile alleli. W tym celu cofnij się do okna Sequence and profile definitions i w sekcji Downloads wybierz MLST profiles. Liczby ukazują liczbę alleli tworzących każdy z rodzajów sekwencji. * - koniec translacji “-” - przerwa długości nieokreślonej Sandra Górna, Katarzyna Jankowiak, Biotechnologia 1. Na stronie www.ebi.ac.uk wyszukać białko HBB 2. Co to za białko, podać nazwę genu, organizm, na jakim chromosomie leży gen kodujący to białko 3. Podać dostępne informacje o sekwencji np. położenie genu, sekwencji kodującej, eksonów, ilość ontologów i paralogów 4. Podać numer dostępu i dostępne informacje o sekwencji białka. 5. Skopiować sekwencje podanego białka i za pomocą programu BLAST znaleźć trzy sekwencje homologiczne z innych organizmów. Podać organizm i numer dostępu sekwencji oraz zakres podobieństwa. 6. Określić czy różnice pomiędzy znalezionymi sekwencjami powodują zmianę w sekwencji białka Daria Białasik, Ilona Mądrawska, Biotechnologia Znajdź najlepsze lokalne dopasowanie dwóch sekwencji: - ontologów: NM_145719 i NM_001243843 - para logów: NM_145719 i NM_145702 Zastosuj macierz PAM120 oraz kary za wprowadzenie przerwy i jej poszerzenie 9 i 5 odpowiednio. Porównaj otrzymany wynik z dopasowaniem globalnym. W zadaniu można posłużyć się programami water oraz needle (EMBOSS). Patrycja Marciniak, Biotechnologia Obecnie dostępnych jest wiele narzędzi bioinformatycznych umożliwiających przedstawienie sekwencji biologicznych, jednakże sporym problemem jest skuteczny sposób tworzenia sekwencji z dyskretnych modeli lub wektorów, które właściwie odzwierciedlają informacje o ich wzorze i kluczowych cechach. Wykorzystaj narzędzie ‘PseDAC General’ dostępne na stronie http://bioinformatics.hitsz.edu.cn/Pse-in-One/server/ do wygenerowania różnych form pseudo kompozycji kwasu deoksyrybonukleinowego dla sekwencji DNA zamieszczonej poniżej: >misc_ppid_8090 CTTCGCCAGCCACTCTTAGTCCGCCAGCGCGTGCGGCGGAGGCCGAGCGTCTCTATGAT CCTGGCTTCTG GCAACGTCATCGTCACGCGCCGGATCCAACCCCCAACCACTTTAGCCAGCTCTAGAGGC GCGCGTGGCCG GGACGGAAGTGCGCGCGGGTGTCGCCGGGAGTGCGCGCTCCTCTGGCTGACGGGCG GGCCGGGCATGCGC CGCGGGCGTTTTGGCGGGAAGCGCGGGGCGGGCCGGACAATGAGAGTGTCCGCCTCC 4) PSE-in-One jest w stanie wygenerować na 28 różnych sposobów pseudo elementy dla danej sekwencji (w tym 14 dla DNA). Co oznacza moduł KMER, na czym polega i kiedy się go stosuje? Przyjrzyj się również innym opcjom stosowanym dla sekwencji DNA. 5) Co oznacza parametr k? Porównaj wyniki otrzymane po zastosowaniu odpowiednio k=1, k=2, k=3 dla trybu Kmer. 6) Na podstawie otrzymanej wizualizacji wyników przedstawiającej kompozycję trójnukleotydów (k=3), określ który posiada największą wartość i podaj jego współrzędne. Klaudia Poźniak, Bioinformatyka 1. Uruchom bazę Ecocyc http://ecocyc.org/. 5) Do czego służy ta baza danych ? 2. Za pomocą bazy Ecocyc wyszukaj polimerazę I DNA. 7) Jakie są jej biologiczne funkcje ? 8) Jak nazywa się gen kodujący tą polimerazę ? 9) W którym miejscu genomu E.Coli się on znajduje ? 3. Za pomocą bazy Ecocyc wyszukaj genu yihQ, Co koduje ten gen, jak długa jest jego sekwencja ? 10) Jakie genu znajdują się obok genu yihQ i za co odpowiadają ? 11) Zapisz sekwencję nukleotydową enzymu kodowanego przez yihQ w formacie FASTA. 4. Uruchom bazę BsubCyc http://bsubcyc.org/. a) Do czego służy ta baza danych ? b) Wyszukaj jak przebiega glikoliza u Bacillus subtilis, na czym polega ? c) Wyszukaj polimerazę I DNA, jaki gen ją koduje, czy jego sekwencja ma taką samą długość jak sekwencja genu kodującego polimerazę I u E.Coli ? 5. Uruchom narzędzie NebCutter http://nc2.neb.com/NEBcutter2/index.php. Sprawdź czy zapisana wcześniej sekwencja (pkt.3) może ulec przecięciu przez enzym BaeGI. W jakiej pozycji enzym przecina sekwencję ? Z jakiego organizmu pochodzi ten enzym ? Czy ma jakieś izoschizomery ? Jakub Nowakowski , Biotechnologia Następujące zadanie zaznajomi Cię z programem Primer-BLAST, który pozwala na odnalezienie specyficznych starterów wymaganych przy amplifikacji dowolnie wybranej sekwencji. Wybór odpowiednich starterów jest podstawą poprawnie przeprowadzonej reakcji PCR. Primer-BLAST pozwala na dobór starterów: - o odpowiedniej długości (18-30 bp) - o porównywalnej temperaturze topnienia (zależy to od zawartości par GC w łańcuchu) - o wysokiej specyficzności w stosunku do amplifikowanej sekwencji. Dowiesz się również do czego służy program NEBcutter2, który jest narzędziem pozwalającym odnaleźć enzymy restrykcyjne tnące stworzony produkt PCR na dwa, trzy lub cztery fragmenty. Enzymy restrykcyjne są niezwykle przydatne w biologii molekularnej, gdyż mają zdolność trawienia DNA. Pozwalają na: - tworzenie map genetycznych - izolację oraz identyfikację poszczególnych genów - sekwencjonowanie DNA - rekombinowanie i klonowanie genów - ustalanie zgodności tkankowej Użyj podanej poniżej nici nukleotydowej oraz narzędzia „Primer-BLAST” dostępnego na stronie http://www.ncbi.nlm.nih.gov/tools/primer-blast/ do stworzenia starterów pozwalających amplifikować jak najdłuższy produkt. TTTACGCAGACTCCTTGTAAGGATCCTCCGGACAAGTTGTTTACGGTTCACGGTTTGTGGCCCTCAAGCGT AATCAGATCGTAATATTGTTTATTTCCTTTATGTACTTGTGCGTGTGTTTGTGTATAGTTTAAAATATAATCATA ATTTTTTTTTTCTTTTGTGCATACCAGAGAGAAAAATTACTCACTCCTTGTAAGGATCCTCCGGACAAGTTGT TTACGGTTCACGGTTTGTGGCCCTCAAGCACGATAGGACCTGACCCAAGTAATTGCCCGATAAGGAACATT CGGAAGGTAATATTATAACCTGACCCAAGTAATTGCCCGATAATCCTCAAACATAGATTTTCATGCACGTGT GTACAAATATTACAATTAGTTTAAAATATAATCATAATTTTTTTTTTCTTTTGTGCATACCAGAGAGAAAAATTA CTC Powiedz: a) Jaką długość ma amplifikowany produkt? b) Jaka jest sekwencja starterów nici plus oraz nici minus oraz jaka jest ich długość? c) Jaka jest zawartość procentowa par GC starterów oraz temperatura ich topnienia? Czy są podobne? c) W których miejscach na nici program zaprojektował startery? Następnie po ustaleniu jaka sekwencja zostanie poddana amplifikacji (pamiętaj – by odnaleźć na sekwencji starter nici minus, należy zamienić G ◄► C ; A ◄► T oraz odczytywać jego sekwencję od końca!) , przy wykorzystaniu programu NEBcutter2 dostępnego na stronie http://nc2.neb.com/NEBcutter2/ określ: a) Zawartość procentową par GC oraz AT w produkcie PCR b) Czy produkt może być przecięty na dwa fragmenty przez poniższe enzymy, podaj miejsca ewentualnego cięcia oraz czy powstają końce tępe czy lepkie: - BpuEI - DraI - CviQI c) Jakie enzymy potną produkt PCR na dwie, trzy lub cztery równe lub prawie równe części? d) Jaka jest ilość enzymów niezdolnych do przecięcia produktu PCR? Marta Trzeciak, Wojciech Langwiński, Biotechnologia Mikromacierze są szeroko stosowane w badaniach nad ekspresją genów, szczególnie użyteczne są przy badaniu m.in. odpowiedzi immunologicznej czy też cyklu komórkowego. Analiza danych pochodzących z mikromacierzy dostarcza ogromnej liczby wyników uzyskiwanych w trakcie serii eksperymentów, dlatego należy te dane wstępnie przetworzyć, grupując geny ulegające podobnej ekspresji celem znalezienia wzorca. Sprowadzenie danej grupy wyrazów stanowiących odmianę danego zwrotu do wspólnej postaci, umożliwiającej traktowanie ich wszystkich jako te samo słowo nazywamy lematyzacją. STEM (ang. The Short Time-series Expression Miner) jest programem do analizy klasterowej, porównywania i wizualizacji krótkich serii danych pochodzących z mikromacierzy (8 punktów czasowych lub mniej). Algorytm STEM pozwala na zidentyfikowanie statystycznie znaczącego profilu ekspresji genów oraz jego zmian w czasie. STEM jest w pełni zintegrowany z bazą Gene Ontology (GO) i umożliwia określenie oraz wizualizację zachowań genów, które należą do danej kategorii bądź zestawu znajdujących się w GO. Uwaga: STEM służy przede wszystkim do analizy danych z krótkiej serii eksperymentów. Celem zadania jest wykorzystanie algorytmu STEM do stworzenia i oszacowania profili ekspresji genów miRNA. Doświadczenie prowadzone było w aspekcie jednej z najpoważniejszych, przewlekłych chorób układu oddechowego - astmy oskrzelowej. Uszkodzenia nabłonka oddechowego, powstające podczas tej choroby, odtwarzano mechanicznie wykorzystując do tego celu hodowlę komórek in vitro (linia 16HBE14o). W załączniku 1 zamieszczono dane zawierające zmiany ekspresji miRNA na sześciu punktach czasowych od momentu uszkodzenia monowarstwy komórek. 1) W celu pobrania algorytmu STEM wejdź na stronę http://www.cs.cmu.edu/~jernst/stem/ , zarejestruj się i pobierz darmową wersję programu. 2) 3) Rozpakuj plik i uruchom program STEM. 4) Po wyświetleniu głównego panelu w punkcie Data file załaduj dokument tekstowy (Załącznik 1) dołączony do zadania. 5) Przeprowadź normalizację wyników przy wykorzystaniu Wprowadzone dane nie posiadają przypisanego numeru ID. opcji Normalize data. 6) W drugiej części panelu (Gene info) zaznacz, że odnosisz sie do organizmu człowieka (GO), w drugim polu ustaw opcje: No cross references. 7) W trzecim panelu (Options) pozostaw opcje domyślnie sugerowane przez program: a. Clustering Method: STEM b. Maximum Number of Model Profiles: 50 c. Maximum Unit Change in Model Profiles between Time Points: 2 8) Rozpocznij poszukiwanie profili ekspresji (Execute). 9) Określ, które z nich są statystycznie istotne i podaj wyliczoną dla nich wartość "p".O czym mówi wartość "p"? 10)Wybierz profil, zawierający miRNA, których ekspresja zmienia się znacząco na przestrzeni 48 godzin? Podaj ich nazwy. 11) 12) Wykorzystując bazę danych miRNA body map (dostępną na stronie: http://mellfire.ugent.be/public/body_map/index.php) (a) określ w jakie szlaki metaboliczne zaangażowane są te geny, (b) podaj ich geny docelowe (targety), (c) ustal czy ich funkcję można powiązać z naprawą uszkodzeń w nabłonku oddechowym? Bibliografia: [1] N. C. for B. Information, U. S. N. L. of M. 8600 R. Pike, B. MD, i 20894 Usa, „Asthma National Library of Medicine”, PubMed Health. [2] J. Ernst, G. J. Nau, i Z. Bar-Joseph, „Clustering short time series gene expression data”, Bioinformatics, t. 21, nr suppl 1, ss. i159–i168, sty. 2005. [3] J. Ernst i Z. Bar-Joseph, „STEM: a tool for the analysis of short time series gene expression data”, BMC Bioinformatics, t. 7, nr 1, s. 191, kwi. 2006. [4] A. Szczepankiewicz, P. M. Lackie, i J. W. Holloway, „Altered microRNA expression profile during epithelial wound repair in bronchial epithelial cells”, BMC Pulm. Med., t. 13, nr 1, s. 63, lis. 2013. Patrycja Gubańska, Katarzyna Grzesiowska, Biotechnologia W ciągu ostatnich 15 lat komputer stał się niezbędnym towarzyszem każdego biologa molekularnego. Bioinformatyka jest interdyscyplinarną dziedziną nauki wykorzystująca metody i narzędzia programistyczne do rozwiązywania problemów z nauk biologicznych. Jednym z podstawowych zadań, które bioinformatyka pomaga rozwiązać jest projektowanie starterów do reakcji PCR, sekwencjonowania oraz hybrydyzacji. Obecnie istnieje szereg programów ułatwiających projektowanie starterów i jednym z nich jest PrimerPremier, działający w systemie Windows i Power Macintosh. 6) Na podstawie sekwencji z bazy GenBank o numerze akcesyjnym U62898 zaprojektuj parę starterów dla genu ALX Danio pręgowanego, tak aby objąć amplifikacją minimum 90% sekwencji kodującej tego genu. Użyj do tego programu PrimerPremier na stronie http://www.premierbiosoft.com/ 7) Podaj długość sekwencji kodującej oraz ilość występujących egzonów. 8) Ile par starterów wygenerował program? Czy wszystkie spełniają podany warunek? 9) Wybierz najlepszą parę starterów i podaj ich długość. 10) Podaj wielkość specyficznego produktu otrzymanego z wybranej przez ciebie pary starterów. 11) Podaj przewidywaną temperaturę topnienia Tm oraz procentowy udział par GC dla każdego startera. 12)Następnie sprawdź za pomocą programu Nebcutter V2.0 czy ta sekwencja jest trawiona enzymem HincII. Jeśli tak, podaj miejsce, w którym tnie sekwencję. 13) Zaproponuj enzym restrykcyjny, który przetnie produkt PCR z wybranymi przez ciebie starterami na dwa fragmenty podobnej długości. Podaj długość powstałych fragmentów. Tomasz Jamruszka, Biotechnologia Odkrycie w 1985 roku telomerazy zainicjowało lawinę badań nad jej aktywnością w komórkach, związkiem z procesami starzenia oraz chorobami powiązanymi z jej mutacjami. Podsumowaniem starań nad wyjaśnieniem jej natury jest baza Telomerase Database (telomerase.asu.edu). To platforma zawierająca cenne informacje dotyczące enzymu telomerazy, jego struktury oraz funkcji. W oparciu o Telomerase Database odpowiedz na pytania: 1. Z jakich źródeł czerpie informacje? 2. Jak zbudowana jest telomeraza i u jakiego organizmu po raz pierwszy ją odkryto? 3. Czy sekwencje DNA telomerowego kręgowców są bardziej zróżnicowane niż sekwencje innych grup organizmów? 4. Znajdź w bazie nazwę białka telomerowego, produktu genu TINF2, którego mutacja powoduje dyskeratozę wrodzoną (DC) i za pomocą bazy TeloPIN (songyanglab.sysu.edu.cn/telopin) sprawdź, czy wśród białek komórkowych z nim oddziaływających jest CCDC43? Marta Kazimierska, Kamila Jaworska, Biotechnologia UniProt jest bazą zawierającą informacje na temat struktury i funkcji białek. Korzystając z serweru LigDig można dodatkowo wykonać podstawowe manipulacje i analizy struktury kompleksów białko-ligand. LigDig został zaprojektowany by odpowiedzieć na pytania, które wcześniej wymagały kilku niezależnych zapytań do różnych źródeł danych. Korzystając z serweru można zdobyć informacje o kofaktorach i ligandach danego białka oraz znaleźć ich prawdopodobną funkcję. LigDig posługuje się bazami danych, takimi jak- ChEMBL, PubChem, Sabio-RK oraz programami- cytoscape.js, PDB2PQR, Probis, Fconv. 1) W bazie UniProt znajdź nr referencyjny białka- trypsyny 1, występującej u człowieka. Podaj jego masę (Da), długość sekwencji aminokwasowej oraz gen kodujący to białko. 2) Przejdź na stronę: http://mcm.h-its.org/ligdig i odszukaj inhibitory powyższego białka [Ligand Winding affinity (nM)=10, Off-target Winding affinity (nM)=100000]. Podaj nazwy inhibitorów (przejdź do bazy ZINC), zakres pH w jakim działają oraz określ, który z nich ma większe powinowactwo do trypsyny 1. 3) Sprawdź, jakie ligandy mogą przyłączyć się do trypsyny 1, używając funkcji Find protein structures i numeru dostępu: 1a0j. 4) Znajdź przestrzenną strukturę trypsyny 1, korzystając z numeru EC 3.4.21.4. Do jakiej grupy enzymów należy trypsyna 1? 5) Z ilu podjednostek i domen składa się trypsyna 1? Jakimi wiązaniami połączone są poszczególne podjednostki? (skorzystaj z PDBsum). Źródło: Jonathan C. Fuller, Michael Martinez, Stefan Henrich, Antonia Stank, Stefan Richter, Rebecca C. Wade, LigDig: a web server for querying ligand–protein interactions, Bioinformatics (2015) 31 (7): 1147-1149 doi:10.1093/bioinformatics/btu784 Weronika Speier, Kamil Pietruczanis, Biotechnologia Program InterPro (http://www.ebi.ac.uk/interpro/) łączy w sobie informacje na temat klasyfikacji białek pochodzące z różnych baz danych, takich jak UniProt, MEROPS, Pfam, czy IntAct i umożliwia analizę sekwencji aminokwasowych. Znajdź sekwencję aminokwasową białka o sygnaturze F1LKH9.1 w formacie FASTA, przeanalizuj ją w programie InterPro i wykonaj poniższe polecenia: 1) Podaj nazwę tego białka, powiedz skąd pochodzi oraz określ jego długość. 2) Określ do jakiej rodziny białek należy. 3) Wymień jakiego typu domeny, wchodzące w skład tego białka, sugeruje program. Podaj ich długość. 4) Ile miejsc aktywnych posiada to białko? W jakim położeniu się one znajdują? 5) Opisz w jakich procesach biologicznych bierze udział to białko oraz jakie ma funkcje molekularne. Odpowiedzi 1. Syntaza poliketydowa 5 (PKSG5), pochodzi z rośliny Cannabis sativa, ma 385 aminokwasów 2. Białko PKSG5 należy do rodziny białek syntaz poliketydowych typu III 3. Domeny: tiolazowa (220 aminokwasów), chalkonowa na N – końcu (217 aminokwasów), chalkonowa na C – końcu (50 aminokwasów) 4. 1 miejsce aktywne (pozycja 149 – 165, w obrębie domeny chalkonowej na N - końcu) 5. Procesy biologiczne: metabolizm, procesy biosyntezy metabolitów wtórnych Funkcje molekularne: aktywność katalityczna, aktywność transferazy (transferowanie grup acetylowych i innych grup amino – acylowych). Aleksandra Pikuła, Biotechnologia 1) Wejdź na stronę NCBI (National Center of Biotechnology Information) i analizując listę zasobów (resource list) odszukaj bazę danych OMIM (Online Mendelian Inheritance in Man). 2) Rozpoczynając pracę w wyżej wymienionej bazie danych (naciśnij łącze „getting started“), dowiedz się co to za baza danych i jakie informacje możesz w niej znaleźć. 3) Odszukaj w bazie danych OMIM choroby zwanej pląsawica Huntingtona wpisując w okno wyszukiwania numer 143100. 4) Podaj podstawowe informacje na temat pląsawicy Huntingota. Mutacja w genie kodującym pewne białko powoduje tą chorobę. Jak nazywa się to białko? Podaj lokalizację chromosomową genu kodującego to białko. Odszukaj osobny rekord opisujący wyłącznie to białko w bazie danych OMIM. Następnie analizując strukturę genu kodującego to białko opisz jego długość, liczbę eksonów oraz ich średnią długość. 5) W zakładkach znajdujących się po prawej stronie odszukaj link do bazy danych UniProt, gdzie możemy znaleźć szczegółowe informacje dotyczące białka, którego mutacja powoduje pląsawicę Huntingtona, w tym jego dokładną sekwencję. Z ilu aminokwasów się ona składa i jaka jest średnia masa tego białka? 6) Poniżej znajdują się odnośniki do powiązanych baz danych. Odszukaj odnośniki do baz danych zawierających struktury 3D białek i obejrzyj strukturę naszego białka. Anna Dajczak, Aleksandra Piłat, Biotechnologia Celem zadania jest utworzenie drzewa filogenetycznego dla pospolitych rodzajów bakterii i analiza odległości filogenetycznej między nimi, a także odniesienie uzyskanych wyników do obowiązującej systematyki Procaryota. Wybrano dziewięć rodzajów bakterii. Wszystkie wykazują lub w zależności od szczepu mogą wykazywać właściwości chorobotwórcze. Do analizy wykorzystany zostanie program MEGA będący zintegrowanym narzędziem służącym do przeszukiwania baz danych, porównywania sekwencji i tworzenia drzew filogenetycznych. 1. Ze strony www.megasoftware.net pobierz darmowy program MEGA, zapisz go na dysku. 2. Z Align otwórz Query Databanks, a następnie korzystając z wyszukiwarki programu znajdź sekwencje o podanych niżej numerach dostępu (każdemu numerowi akcesyjnemu dopasuj nazwę gatunkową mikroorganizmu mu odpowiadającemu): a) NR_074453.1 b) NR_074540.1 c) M59291.1 d) M25588.1 e) NR_074913.1 f) U90314.1 g) U92192.1 h) X80680.1 i) NR_074894.1 Pamiętaj, by każdorazowo po wyszukaniu kliknąć Add To Aligment. 3. Wypisz podstawowe informacje o znalezionych sekwencjach. Podaj: a) Przynależność mikroorganizmu do rodziny. b) Długość sekwencji. c) Co koduje dana sekwencja. d) Zastanów się, dlaczego do analizy wybrano cząsteczkę 16S rRNA. 4. Za pomocą Align by ClustalW dokonaj przyrównania sekwencji. 5. Zbiór zapisz w formacie MEGA - nadaj nazwę „Phylogenetic tree”. 6. Rozwiń Phylogeny i wybierz Construct/Test Neighbor- Joining Tree (NJ). 7. Stwórz graficzną prezentację drzewa filogenetycznego rozpatrywanych gatunków i dokonaj jego interpretacji. 8. Sprawdź funkcje pozwalające zmienić wygląd drzewa i nadaj mu wybraną formę. 9. Na podstawie stworzonego drzewa filogenetycznego dokonaj klasyfikacji wybranych mikroorganizmów i odnieś uzyskane wyniki do obowiązującej systematyki. Przemysław Bartz, Jakub Dziubakiewicz, Biotechnologia Białka z rodziny Rho (RhoA, Rac1, Cdc42) działają na zasadzie molekularnych przełączników, regulują wiele procesów komórkowych. Zaangażowane są m.in. w migrację komórek, kontrolę cyklu komórkowego, procesy apoptozy i regulację transkrypcji genów. Białka Rho są aktywne przede wszystkim w cytoszkielecie komórki, biorąc udział w reorganizacji mikrofilamentów aktynowych oraz mikrotubul. W ciągu ostatnich lat dokonał się znaczący postęp w zrozumieniu biochemicznej i genetycznej natury wielu procesów, w które są zaangażowane białka Rho. 1) Zapoznaj się z bazą danych HPRD – Human Protein Reference Database (http://www.hprd.org/index_html) a. Kto zarządza bazą? b. Jakie informacje są w niej gromadzone? 2) Korzystając z opcji BLAST na stronie HPRD - znajdź proteinę do której należy podana sekwencja: ATGCAGAC AATTAAGTGT GTTGTTGTGG GCGATGGTGC TGTTGGTAAA ACATGTCTCC TGATATCCTA CACAACAAAC AAATTTCCAT CGGAATATGT ACCGACTGTT TTTGACAACT ATGCAGTCAC AGTTATGATT GGTGGAGAAC CATATACTCT TGGACTTTTT GATACTGCAG GGCAAGAGGA TTATGACAGA TTACGACCGC TGAGTTATCC ACAAACAGAT GTATTTCTAG TCTGTTTTTC AGTGGTCTCT CCATCTTCAT TTGAAAACGT GAAAGAAAAG TGGGTGCCTG AGATAACTCA CCACTGTCCA AAGACTCCTT TCTTGCTTGT TGGGACTCAA ATTGATCTCA GAGATGACCC CTCTACTATT GAGAAACTTG CCAAGAACAA ACAGAAGCCT ATCACTCCAG AGACTGCTGA AAAGCTGGCC CGTGACCTGA AGGCTGTCAA GTATGTGGAG TGTTCTGCAC TTACACAGAA AGGCCTAAAG AATGTATTTG ACGAAGCAAT ATTGGCTGCC CTGGAGCCTC CAGAACCGAA GAAGAGCCGC AGGTGTGTGC TGCTATGA 3) Poszukaj informacji na temat białka, które uzyskało najwyższy wynik, podaj: a. HPRD ID b. Masę molekularną c. Symbol genu d. Lokus na mapie genowej e. Lokalizację podstawową i 3 alternatywne 4) Klikając w Gene symbol przejdź do bazy HGNC: a. Rozwiń skrót HGNC b. Zapoznaj się z wyświetloną stroną w HGNC, co możemy na niej odnaleźć? c. Wypisz, w których chromosomach leżą przewidywane ortologi genu u: i. Szympansa ii. Makaka iii. Myszy iv. Szczura v. Psa 5) Poprzez bazę białkową – PDBe (odnośnik na stronie bazy HGNC) Sprawdź z jakimi związkami wchodzi w interakcję podane białko? Ania Typańska, Biotechnologia Program Cn3D służy do oglądania struktury przestrzennej białek. Białko można oglądać pod dowolnym kątem i w dowolnym powiększeniu. Dzięki temu narzędziu możemy wyświetlać sekwencję białka i jego strukturę trzeciorzędową, analizować miejsca oddziaływania ze związkami czy metalami. Program pozwala również na porównywanie białek, pozwala na dopasowanie dwóch sekwencji poprzez ich wyrównanie. Molecular Modeling Database zawiera struktury przestrzenne białek pochodzących z bazy Protein. Znajomość struktury trzeciorzędowej pozwala na przewidzenie relacji sekwencja – struktura, interakcji czy miejsc aktywnych. Każde białko, dla którego znana jest struktura przestrzenna opisane jest w ten sam sposób w trzech „oknach”. W pierwszym oknie przedstawiony jest schemat białka z opisem w tabeli poniżej (podjednostki białka, domeny przestrzenne z przypisami oraz związki z którymi oddziałuje). W środkowym oknie widzimy strukturę przestrzenną otrzymaną na drodze eksperymentalnej, z wykorzystaniem rentgenografii. Kolejne okno służy do otwierania struktury przestrzennej. W opisie dostępne jest również narzędzie VAST+, które szuka białek o podobnej strukturze. 1) Pobierz program Cn3D ze strony : http://www.ncbi.nlm.nih.gov/Structure/CN3D/cn3dinstall.shtml 2) Ze strony głównej NCBI wybierz zakładkę Domains & structure i otwórz bazę Structure (Molecular Modeling Database). 3) Wyszukaj strukturę numer: - 100276 ( dynamina ) - 32872 (insulina syntetyczna) - 7045 (insulina hormon) - 108281 (Htt – Huntingtyna ) 4) Odpowiedz na pytania: - z ilu podjednostek składa się białko - jakie grupy prostetyczne są z nim związane i ile ich jest - ile jest domen przestrzennych i czy są ciągłe czy poprzerywane ( jeśli jest podane). Wskazówka – „show annotation” 5) Następnie otwórz strukturę przestrzenną białka w programie Cn3D (View structure). Zaznacz grupę prostetyczną dowolnej podjednostki, następnie sformatuj obraz korzystając z zakładki Style -> select by distance -> ustaw dystans na 5. Odpowiedz na pytanie ile aminokwasów oddziałuje z wybraną przez Ciebie grupą, z której podjednostki dane aminokwasy pochodzą. Wykonaj ćwiczenie dla każdego białka. 6) Wyszukaj strukturę numer 56037 ( enolaza), korzystając z narzędzia VAST+ wyszukaj podobne białka. Rozwiń rekord o 99% identyczności np. 2XH2. Czym różnią się białka? Otwórz porównane struktury w programie Cn3D, sprawdź jaką ilością aminokwasów różnią się sekwencje. (Możesz skorzystać z funkcji Select ->unaligned residues ). Agata Sienkiewicz, Izabela Jagiełło, Biotechnologia CRISPRdirect jest programem umożliwiającym sprawne projektowanie sekwencji RNA(gRNA) w stosunku do każdej wyjściowej sekwencji DNA. Z kolei to umożliwia korzystanie z technologii CRISPR System/Cas genom, pozwalającej na znalezienie dowolnego miejsca, w którym zostanie przecięty genom. Pocięcie nici DNA stwarza możliwości do manipulacji fragmentami sekwencji, edycji genów poprzez zmianę kolejności określonych zasad oraz ich regulację u wszystkich organizmów żywych. Stąd wzięła się potrzeba utworzenia programów, które będą dostarczały powyższych informacji w sposób szybki i dokładny. Metoda przewidywania miejsc docelowych w genomie jest liczona za pomocą Jellyfish, narzędzia czytającego format FASTA, którego działanie polega na efektywnym liczeniu częstości k-merów (sekwencji o długości k) w DNA. Program CRISPS/direct daje duże możliwości w pozyskaniu informacji, które w przyszłości mogą pomóc w modyfikacji genów, zdolnych do zmieniania genomów całych populacji. Dostępny jest pod adresem: 1) http://crispr.dbcls.jp/ 2) Polecenie: 3) Znajdź sekwenecję nukleotydową genu SCN1A człowieka, pobierz go i zapisz w formacie FASTA. Wprowadź sekwencję do programu CRISPRdirect, wybierz funkcję PAM sequence requirement- NGG. 4) a.)zaobserwuj różnice w procentowności wystąpień par GC oraz różnorodność wartości temperatury topnienia, w ilu pozycjach można zauważyć występowanie charakterystycznych powtórzeń (TTTT)? 5) b.)za pomocą funkcji detail wskaż miejsca niedopasowania i wyjaśnij prawdopodobną przyczynę ich występowania. c.) sprawdź który dopasowany fragment sekwencji nie posiada miejsca pasującego do miejsca docelowego sekwencji genu SCN1A. Piotr Bilman, Biotechnologia Zadanie ma na celu przygotowanie do praktycznego wykorzystanie dostępnych baz danych i programów, oraz nauczenie płynnego poruszania się po dostępnym interejsie, aby coraz wnikliwiej analizować dostępne informacje. Korzystają z wiedzy wyniesionej z zajęć oraz dostępnych baz danych(GENOME, PUBMED, NUCLEOTIDE, BLAST) : 1) Znajdz informacje o genomie człowieka 2) Odnajdź na chromosomie 5 sekwencję : „microRNA 146a” o kodzie dostępu MIR146A 3) Sprawdź i przypomnij sobie informacje o microRNA które są dostępne w wyszukanym źródle 4) Przejdź do artykułów dotyczących microRNA 146a zawartych w bazie PubMed 5) Znajdź artykuł dotyczący wpływy microRNA 146a na atopowe zapalenie skóry, autorzy : Rebane A1, Runnel T, Aab A3, Maslovskaja J. 6) Zapoznaj się z wynikiem badania w powyższym artykule oraz znajdz informacje dotyczące genu „CCL5” dla homo sapiens, pełniącego istotną rolę w wynikach badać 7) Odpowiedz na pytania a. Z ilu składa się nukleotydów b. Ile posiada eksonów c. Czy jest cząsteczką kolistą czy liniową 8) Za pomocą programu BLAST sprawdz czy dla świni domowej (sus scrofa) istnieją geny o podobnej sekwencji, jeżeli tak to jakie i w jakim stopniu. 9) Poprzez kod dostępu, wejdź w informacje o najbardziej zbliżonym wyniku 10)Przejdź do formatu FASTA 11) Co oznaczają licznie występujące „N” w sekwencji nukleotydowej Kinga Kwiatkowksa, Dominika Nowaczyk, Biotechnologia ZADANIE 1. – porównanie lokalne i globalne sekwencji białkowych Pobierz z bazy danych NCBI sekwencje : NG_000007.3 oraz NC_005100.4 w formacie FASTA. Są to geny hemoglobiny człowieka i szczura norweskiego. a) dopasowanie globalne: Porównaj obie sekwencje przy pomocy programu EMBOSS Needle. Wejdź na stronę : http://www.ebi.ac.uk/Tools/psa/emboss_needle/ . Wpisz porównywane sekwencje i podaj: 1. jakie jest podobieństwo sekwencji 2. najlepsze dopasowanie porównywanych sekwencji. b) dopasowanie lokalne: Porównaj obie sekwencje przy pomocy programu LALIGN (FASTA). Wejdź na stronę: http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=lalign Wpisz porównywane sekwencje i podaj: 1. jakie jest stopień podobieństwa sekwencji 2. jakie jest najlepsze dopasowanie lokalne sekwencji Dokonaj analizy otrzymanych wyników i wybierz, które programowanie daje bardziej optymalny wynik. ZADANIE 2. – badanie predykcji genów W przypadku badania predykcji genów u prokariotów jedną z najlepszych metod jest badanie predykcji otwartych ramek odczytu (ORF). W nawiązaniu do poprzedniego zadania pobierz z GenBanku sekwencję genu kodującego hemoglobinę człowieka NG_000007.3 oraz szczura norweskiego NC_005100.4. - Wykorzystując program plotorf (http://emboss.bioinformatics.nl/cgibin/emboss/plotorf) znajdź jakie są możliwie występujące otwarte ramki odczytu. Która z ramek może być najbardziej prawdopodobna oraz jaka może być jej długość? - Porównaj obie sekwencję przy pomocy programu getorf (http://emboss.bioinformatics.nl/cgi-bin/emboss/getorf). W tym przypadku uzyskaj szczegółowe informacje o najdłuższym ORF. W kontekście analizy porównaj wyniki z opisem tych sekwencji w GenBanku. Agata Wesołowska, Biotechologia Sabio-RK (System for the Analysis of Biochemical Pathways - Reaction Kinetics) to ogólnodostępna internetowa baza danych przechowująca wyczerpujące informacje na temat reakcji biochemicznych i ich właściwości kinetycznych. Baza oferuje ujednolicone dane literaturowe oraz dane pochodzące bezpośrednio z eksperymentów laboratoryjnych. Obejmuje wszystkie dostępne parametry kinetyczne wraz z ich równaniami szybkości a także prezentuje warunki eksperymentalne i środowiskowe, w jakich dane reakcji zostały przeprowadzone. Sabio-RK zawiera informacje o podstawowych reakcjach i szlakach biochemicznych, ich komponentach, lokalizacji komórkowej a także uczestniczących w reakcjach enzymach. Program jest dostępny na stronie: http://sabiork.h-its.org/ 1) Poprzez przeglądarkę internetową uruchom program Sabio-RK. 2) Wyszukaj w bazie szlak glikolizy (glycolysis). 3) Korzystając z danych zawartych w bazie podaj: jakie są substraty oraz produkty pierwszej reakcji (Glucose + ATP = ADP + Glucose 6-phosphate ) a także jaki enzym katalizuje tą reakcję. W jakiej tkance zachodzi ta reakcja? 4) Jakie są parametry tej reakcji (pH oraz temperatura)? Jakie parametry fizykochemiczne reakcji znamy? 5) Czy reakcja została przeprowadzona w warunkach in vitro czy in vivo? 6) Korzystając z odnośnika przejdź do bazy UniProt i sprawdź jaki pierwiastek chemiczny jest kofaktorem enzymu katalizującego reakcję i z jakiego organizmu on pochodzi. Jaka jest długość i masa cząsteczkowa tego białka ? 7) Ile jest publikacji związanych z tym enzymem? Magdalena Kędziora, Biotechnologia Primer – BLAST stosuje się do projektowania starterów. Można wykorzystać go gdy chcemy za projektować startery dla wektora, który będzie wprowadzony do innego organizmu, żeby potem produkował nam określone białko. W ćwiczeniu zaprojektuj wektor dla produkcji ureazy z Klebsiella pneumoniae w E.coli 1. W bazie danych NCBI znajdź urease pochodzącą z Klebsiella pneumoniae (KPHS_45970) i skopiuj sekwencje cDNA lub zapisz w formacie FASTA 2. W programie NEBcutter sprawdź, który enzym tnie wybrane białko. Pamiętaj żeby enzym nie miał miejsc restrykcyjnych w obrębie białka.(Przykładowy enzym XhoI) 3. Za pomocą programu Primer-Blast zaprojektuj starter. Wklej sekwencję, wpisz przedział długości starterów (19-22nt), temperature (49-60°C). Wybierz startery F i R, które są najbardziej zbliżone do siebie. 4. Wybierz odpowiedni starter z bazy NOWAGEN. Sprawdź czy wektor posiada domenę Hist-tag, kodon Stop, miejsce restykcyjne dla enzymu, sekwencję promotorową i terminatorową dla polimerazy RNA faga T7 Filip Misiewicz, Biotechnologia Rzodkiewnik pospolity (Arabidopsis thaliana), jest jedną z podstawowych roślin modelowych wykorzystywanych w genetyce. Posiada wiele specyficznych cech ułatwiających jej studiowanie. Arabidopsis thaliana może być uprawiana w dużych ilościach w warunkach laboratoryjnych, ze względu na niewielki rozmiar, odporność na choroby ,a także krótki cykl rozwojowy sięgający zaledwie 6 tygodni. Jest przy tym rośliną bardzo płodną, wydającą nawet ponad 10 tyś nasion. Roślina posiada 5 dużych, wyraźnych chromosomów, przy czym posiada relatywnie małą liczbę genów. Dzięki tym cechom, rzodkiewnik jest bardzo dobrym organizmem modelowym, który został całkowicie zsekwencjonowany. Niniejsze zadanie ma na celu zapoznanie studenta z bazą całkowicie dedykowaną Arabidopsis thaliana. 1) Wejdź na bazę danych TAIR pod adresem www.arabidopsis.org . 2) Otwórz rozwijaną zakładkę w prawym górnym rogu i wybierz opcje Gene. Wpisz w wyszukiwarkę id genu: AT1G02190 . Odczytaj funkcje danego locus 3) Sprawdź tkanki oraz warunki w których dochodzi do ekspresji genu znajdującego się w tym locus. Zastanów się czemu podlega ekspresja tego genu. 4) Wejdź w gen opatrzony numerem AT1G02190.1. Sprawdź ilość aminokwasów w kodowanym białku, a także ilość eksonów i intronów w tym genie. 5) Zauważ że w bazie występuje alternatywny gen oznaczony numerem AT1G02190.2. Czym różnią się te dwie wersje? Porównaj sekwencję nukleotydową i aminokwasową obydwu sekwencji. W tym celu posłuż się WU-BLASTem znajdującym się w bazie TAIR. 6) Baza TAIR jest również połączona z baza szlaków metabolicznych AryaCyc. Aby ją uruchomić wejdź w Tools > AraCyc Pathways 7) Korzystając z wyszukiwarki, znajdź szlak alfa-oksydacji kwasów tłuszczowych dla Arabidopsis thaliana. 8) Zapoznaj się ze schematem i informacjami znajdującymi się w bazie. Paulina Walkowiak, Klaudia Wieczorek, Biotechnologia OMIM to baza danych zawierająca opis genów i zaburzeń genetycznych występujących u człowieka. Gromadzi ona informacje o fenotypach chorobowych oraz genach, których mutacje są związane z wystąpieniem określonych schorzeń. Choroby oraz geny mają przypisany sześciocyfrowy kod, czasami poprzedzony dodatkowymi oznaczeniami. W bazie OMIM (www.omim.org) zapoznaj się z systemem numerowania oraz symbolami dla kodów znajdującymi się w zakładce FAQ. Następnie wyszukaj hasło breast cancer i wykonaj poniższe polecenia: 1. Znajdź fenotypowy numer MIM, co możesz powiedzieć na jego podstawie? Jaki jest to sposób dziedziczenia? 2. Opisz krótko chorobę oraz podaj jej synonimy. 3. Jakie geny/mutacje genów wywołują raka piersi, a także które z nich są najbardziej istotne oraz dlaczego? Znajdź ich numery MIM. 4. Jak można zdiagnozować raka piersi? Wykorzystując zakładkę External Links for Entry, odpowiedz na poniższe pytania: 5. Ile genów odpowiedzialnych za występowanie raka piersi znajduje się w bazie UniProt oraz który z nich jest najdłuższy? 6. Wyszukaj informacje na temat badań klinicznych w serwisie Clinical Trials. Czy któreś z nich są aktualnie prowadzone? 7. Wykorzystując bazę danych OMIA, odpowiedz na pytanie czy nowotwory piersi mogą także występować u innych organizmów? Baza OMIM prowadzi statystyki dotyczące zawartych w niej genów oraz fenotypów chorobowych. W oparciu o nie odpowiedz na pytania: 8. Ile pozycji opisanych w bazie znajduje się na chromosomie Y? 9. Jaka jest liczba wszystkich pozycji w OMIM? Kamila Greczyn, Karolina Seraszek, Biotechnologia ConSurf to narzędzie bioinformatyczne służące do szacowania regionów konserwatywnych, opierające się na danych ewolucyjnych. Polega na określeniu pozycji regionów konserwatywnych aminokwasów lub kwasów nukleinowych. Stopień konserwatywności ściśle zależy od jego struktury i funkcji. Szybko ewoluujące pozycje są zmienne, natomiast pozycje zmieniające się wolneij są bardziej konserwatywne. Analiza pozycji regionów konserwacyjnych pomiędzy członkami tej samej rodziny może ujawnić znaczenie każdej pozycji w strukturze lub funkcji białka/kwasu nukleinowego. Jedną z zalet tego narzędzia jest dokładne obliczenie stopnia ewolucji przy użyciu metody bayesowskiej lub metody maksymalnego prawdopodobieństwa (ML). Odszukaj w bazie NCBI (http://www.ncbi.nlm.nih.gov/) informacje na temat genu IGF2 u Homo sapiens. Wykonaj polecenia a-d, następnie zapisz sekwencję w formacie FASTA. 1) 2) 3) 4) Do jakiej rodziny należy ten gen? Ile ortologów ma ten gen? Z ilu par zasad składa się ten gen? Ile regionów kodujących posiada ten gen? Wybierając odpowiednie polecenia w programie ConSurf (http://consurf.tau.ac.il/) , dokonaj analizy regionów konserwatywnych metodą bayesowską. W tym celu pobierz sekwencję genu IGF1 i za pomocą programu Clustalw2 (http://www.ebi.ac.uk/Tools/msa/clustalw2/) porównaj te sekwencje ze sobą i stwórz drzewo filogenetyczne. Napisz wyniki i wprowadź je do ConSurf. Agnieszka Sobecka, Biotechnologia Baza Structure (Molecular Modeling Database) dostarczona przez NCBI (http://www.ncbi.nlm.nih.gov/) udostępnia nam informacje o strukturze, funkcji i historii ewolucyjnej makromolekuł. Uzupełnienie jej narzędziem pomocniczym Cn3D („see in 3D”) pozwala na obrazowanie trójwymiarowej struktury (np. wyszczególnianie domen białkowych) i dopasowań pomiędzy cząsteczkami należącymi do poszczególnych rodzin. 1) Przejdź do bazy Structure (http://www.ncbi.nlm.nih.gov/structure) i wyszukaj strukturę ludzkiej deoksyhemoglobiny (MMDB ID: 3173; PDB ID: 4HHB). 2) Na podstawie schematu cząsteczki i krótkiego opisu określ, z jakich domen składa się białko i jakie cząstki wchodzą z nim w interakcje. 3) Pobierz Cn3D (odnośnik Download Cn3D) i za jego pomocą zobrazuj strukturę białka (View structure). 4) Na trójwymiarowym modelu odszukaj cząsteczki hemu. Zaznacz jedną z nich (np. tę położoną przy domenie A) dwukrotnym kliknięciem myszy, a następnie uwidocznij na modelu te aminokwasy, które znajdują się w ich najbliższym sąsiedztwie (Select > Select by Distance… > dystans 5 Å > OK). 5) Fragmenty podświetlone na żółto prawdopodobnie bezpośrednio oddziałują z zaznaczoną przez Ciebie cząsteczką hemu. W sekwencji aminokwasowej widocznej w oknie poniżej odszukaj, jakie to aminokwasy. Conserved Domain Database (CDD) jest bazą domen konserwatywnych dostarczaną przez NCBI. Stanowi kolekcję alignmentów (porównań) sekwencji oraz profili reprezentujących domeny białek zachowane w ewolucji molekularnej. CDD zawiera ponad 12 000 modeli domen białkowych importowanych ze źródeł zewnęrznych, takich jak Pfam i SMART. 1. Przejdź do CDD (http://www.ncbi.nlm.nih.gov/cdd/) i wyszukaj rodzinę alfa-podobnych podjednostek hemoglobiny (PSSM-Id: 271278). 2. U dołu strony widoczne jest dopasowanie sekwencji domeny dla różnych, posiadających ją organizmów. Ustal, jaka jest całkowita liczba organizmów, u których znaleziono tę domenę. 3. W celu zobrazowania stopnia konserwatywności poszczególnych fragmentów sekwencji białkowej, zobrazuj domenę za pomocą modelu 3D w programie Cn3D. W tym celu w pasku Structure po prawej stronie wybierz Structure view, uprzednio ustalając liczbę porównywanych rekordów (Aligned rows) na maksymalnie 5. 4. Wyświetlony model obrazuje dopasowanie sekwencji aminokwasowych podjednostki alfa hemoglobiny dla pięciu organizmów: człowieka dorosłego, płodu człowieka, ogończy japońskiej (Dasyatis akajei), kulbińca (Leiostomus xanthurus) i trematomy lodowej (Trematomus bernacchii). Porównując model i widoczne poniżej sekwencje aminokwasowe, ustal, zgodnie z jaką zasadą zabarwione zostały poszczególne obszary cząsteczki (wskaż związek pomiędzy barwą fragmentu a stopniem jego konserwatywności). 5. Ustal, jakim stopniem konserwatywności charakteryzują się te fragmenty białka, które bezpośrednio oddziałują z cząsteczką hemu. Anna Hermann, Biotechologia Poszukaj informacji dotyczących genu o nazwie ‘PAH’ występującym w organizmie człowieka. Skorzystaj z wyszukiwarki NCBI lub Ensembl i odpowiedz na pytania: 7. Jak jest pełna nazwa genu? 8. Gdzie zlokalizowany jest gen? 9. Z ilu eksonów się składa? 10. Ile występuje transkryptów danego genu i ile z nich koduje białka? 11. Ile par zasad ma najdłuższy transkrypt i ile aminokwasów koduje? 12. Ile mutacji zlokalizowano w najdłuższym transkrypcie? 13. Czy możliwe jest sprawdzenie ilości SNP w genie ‘PAH’? 14. Ile występuje homologów genu ‘PAH’? 15. Znajdź 3 ortologi występujące u ssaków łożyskowych, które mają największy zakres podobieństwa. Patrycja Nycz, Przemsyław Olejnik, Biotechnologia Modyfikacja potranslacyjna białka może wpływać na jego właściwości chemiczne i fizyczne, jego stabilność i aktywność, a co za tym idzie funkcję. Do modyfikowania białek organizmy wykorzystują różne procesy, takie jak odcinanie fragmentów białka lub dołączanie do niego grup chemicznych. Proces przyłączenia reszty kwasu fosforowego do określonych związków chemicznych jest katalizowany przez enzymy zwane kinazami, które transportują reszty kwasowe na białka, nukleozydy i nukleotydy, cukry, lipidy i in. Proces ten nazywamy fosforylacją. Przy nadekspresji białek warto wiedzieć, w którym miejscu zachodzi fosforylacja. Aby to sprawdzić można wykorzystać program NetPhos. Program NetPhos dostępny jest na stronie http://www.cbs.dtu.dk/services/NetPhos/ 1. Pobierz sekwencję białka ludzkiej kazeiny w formacie FASTA. 2. Pobraną sekwencję przekopiuj do programu NetPhos. 3. Czy dane białko podlega fosforylacji? W jakich pozycjach fosforylacja zachodzi? 4. Który aminokwas najczęściej ulega fosforylacji? Przy planowaniu nadekspresji białka w systemie prokariotycznym warto również zwrócić uwagę na możliwość występowania glikozylacji w produkowanym białku. Modyfikacja ta polega na przyłączaniu do określonych aminokwasów reszt cukrowych za pośrednictwem wiązania N-glikozydowego lub O-glikozydowego wpływając zarówno na aktywność białka jak i na jego lokalizacje w komórce. 1. Przy pomocy dostępnych na stronie http://www.cbs.dtu.dk/services/index.php narzędzi NetOGlyc oraz NetNGlyc sprawdź czy dane badane białko podlega N- lub O-glikozylacji. 2. Wskaż pozycje, w których może dojść do modyfikacji. 3. Na podstawie uzyskanych wyników zdecyduj czy badane białko może być produkowane w prokariotycznym systemie ekspresyjnym. Maryna Kurstak, Biotechnologia Wykorzystaj program GENSCAN dla poszukiwania genów w zadanych fragmentach DNA: Gen1.txt i Gen2.txt dołączonych do zadania. d) Przeszukaj sekwencje DNA z obydwu plików. W poszukiwaniu genów wykorzystaj program GENSCAN. Obejrzyj wyniki. Znajdź eksony 3 różnych typów i zapisz współrzędne na których zostały odnalezione, nić i ramkę odczytu. e) Czy te sekwencje rzeczywiście zawierają geny? Odszukaj prawdziwie geny odpowiadające tym sekwencjom na NCBI, znajdź nazwy tych genów. f) Na stronie bazy GENE w sekcji Genomic regions, transcripts and products można obejrzeć strukturę eksonów w genie w oknie graficznym. Jeśli przejdziemy do formatu GenBank, znajdziemy dokładne współrzędne eksonów, porównaj prawdziwe eksony z przewidywanymi dla obu genów. Przemysław Piotr Olejnik, Biotechnologia Pobierz z bazy danych GeneBank sekwencje genu mcyA, pochodzącego z sinic i będącego jednym z odpowiedzialnych za syntezę toksyny sinicowej - mikrocystyny. Wybrane fragmenty sekwencji, kodujące gen mcyA, pobierz całych sekwencji genomowych o numerach dostępu: NZ_CM002803, NZ_KE734695, NC_010296, NZ_ASZQ01000275. Zwróć uwagę na pochodzenie sekwencji - z innych regionów świata oraz organizmów. Pobrane sekwencje genu mcyA porównaj w programie ClustalW2 (http://www.ebi.ac.uk/Tools/msa/clustalw2/), który służy do porównywania sekwencji. Zwróć uwagę na otrzymane wyniki i podobieństwo użytych sekwencji, które kodują ten sam enzym, odpowiedzialny za funkcje takie same funkcje katalityczne w różnych gatunkach sinic. Ponadto sprawdź drzewo filogenetyczne dla tych sekwencji, czy dane te zgadzają się z procentowym podobieństwem genów?