Cwicznia 1 - kontrola jakosci

Link przydatny w czasie wykonywania cwiczen: https://en.wikipedia.org/wiki/FASTQ_format

Wszystkie programy niezbędne do wykonania ćwiczeń znajdują się na stronie www.combio.pl

Przygotowanie katalogu do pracy:
Na protokół składać się będzie plik tekstowy z odpowiedziami na pytania zamieszczone w rozpisce (wyłącznie te, które będą wskazane w rozpisce). Plik należy na koniec ćwiczeń przesłać na adres jankos@amu.edu.pl, w tytule wiadomości wpisując ADZWS: Imię, nazwisko oraz datę ćwiczeń.

Pliki używane w dzisiejszym dniu zawierają:
single-end.fastq – Wyniki sekwencjonowania bibliotek cDNA opartej o małe RNA, długości 18-30 nt, sekwencjonowanie wykonywane było na 3 zmultipleksowanych próbkach
paired-end_1.fastq oraz paired-end_2.fastq – Wyniki sekwencjonowania z dwóch końców biblioteki cDNA opracowanej według protokołu RNA-seq

cwiczenie 1


Podana jest sekwencja w formacie FASTQ:

@HWI-EAS209_0006_FC706VJ:5:58:5894:21141#ATCACG/1
ACGTGCATAGCTAGCATTACGATACGAGCCGGCGGCAAATATAGCG
+
ACDFAAEHHHBBAA?;<<CDEAD98<;;<ADE??<874873012,/

    Korzystając ze wzorów i informacji podanych na wykładzie oblicz i zapisz do protokołu:
  1. W jakim systemie kodowania jest zapisana jakość tej sekwencji (phred +33 czy phred +64)?
  2. Która pozycja ma najniższą jakość a która najwyższą?
  3. Jaka jest średnia jakość dla tego odczytu?
  4. Ile jest pozycji o jakości poniżej 20 w skali phred? Jaki procent odczytu one stanowią?
  5. Czy obserwujesz spadek jakości na końcu odczytu?
  6. Jaka jest spodziewana liczba błędów w tej sekwencji?

1. W jakim systemie kodowania jest zapisana jakość tej sekwencji (phred +33 czy phred +64)?

2. Która pozycja ma najniższą jakość a która najwyższą?

3. Jaka jest średnia jakość dla tego odczytu?

4. Ile jest pozycji o jakości poniżej 20 w skali phred? Jaki procent odczytu one stanowią?

5. Czy obserwujesz spadek jakości na końcu odczytu?

6. Jaka jest spodziewana liczba błędów na poszczególnych miejscach w tej sekwencji?

cwiczenie 2

    Wykonaj analizę jakości sekwencji znajdujących się w pliku data/single-end.fastq za pomocą programu fastqc. Program uruchamia się domyślnie w środowisku graficznym (skrypt fastqc), bądź z linii komend (lista opcji: fastqc –help). Przeanalizuj otrzymany raport oraz odpowiedz do protokołu na pytania:
  1. Jaka jest zawartość duplikatów?
  2. Czy jest znacząca liczba odczytów o średniej jakości poniżej 25?
  3. Czy i jeśli tak, to w której pozycji 2 i 3 kwartyl dystrybucji jakości spada poniżej wartości 20?
  4. Czy występują jakieś nadreprezentowane sekwencje? Jeśli tak, to jakie jest pochodzenie najbardziej nadreprezentowanej (użyj NCBI Blast, aby to zbadać)?

cwiczenie 3

Usuń adaptery z 3’ końców odczytów (sekwencja: TGGAATTCTCGGGTGCCAAGG). W tym celu zastosuj narzędzie cutadapt. Lista opcji dostępna jest z przełącznikiem „--help". Najpierw zastosuj domyślne ustawienia i zwróć uwagę na statystyki dotyczące długości usuniętego adaptora. Następnie uruchom narzędzie po raz drugi, ustawiając wartość minimalnej długości adaptora tak, aby proces był specyficzny (liczba wykrytych adaptorów wyższa od oczekiwanej z losowego rozkładu). Ustaw również odpowiednie opcje tak, aby w pliku wynikowym znajdowały się tylko te sekwencje, z których został usunięty adaptor. Zapisz do protokołu liczbę sekwencji w pliku wynikowym.

cwiczenie 4

Wykonaj filtrowanie i skracanie odczytów pod względem jakości. W tym celu użyj programów z zestawu narzędzi fastx. Dostępne opcje można wyświetlać używając przełącznika „-h”. Wykonaj następujące kroki:

1. Użyj programu fastq_quality_trimmer w celu usunięcia nukleotydów o jakości poniżej 20 z 3’ końca odczytów. Pozostaw tylko sekwencje dłuższe niż 20 nt.
2. Używając programu fastq_quality_filter pozostaw tylko odczyty które zawierają więcej niż 90% zasad o jakości powyżej 20.

Zanotuj do protokołu liczbę sekwencji które pozostały po filtrowaniu.

cwiczenie 5

Wykonaj ponowną analizę jakości za pomocą programu fastqc. Porównaj wyniki z analizą przeprowadzoną przed filtrowaniem. Zanotuj do protokołu, które parametry uległy poprawie.

cwiczenie 6

Powtórz wszystkie etapy dla plików paired-end_1.fastq oraz paired-end_2.fastq. Ze względu na fakt, że są to odczyty typu paired-end:

1. Po wstępnej analizie jakości zdecyduj czy konieczne jest usuwanie adaptorów z 3’ końca
2. Na koniec napisz skrypt, który odfiltruje do osobnych plików odczyty, które nie mają swojej pary.

Zanotuj do protokołu:

1. zaobserwowane różnice w wynikach analizy jakości w odniesieniu do pliku single-end.fastq
2. ilość odczytów będących parami pozostałych po całym procesie przygotowania , oraz ilości pojedynczych odczytów z odfiltrowanych z plików _1 oraz _2

cwiczenie 7

W folderze data znajduje się plik z odczytami w formacie fastq single-end.fastq Napisz skrypt, za pomocą którego będziesz w stanie rozdzielić odczyty pochodzące ze zmultipleksowanego sekwencjonowania. Skrypt może korzystać np. z wyrażeń regularnych, czy komendy grep, bądź każdego innego działającego rozwiązania.

    Obecne znaczniki to:

  • Lib1: CTAGACA
  • Lib2: CATTTTA
  • Lib3: CGGAATA
  • </ul> Zapisz do protokołu po ile odczytów zawierających poszczególne znaczniki znajduje się w pliku. Przekopiuj do protokołu skrypt lub opisz sposób w jaki wykonałeś/aś zadanie.

In [ ]: