Cwicznia 1 - kontrola jakosci¶

Link przydatny w czasie wykonywania cwiczen: https://en.wikipedia.org/wiki/FASTQ_format

Wszystkie programy niezbędne do wykonania ćwiczeń znajdują się na stronie www.combio.pl

Przygotowanie katalogu do pracy:
Na protokół składać się będzie plik tekstowy z odpowiedziami na pytania zamieszczone w rozpisce (wyłącznie te, które będą wskazane w rozpisce). Plik należy na koniec ćwiczeń przesłać na adres jankos@amu.edu.pl, w tytule wiadomości wpisując ADZWS: Imię, nazwisko oraz datę ćwiczeń.

Pliki używane w dzisiejszym dniu zawierają:
single-end.fastq – Wyniki sekwencjonowania bibliotek cDNA opartej o małe RNA, długości 18-30 nt, sekwencjonowanie wykonywane było na 3 zmultipleksowanych próbkach
paired-end_1.fastq oraz paired-end_2.fastq – Wyniki sekwencjonowania z dwóch końców biblioteki cDNA opracowanej według protokołu RNA-seq

cwiczenie 1¶

Podana jest sekwencja w formacie FASTQ:

@HWI-EAS209_0006_FC706VJ:5:58:5894:21141#ATCACG/1
ACGTGCATAGCTAGCATTACGATACGAGCCGGCGGCAAATATAGCG
+
ACDFAAEHHHBBAA?;<<CDEAD98<;;<ADE??<874873012,/

W jakim systemie kodowania jest zapisana jakość tej sekwencji (phred +33 czy phred +64)?
Która pozycja ma najniższą jakość a która najwyższą?
Jaka jest średnia jakość dla tego odczytu?
Ile jest pozycji o jakości poniżej 20 w skali phred? Jaki procent odczytu one stanowią?
Czy obserwujesz spadek jakości na końcu odczytu?
Jaka jest spodziewana liczba błędów w tej sekwencji?

1. W jakim systemie kodowania jest zapisana jakość tej sekwencji (phred +33 czy phred +64)?

2. Która pozycja ma najniższą jakość a która najwyższą?

3. Jaka jest średnia jakość dla tego odczytu?

4. Ile jest pozycji o jakości poniżej 20 w skali phred? Jaki procent odczytu one stanowią?

5. Czy obserwujesz spadek jakości na końcu odczytu?

6. Jaka jest spodziewana liczba błędów na poszczególnych miejscach w tej sekwencji?

cwiczenie 2¶

Jaka jest zawartość duplikatów?
Czy jest znacząca liczba odczytów o średniej jakości poniżej 25?
Czy i jeśli tak, to w której pozycji 2 i 3 kwartyl dystrybucji jakości spada poniżej wartości 20?
Czy występują jakieś nadreprezentowane sekwencje? Jeśli tak, to jakie jest pochodzenie najbardziej nadreprezentowanej (użyj NCBI Blast, aby to zbadać)?

cwiczenie 3¶

Usuń adaptery z 3’ końców odczytów (sekwencja: TGGAATTCTCGGGTGCCAAGG). W tym celu zastosuj narzędzie cutadapt. Lista opcji dostępna jest z przełącznikiem „--help". Najpierw zastosuj domyślne ustawienia i zwróć uwagę na statystyki dotyczące długości usuniętego adaptora. Następnie uruchom narzędzie po raz drugi, ustawiając wartość minimalnej długości adaptora tak, aby proces był specyficzny (liczba wykrytych adaptorów wyższa od oczekiwanej z losowego rozkładu). Ustaw również odpowiednie opcje tak, aby w pliku wynikowym znajdowały się tylko te sekwencje, z których został usunięty adaptor. Zapisz do protokołu liczbę sekwencji w pliku wynikowym.

cwiczenie 4¶

Wykonaj filtrowanie i skracanie odczytów pod względem jakości. W tym celu użyj programów z zestawu narzędzi fastx. Dostępne opcje można wyświetlać używając przełącznika „-h”. Wykonaj następujące kroki:

1. Użyj programu fastq_quality_trimmer w celu usunięcia nukleotydów o jakości poniżej 20 z 3’ końca odczytów. Pozostaw tylko sekwencje dłuższe niż 20 nt.
2. Używając programu fastq_quality_filter pozostaw tylko odczyty które zawierają więcej niż 90% zasad o jakości powyżej 20.

Zanotuj do protokołu liczbę sekwencji które pozostały po filtrowaniu.

cwiczenie 5¶

Wykonaj ponowną analizę jakości za pomocą programu fastqc. Porównaj wyniki z analizą przeprowadzoną przed filtrowaniem. Zanotuj do protokołu, które parametry uległy poprawie.

cwiczenie 6¶

Powtórz wszystkie etapy dla plików paired-end_1.fastq oraz paired-end_2.fastq. Ze względu na fakt, że są to odczyty typu paired-end:

1. Po wstępnej analizie jakości zdecyduj czy konieczne jest usuwanie adaptorów z 3’ końca
2. Na koniec napisz skrypt, który odfiltruje do osobnych plików odczyty, które nie mają swojej pary.

Zanotuj do protokołu:

1. zaobserwowane różnice w wynikach analizy jakości w odniesieniu do pliku single-end.fastq
2. ilość odczytów będących parami pozostałych po całym procesie przygotowania , oraz ilości pojedynczych odczytów z odfiltrowanych z plików _1 oraz _2

cwiczenie 7¶

W folderze data znajduje się plik z odczytami w formacie fastq single-end.fastq Napisz skrypt, za pomocą którego będziesz w stanie rozdzielić odczyty pochodzące ze zmultipleksowanego sekwencjonowania. Skrypt może korzystać np. z wyrażeń regularnych, czy komendy grep, bądź każdego innego działającego rozwiązania.

Lib1: CTAGACA

Lib2: CATTTTA

Lib3: CGGAATA