Showing
1 changed file
with
97 additions
and
0 deletions
scripts/mapeo.R
0 → 100644
1 | +# ENFERMEDADES MONOGENICAS | ||
2 | +# EQUIPO 5 | ||
3 | + | ||
4 | +# Este script tiene la finalidad de obtener la anotacion en el genoma de Homo sapiens | ||
5 | +# de aquellas coordenadas que corresponden a los genes de interes. | ||
6 | + | ||
7 | + | ||
8 | +#se mandan a llamar a todas las librerias a utilizar | ||
9 | +library(Biobase) | ||
10 | +library(IRanges) | ||
11 | +library(rtracklayer) | ||
12 | +library(GenomicRanges) | ||
13 | +library(Rsamtools) | ||
14 | + | ||
15 | + | ||
16 | +#Obtenemos la anotación de un genoma | ||
17 | +Para tener con que comparar el genoma que vamos a analizar, es necesario tener las coordenadas y la cadena en la que se encuentra las regiones del genoma anotadas, para esto ensembl tiene estos archivos. | ||
18 | + | ||
19 | +#se descarga el genoma de referencia con sus anotaciones, en este caso fueron obtenidos por ensembl100 | ||
20 | +setwd("/home/aschafer/Documentos/Genomicas/Semestre_4/Genomica_humana/Enfermedades_monogenicas") | ||
21 | +homoS = import("Homo_sapiens.GRCh38.100.gff3.gz") | ||
22 | +head(homoS) | ||
23 | + | ||
24 | +#visualización de los datos que tiene el genoma de referencia. | ||
25 | +table(mcols(homoS)$type) | ||
26 | + | ||
27 | +#nos quedamos solo con las columnas que deseamos. | ||
28 | +mcols(homoS) = mcols(homoS)[,c("source","type","ID","Name")] | ||
29 | + | ||
30 | +#Importamos nuestros datos a analizar | ||
31 | +Despues de haber trabajado nuestros datos con bowtie, utilizamos el archivo resultante .bam | ||
32 | + | ||
33 | +#cargamos nuestros datos de las enfermedades monogenicas. | ||
34 | +bamFile <- "/home/aschafer/Documentos/Genomicas/Semestre_4/Genomica_humana/Enfermedades_monogenicas/sequences_aligned_A_sort.bam" | ||
35 | +informacion <- c("rname", "strand", "pos", "qwidth") | ||
36 | +informacion <- ScanBamParam(what = informacion) | ||
37 | +bam <- scanBam(bamFile, param = informacion) | ||
38 | +lapply(bam, names) | ||
39 | + | ||
40 | +#Construimos un GRanges | ||
41 | +mapGR <- GRanges(seqnames = bam[[1]]$rname, ranges = IRanges(start = bam[[1]]$pos, width = bam[[1]]$qwidth), strand = bam[[1]]$strand) | ||
42 | +head(mapGR) | ||
43 | + | ||
44 | + | ||
45 | +#Contamos mapeos dentro de las anotaciones | ||
46 | +#buscamos en que regiones se traslapan | ||
47 | +traslapados <- countOverlaps(homoS, mapGR) | ||
48 | +typeCounts <- aggregate(traslapados, by = list("type"=mcols(homoS)$type), sum) | ||
49 | +head(typeCounts) | ||
50 | + | ||
51 | +#vamos a graficar todos los resultados obtenidos, pero para eso vamos a juntas todos aquellos que tengan menos de 1000 juntos. | ||
52 | +valMin <- 1000 | ||
53 | +Cuentas <- typeCounts[typeCounts$x > valMin,] | ||
54 | +Cuentas <- Cuentas[order(Cuentas$x),] | ||
55 | +Cuentas_totales <- rbind(data.frame("type" = "other", "x" = sum(typeCounts$x[typeCounts$x <= valMin])), Cuentas) | ||
56 | +porcentaje <- round(100*Cuentas_totales$x/sum(Cuentas_totales$x), 1) | ||
57 | + | ||
58 | +pie(Cuentas_totales$x, labels = paste(porcentaje, "%", sep = ""), col = rev(rainbow(nrow(Cuentas_totales))), main="Porcentaje de lecturas totales alineadas por tipo", cex=0.9) | ||
59 | +legend("topleft", legend = Cuentas_totales$type, cex = 0.8, fill = rev(rainbow(nrow(Cuentas_totales)))) | ||
60 | + | ||
61 | +Debido que vimos que los tipos: cromosoma, región biológica, exon, mRNA, gen, cinco prima UTR. No eran tan significativos, decidimos eliminarlos para los próximos análisis. | ||
62 | + | ||
63 | + | ||
64 | +#graficamos ahora los nuevos datos, pero ahora en lugar de utilizar 1000 como el valor minimo, utilizamos 100. | ||
65 | +nuevosDatos <- typeCounts[typeCounts$type != "chromosome" & typeCounts$type != "biological_region" & typeCounts$type != "exon" & typeCounts$type != "mRNA" & typeCounts$type != "gene" & typeCounts$type != "five_prime_UTR",] | ||
66 | +colores <- c("violetred1", "dodgerblue4", "green2", "yellow", "red", "steelblue1") | ||
67 | +valMin2 <- 100 | ||
68 | +nuevas_cuentas <- nuevosDatos[nuevosDatos$x > valMin2,] | ||
69 | +nuevas_cuentas <- nuevas_cuentas[order(nuevas_cuentas$x),] | ||
70 | +nuevas_cuentas_totales <- rbind(data.frame("type"="other", "x" = sum(nuevosDatos$x[nuevosDatos$x <= valMin2])), nuevas_cuentas) | ||
71 | +porcentaje2 <- round(100*nuevas_cuentas_totales$x/sum(nuevas_cuentas_totales$x), 1) | ||
72 | +pie(nuevas_cuentas_totales$x, labels = paste(porcentaje2, "%", sep = ""), cex = 1, main = "Porcentaje de lecturas alineadas por tipo seleccionados", col = colores) | ||
73 | +legend("topleft", legend = nuevas_cuentas_totales$type, cex = 0.9, fill = colores) | ||
74 | + | ||
75 | + | ||
76 | + | ||
77 | + | ||
78 | + | ||
79 | + | ||
80 | + | ||
81 | + | ||
82 | + | ||
83 | + | ||
84 | + | ||
85 | + | ||
86 | + | ||
87 | + | ||
88 | + | ||
89 | + | ||
90 | + | ||
91 | + | ||
92 | + | ||
93 | + | ||
94 | + | ||
95 | + | ||
96 | + | ||
97 | + |
-
Please register or login to post a comment