Kevin Meza Landeros

Script; obtener anotacion de zonas de interes

1 +# ENFERMEDADES MONOGENICAS
2 +# EQUIPO 5
3 +
4 +# Este script tiene la finalidad de obtener la anotacion en el genoma de Homo sapiens
5 +# de aquellas coordenadas que corresponden a los genes de interes.
6 +
7 +
8 +#se mandan a llamar a todas las librerias a utilizar
9 +library(Biobase)
10 +library(IRanges)
11 +library(rtracklayer)
12 +library(GenomicRanges)
13 +library(Rsamtools)
14 +
15 +
16 +#Obtenemos la anotación de un genoma
17 +Para tener con que comparar el genoma que vamos a analizar, es necesario tener las coordenadas y la cadena en la que se encuentra las regiones del genoma anotadas, para esto ensembl tiene estos archivos.
18 +
19 +#se descarga el genoma de referencia con sus anotaciones, en este caso fueron obtenidos por ensembl100
20 +setwd("/home/aschafer/Documentos/Genomicas/Semestre_4/Genomica_humana/Enfermedades_monogenicas")
21 +homoS = import("Homo_sapiens.GRCh38.100.gff3.gz")
22 +head(homoS)
23 +
24 +#visualización de los datos que tiene el genoma de referencia.
25 +table(mcols(homoS)$type)
26 +
27 +#nos quedamos solo con las columnas que deseamos.
28 +mcols(homoS) = mcols(homoS)[,c("source","type","ID","Name")]
29 +
30 +#Importamos nuestros datos a analizar
31 +Despues de haber trabajado nuestros datos con bowtie, utilizamos el archivo resultante .bam
32 +
33 +#cargamos nuestros datos de las enfermedades monogenicas.
34 +bamFile <- "/home/aschafer/Documentos/Genomicas/Semestre_4/Genomica_humana/Enfermedades_monogenicas/sequences_aligned_A_sort.bam"
35 +informacion <- c("rname", "strand", "pos", "qwidth")
36 +informacion <- ScanBamParam(what = informacion)
37 +bam <- scanBam(bamFile, param = informacion)
38 +lapply(bam, names)
39 +
40 +#Construimos un GRanges
41 +mapGR <- GRanges(seqnames = bam[[1]]$rname, ranges = IRanges(start = bam[[1]]$pos, width = bam[[1]]$qwidth), strand = bam[[1]]$strand)
42 +head(mapGR)
43 +
44 +
45 +#Contamos mapeos dentro de las anotaciones
46 +#buscamos en que regiones se traslapan
47 +traslapados <- countOverlaps(homoS, mapGR)
48 +typeCounts <- aggregate(traslapados, by = list("type"=mcols(homoS)$type), sum)
49 +head(typeCounts)
50 +
51 +#vamos a graficar todos los resultados obtenidos, pero para eso vamos a juntas todos aquellos que tengan menos de 1000 juntos.
52 +valMin <- 1000
53 +Cuentas <- typeCounts[typeCounts$x > valMin,]
54 +Cuentas <- Cuentas[order(Cuentas$x),]
55 +Cuentas_totales <- rbind(data.frame("type" = "other", "x" = sum(typeCounts$x[typeCounts$x <= valMin])), Cuentas)
56 +porcentaje <- round(100*Cuentas_totales$x/sum(Cuentas_totales$x), 1)
57 +
58 +pie(Cuentas_totales$x, labels = paste(porcentaje, "%", sep = ""), col = rev(rainbow(nrow(Cuentas_totales))), main="Porcentaje de lecturas totales alineadas por tipo", cex=0.9)
59 +legend("topleft", legend = Cuentas_totales$type, cex = 0.8, fill = rev(rainbow(nrow(Cuentas_totales))))
60 +
61 +Debido que vimos que los tipos: cromosoma, región biológica, exon, mRNA, gen, cinco prima UTR. No eran tan significativos, decidimos eliminarlos para los próximos análisis.
62 +
63 +
64 +#graficamos ahora los nuevos datos, pero ahora en lugar de utilizar 1000 como el valor minimo, utilizamos 100.
65 +nuevosDatos <- typeCounts[typeCounts$type != "chromosome" & typeCounts$type != "biological_region" & typeCounts$type != "exon" & typeCounts$type != "mRNA" & typeCounts$type != "gene" & typeCounts$type != "five_prime_UTR",]
66 +colores <- c("violetred1", "dodgerblue4", "green2", "yellow", "red", "steelblue1")
67 +valMin2 <- 100
68 +nuevas_cuentas <- nuevosDatos[nuevosDatos$x > valMin2,]
69 +nuevas_cuentas <- nuevas_cuentas[order(nuevas_cuentas$x),]
70 +nuevas_cuentas_totales <- rbind(data.frame("type"="other", "x" = sum(nuevosDatos$x[nuevosDatos$x <= valMin2])), nuevas_cuentas)
71 +porcentaje2 <- round(100*nuevas_cuentas_totales$x/sum(nuevas_cuentas_totales$x), 1)
72 +pie(nuevas_cuentas_totales$x, labels = paste(porcentaje2, "%", sep = ""), cex = 1, main = "Porcentaje de lecturas alineadas por tipo seleccionados", col = colores)
73 +legend("topleft", legend = nuevas_cuentas_totales$type, cex = 0.9, fill = colores)
74 +
75 +
76 +
77 +
78 +
79 +
80 +
81 +
82 +
83 +
84 +
85 +
86 +
87 +
88 +
89 +
90 +
91 +
92 +
93 +
94 +
95 +
96 +
97 +