Toggle navigation
Toggle navigation
This project
Loading...
Sign in
Kevin Meza Landeros
/
MonogenicDiseases
Go to a project
Toggle navigation
Toggle navigation pinning
Projects
Groups
Snippets
Help
Project
Activity
Repository
Pipelines
Graphs
Issues
0
Merge Requests
0
Wiki
Snippets
Network
Create a new issue
Builds
Commits
Issue Boards
Authored by
Kevin Meza Landeros
2020-05-04 20:44:21 -0500
Browse Files
Options
Browse Files
Download
Email Patches
Plain Diff
Commit
d9fa39a590de80fba0185bf256d43e2c8a0ef989
d9fa39a5
1 parent
3a3c687d
Delete mapeo.R
Hide whitespace changes
Inline
Side-by-side
Showing
1 changed file
with
0 additions
and
97 deletions
scripts/mapeo.R
scripts/mapeo.R
deleted
100644 → 0
View file @
3a3c687
# ENFERMEDADES MONOGENICAS
# EQUIPO 5
# Este script tiene la finalidad de obtener la anotacion en el genoma de Homo sapiens
# de aquellas coordenadas que corresponden a los genes de interes.
#se mandan a llamar a todas las librerias a utilizar
library
(
Biobase
)
library
(
IRanges
)
library
(
rtracklayer
)
library
(
GenomicRanges
)
library
(
Rsamtools
)
#Obtenemos la anotación de un genoma
Para
tener
con
que
comparar
el
genoma
que
vamos
a
analizar
,
es
necesario
tener
las
coordenadas
y
la
cadena
en
la
que
se
encuentra
las
regiones
del
genoma
anotadas
,
para
esto
ensembl
tiene
estos
archivos.
#se descarga el genoma de referencia con sus anotaciones, en este caso fueron obtenidos por ensembl100
setwd
(
"/home/aschafer/Documentos/Genomicas/Semestre_4/Genomica_humana/Enfermedades_monogenicas"
)
homoS
=
import
(
"Homo_sapiens.GRCh38.100.gff3.gz"
)
head
(
homoS
)
#visualización de los datos que tiene el genoma de referencia.
table
(
mcols
(
homoS
)
$
type
)
#nos quedamos solo con las columnas que deseamos.
mcols
(
homoS
)
=
mcols
(
homoS
)[,
c
(
"source"
,
"type"
,
"ID"
,
"Name"
)]
#Importamos nuestros datos a analizar
Despues
de
haber
trabajado
nuestros
datos
con
bowtie
,
utilizamos
el
archivo
resultante
.bam
#cargamos nuestros datos de las enfermedades monogenicas.
bamFile
<-
"/home/aschafer/Documentos/Genomicas/Semestre_4/Genomica_humana/Enfermedades_monogenicas/sequences_aligned_sort.bam"
informacion
<-
c
(
"rname"
,
"strand"
,
"pos"
,
"qwidth"
)
informacion
<-
ScanBamParam
(
what
=
informacion
)
bam
<-
scanBam
(
bamFile
,
param
=
informacion
)
lapply
(
bam
,
names
)
#Construimos un GRanges
mapGR
<-
GRanges
(
seqnames
=
bam
[[
1
]]
$
rname
,
ranges
=
IRanges
(
start
=
bam
[[
1
]]
$
pos
,
width
=
bam
[[
1
]]
$
qwidth
),
strand
=
bam
[[
1
]]
$
strand
)
head
(
mapGR
)
#Contamos mapeos dentro de las anotaciones
#buscamos en que regiones se traslapan
traslapados
<-
countOverlaps
(
homoS
,
mapGR
)
typeCounts
<-
aggregate
(
traslapados
,
by
=
list
(
"type"
=
mcols
(
homoS
)
$
type
),
sum
)
head
(
typeCounts
)
#vamos a graficar todos los resultados obtenidos, pero para eso vamos a juntas todos aquellos que tengan menos de 1000 juntos.
valMin
<-
1000
Cuentas
<-
typeCounts
[
typeCounts
$
x
>
valMin
,]
Cuentas
<-
Cuentas
[
order
(
Cuentas
$
x
),]
Cuentas_totales
<-
rbind
(
data.frame
(
"type"
=
"other"
,
"x"
=
sum
(
typeCounts
$
x
[
typeCounts
$
x
<=
valMin
])),
Cuentas
)
porcentaje
<-
round
(
100
*
Cuentas_totales
$
x
/
sum
(
Cuentas_totales
$
x
),
1
)
pie
(
Cuentas_totales
$
x
,
labels
=
paste
(
porcentaje
,
"%"
,
sep
=
""
),
col
=
rev
(
rainbow
(
nrow
(
Cuentas_totales
))),
main
=
"Porcentaje de lecturas totales alineadas por tipo"
,
cex
=
0.9
)
legend
(
"topleft"
,
legend
=
Cuentas_totales
$
type
,
cex
=
0.8
,
fill
=
rev
(
rainbow
(
nrow
(
Cuentas_totales
))))
Debido
que
vimos
que
los
tipos
:
cromosoma
,
regi
ó
n
biol
ó
gica
,
exon
,
mRNA
,
gen
,
cinco
prima
UTR.
No
eran
tan
significativos
,
decidimos
eliminarlos
para
los
pr
ó
ximos
an
á
lisis.
#graficamos ahora los nuevos datos, pero ahora en lugar de utilizar 1000 como el valor minimo, utilizamos 100.
nuevosDatos
<-
typeCounts
[
typeCounts
$
type
!=
"chromosome"
&
typeCounts
$
type
!=
"biological_region"
&
typeCounts
$
type
!=
"exon"
&
typeCounts
$
type
!=
"mRNA"
&
typeCounts
$
type
!=
"gene"
&
typeCounts
$
type
!=
"five_prime_UTR"
,]
colores
<-
c
(
"violetred1"
,
"dodgerblue4"
,
"green2"
,
"yellow"
,
"red"
,
"steelblue1"
)
valMin2
<-
100
nuevas_cuentas
<-
nuevosDatos
[
nuevosDatos
$
x
>
valMin2
,]
nuevas_cuentas
<-
nuevas_cuentas
[
order
(
nuevas_cuentas
$
x
),]
nuevas_cuentas_totales
<-
rbind
(
data.frame
(
"type"
=
"other"
,
"x"
=
sum
(
nuevosDatos
$
x
[
nuevosDatos
$
x
<=
valMin2
])),
nuevas_cuentas
)
porcentaje2
<-
round
(
100
*
nuevas_cuentas_totales
$
x
/
sum
(
nuevas_cuentas_totales
$
x
),
1
)
pie
(
nuevas_cuentas_totales
$
x
,
labels
=
paste
(
porcentaje2
,
"%"
,
sep
=
""
),
cex
=
1
,
main
=
"Porcentaje de lecturas alineadas por tipo seleccionados"
,
col
=
colores
)
legend
(
"topleft"
,
legend
=
nuevas_cuentas_totales
$
type
,
cex
=
0.9
,
fill
=
colores
)
Please
register
or
login
to post a comment