ObtencionSecuencias.R
1.15 KB
# EQUIPO 5
# ENFERMEDADES MONOGENICAS
# Este script este creado para obtener las secuencias de los genes seleccionados previamente.
# Usamos el Gene Ensembl ID para obtener las secuencias de Ensembl
# Llamado de librerias
library(httr)
library(jsonlite)
library(xml2)
# Lectura dearchivos
##En esta parte colocar path de archivo all_data.txt
all_data<-read.csv(file = "C:/Users/Fer/Desktop/all_data.txt", header = FALSE, sep = "\t")
##Seleccion de la columna seis, que contiene los Gene Ensembl IDs de cada uno de nuestrso genes
IDs<-all_data$V6
IDs[15160]
## Por cada gen conecta a ensembl y hace una solicitud de la secuencia dado el Gene Enesembl ID
for (i in 1:length(IDs)){
server <- "https://rest.ensembl.org"
ext <- paste("/sequence/id/", IDs[i], sep = "")%>%paste("?species=homo_sapiens", sep = "")
r <- GET(paste(server, ext, sep = ""), content_type("text/x-fasta"))
stop_for_status(r)
## vamos generando un archivo con las secuencias em formato fasta. Colocar path donde desee el archivo fasta.
write.table(x = content(r), file = "C:/Users/Fer/Desktop/seqs_tot.fasta", quote = FALSE, row.names = FALSE, col.names = FALSE, append = TRUE, eol = "")
}