ObtencionSecuencias.R 1.15 KB
# EQUIPO 5
# ENFERMEDADES MONOGENICAS

# Este script este creado para obtener las secuencias de los genes seleccionados previamente.
# Usamos el Gene Ensembl ID para obtener las secuencias de Ensembl

# Llamado de librerias
library(httr)
library(jsonlite)
library(xml2)

# Lectura dearchivos
##En esta parte colocar path de archivo all_data.txt
all_data<-read.csv(file = "C:/Users/Fer/Desktop/all_data.txt", header = FALSE, sep = "\t") 
##Seleccion de la columna seis, que contiene los Gene Ensembl IDs de cada uno de nuestrso genes
IDs<-all_data$V6 
IDs[15160]


## Por  cada gen conecta a ensembl y hace una solicitud de la secuencia dado el Gene Enesembl ID
for (i in 1:length(IDs)){
  server <- "https://rest.ensembl.org"
  ext <- paste("/sequence/id/", IDs[i], sep = "")%>%paste("?species=homo_sapiens", sep = "")
  r <- GET(paste(server, ext, sep = ""), content_type("text/x-fasta"))
  stop_for_status(r)
  ## vamos generando un archivo con las secuencias em formato fasta. Colocar path donde desee el archivo fasta.
  write.table(x = content(r), file = "C:/Users/Fer/Desktop/seqs_tot.fasta", quote = FALSE, row.names = FALSE, col.names = FALSE, append = TRUE, eol = "") 
}