Carolina Palacios TP Final

Resumen El propósito de este trabajo fue caracterizar y predecir la identidad de una secuencia de 10704 nucleótidos enco

Views 71 Downloads 0 File size 2MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Resumen El propósito de este trabajo fue caracterizar y predecir la identidad de una secuencia de 10704 nucleótidos encontrada a partir de un aislamiento viral (query), mediante el empleo de herramientas bioinformáticas. Para este fin se recuperaron secuencias nucleotídicas y aminoacídicas, se realizaron los respectivos alineamientos múltiples, con los cuales se construyeron arboles filogenéticos, reticulogramas y se determinó que la secuencia aislada proviene de una recombinación entre el virus del Dengue y Zika. Además, se realizó la caracterización de la estructura secundaria y anfipaticidad sobre la proteína C y se diseñaron Primers.

Introducción La familia Flaviviridae, (del latín flavus: “amarillo”, por la ictericia, característica causada por una infección con el virus de la fiebre amarilla), está compuesta por los géneros Flavivirus, Pestivirus y Hepacivirus. El género Flavivirus se encuentra compuesto por los virus transmitidos por mosquitos, garrapatas y otros vectores artrópodos desconocidos (Kuno et. al., 1998) El genoma de los flavivirus está compuesto por una única molécula de ARN de cadena sencilla y polaridad positiva de unos 11 kb de longitud, flanqueada por dos regiones no codificantes. El extremo 5´ del genoma viral posee un CAP y el extremo 3’ carece de cola de poli adenilato. De este modo el virus puede explotar el aparato celular para sintetizar sus propias proteínas, tanto estructurales como no estructurales. El genoma contiene un único marco de lectura abierto (open reading frame, ORF) que codifica una sola poliproteína viral que se procesa mediante proteasas virales y celulares para dar lugar a las tres proteínas estructurales que se encuentran en los viriones y las siete proteínas no estructurales (NS) implicadas en distintas funciones durante el ciclo replicativo. Las proteínas estructurales son: la proteína C, que conforma la nucleocápside que se asocia con el ARN viral formando el core de la partícula; y las dos glicoproteínas de la envoltura, prM/M y E. En cuanto a las proteínas NS, sus funciones son diversas, son importantes en la replicación vírica pero también ejercen efectos inhibidores sobre la respuesta inmune del hospedador (Lindenbach & Rice, 2003).

Figura 1. Estructura viral de los flavivirus. Fuente:https://viralzone.expasy.org/resources/Flaviviridae_virion.png

Resultados y discusión Análisis de marcos de lectura abiertos y traducción. A partir de ORF – Finder se determinó que la secuencia nucleotídica obtenida a partir del aislamiento viral contiene 6 marcos de lectura abiertos (ORFs). (Figura 2). El ORF1 se encuentra en la cadena codificante y da lugar a un producto de 10206 aminoácidos, el ORF2 da lugar a un producto de 291 aminoácidos, el ORF3 da lugar a un producto de 102 aminoácidos, el ORF4 da lugar a un producto de 462 aminoácidos, el ORF5 da lugar a un producto de 501 aminoácidos y el ORF6 da lugar a un producto de 180 aminoácidos. El ORF1, es el de mayor longitud, incluye a la mayor parte de los ORFs y codifica para una poliproteína de 10206 aminoácidos, a la cual llamaremos PROTEINA 1, por lo tanto, teniendo en cuenta esta información, los ORFs pequeños fueron descartados.

Figura 2. Los 6 ORFs encontrados en la secuencia query.

SECUENCIA PEPTIDICA DE LA PROTEINA 1

MMNNQRKKTGKPSINMLKRVRNRVSTGSQLAKRFSRGLLNGQGPMKLVMAFIAFLRFLAIPPTAGILARWGTFKKSGAIKVLRGFKKEISNMLSIINRRKKTSLCLMMMLPATLAFHLTSRDGEPRMIVGKNERGKSLLFKTASGINMCTLIAMDLG EMCDDTVTYKCPLITEVEPEDIDCWCNLTSTWVTYGTCNQAGEHRRDKRSVALAPHVGMGLDTRTQTWMSAEGAWRQVEKVETWAFRHPGFTILALFLAHYIGTSLTQKVVIFILLMLVTPSMTMRCVGVGNRDFVEGLSGATWVDVVLEHGGCVTT MAKNKPTLDIELQKTEATQLATLRKLCIEGKITNVTTDSRCPTQGEAILPEEQDQNYVCKHTYVDRGWGNGCGLFGKGSLVTCAKFQCLESIEGKVVQHENLKYTVIITVHTGDQHQVGNETQGVTAEITPQASTVEAVLPEYGTLGLECSPRTGLD FNEMILLTMKNKAWMVHRQWFFDLPLPWTSGATTETPTWNKKELLVTFKNAHAKKQEVVVLGSQEGAMHTALTGATEIQTSGGTSIFAGHLKCRLKMDKLELKGMSYAMCSNAFVLKKEVSETQHGTILIKVEYKGEDAPCKIPFSTEDGQGKAHNG RLITANPVVTKKEEPVNIEAEPPFGESNIIIGIGDKALKINWYKKGSSIGKMFEATARGARRMAILGDTAWDFGSVGGVLNSLGKMVHQIFGSAYTALFSGVSWIMKIGIGVLLTWIGLNSKNTSMSFSCIVIGIITLYLGAVVQADTALAGTAVRG KEAVHSDLGYWIESERNDTWRLSRAHLIEAKTAAVKTAWEEGTCGITSVSRMENLMWSSVAGELNAILEDNSVPLTVVVGEPKYPLYNAPKRLKPPASELPQGWKSWGKSYFVSAAKNNNSFVVDGDTMKECIWLKFHEDNSTECDTAIICEWPRSH TLWTDGVEESELIIPRGLAGPFSHHNTRAGYKTQNKPRQKRAWNSLRIEDHGFGVFHTSGPWHLGDVEIQFATCPGTTVVQDQECRDRGASLRTTTASGRVINEWCCRSCTMPPLSGCSVDISRREMRCGSGIFVYNDVDAWRSRYKYHPETPRFKT KDGCWYAMEIRPVKEQESNLVRSHVTAGSGKVDNFTMGVLCLAILFEEVMRGKFGKKHMIAGVLFTFVLLLSGQITWRDMARTLIMIGSNASDRMGMGVTYLALIATFKIQPFLALGFFLRKLTSRENLLLGVGLAMATTLQLPEDIEQMANGIALG LMALKLITQFETYQLWTALASLMCSNTIFTLTVAWRTATLILAGISLLPVCQSSSMRKTDWLPMTVAAMGVPPLPLFIFSLKDTLKRRSWPLNEGVMAVGLVSILASSLLRNDVPMAGPLVAGGLLIACYVITGTSADLTVEKAADVTWEEEAEQTG VSHNLMITVDDDGTMRIKDDETENILTVLLKTALLIVSGIFPYSIPATLLVWHTWQKQTQRSGVLISYGGGLSRKTFDTEYQKTKLNDWDFVVTTDISEMGANFKADRVIDPRRCLKPVILTDGPERVILAGPMPVTVAWRLSAQWQKGEEVQVIAV EPGKNPKNFQTMPGIFQTTTGEIGAIALDFKPGTSGSPIINREGKVVGLYGNGVVTKSGGYVSGIAQTNAEPDGPTPELEEEMFKKRNLTIMDLHPGSGKTRKYLPAIVREAIKRRLRTLILAPTRVVAAEMEEALKGLPIRYQTTATKKSEHTGKE IVDLMCHATFTMRLLSPVRVPNYNLIIMDEAHFTDPASIAARGYISTRVGMGEAAAIFMTATPPGTADAFPQSNAPIQDEERDIPERSWNSGNDWITDFAGKTVWFVPSIKAGNDIANCLRKNGKKVIQSAAQRRGRVGRNPQENDQYIFTGQPLNN DEDHAHWTEAKMLLDNINTPEGIIPALFEPEREKSAAIDGEYRLKGESRKTFVELMRRGDLPVWLAHKVASEGIKYTDRKWCFDGERNNQILEENMDVEIWTKEGEKKKWDVPSPPETQKAELEEGVYRIKQQGIFGKTQVGVGVQKEGVFHTMWHV TRGAVLTHNGKRLEPNWASVKKDLLRPRWLDARTYSDPLALKEFKDFAAGRKTIATGLIEAFGMLPGHMTERFQEAVDNLAVLMRAEAGSRAHRMAAAQLPETMETILLLSLLAFVSLGVFFVLMRAKGLGKMGSGMIVLAGSGWLMWMSEVEPARI ACVVIIVFLLMVVLIPEPEKQRSPQDNQLALIILIATGLITLIAANELGWLERTKSDLTRLFWREHAEPTGGRGFSFSLDIDLRPASAWAIYAAMTTLITPTVQHAVTTSYNNYSLMAMATQAGVLFGMGRGVPFYKWDFGVPLLMLGCYSQLTPLT LIVALVMLAAHYLYLIPGLQATAARAAQRRTAAGIMKNPVVDGIVVTDIDPIQIDPNVEKKMGQVMLIFVALASAVLMRTAWGWGEAGALASAAAATLWEGAPNKYWNSSTATSLCNIFRGSYLAGPSLIYTVTRNAGIMKKRGGGNGETVGEKWKE RLNRMTALEFYAYKRSGITEVCREPARRALKDGVVTGGHAVSRGSAKLRWMVERGHVNLVGRVVDLGCGRGGWSYYAASQKQVLEVRGYTKGGAGHEEPMNVQSYGWNIVRLKSGVDVFYLPSEPCDTLLCDIGESSSSPAVEEARTLRVLGMVETW LERGVKNFCIKVLCPYTSAMIERLEALQRRYGGGLVRVPLSRNSTHEMYWVSGAKSNIIRSVNATSQLLMHRMDIPTRKTKFEEDVNLGTGTRAVESRADPPDMKKLGSRIERLRKEYGSTWHYDENHPYRTWHYHGSYEADTQGSASSMVNGVVRL LSKPWDALSSVTNIAMTDTTPFGQQRVFKEKVDTRTPDPKQGTQRVMAITSQWLWDRLARNKTPRMCTRQEFINKVNSHAALGPVFREQQGWGSAAEAVVDPRFWELVDNEREAHLRGECLTCVYNMMGKREKKLGEFGKAKGSRAIWYMWLGARFL EFEALGFLNEDHWLSRENSGGGVEGLGLQKLGYILEEISRRPGGKMYADDTAGWDTRITKCDLENEARILEKMDGIHKKLARAVIELTYKHKVVRVLRPAPQGKVVMDIISRPDQRGSGQVVTYALNTYTNLVVQLIRNMEAEAVINERDMEELQNP WKVINWLEGNGWDRLRSMAVSGDDCVVKPMDDRFAYALNFLNDMGKVRKDVQEWKPSPGWTNWEEVPFCSHHFNKLPMKDGRTIIVPCRHQDELIGRARVSPGKGWSLSETACLGKSYAQMWLLLYFHRRDLRLMANAICSAVPVSWVPTGRTTWSI HGRGEWMTTEDMLEVWNRVWIIENEYMEDKTPVTEWTDVPYLGKREDLWCGSLIGHRPRSTWAENIWAAIYQVRRAIGETEEYRDYMSTQVRYGSEEGPSAGVL

Búsqueda de secuencias homologas. Se accedió a la base de datos National Center for Biotechnology Information (NCBI) para la búsqueda online de secuencias homologas a la secuencia incógnita query. Primero se utilizó el algoritmo BLASTn, (Basic Local Alignment Search Tool Nucletotidic), para la búsqueda se secuencias similares y luego se utilizó el algoritmo BLASTp, (Basic Local Alignment Search Tool Protein), para recuperar las secuencias aminoacídicas desde el ORF1 obtenido a partir de ORF -Finder. En ambos casos se aplicaron los parámetros de default, exceptuando el max target, en el cual se seleccionó 5000 para tener mayor variedad de secuencias y especies. Utilizando la secuencia nucleotídica query y el servidor BLASTn se recuperaron 20 secuencias nucleotídicas con alta homología (Figura 3). Las mejores secuencias fueron seleccionadas teniendo en cuenta un valor de score global alto, un E – valué igual a cero y un alto porcentaje de identidad con la secuencia query. Pero también se consideró en la selección, que las secuencias fueran genomas completos, es decir, que tuvieran 5´UTR y 3’ UTR respectivamente, de distintas especies para poder efectuar un análisis mucho más profundo y llegar a una predicción más acertada de la secuencia a estudiar. Como no se obtuvieron secuencias que cubrieran por completo a la query individualmente, se podría aseverar que estamos en presencia de una recombinación. La secuencia en estudio presenta homología con ciertas especies del virus del Dengue y el virus del Zika (perteneciente a la familia Flaviviridae del género flavivirus).

Figura 3. Resultado de las secuencias con alta homología en BLASTn.

Utilizando BLASTp y la secuencia PROTEÍNA 1 se recuperaron 20 secuencias aminoacídicas, (Figura 4). Además, se reconoció que la PROTEÍNA 1 es una poliproteína, perteneciente al virus del Zika o Dengue 2. Por lo tanto, teniendo en cuenta que los virus de esta familia sintetizan sus proteínas a través de una poliproteína que luego es escindida mediante modificaciones postraduccionales, y teniendo la PROTEÍNA 1, más del 75% de similitud con una poliproteína del virus del Zika, se continua el estudio y análisis de dicha proteína.

Figura 4. Resultado de las secuencias con alta homología en BLASTp.

Homología de secuencia. Para el análisis de homología de secuencia se utilizó el servidor online Dotlet ingresando los archivos de entrada de las secuencias nucleotídicas y aminoacídicas de la query y de las secuencias nucleotídicas y aminoacídicas con mayor score halladas en BLAST. En el caso de las secuencias aminoacídicas se utilizó la matriz Identidad y tamaño de ventana 15 y para las secuencias aminoacídicas se utilizó la matriz BLOSUM 45 y tamaño de ventana 15. Las longitudes de ventana y los valores de umbral se eligieron teniendo como fin minimizar la cantidad de repeticiones imperfectas para poder visualizar con más facilidad las repeticiones perfectas. Tanto para las secuencias nucleotídicas, como las aminoacídicas, se analizaron las primeras 5 secuencias ordenadas por mayor score, para el virus del Dengue 3, Dengue, Dengue 1 y Zika. La figura 5 corresponde al alineamiento global entre la secuencia query y los distintos virus, donde se puede observar que son muy similares, hay 3 regiones, cerca del medio y hacia arriba, homologas a la query, también podemos observar diagonales que no están sobre la principal, que corresponden a pequeñas repeticiones, donde se puede diferenciar que en algunos gráficos están más marcados que en otros. Por lo tanto, podemos asumir que estos virus son es un parental de nuestra secuencia query.

Figura 5. Alineamiento global mediante DotPlot de la secuencia query vs la secuencia del virus del Dengue 3, Dengue, Dengue 1 y Zika.

La figura 6 corresponde al alineamiento global entre la secuencia aminoacídica de la PROTEINA 1 y la secuencia aminoacídica del virus del Dengue 2 y Zika, donde se puede observar que hay 3 regiones homologas, también podemos observar diagonales que no están sobre la principal, que corresponden a pequeñas repeticiones. Por lo tanto, la poliproteína también tiene una parte que proviene de este flavivirus.

Figura 6. Alineamiento global mediante DotPlot de la secuencia PROTEINA 1 vs la secuencia del virus del Dengue 2 y Zika.

Análisis filogenéticos. Se utilizó la herramienta Clustal X del programa MEGA6 para realizar alineamientos múltiples y globales de secuencia a partir de las secuencias nucleotídicas y aminoacídicas recuperadas con el BLAST en formato Fasta múltiple. Para el alineamiento de las secuencias nucleotídicas se utilizó un Gap Open Penalty: 15 y un Gap Extension Penalty: 6. Para el alineamiento de secuencias aminoacídicas se utilizó un Gap Open Penalty: 15, un Gap Extension Penalty: 6 y matriz BLOSUM. En ambos casos, los valores de Gap Open Penalty y Gap Extension Penalty fueron idénticos para el alineamiento de a pares y para el alineamiento múltiple.

Figura 7. Alineamiento de las secuencias de las secuencias nucleotídicas recuperadas con el BLAST.

Figura 8. Alineamiento de las secuencias de las secuencias aminoacídicas recuperadas con el BLAST

Posteriormente, Se utilizó el programa MEGA versión 6 con la herramienta Phylogeny para realizar los cladogramas nucleotídicos de las 20 secuencias seleccionadas más la secuencia query, los parámetros para el diagramado de cada árbol fueron Neighbor-Joining y Display only topology, utilizando el test de bootstraping correspondiente (500) para las poliproteínas y para las secuencias nucleotídicas. Los árboles filogenéticos fueron realizados a partir de alineamientos múltiples incluyendo la secuencia incógnita. Se realizaron árboles de máxima parsimonia y de Neighbor-Joining (NJ) tanto para las secuencias nucleotídicas como para las secuencias proteicas, pero se elige mostrar únicamente los que realizados por NJ ya que tienen validez estadística al suponer que puede no haber la misma distancia entre las secuencias actuales y el ancestro común, lo que lo hace más real que otros métodos de distancia como el de máxima parsimonia. En el análisis filogenético de las secuencias nucleotídicas, como era de esperarse la familia de los Virus Dengue comparte entre un 90 y 100 porciento el linaje filogenético, pero a su vez comparten 100 porciento linaje con el Zika. Finalmente podemos observar que la secuencia query comparte ancestro con la familia Dengue en un 79 por ciento. (Figura 9) En las secuencias aminoacídicas, se observó que está relacionada filogenéticamente con la poliproteína del virus del Zika y Dengue virus 2. (Figura 10). Podemos inferir entonces que la secuencia query pertenece al mismo taxon de la familia Flavivirus, y que todas las secuencias seleccionadas pertenecen a un árbol filogenético molecular en común.

Figura 9. Árbol filogenético de las secuencias nucleotídicas generado por Neighbor-Joining.

Figura 10. Árbol filogenético realizado con secuencias aminoacídicas por Neighbor-Joining

Análisis de recombinación. Se generó un reticulograma a partir de la secuencia query y las más relacionadas, para ello, se generó una matriz de distancia triangular inferior con el programa MEGA versión 6 por un cálculo de distancia de a pares. Luego, esta matriz de distancia se utilizó en el en el programa T-Rex versión 3.0a1. Se observa una reticulación entre la secuencia Query, que corresponde a nuestra secuencia incógnita, con la secuencia con adhesión AY648961.1 y AY676351.1, correspondientes al virus del dengue 3, (figura 11), cuya representación filogenética está representada igual que en el árbol de NJ.

Figura 11. Reticulograma obtenido con T-REX, 1 representa al virus incógnita. Los números del 22 en adelante corresponden a ancestros hipotéticos.

Mediante el programa SimPlot se graficó la secuencia query en comparación con las 20 secuencias más relacionadas obtenidas por el BLASTn. Luego utilizando BootScan se filtró la búsqueda de zonas de recombinación. Mediante el SimPlot, (figura 12), se puede observar que hay una alta similitud de las secuencias recuperadas del BLASTn, respecto a la query, entre Dengue 3 y Dengue. En BootScan se observa una recombinación dada principalmente por Dengue y Zikus. (Figura 13)

Figura 12. SimPlot

Figura 13. BootScan

Con FindSites, se puede observar en señalado en rojo algunos de los posibles sitios de recombinación. (Figura 14)

Figura 14. FindSites

Estructuras secundarias de ARN. Para este paso se procedió a seleccionar el 5’UTR y 3’UTR de la secuencia incógnita con la ayuda del ORF – Finder y se realizó un archivo fasta para cada una de las secuencias. Luego, con el programa RNAstructure online, se realizó el esquema de las posibles estructuras secundarias que puede adaptar las secuencias 5’UTR y 3’UTR. (utilizando los parámetros por default). Para el 5’UTR, existen dos posibles estructuras. (Figura 15)

Figura 15. Estructuras secundarias posibles 5’ UTR

La estructura esperada y más probable, es una combinación entre las dos posibles. (Figura 16)

Figura 16. Estructura esperada.

Para el caso del 3’UTR, existen 20 posibles estructuras, pero la estructura esperada y más probable, es una combinación de las 20. (Figura 17)

Figura 17. Estructuras secundarias posibles 3’ UTR

Finalmente se estudió la posibilidad de interacción entre 5’UTR y 3’UTR, en este caso se tuvo que generar un enlace, ya que para el algoritmo BIMOLECULAR una de las secuencias era demasiado larga, entonces se utilizó la predicción de estructura con FOLD como en el punto anterior. Se logro predecir 20 estructuras, solo se representa la más esperada y también la que posee pseudoknots. (Figura18)

Figura 18. Interacción 5’ UTR y 3’ UTR

Sequence LOGO. En principio, se seleccionaron todas las regiones 5’UTR de las secuencias seleccionadas, se utilizó nuevamente el GeneBank para identificar estas regiones y se realizó un archivo fasta con las mismas. Para este punto se utilizó la página Web Logo, para la creación el LOGO de las secuencias 5’UTR para todas las secuencias. (Figura 19)

Figura 19. LOGO

Se puede decir que tiene regiones conservadas a lo largo de las distintas especies seleccionadas a lo largo de toda la región 5’ UTR.

Caracterización de la proteína. Para este punto se seleccionó la secuencia KT726358.1 Dengue virus 3 isolate Cuba_547_2001, y la proteína elegida para la cual codifica, correspondiente a Proteína Flavivirus cápside C. En primer lugar, se realizó una búsqueda en PROTSCALE con los parámetros por default, para identificar hidrofobicidad de la proteína. Se realizo con tres algoritmos distintos (eisenberg, Kyle& doolittle y HPLC Wilson). (Grafico 20)

Figura 20. Hidrofobicidad

Podemos decir que la proteína tiene un perfil de alta hidrofobicidad hacia el final de secuencia ya que posee muchos aminoácidos cargados. (Grafico 21)

Figura 21. Datos

Luego, se realizó una búsqueda con el ProtParam, donde se recompilaron lo siguientes datos:     

Número de aminoácidos: 111 Peso Molecular: 12222,30 KDa Punto isoeléctrico (teórico): 12,08 Cantidad de aminoácidos cargados negativamente: 5 Cantidad de aminoácidos cargados positivamente: 23

También realizo una búsqueda con SignalP, al partir del cual tendríamos la capacidad de predecir algún sitio de clivaje de la proteína, en este caso no posee sitios posibles. (Figura 22)

Figura 22. Sitios de clivaje

Además, se utilizó el programa GOR4, para poder predecir la estructura de la proteína. (Figura 23)

Figura 23. Estructura de la Proteína.

En este caso podemos ver que la predicción de estructura coincide con lo encontrado en la bibliografía que nos dice que la proteína tiene estructuras alfa-hélice, como podemos observar en azul en la imagen. Simultáneamente, se utilizó el programa TMPred, donde se puede determinar teóricamente si la proteína tiene o no dominio transmembrana. (Figura 24).

Figura 24. Dominios transmembrana.

En este caso podemos observar que tiene dominio de transmembrana, al menos una posición de cara externa y otra interna (Figura 25), también se hizo el análisis de tendencia transmembrana con el programa Protscale (Figura 26).

Figura 25.

Figura 26.

Luego, se hizo una predicción de estructura con el programa JPred, el cual no mostro estar en concordancia con lo esperado según bibliografía y según el programa GOR. (Figura 27)

Figura 27.

En este caso se analizó la región resaltada en azul, que será la misma que se analiza con el Heliquest y la misma seleccionada con el GOR. Para finalizar la caracterización se hizo una sola búsqueda con el programa Heliquest, donde se caracterizan las posibles hélices que se podrían formar con la región seleccionada en azul en el programa GOR (región final de hélices precedidas por random coils).(Figura 28)

Figura 28.

Diseño de Primers mediante RT-PCR. Para el diseño de primers se usó el PRIMER-BLAST, se introdujo la secuencia nucleotídica completa (query) y se agregó el parámetro que el producto de PCR sea entre 500 y 700 pb. (Figura 29)

Figura 29. Grafica de los pares de los Primers.

A continuación, (figura 30), se muestra el informe detallado de los primers.

Figura 30. Informe detallado de los Primers.

STRING Algunas proteínas de este virus interaccionan con las siguientes proteínas humanas:       

SNRNP200 PRPF6 SNRNP40 PRPF8 CD2BP2 DDX23 EFTUD2

A través del servidor STRING y las proteínas que se determinaron experimentalmente por proteómica, se construyó una red de interacciones de estas proteínas humanas. (Figura 31).

Figura XX. Red de interacciones de las proteínas humanas.

A través de la red de las interacciones entre las proteínas se pudo establecer:

 CD2BP2 y PRPF6: son parte del complejo de unión de ribonucleoproteínas.  SNRNP200/DDX23/PRPF8: forman parte de la actividad catalítica en RNA.  DDX23 y SNRNP200: se encuentran ligadas a la RNA helicasa dependiente de ATP. Con los datos obtenidos podemos decir que estas proteínas están todas asociadas al complejo spliceosoma y forman parte de sitios de catálisis importantes, ya que están conectados al ensamblaje de este. Por lo tanto, forman parte del complejo del ribonucleoproteinas que regulan el proceso post-transcripcional como lo es la maduración del mRNA.

Conclusión Utilizando diversas herramientas bioinformáticas se logró caracterizar al virus de interés, logrando determinar que la secuencia nucleotídica pertenece a un virus recombinante de la familia Flaviviridae cuyos parentales son el virus del Dengue 3 y Zika. Gracias a la utilización de distintas bases de datos, fue posible caracterizar a la poliproteína, característica de este género, así como también obtener la estructura secundaria. El perfil de hidrofobicidad que la poliproteína presenta esta muy conservado en todos los virus de este género y que por ende está relacionado con la funcionalidad ésta. Se debe tener en cuenta que el uso de las herramientas en conjunto permitió lograr el objetivo propuesto, ya que las distintas funciones, banco de datos y predicciones fueron complementarias entre sí. La información obtenida en primera instancia permitió buscar información bibliográfica para ampliar y respaldar el conocimiento con respecto a la biología molecular de estos virus. La identificación y caracterización de la secuencia query, tanto nucleotídica como aminoacídica permitió avanzar con el seguimiento epidemiológico y contribuyo al conocimiento de nuevos virus de genomas híbridos y su mecanismo de evolución, entre otros. También se debe continuar realizando otros análisis bioinformáticos y experimentos in vitro e in vivo para confirmar la hipótesis.