Reporte BLAST

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES CUAUTITLÁN DEPARTAMENTOS DE CIENCIAS BIOLÓGICAS

Views 99 Downloads 0 File size 1MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES CUAUTITLÁN DEPARTAMENTOS DE CIENCIAS BIOLÓGICAS SECCIÓN BIOQUÍMICA Y FARMACOLOGÍA HUMANA

 ALUMNO: López Toledo Gustavo  GRUPO: 2001  CARRERA: Bioquímica Diagnóstica 

PROFESORA: M. en C. Maritere Domínguez Rojas

Cuautitlán Izcalli, Abril de 2013

En la bioinformática , Basic Local Alignment Search Tool o BLAST , es un algoritmo para comparar información primaria de la secuencia biológica, tales como los aminoácidos secuencias de diferentes proteínas o los nucleótidos de las secuencias de ADN .Una búsqueda BLAST permite a un investigador comparar una secuencia de consulta con una biblioteca o base de datos de secuencias, e identificar secuencias de la biblioteca que se asemejan a la secuencia de consulta por encima de un cierto umbral. Los diferentes tipos de explosiones están disponibles de acuerdo a las secuencias de la consulta. Por ejemplo, tras el descubrimiento de un gen previamente desconocido en el ratón , un científico suele realizar una búsqueda BLAST de la genoma humano para ver si los seres humanos tienen un gen similar; BLAST identifican secuencias en el genoma humano que se asemejan a los genes del ratón basado en la similitud de secuencia. BLAST se puede utilizar para varios fines. Esto incluye la identificación de especies, dominios, posicionamiento filogenia establece, mapeo de ADN y la comparación. 

La identificación de especies:

Con el uso de BLAST, puede posiblemente identificar correctamente una especie y / o encontrar especies homólogas. Esto puede ser útil, por ejemplo, cuando se está trabajando con una secuencia de ADN de una especie desconocida. 

Localización de dominios

Cuando se trabaja con una secuencia de la proteína que puede ingresar en él BLAST, para localizar dominios conocidos dentro de la secuencia de interés. 

El establecimiento de la filogenia

Con los resultados recibidos a través de BLAST puede crear un árbol filogenético utilizando el BLAST página web. Filogenias basadas en BLAST solo son menos fiables que otras construidas específicamente filogenética computacional métodos, por lo que sólo se debe confiar en los análisis de "primer paso" filogenéticos. 

Secuenciar el ADN

Cuando se trabaja con una especie conocida, y que mira a la secuencia de un gen en un lugar desconocido, BLAST puede comparar la posición cromosómica de la secuencia de interés, a las secuencias correspondientes en la base de datos (s). 

Comparación

Cuando se trabaja con genes, BLAST puede localizar genes comunes en dos especies relacionadas, y se puede utilizar para asignar anotaciones de un organismo a otro.

2



Programas de BLAST

Hay un número de variaciones del programa BLAST para comparar el ácido nucleíco o secuencias de proteínas de consulta con ácido nucleíco o bases de datos de secuencias de proteínas. Si es necesario, los programas de traducir secuencias de ácidos nucléicos en los seis marcos de lectura posibles para compararlas con las secuencias de proteínas. La selección apropiada de un programa BLAST para una búsqueda dada está influenciada por los siguientes tres factores 1) la naturaleza de la consulta, 2) el objeto de la búsqueda, y 3) la base de datos destinados como el objetivo de la búsqueda y su disponibilidad. Las siguientes tablas proporcionan recomendaciones sobre cómo hacer esta selección.

Programa de Selección para consultas de nucleótidos

Longitud ¹

Base de datos

Propósito

Identificar la secuencia de la consulta

Programa

megablast contigua , megablasto blastn

Explicación

Más información ...

Encontrar secuencias similares a la secuencia de consulta

megablast contigua o blastn

Más información ...

Encontrar secuencia similar desde el archivo de seguimiento

Traza megablast o megablast contigua Rastro

Más información ...

Encuentra proteínas similares a la consulta traducido en una base de datos traducida

BLAST Traducido (tblastx)

Más información ...

Péptido

Encuentra proteínas similares a la consulta traducido en una base de datos de proteínas

BLAST Traducido (blastx)

Más información ...

Nucleótidos

Encontrar sitios de unión o mapa contiguos motivos cortos

Búsqueda de torneos cortos, casi exactas

Más información ...

Nucleótidos 20 pb o más 28 pb o más para megablast

7 a 20 pb

NOTA: ¹ El corte es sólo una recomendación. Para consultas cortas, es más probable que obtenga los partidos si la opción "Buscar torneos cortos, casi exactas" de la página se utiliza. Una discusión detallada se encuentra en la sección 4 a continuación. Con el ajuste predeterminado, el menor consulta inequívoca se puede utilizar es 11 para blastn y 28 para MEGABLAST.

3

Programa de Selección para consultas de proteínas Longitud ¹

Base de datos

Propósito

Programa

Identificar la secuencia de consulta o encontrar

BLAST Proteína estándar

secuencias de proteínas

(blastp)

similares a la consulta Encuentra los miembros de una familia de proteínas o construir una costumbre

PSI-BLAST

posición específica matriz de puntuación Péptido

Encuentra proteínas similares a la consulta en

PHI-BLAST

torno a un patrón dado

15 o más residuos

Encuentre los dominios conservados de la consulta

CD-búsqueda (RPS-BLAST)

Buscar dominios conservados en la consulta e

Conservada arquitectura de

identificar otras proteínas

dominio de recuperación

con arquitecturas de dominio

Herramienta (CDART)

similares Encuentra proteínas Nucleótidos

similares en una base de datos de nucleótidos

BLAST Traducido (tblastn)

traducida 5-15 residuos

Péptido

Buscar por motivos

Búsqueda de torneos cortos,

peptídicos

casi exactas

Nota: ¹ El corte es sólo una recomendación. Para consultas cortas, es más probable que obtenga los partidos si la opción "Buscar torneos cortos, casi exactas" de la página se utiliza.

INICIO DE LA BUSQUEDA EN BLASTn    

Enter query sequence. Es el espacio designado para introducir la secuencia del usuario. Choose search sets. Permite elegir los parámetros a seguir en la búsqueda de secuencias para realizar el alineamiento Program Selection. Permite elegir el programa que llevará a cabo el alineamiento. logorithm parameter. Permite modificar los algoritmos que regirán la búsqueda.

4

En la ventana inicial se puede apreciar un menú principal en donde se pueden encontrar las siguientes opciones: Recent results. Permite acceder a los resultados obtenidos de forma reciente, cada búsqueda en BLAST proporciona un número ID de búsqueda, éste podrá ser indicado con la finalidad de encontrar el resultado de interés, sin la necesidad de revisar los resultados uno por uno.

Saves strategies. Permite seleccionar parámetros determinados previamente utilizados y guardados por el usuario.

Help. Permite acceder a manuales y guías de uso para las diferentes herramientas que componen el sistema BLAST.

Secuencias de Genomas de BLAST Home. Esta pestaña permitirá visualizar la ventana de inicio de BLAST. En esta opción se tendrá acceso a una breve descripción de BLAST; además de proporcionar un acceso directo a todas las herramientas disponibles en BLAST.

Compara una secuencia problema de nucleótidos contra una base de datos de secuencias de nucleótidos. Compara una secuencia problema de aminoácidos contra una base de datos de secuencias de proteínas. Compara una secuencia problema de nucleótidos traducida en sus seis posibles marcos de lectura contra una base de secuencias de proteínas.

Como información especializada secuencias genómicas y otras se pondrán a disposición del público, NCBI BLAST crea páginas especializadas para esas secuencias. Elija un tipo de búsqueda especializada (o el nombre de

Compara una secuencia problema de aminoácidos contra toda la base de datos de nucleótidos traducida en sus seis posibles marcos de lectura. Compara las seis traducciones en sus marcos de lectura de la secuencia problema de nucleótidos, contra las seis traducciones en sus marcos de lectura de toda la base de datos de nucleótidos.

5

Programas de BLAST para comparar el ácido nucleíco o secuencias de proteínas de consulta con ácido nucleíco o bases de datos de secuencias de proteínas. Formatos de entrada aceptados: Secuencia de consulta (s) que se utilizará para una búsqueda BLAST debe pegar en el "Buscar" área de texto. Se acepta un número de diferentes tipos de entrada y determina automáticamente el formato o la entrada. Para permitir esta función, no son necesarias ciertas convenciones con respecto a la entrada de los identificadores (por ejemplo, adhesiones o gi, FASTA, Secuencias Bare.).

Un segmento de las secuencias de consulta se puede utilizar en la búsqueda de BLAST. Por ejemplo, para limitar las coincidencias con la región de 24 a 200 de la secuencia de consulta, deberá introducir 24 en el campo "De" y 200 en el campo "a".

Iniciar la secuenciación con BLAST Número máximo de secuencias alineadas para mostrar (el número real de alineaciones puede ser mayor que esta).

Seleccionar archivo: Esta función permite a los usuarios cargar un archivo de texto que contiene las consultas de formato en formato FASTA. El archivo también puede contener identificadores de secuencia en lugar de secuencias FASTA. Esta función sólo está disponible para megablast página. Secuencia de largo debe ser cargado a través de esta opción para evitar posibles errores por el tamaño de la secuencia. TITULO: Este título aparece en todos los resultados de BLAST y búsquedas guardadas. Puede utilizar la sintaxis Entrez consulta para buscar un subconjunto de la base de datos BLAST seleccionado. Esto puede ser útil para limitar las búsquedas a los tipos de moléculas, las longitudes de secuencia o para excluir a los organismos. Megablast está destinado a comparar una consulta para secuencias estrechamente relacionadas y funciona mejor si el porcentaje de identidad de destino es 95% o más, pero es muy rápido. Megablast contiguo utiliza una semilla inicial que ignora algunas bases (permitiendo desajustes) y está destinada a comparaciones entre especies. BlastN es lento, pero permite una palabra de tamaño hasta siete bases.

Automáticamente según el tamaño de la palabra y otros parámetros para mejorar los resultados de las consultas cortas. La longitud de la semilla que inicia una alineación

Esta configuración especifica el umbral de significación estadística para informar partidos contra secuencias de bases de datos.

Limite el número de partidos a una amplia consulta. Esta opción es útil si muchos partidos fuertes con una parte de una consulta, puede prevenir que BLAST presente los partidos más débiles a otra parte de la consulta.

Regiones de baja complejidad filtrar, Específicas para cada especie.

Muchas búsquedas de nucleótidos utiliza un sistema de puntuación simple que consiste en una "recompensa" por un partido y una "pena" por una falta de coincidencia. El aumento de los costos Gap resultará en alineaciones que disminuyen el número de huecos introducidos.

Inicio de comparación de la secuencia en BLAST estableciendo los criterios en los algoritmos.

6

Descripción gráfica Una visión general de las secuencias de la base de datos alineados con la secuencia de consulta. La puntuación de cada alineación se indica mediante uno de los cinco colores diferentes, que divide el rango de puntuaciones en cinco grupos. Múltiples segmentos de alineamientos de la secuencia misma base de datos están conectados por una línea gris delgada. Pasar el ratón sobre una secuencia de coincidencias hace que la definición y la puntuación que se muestra en la ventana en la parte superior, al hacer clic en una secuencia de golpe llevan al usuario a las alineaciones correspondientes. Este gen codifica un miembro de la p47 inmunidad relacionada GTPasa de la familia. La proteína codificada puede desempeñar un papel en la respuesta inmune innata mediante la regulación de la formación en respuesta a la autofagia patógenos intracelulares. Polimorfismos que afectan a la normal la expresión de este gen están asociadas con una susceptibilidad a Muestra un resumen gráfico de las secuencias alineadas. El resumen cuenta con un código de colores que varía según el puntaje que reciba cada alineamiento; para el mejor alineamiento se encuentra el color rojo, de rosa se colocan los fragmentos de la secuencia alineada que cuenta con algunas no concordancias en la similitud, el verde muestra alineamientos poco confiables y los colores azul y negro son indicativos de alineamientos con una similitud muy pobre. Cada línea representa una secuencia para una especie en específica.

Enfermedad de Crohn y la tuberculosis.

En la primera parte de los resultados podemos apreciar una descripción general acerca de la secuencia de interés, el numero ID y gi, el nombre de la secuencia, el tipo de molécula, la longitud, y el programa empleado para llevar a cabo el alineamiento. También aparece un apartado denominado Other reports en donde se aprecian 4 submenús: una similitud muy pobre. Por otra  Search summary permite apreciar un resumen de los parámetros empleados en la parte el componente gráfico cuenta búsqueda. con una tabulación que indica la longitud de la  secuencia. Taxonomy reports. Para conocer la taxonomía de la secuencia.  Distance tree of results. Presenta el árbol evolutivo de la secuencia de interés y de las Al posar el puntero sobre las barras secuencias que alinearon correctamente con esta. de los alineamientos, se obtendrá Human genome informaciónsobre la secuencia a la view. visualizar la localización de las secuencias alineadas en el mapa cual pertenece. genómico del humano.

7

DESCRIPCIÓN Este campo proporciona el número de acceso de la secuencia alineada, además de una breve descripción de dichas secuencias. Así mismo, en este componente se puede apreciar el tipo y/o base de datos a la que pertenece la secuencia que se alineo a la secuencia del usuario. Numero de acceso específico para la secuencia descrita reportada en alguna página o liga de interés científico llámese NCBI o EBI.

Max score. Muestra la puntuación máxima obtenida por un segmento alineado de la secuencia.

La secuencia comparada en BLAST corresponde a la GTPasa de la familia IRGM en una molécula de RNA de la especie Homo sapiens, de las 1659 pb que conformar la secuencia se alineo en un 100% y presenta un 0.0% Evalue esto nos dice que si es su homologo más que una secuencia al azar.

Query coverage. Indica el porcentaje total de la secuencia que alineo correctamente con respecto a la secuencia del usuario.

Total score. Muestra una sumatoria de la puntuación obtenida por todos los fragmentos que alinearon de la secuencia.

Max ident. Muestra el porcentaje de identidad de la secuencia alineada con respecto a la secuencia de interés.

E-value. Indica el valor o procedimiento matemático para calcular la probabilidad de que un alineamiento particular sea producto únicamente del azar y no se base en homología sabiendo que mientras menor sea este, mayor será la similitud entre las secuencias.

8

ALINEACIONES Esta opción restringe secuencias de la base de datos al número especificado para el que la alta puntuación segmento de pares (HSPs) son reportados. Páginas diferentes tienen diferentes configuraciones por defecto. Si el número de secuencias de bases de datos satisface el umbral de significación estadística se presentan los informes, sólo los partidos que posean la mayor importancia estadística son reportados. Nos muestra en un formato FASTA de manera textual, los resultados del alineamiento, mostrando una descripción general tanto de la secuencia alineada como la que tiene similitud con la misma, así como algunos porcentajes respecto a los gaps, el porcentaje de las bases identificadas. Así como un apartado que nos permite elegir el orden en que se muestran los alineamientos. Se puede acceder a información de la secuencia en Los resultados obtenidos pueden ser descargados directamente.

GenBank y observar formato gráfico en la misma página.

Nombre, número de acceso y descripción de la secuencia perteneciente a la base de datos, longitud de la secuencia 1659 pb. Valores estadísticos, resultados tras el alineamiento con 100% de similitud y al poseer 0.0% expect comprueba la homología de la secuencia con BLAST.

Alineamiento textual entre secuencias. LinkOuts de bases de datos. Al habilitar esta opción proporciona enlaces de referencias cruzadas de los BLAST hits a las entradas que se encuentran en otras bases de datos especializadas de NCBI. Si una secuencia de bases de datos coincide con la consulta y también se incluye en Gene, UniGene, estructura o base de datos GEO, usted será capaz de seguir el enlace al GIF icono marcado enlaces para obtener información adicional para que los hit.records en esos recursos.

= Enlace a Gene = Enlace a GEO

= Enlace a UniGene = Enlace a la estructura

9

Aplicando la búsqueda de secuencias homologas en BLASTn para la proteína ECSIT en homo sapiens con el menor e-value posible se obtienen los siguientes resultados. gi|7407498|gb|AAF62100.1|AF243044_1 ECSIT [Homo sapiens] MSWVQATLLARGLCRAWGGTCGAALTGTSISQVPRRLPRGLHCSAAAHSSEQSLVPSPPEPRQRPTKALV PFEDLFGQAPGGERDKASFLQTVQKFAEHSVRKRGHIDFIYLALRKMREYGVERDLAVYNQLLNIFPKEV FRPRNIIQRIFVHYPRQQECGIAVLEQMENHGVMPNKETEFLLIQIFGRKSYPMLKLVRLKLWFPRFMNV NPFPVPRDLPQDPVELAMFGLRHMEPDLSARVTIYQVPLPKDSTGAADPPQPHIVGIQSPDQQAALACHN PARPVFVEGPFSLWLRNKCVYYHILRADLLPPEEREVEETPEEWNLYYPMQLDLEYVRSGWDNYEFDINE VEEGPVFAMCMAGAHDQATMAKWIQGLQETNPTLAQIPVVFRLAGSTRELQTSSAGLEEPPLPEDHQEED DNLQRQQQGQS

Se encontraron alrededor de 50 homologías que correspondían a la secuencia basados en un e-value del 0% pero estas presentaban diferente identidad en las secuencias pero afirmando que corresponden a la misma proteína, aunque en diferentes especies. Como podemos apreciar los aprox 50 homólogos seleccionados tienen un e-value de 0 lo que nos indica, que las secuencias son muy similares entre sí.

10

Se procedió a comparar ambas secuencias proteicas y analizar los resultados. Para ello debemos de seleccionar en la página principal de búsqueda la opción “Align two or more sequences” en la opción del programa BLASTp. En la parte de información general de las secuencias los resultados obtenidos son para ambas secuencias, el ID de ambas, a que organismo pertenecen, el tipo de molécula en ambos casos amino ácidos, la longitud de ambas secuencias 431 para la primera ECSIT (Homo sapiens) y 435 para la segunda ECSIT (Mus musculus) así como la implementación de BLASTP.

Por otra parte se nos presenta en el apartado “Graphic Summary”, un resumen gráfico de las secuencias alineadas, en este caso el alineamiento se aprecia en color rojo los que nos indica el mejor alineamiento, de acuerdo al código de colores, es decir ambas secuencias son homologas por parecerse entre sí. En este apartado logramos apreciar la matriz resultante, para el alineamiento de las secuencias. Vista de matriz de puntos, muestra las regiones de similitud en base a los resultados de BLAST. La secuencia de consulta se representa en el eje X y los números representan las bases / residuos de la consulta. El sujeto se representa en el eje Y, y de nuevo los números representan las bases / residuos de la materia. Las alineaciones se muestran en el diagrama como líneas. Relación de partidos entre las líneas de proteínas aquellas que están inclinadas desde la parte inferior izquierda a la esquina superior derecha, menos partidos las líneas que están inclinadas desde la parte superior izquierda a la inferior derecha. El número de líneas que se muestran en la trama es el mismo que el número de alineaciones que han encontrado los BLAST.

11

En la sección de “descriptions” se muestra el numero de acceso de la secuencia alineada con la secuencia de interés, su descripción y el valor Max Score de 627 que corresponde a la puntuación máxima obtenida por el segmento alineado de la secuencia, el valor de Total score que se refiere a la puntuación total de todos los fragmentos alineados que también es de 627, el porcentaje de alineamiento correcto fue de un 100% y el valor de e-value de 0 lo que nos indica una mayor similitud entre ambas secuencias al ser menor que 1 , pero la identidad de la secuencia alineada con respecto a la secuencia de interés fue de 73% es decir que no toda la secuencia de aa se parece entre la especie Homo sapiens y la Mus mulusculus.

En este apartado podemos apreciar el resultado del alineamiento de manera textual, se nos proporciona otra vez la descripción general de la secuencia alineada, respecto a la secuencia de interés, así como la identidad entre aminoácidos en este caso se identificaron 318 de 435 lo que equivale al 73% de identidad, además de que hay zonas de deleción o inserción dentro de la secuencia, ya que se señala la existencia de 4 gaps correspondiente al 1% de toda la secuencia alineada, proporciona visualmente los tipos de aa que se modifican entre las secuencias de comparación de las especies en humano y rata.

12

COMENTARIO BLAST, es una herramienta bioinformatica altamente funcional que permite encontrar regiones similares entre secuencias biológicas. Normalmente BLAST es usado para encontrar probables genes homólogos. Por lo general, cuando una nueva secuencia es obtenida, se usa BLAST para compararla con otras secuencias que han sido previamente caracterizadas, para así poder inferir su función. BLAST es la herramienta más usada para la anotación y predicción funcional de genes o secuencias proteicas. Muchas variantes han sido creadas para resolver algunos problemas específicos de búsqueda. Se ha convertido en la herramienta predilecta para llevar a cabo el alineamiento de grandes bases de datos de genomas. Debido que aborda un problema fundamental basado en la heurística y su algoritmo que es mucho más rápido que el cálculo de una alineación óptima. Se hace énfasis en la velocidad vital para el algoritmo práctico sobre las enormes bases de datos genómicos disponibles actualmente, aunque los algoritmos siguientes pueden ser aún más rápidos. Es así como se convierte en un medio de gran utilidad para las investigaciones de genéticas, biología molecular, medicina y con el paso de los años BLAST se consolida como la herramienta más poderosa y actualizada para llevar a cabo alineamientos entre una secuencia particular con respecto a otra, pudiendo incluso realizar un alineamiento con el total de las secuencias presentes en las bases de datos a nivel mundial.

13