Manejo Bases de Datos I.biomol2019

Facultad de Ciencias Naturales Departamento de Biología Guía de clase V. Bases de datos biológicas Biología Molecular 2

Views 55 Downloads 3 File size 563KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Facultad de Ciencias Naturales Departamento de Biología

Guía de clase V. Bases de datos biológicas Biología Molecular 2019_2 Introducción Con el desarrollo de esta guía, los estudiantes podrán familiarizarse con la información disponible y su interpretación en algunas bases de datos y herramientas importantes de bioinformática, las cuales son de amplio uso en biología molecular. Sección #1. Secuencias nucleotídicas/aminoacidicas en NCBI/GenBank: Esta sesión está diseñada para familiarizar al estudiante con la información que provee GenBank respecto a secuencias biológicas. Analice y reconozca TODA la información que se encuentra disponible para un gen en GenBank (esta misma información está disponible para proteínas). Para esto utilice los siguientes enlaces: 1. 2.

https://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html https://www.ncbi.nlm.nih.gov/nuccore/KX818198.1

El link #1, brinda un molde de toda la información disponible y detallada que provee GeneBank de genes (se pueden ver como DNA o mRNA) o proteínas. Explore toda la información relevante para cada categoría, por ejemplo, locus name, accesion, version, keywords, reference, author etc. Ya habiendo revisado esta información, ahora utilice el link #2, el cual contiene una secuencia de ADN de un organismo eucariota. Integrando la información del link 1 y 2 defina para el gen BPH6: a. En “locus”, ¿qué quiere decir “sequence length”? Cuánto mide? 7841 bp b. Qué información tiene el “accession”? Es el nombre unico de la secuencia, ningun otro gen lo puede tener - Cuál es el “accession”? KX818198 c. Qué información tiene “version”? secuencia que permite identificar al gen en la secuencia de datos. -Cuál es la “version”? KX818198.1 d. De qué organismo proviene esa secuencia de ADN? Oryza sativa e. ¿Qué quiere decir CDS? La region codificante f. Como podría usted saber en la secuencia de 7841 nucleótidos cuál es el CDS? Explore! Procedo a dar click sobre CDS. g. Podría usted ubicar la región 5’UTR y 3’UTR al conocer el CDS? No, dado que cds, solo me permite conocer la region codificante Departamento de Ciencias Biológicas |

1

Facultad de Ciencias Naturales Departamento de Biología

h. Que encuentra usted en “reference”? el numero de bases i. Cuál es el “protein id”? Que denota este código? j. Si hace “click” sobre protein id, que encuentra? En NCBI/GenBank se puede tener acceso a secuencias de ácidos nucleicos y proteínas, de esta forma es que se pueden diseñar sondas para detectar secuencias de ADN/ARN específicas, realizar amplificaciones de ADN (PCR) y poder entonces encontrar cambios en nucleótidos (polimorfismos/mutaciones) en nucleótidos (y su efecto en la proteína) y determinarlos con un experimento de PCR-RFLP. Búsqueda de la secuencia de un gen/proteína de interés Esta parte de la sesión esta diseñada para que el estudiante se familiarice con la búsqueda de secuencias biológicas en genbank/NCBI y las herramientas bioinformáticas BLAST, translate y ORF finder. 1. Elegir una proteína o gen de interés para desarrollar el taller práctico (ejemplo: proteína P53) 2. Es importante conocer el nombre de la proteína en inglés para realizar la búsqueda en las bases de datos disponibles para tal fin. También es fundamental conocer el “accession number” 3. Ingresar a la página del NCBI: http://www.ncbi.nlm.nih.gov/, digitar el nombre de la proteína que han seleccionado en la barra de búsqueda y seleccionar “protein” de las bases de datos:

4. En los resultados obtenidos, hacer clic sobre el nombre de la proteína seleccionada. Obtenga la secuencia FASTA (secuencia de aminoácidos) de la proteína P53 de humanos o la que seleccionó y buscar secuencias homólogas con la herramienta para alineamientos BLAST.

Ejecutar BLAST con los parámetros ofrecidos por la herramienta y dar click en BLAST - Alinea, y comienza a comparar con el resto de las bases de datos. - (que es id vlaue) - (En blast solo se puede comparar solo nucleotidos)

Departamento de Ciencias Biológicas |

2

Facultad de Ciencias Naturales Departamento de Biología

a. ¿Qué es y que hace BLAST? Falso

Verdadero

Una herramienta bioinformática usada para buscar secuencias similares Herramienta para buscar secuencias similares solo de proteínas Herramienta que provee significancia estadística a los alineamientos (e-value: número de resultados con la misma o mejor puntuación o ‘score’, que lo que se espera al azar) b. ¿Qué resultados se obtienen con esta herramienta? Hay proteínas P53 homologas a la de humano? c. ¿Qué es el “query” y el “subject” en los alineamientos que usted está analizando Predicción de ORF (marco abierto de lectura) Para el desarrollo de este ejercicio necesitamos la siguiente secuencia de ADN: >Gen de proteína desconocida GCACTCTGGCTGGGGAAGGCATGAGTGACAGACCCACAGCAAGGCGGTGGGGTAAGTGTGGACCTTTGTGTACCAGAGAGAACATCAT GGTGGCTTTCAAAGGGGTCTGGACTCAAGCTTTCTGGAAAGCAGTCACAGCGGAATTTCTGGCCATGCTTATTTTTGTTCTCCTCAGCCT GGGATCCACCATCAACTGGGGTGGAACAGAAAAGCCTTTACCTGTCGACATGGTTCTCATCTCCCTTTGCTTTGGACTCAGCATTGCAA CCATGGTGCAGTGCTTTGGCCATATCAGCGGTGGCCACATCAACCCTGCAGTGACTGTGGCCATGGTGTGCACCAGGAAGATCAGCATC GCCAAGTCTGTCTTCTACATCGCAGCCCAGTGCCTGGGGGCCATCATTGGAGCAGGAATCCTCTATCTGGTCACACCTCCCAGTGTGGT GGGAGGCCTGGGAGTCACCATGGTTCATGGAAATCTTACCGCTGGTCATGGTCTCCTGGTTGAGTTGATAATCACATTTCAATTGGTGTT TACTATCTTTGCCAGCTGTGATTCCAAACGGACTGATGTCACTGGCTCAATAGCTTTAGCAATTGGATTTTCTGTTGCAATTGGACATTT ATTTGCAATCAATTATACTGGTGCCAGCATGAATCCCGCCCGATCCTTTGGACCTGCAGTTATCATGGGAAATTGGGAAAACCATTGGA TATATTGGGTTGGGCCCATCATAGGAGCTGTCCTCGCTGGTGGCCTTTATGAGTATGTCTTCTGTCCAGATGTTGAATTCAAACGTCGTT TTAAAGAAGCCTTCAGCAAAGCTGCCCAGCAAACAAAAGGAAGCTACATGGAGGTGGAGGACAACAGGAGTCAGGTAGAGACGGATG ACCTGATTCTAAAACCTGGAGTGGTGCATGTGATTGACGTTGACCGGGGAGAGGAGAAGAAGGGGAAAGACCAATCTGGAGAGGTAT TGTCTTCAGTATGACTAGAAGATCGCACTGAAAGCAGACAAGACTCCTTAGAACTGTCCTCAGATTTCCTTCCACCCATTAAGGAAACA GATTTGTTATAAATTAGAAATGTGCAGGTTTGTTGTTTCATGTCATATTACTCAGTCTAAACAATAAATATTTCATAATTTACAAAGGAG GAACGGAAGAAACCTATTGTGAATTCCAAATCTAAAAAAAGAAATATTTTTAAGATGTTCTTAAGCAAATATATACCTATTTTATCTAG TTACCTTTCATTAACAACCAATTTTAACCGTGTGTCAAGATTTGGTTAAGTCTTGCCTGACAGAACTCAAAGACACGTCTATCAGCTTAT TCCTTCTCTACTGGAATATTGGTATAGTCAATTCTTATTTGAATATTTATTCTATTAAACTGAGTTTAACAATGGCAAAATACAGTATGT CACAGTCATGCACATTCAAGAGAGAAAATATAACAAGTTCTTTTATGAGCAATCCCTTATGCATAGACTACCTTGGCAAAAGAGCATTA GCAAGTGTCACTGCTCATCAGTTACTTCCTTCCATTTATATCACAAATACCCAAGTTTCAATTCTAACTTCATTTCATGGTATTTCTTCCT CCTCAATGCCCAAGGTAATGTGGGACTAAAGCCCAGAAATTTGAAAAGAATATTCAGAAATCCTTCCCAAATCATAAGGGCACCTATT GAGATTCAAGACAAGCAGACTCGTAAAATCTTGTAGAGGCAGAGGC

1. Traduzca la secuencia nucleotídica a proteína utilizando la herramienta “traslate” de la base de datos EXPASY (https://web.expasy.org/translate/). a. ¿Qué informacion obtiene? b. ¿Por qué se obtienen 6 ORFs? Departamento de Ciencias Biológicas |

3

Facultad de Ciencias Naturales Departamento de Biología

c. Para usted, ¿Cuál (es) de los ORFs sugeridos sería (n) la proteína más probable? ¿Cómo podría sustentar su elección? 2. Utilizar ORF finder de NCBI como herramienta de predicción. a. Ingrese a https://www.ncbi.nlm.nih.gov/orffinder/ y copie la secuencia de nucleótidos desconocida. Hacer click en el recuadro “Submit” empleando las opciones de búsqueda sugeridas por el programa. ¿Cuántos ORFs obtienen? ¿Qué tipo de información obtienen con relación a los ORF? b. Para verificar si un ORF codifica para una proteína o secuencia en particular emplee la herramienta SmartBlast (ubicada al lado izquierdo de la pantalla). Los ORFs de mayor longitud, por lo general, representan regiones codificantes; seleccione el ORF de mayor longitud (indicar longitud) y haga click en el recuadro “SmartBlast”. - ¿Cuál es la utilidad de esta herramienta? - ¿Qué resultados obtienen en general? c. ¿Qué diferencias encuentran entre las dos herramientas empleadas para predicción de ORFs?

Sección #2. Base de datos de proteínas PDB- Protein Data Bank Esta sesión está diseñada para familiarizar al estudiante con la información que existe en PDB respecto a proteínas. Para esto, ingrese a la siguiente dirección: http://www.rcsb.org/ Consultar en la base de datos: a. ¿Con cuántos registros cuenta actualmente el PDB? b. ¿Cuál es el total de estructuras obtenidas por cristalografía de rayos X y microscopía electrónica en el PDB hasta este año? En la barra de búsqueda, ingrese el siguiente identificador en la casilla de búsqueda: 2d1s c. ¿A qué molécula corresponde el identificador? d. Examine cuidadosamente la página de resultados y responda las preguntas a continuación: o ¿En qué fecha fue depositada esta estructura? ¿Ha sido actualizada? o ¿Cuál fue el método experimental mediante el que se obtuvo? En la parte superior de la página de resultados, encontrará una serie de pestañas que aportan mayor información acerca de la molécula:

e. Explore cada pestaña y describa brevemente que tipo información se obtiene. f. ¿Encuentran literatura asociada a esta molécula? Formato de archivo PDB Al determinar la estructura tridimensional de una proteína, lo que obtenemos en realidad es información detallada de cada una de las coordenadas de sus componentes. Esta información se guarda en un archivo de texto, en un formato específico. a. Presiones el enlace "Download files", a lado derecho de la página. Encontrará una serie de enlaces de archivos para descargar. De estos los más conocidos son los que contienen formato PDB. Este archivo Departamento de Ciencias Biológicas |

4

Facultad de Ciencias Naturales Departamento de Biología

es un archivo de texto, solamente con extensión .PDB y puede ser abierto con cualquier editor de texto (Block de notas o Wordpad en sistemas MS windows o kate, kwrite, vim o Gedit en GNU/Linux). b. Descargue el archivo, ábralo en un block de notas y examínelo cuidadosamente. Preste especial atención a las líneas que comienzan con la palabra ATOM. ¿Que información proveen? Como podrá notarlo este archivo contiene bastante información y entenderla, por lo menos globalmente, resulta importante. Para mayor información acerca de este formato, revise la siguiente guía explicativa que ofrece el sitio web de PDB: http://www.wwpdb.org/documentation/file-format. Descargue la última versión en formato PDF

Departamento de Ciencias Biológicas |

5