MÓDULO 3: Visualización de TEs y Archivo de datos: importar y visualizar variables.

3.1 FlyBase y Gbrowse

Como ya se ha comentado, los elementos transponibles o elementos móviles son un tipo de mutación que consiste en secuencias de ADN que saltan de un sitio a otro del genoma. A cada elemento transponible, cuando se descubre, se le pone un nombre.

En Drosophila melanogaster, todos los TEs se recogen, junto con mucha otra información genética, en una gran base de datos. Esta base de datos se llama Flybase. Qué original, ¿verdad? Para hacerlo más sencillo a cada TE se lo asigna un ID (identificador), un código único dentro de la base de datos.

La nomenclatura de los TEs en Flybase es la siguiente: todos los TEs empiezan por FBti (FlyBase Tranposable Insertion) seguidos de un número único. Por ejemplo: FBti0019099.

El Gbrowse es un visualizador de información genética de una especie en concreto. Podemos navegar, movernos por los genomas y ver sus características. ¿Lo queréis ver? ¿Por qué no buscamos el ejemplo anterior en el Gbrowse de Drosophila? Veamos dónde se encuentra este TE en el genoma y qué genes tiene cerca.

Para ello, hay que ir a flybase.org. En el panel superior hay que seleccionar el segundo cuadrado en el que pone Gbrowse.
modulo3_001

Una vez dentro, en landmark o región podemos escribir el código de nuestro TE de interés, ej. FBti0019099.
modulo3_002

modulo3_003

Mediante la pestaña del zoom podéis ampliar o reducir la región para ver que hay más allá de las ~ 6.000 pb que el GBrowse muestra por defecto.
modulo3_004

Observación – Medidas Genómicas

  • Un par de bases (bp, en inglés) es un par de nucleótidos e indica una posición única en el genoma.
  • Una kilobase (kb) son 1.000 bp.
  • Una Megabase (Mb) son 1.000 kb o 1.000.000 bp.

Podéis explorar y jugar con el navegador. Si en algún momento no sabéis cómo volver atrás, volver a poner el ID del TE (FBtiXXXXXXX) del TE en la casilla de busqueda y volveréis a los ~ 6.000 pb iniciales.

3.2 Archivo de datos, ¿qué contiene?
Os pasamos adjunto un archivo de datos que contiene la lista de un grupo de TEs del genoma de Drosophila melanogaster. Como hemos dicho, la mayoría de las mutaciones que se producen son deletéreas y, por lo tanto, la mayoría estarán a frecuencias muy bajas. Es decir, pocos individuos (a veces sólo uno o dos) tendrán esas mutaciones. Se estima que hay unos ~ 20.000 TEs en cada una de las poblaciones de Drosophila. Las herramientas científicas actuales nos permiten detectar y estimar la frecuencia en la población de forma fiable en un total de 1.632 TEs, ya que éstos son secuencias altamente repetitivas y por tanto son difíciles de distinguir unos de otros. Sin embargo, debemos recordar que 1632 no son la totalidad de TEs existentes, sino la cantidad con la que podemos trabajar de forma fiable hoy en día.

La generación de científicos anterior a la nuestra sólo pudo analizar casos concretos. Ahora podemos analizar 1.632 TEs de forma conjunta. Quizá, cuando vosotros seáis científicos ¡podréis analizar los ~20.000 TEs!

El archivo de datos contiene por lo tanto 1632 TEs y la siguiente información en cada columna:

  1.  ID del TE (TE_ID)
  2. el nombre (Tename)
  3. el cromosoma (chr) en la que se encuentran en el genoma.
  4. la posición inicial en la que se encuentran en el genoma (start).
  5. la posición final en la que se encuentran en el genoma (end).
  6. los niveles de recombinación en la región del genoma en la que se encuentran.
  7. distancia en bp al gen más cercano. Cuando la distancia es 0 significa que el TE está dentro o solapando con el gen más cercano. Podéis probad los ejemplos siguientes buscanco en el GBrowse: FBti0019985 o FBti0019017.
  8. el ID de uno de los genes más cercanos
  9. en nombre de ese gen
  10. – 14. las frecuencias a las que se encuentran los TEs en 5 poblaciones. Una población Africana, de Zambia (columna 10), de cuyos ancestros se considera que provienen las moscas europeas y 4 poblaciones Europeas: Portugal (Recarei) (columna 11), España (Gimenells) (columna 12), Alemania (Munich) (columna 13) y Finlandia (Akaa)(columna 14).

Descarga el archivo de datos

Guardalo localmente en tu ordenador, y vamos a trabajar con él!

3.3. ¿Cómo importar el archivo de datos a R?.
Para empezar a trabajar hay que introducir el archivo de datos en R.

Para ello podéis usar la función que se encuentra en el archivo de código R. La función que os permitirá importar el archivo de datos es la siguiente:

Nombre_archivo <- read.delim (file=”path_archivo”, head=TRUE)

En el archivo de código que os habéis bajado anteriormente (módulo 2.4) podéis encontrar los ejemplos reales de como usar las funciones. Tendréis que copiar la función a vuestro archivo de código propio en el editor de texto y cambiar el nombre del archivo y la ruta (el path) a donde os habéis descargado o guardado el archivo de datos. Luego podréis copiarlo y pegarlo en la “Console” de R (recuadro izquierdo rojo).


Las condiciones en R se expresan de la siguiente manera:

  • Igual que es ==
  • Distinto de es ¡=
  • Mayor que es >
  • Menor que es <
  • Para realizar múltiples condiciones se utiliza & (y) o | (o).

    Si con la función no lo conseguís también podéis importar el archivo de la siguiente manera:
    Usar la pestaña de Import Dataset en el recuadro superior derecho “Environment”. Seleccionar la opción de CVS.
    modulo3_005

    Pulsar sobre Browse y seleccionar el archivo de datos.modulo3_006

    Por último, tendréis que cambiar el delimitador a tabulador (tab) y cambiar la opción de “Quotes” a “none”.
    modulo3_007

    modulo3_008

Pulsar sobre Import
modulo3_009

Si lo habéis hecho correctamente veréis vuestro archivo en la ventana superior izquierda del programa. Y, ya podéis empezar a trabajar en R!!

Aquí tenéis una breve descripción de la función de cada pantalla y la información proporcionada.
modulo3_010

La pantalla más importante es el RECUADRO ROJO: la consola o terminal. Allí copiaréis y pegaréis todos los comandos que queráis ejecutar en R.


RECORDAD: Las condiciones en R se expresan de la siguiente manera:

  • Igual que es ==
  • Distinto de es ¡=
  • Mayor que es >
  • Menor que es <

Para realizar múltiples condiciones se utiliza & (y) o | (o).


Aunque RStudio permite guardar los comandos ejecutados desde esta terminal, os aconsejamos que copiéis los comandos definitivos en un archivo aparte, abierto y guardado con un editor de texto. Así, podréis seguir fácilmente trabajando si lo hacéis en días o ordenadores diferentes. Tendrías que tener vuestro propio archivo de código, como el que os proporcionamos, pero personalizado. Así, simplemente tendréis que copiar y pegar todos los comandos y podréis seguir trabajando en el punto que estabais.

En el RECUADRO AZUL podéis visualizar la información del archivo de datos. En distintas pestañas irán apareciendo los nuevos datasets que introduzcáis o creéis.

En el RECUADRO VERDE tenéis 2 pestañas:
1) Environment donde entre otras cosas podréis ver los distintos dataset que abráis en R o vayáis generando

2) History donde se guardan todos los comandos que uséis, los de prueba, los que funcionan y los que no funcionan.

Por eso os recomendamos que una vez funcione un comando lo guardéis en un archivo de texto aparte, y así generéis vosotros mismos vuestro Historial con solo los comandos que funcionen realmente o sean importantes para el trabajo.

El RECUADRO TURQUESA, hay varias pestañas. Si seleccionáis la pestaña “Plots” podréis ver aquí mismo las figuras que vayáis generando.

3.4. Distribución de las variables de interés

Ahora que los datos están correctamente introducidos podremos analizar la distribución de las variables que tenemos en el archivo de datos.

¿Sabéis cual es la distribución de la frecuencia de los TEs en las 5 poblaciones secuenciadas? Hagamos un histograma para verlo más fácil.

hist (Nombre_archivo$Tfreq_zambia)

Encontrarás como se usa esta función en el ejemplo real en el archivo de código en el editor de texto. Tienes que sustituir el nombre que le hayas puesto al archivo  de datos.

¡Ya lo tenemos! ¡Pongámoslo un poco más bonito, démosle color!

hist (Nombre_archivo$Tfreq_zambia, main=”el título del gráfico”, xlab=”nombre_variable”, col=”red”)

Encontrarás como se usa esta función en el ejemplo real en el archivo de código en el editor de texto.

Puedes elegir los colores aquí:

http://www.stat.columbia.edu/~tzheng/files/Rcolor.pdf

Si quieres seguir probando y haciendo el gráfico más y más completo puedes echar un vistazo a está otra página.

http://www.statmethods.net/graphs/density.html

Ahora veamos cómo es la distribución de los TEs en otras poblaciones. Cada gráfico aparece en el mismo recuadro y con las flechas en la parte superior del recuadro podrás desplazarte de uno a otro. Con el símbolo de la x (“remove the current plot”) podrás borrar los gráficos.

modulo3_011

3.5. PONTE A PRUEBA


< Módulo 2 | Módulo 4 >