Informe Practicas
Informe Practicas
Nombre Estudiante 1:
Brayan Rimayhuaman Grajeda
Cdigo Estudiante 1: 140986
Nombre Estudiante 2:
Jeanfranco David Farfan Escobedo
Cdigo Estudiante 2: 120885
Nombre Estudiante 3:
Kevin Davalos Vilca
Cdigo Estudiante 3: 081318
Contenido
Resumen ....................................................................................................................................................... 2
Antecedentes o esbozo del estado del arte ................................................................................................. 2
Problema de investigacion ........................................................................................................................ 3
Jutificacion ................................................................................................. Error! Marcador no definido.
Objetivos ........................................................................................................ Error! Marcador no definido.
Objetivos generales ................................................................................... Error! Marcador no definido.
Objetivos especficos ................................................................................. Error! Marcador no definido.
Hipotesis ........................................................................................................ Error! Marcador no definido.
Alcances y Limitaciones ................................................................................. Error! Marcador no definido.
Alcances ........................................................................................................................................................ 6
Limitaciones .............................................................................................................................................. 6
Esbozos del Marco teorico a Desarrollar ............................................... Error! Marcador no definido.
Transformada de Burrows-Wheeler ...................................................... Error! Marcador no definido.
Bsqueda de Patrones .......................................................................................................................... 9
Secuencias de ADN ................................................................................................................................. 10
Metodologa ............................................................................................. Error! Marcador no definido.1
Resultados Esperados a Priori ................................................................................................................ 11
Contribuciones Originales Esperadas...................................................................................................... 12
Impacto Social Esperado ......................................................................................................................... 12
Indice del Proyecto Tentativo de Investigacion ........................................... Error! Marcador no definido.2
Cronograma de Actividades ................................................................................................................... 13
Presupuesto ........................................................................................................................................ 13
1
1. Resumen
2
El algoritmo de bsqueda de cadenas AhoCorasick, inventado por Alfred V. Aho y Margaret J.
Corasick en 1975, busca elementos (patrones) de un conjunto finito de cadenas dentro de un
texto. Una de las ventajas que presenta es que realiza la bsqueda de todos los patrones de
forma simultnea. Si se considera el tamao del alfabeto al cual pertenecen los patrones como
constante, entonces la complejidad temporal del algoritmo es lineal en cuanto a la suma de las
longitudes de los patrones ms la longitud del texto. Si se quieren conocer todas las ocurrencias
de forma explcita, al orden del algoritmo hay que sumarle la cantidad de ocurrencias, adems
si se buscan todas las ocurrencias, entonces puede haber un nmero cuadrtico de ellas si cada
subcadena es una ocurrencia.
El algoritmo Karp- Rabin enunciado por Michael Oser Rabin y Richard Manning Karp en 1987, se
basa en tratar cada uno de los grupos de m caracteres del texto (siendo m el nmero de
smbolos del patrn) del texto como un ndice de una tabla de valores hash (tabla de
dispersin), de manera que si la funcin hash de los m caracteres del texto coincide con la del
patrn es posible que hayamos encontrado un acierto. Para verificar hay que comparar el texto
con el patrn, ya que la funcin hash elegida puede presentar colisiones.
3. PROBLEMA DE INVESTIGACIN
Desde el punto de vista internacional, nacional y regional, podemos decir que el problema que
aqu se resuelve es de gran relevancia social, ya que se trata de un problema biolgico que nos
puede proporcionar informacin muy til sobre el origen de los seres vivos, su complejidad y su
evolucin, y es bien conocido que este tipo de problemas despiertan cada vez un mayor inters
en los investigadores internacionales, nacionales y tambin de nuestra regin.
Los recientes avances tecnolgicos en diversas reas han permitido recolectar grandes
colecciones de datos, que luego tienen que ser procesados. Una de estas reas es la
bioinformtica, donde se analizan cada vez ms y mayores colecciones de secuencias de ADN.
Dado que secuencias de ADN relacionadas son altamente similares, por ejemplo dos genomas
humanos son muy parecidos, las colecciones pueden ser tratadas como un gran texto que
contiene cadenas altamente similares.
3
Desde el punto de vista biolgico debido a que en este proyecto hemos aplicado los algoritmos
implementados y las estrategias paralelas diseadas para la resolucin de un problema
biolgico real de gran importancia, el Problema la bsqueda de patrones en secuencias de ADN
, que an no ha sido resuelto de forma eficiente. Por lo tanto, optimizar representa un avance
importante en nuestro afn por conocer los misterios biolgicos que rodean a nuestro genoma
y el de las dems especies.
El tamao de las bases de datos que contienen informacin gentica (ADN) seguir creciendo y
la bsqueda de patrones seguir siendo una tarea necesaria para el anlisis de informacin
biolgica.
La habilidad de reconocer patrones puede ser usada por un sistema de clasificacin, el cual
acta en un dominio de elementos, determinando a cual grupo pertenece cada elemento.
En el presente trabajo se desarroll una descripcin de las diferentes tcnicas que ayudan a
solucionar el problema de la bsqueda de patrones en secuencias de ADN, tambin se describi
como utilizar la transformada de Burrows Wheeler para solucionar el problema de la bsqueda
de patrones en secuencias de ADN. Adems, se describieron los primeros resultados que se
presenten obtener aplicado la Transformada de Burrows Wheeler.
4
4. JUSTIFICACIN
Los beneficiarios de este este trabajo son las investigadores, estudiantes, docentes implicadas
en el rea de la bioinformtica as como personas involucradas en las ciencias de las
computacin de modo que pueden tener una solucin ms al problema de la bsqueda de
patrones en secuencias de ADN.
La solucin planteada en este trabajo tambin tiene implicaciones en una amplia gama de
problemas prcticos de la realidad como procesadores de texto, programas de bsqueda en
catlogos de bibliotecas, revistas electrnicas, directorios telefnicos, enciclopedias
electrnicas, bsquedas en bases de datos de secuencias de ADN o ARN, etc.
Con este trabajo se consigue generar nuevos estudios en la bioinformtica utilizando la idea de
bsqueda de patrones con la transformada de Burrows-Wheeler. Adems se espera tener un
impacto en la bioinformtica.
5. OBJETIVOS
5.1. Objetivo General.
5
6. HIPOTESIS
Los algoritmos que realizan bsqueda de patrones en secuencias de ADN tienen tiempos
de ejecucin no tan eficiente. Creemos que el problema estriba en la estructura de datos en el
que suelen realizar la bsqueda. Por tanto creemos que adaptando la estructura de datos que
resulta de la transformada de BurrowsWheeler se optimizar el tiempo de ejecucin de la
bsqueda de patrones, adems de mejorar el espacio de almacenamiento de las secuencias de
ADN.
7. ALCANCES Y LIMITACIONES
7.1. ALCANCES
El presente estudio determinar un algoritmo de bsqueda de patrones en
secuencias de ADN mediante la adaptacin de la transformada de Burrows
Wheeler, para los profesionales en el rea de la bioinformtica y ciencias de la
computacin.
El trabajo abarca nicamente la bsqueda de patrones en secuencias de ADN.
Los aspectos puntuales que comprende el trabajo estn referidos a la bsqueda
exacta de patrones. No se contemplar la bsqueda aproximada.
7.2. LIMITACIONES
Limitaciones en actividades:
Limitaciones en recursos:
Limitaciones en tiempo:
6
8. Esbozo del marco terico a desarrollar
8.1 Transformada de Burrows-Wheeler.
M. Burrows and D. Wheeler. A block sorting lossless data compression algorithm. In Technical
Report 124, Digital Equipment Corporation, 1994
M. Burrows and D. Wheeler. A block sorting lossless data compression algorithm. In Technical
Report 124, Digital Equipment Corporation, 1994
7
En la Figura 02 se presenta el siguiente ejemplo: Para el texto = , muestra
todos los pasos que se siguieron para obtener la transformada de Burrows-Wheeler. La matriz
(a) muestra todas las rotaciones consecutivas que se realizan sobre el texto, y la matriz (b)
corresponde a la matriz (a) ordenada de forma lexicogrfica por filas. La ltima columna de la
matriz (b) corresponde a .
(a) (b)
Figura 02. Pasos que se siguieron para obtener la transformada de Burrows-Wheeler
En la Figura 03 se presenta la forma de realizar una bsqueda una vez obtenida la transformada
de Burrows Wheeler, tomando como patron a buscar abraca$
M. Burrows and D. Wheeler. A block sorting lossless data compression algorithm. In Technical
Report 124, Digital Equipment Corporation, 1994
8
8.2. Bsqueda de Patrones
9
8.3. Secuencias de ADN.
10
Figura 05. Electroferograma de un secuenciador automatizado mostrando parte de una
secuencia de ADN.
9. Metodologa
Comparando nuestro mtodo con el algoritmo Naive, nuestro mtodo sera superior en
trminos de bsqueda de patrones.
11
11. Contribuciones originales esperadas
12
14. CRONOGRAMA DE ACTIVIDADES
15. PRESUPUESTO
13