Download - S oftw ar e d e an ál i s i s d e s e c u e n c i as d e A ...

Software de análisis de secuencias de ADN para

la asignación de genotipos

Universidad Nacional del Centro de la Provincia de Buenos Aires

Trabajo Final de la carrera Ingeniería de Sistemas

Alumna: Paula Villanueva

Director: Dr. Ignacio Larrabide Co-Directora: Dra. Marcela Alicia Juliarena

Resumen

El avance de la industria bioinformática ha tenido un crecimiento exponencial en las últimas

décadas, generando una enorme cantidad de datos. Específicamente, el análisis de las secuencias

de ADN ha permitido describir detalladamente la información genética de los seres vivos, como

así también predecir el riesgo de padecer ciertas enfermedades o incluso, adaptar los tratamientos

médicos y producir fármacos personalizados en función de la estructura genética del individuo.

En la producción ganadera, las nuevas herramientas biotecnológicas tienen un gran impacto.

Desde el punto de vista sanitario, la identificación de genes asociados a la resistencia o

susceptibilidad a agentes infecciosos ha permitido el diseño de planes de control genéticos.

Desde un punto de vista genético, la identificación de los alelos presentes en regiones altamente

polimórficas del genotipo de animales heterocigotas genera un desafío a resolver desde la

bioinformática.

Por ese motivo, este trabajo interdisciplinario tiene como objetivo desarrollar un software

especializado en el análisis de secuencias de ADN para tareas de investigación que se desarrollan

en la Facultad de Ciencias Veterinarias de la UNICEN. Dicha herramienta deberá identificar los

alelos de secuencias correspondientes al genoma de un animal heterocigoto, las cuales en una

región altamente polimórfica podrían presentar varios puntos ambiguos al no poder conocer con

certeza los haplotipos de una muestra de un individuo diploide.

1

Agradecimientos

Quiero agradecer a todas las personas que formaron parte de esta etapa tan importante en mi

vida, principalmente a mi familia. En particular, a mi mamá Mirta, mi papá Francisco y mi

hermana Cecilia, quienes siempre confiaron en mí y me brindaron el apoyo y las herramientas

necesarias para llevar adelante mis estudios.

A mi director Dr. Ignacio Larrabide y a mi co-directora Dra. Marcela Alicia Juliarena por su

constante guía, ya que sus correcciones e indicaciones fueron indispensables en el desarrollo de

este trabajo.

A la Universidad Nacional del Centro de la Provincia de Buenos Aires, y en particular a la

Facultad de Ciencias Exactas por la formación allí recibida.

A todos mis compañeros de cursada, por los momentos compartidos a lo largo de la carrera. A

mis amigos de siempre, a los a los que fui cosechando a lo largo de esta etapa y también a los

que perdí durante ella.

A cada una de las personas que han aportado a mi carrera profesional, como así también a

quienes me han brindado su apoyo incondicional durante mi etapa de formación.

¡A todos ellos muchas gracias!

2

Índice general

Resumen 1

Agradecimientos 2

Índice general 3

Índice de figuras 5

Introducción 7 1.1. Motivación 10 1.2. Objetivos 10 1.3. Estructura de la tesis 11

Estado del arte 12 2.1 La secuenciación del ADN 12 2.2 Polimorfismo 14 2.3 Comparación de secuencias 16 2.4 Tipos de comparación de secuencias 17 2.5 Alineamiento de pares de secuencias 18

2.5.1 Matriz de puntos 18 2.5.2 Programación Dinámica 20 2.5.3 Algoritmo de Smith–Waterman 22

2.6 Comparación de secuencias en bases de datos 24 2.6.1 FASTA 25 2.6.2 Basic Local Alignment Search Tool (BLAST) 27

2.7 Significancia estadística en alineamientos de secuencias 29

Programas similares y comparación con la herramienta 32 3.1 Matriz de puntos 32 3.2 Algoritmo de Smith-Waterman 35 3.3 Comparación con bases de datos: FASTA y BLAST 40 3.4 Herramienta utilizada por los investigadores en la búsqueda de alelos 48

Diseño e implementación 51 4.1 Elección de las tecnologías 51 4.2 Requerimientos de la herramienta 52

3

4.2.1 Requerimientos funcionales 52 4.2.2 Requerimientos no funcionales 53

4.2 Diseño e implementación del primer prototipo 54 4.2.1. Modelo 54 4.2.2. Vista 58 4.2.3. Controlador 65

4.3 Diseño e implementación del segundo prototipo 68 4.3.1. Servidor 69 4.3.2. Cliente 72 4.3.3. Endpoints 73 4.3.4. Almacenamiento de datos 83 4.3.5. Deploy de la aplicación y el uso de contenedores 84

Resultados 85 5.1 Confiabilidad de los resultados obtenidos 86 5.2 Performance del sistema 96

Conclusiones y trabajos futuros 99 6.1 Aplicación de conceptos adquiridos durante la carrera 99 6.2 Contribuciones realizadas con el proyecto 101 6.3 Limitaciones actuales y trabajos futuros 102 6.4 Conclusiones finales 104

Glosario 105

Anexos 108 Resultados del programa BLAST por la interfaz web de EMBL-EB 108 Resultados del programa FASTA por la interfaz web de EMBL-EB 127

Referencias 150

4

Índice de figuras Fig. 1: Proceso de secuenciación por el método Sanger 13 Fig. 2: Cromatografía obtenida por secuenciación 14 Fig. 3: Alfabeto IUPAC para el ADN 16 Fig. 4: Comparación de secuencias utilizando una matriz de puntos 19 Fig. 5: Ejemplo de alineamiento con Programación Dinámica 21 Fig. 6: Ejemplo de alineamiento con el algoritmo Smith-Waterman 24 Fig. 7: Inicio del programa web dotmatcher 33 Fig. 8: Inicio del programa web dottup 34 Fig. 9: Salidas de los programas web dotmatcher y dottup con dos secuencias de prueba 35 Fig. 10: Inicio del programa Water por medio de la interfaz web provista por EMBL-EBI 36 Fig. 11: Salida del programa Water con dos secuencias de prueba 37 Fig. 12: Inicio del programa Matcher por medio de la interfaz web provista por EMBL-EBI 38 Fig. 13: Salida del programa Water con dos secuencias de prueba 39 Fig. 14: Entrada del programa FASTA por la interfaz web de EMBL-EBI 41 Fig. 15: Entrada del programa BLAST por la interfaz web de EMBL-EBI 42 Fig. 16: Fragmento de los resultados del programa FASTA por la interfaz web de EMBL-EBI 43 Fig. 17: Fragmento de los resultados del programa BLAST por la interfaz web de EMBL-EBI 44 Fig. 18: Programa BLASTN por la interfaz web de NCBI 46 Fig. 19: Resultado del programa BLASTN por la interfaz web de NCBI 47 Fig. 20: Comparación de secuencias mediante el programa CLC Genomics Workbench 49 Fig. 21: Interacción entre los módulos MVC 54 Fig. 22: Diagrama de Clases UML del Modelo de la versión desktop 55 Fig. 23: Base de datos BLAST 55 Fig. 24: Diagrama de Clases UML de la Vista de la versión desktop 58 Fig. 25: Menú principal de la aplicación desktop 60 Fig. 26: Comparación de una secuencia con una base de datos en la versión desktop 61 Fig. 27: Agregar una nueva base de datos en la versión desktop 62 Fig. 28: Editar base de datos en la versión desktop 63 Fig. 29: Eliminar una base de datos en la versión desktop 64 Fig. 30: Alineamiento de dos secuencias en la versión desktop 64

5

https://digitalinsights.qiagen.com/products-overview/analysis-and-visualization/qiagen-clc-genomics-workbench/

Fig. 31: Diagrama de clases UML de los controladores de versión desktop 65 Fig. 32: Arquitectura Cliente-Servidor. 69 Fig. 33: Diagrama de clases UML del modelo de la versión web 70 Fig. 34: Diagrama de clases UML de los controladores de la versión web 71 Fig. 35: Login de la aplicación web 74 Fig. 36: Registrar un nuevo usuario en la aplicación web 75 Fig. 37: Comparación de una secuencia con una base de datos en la aplicación web 76 Fig. 38: Alineación de dos secuencias en la aplicación web 78 Fig. 39: Administración de las bases de datos de un usuario en la aplicación web 79 Fig. 40: Secuencias de una base de datos ambigua en la aplicación web 81 Fig. 41: Actualización de los datos de un usuario en la aplicación web 82 Fig. 42: Comparación entre máquina virtual y contenedor 84 Fig. 43: Resultados de la prueba 1 87 Fig. 44: Resultados de la prueba 2 88 Fig. 45: Resultados de la prueba 3 89 Fig. 46: Resultados de la prueba 4 90 Fig. 47: Resultados de la prueba 5 91 Fig. 48: Resultados de la prueba 6 92 Fig. 49: Resultados de la prueba 7 94 Fig. 50: Resultados de la prueba 8 95

6

Capítulo 1

Introducción La bioinformática es un campo interdisciplinar que abarca conocimientos de diversas áreas de

estudio como las ciencias médicas, las ciencias naturales y la informática, cuyo objetivo es

desarrollar herramientas para la exploración de la diversidad genética, la evolución, las

estructuras poblacionales, los mecanismos de patogenicidad y el mapeo genético, entre otras

aplicaciones. Así mismo, se la puede definir como el uso de bases de datos y algoritmos

computacionales para analizar proteínas, genes y secuencias de ADN que comprometen a un

individuo [36]. Por ello resulta un área de conocimiento sumamente útil para comprender la

información genética y las estructuras moleculares que codifica, sus funciones bioquímicas y sus

asociaciones con enfermedades y características fenotípicas de los seres vivos.

Debido a los grandes avances que se han generado en los últimos años en esta disciplina y su

constante progreso, se espera que la bioinformática revolucione los sistemas de salud mediante el

desarrollo de la medicina personalizada. La secuenciación de nueva generación, junto con la

tecnología informática, permitirá que los médicos se basen en la información genética de sus

pacientes para detectar posibles mutaciones dañinas del genoma, favoreciendo el diagnóstico

precoz y el tratamiento eficaz de enfermedades. A su vez, las herramientas bioinformáticas son

de sumo interés para la agroindustria. Actualmente se están analizando bases de datos del

genoma de plantas y animales para desarrollar y obtener individuos de mayor productividad y

resistencia a enfermedades [28].

La comparación de secuencias de ADN ocupa un lugar primordial dentro de la bioinformática al

posibilitar el análisis estructural y funcional del gran volumen de información genética que hoy

en día es posible obtener en cortos períodos de tiempo. Para ello, es necesario realizar un

preprocesamiento de los datos aplicando métodos de alineamiento de secuencias y eliminación

7

de marcadores que se agregan durante la secuenciación. Luego se pueden alinear múltiples

secuencias y así continuar con el procesamiento y análisis [40].

El auge de la genómica tuvo lugar en la década de 1980, época en la que se crearon grandes

bases de datos de secuencias de ADN, como GenBank, EMBL y DDBJ. En 1990 se lanzó el

Proyecto de Genoma Humano, cuyo objetivo era descifrar su secuencia completa [11]. En base a

la enorme cantidad de datos generados se desarrollaron algoritmos de comparación de secuencias

como FASTA o FAST-All y BLAST (Basic Local Alignment Search Tool) [28].

Con el surgimiento de la minería de datos, la inteligencia artificial y los algoritmos genéticos,

entre otras áreas dentro de la informática, se fueron perfeccionando y optimizando las

herramientas ya existentes y surgiendo otras nuevas. Ejemplos de esos avances han sido el uso de

algoritmos genéticos para el alineamiento de múltiples secuencias, conocido como SAGA [33], y

programas de software especializados en el pre-procesamiento y análisis de secuencias como es

el caso de DNAsp [24]. También se han desarrollado librerías como Bioinformatics Toolbox de

MatLab, Biopython y Bioperl, que ayudan al desarrollo de software dedicado al procesamiento y

análisis de secuencias de ADN [28, 15, 16].

Uno de los aspectos a analizar en las secuencias de ADN es la presencia de polimorfismos de un

solo nucleótido (SNP, de su nombre en inglés). Se sabe que, debido a factores ambientales o por

errores en los mecanismos de replicación, se pueden generar mutaciones en el ADN, dando lugar

al polimorfismo que provoca variación alélica entre individuos y diversidad dentro de una misma

especie. Para que una mutación sea considerada polimorfismo la frecuencia de uno de sus alelos

en la población debe ser superior al 1%. Si bien existen diversos tipos de polimorfismos, como

las inserciones y deleciones, los más frecuentes en el genoma humano y los mamíferos en

general son los SNPs. Debido a su amplia distribución, estos polimorfismos se localizan en

cualquier parte de la estructura del genoma [37, 14].

Este proyecto surgió por la necesidad de analizar específicamente secuencias de ADN

correspondientes a la codificación del complejo mayor de histocompatibilidad (MHC) de

bovinos. La importancia biológica y médica del dicho gen reside en su rol dentro del sistema

inmune. El MHC en bovinos recibe el nombre de BoLA (Bovine Lymphocyte Antigen). Los

genes BoLA son particularmente interesantes porque están asociados con resistencia y

8

susceptibilidad genética a una amplia variedad de enfermedades como mastitis y la diseminación

del virus de la leucosis bovina en el hospedador. Debido a su rol central en el reconocimiento y

presentación de antígenos, el exón 2 del gen BoLA B3 presenta gran variabilidad genética (108

alelos descritos hasta el momento), siendo polimórficas gran parte de las posiciones

nucleotídicas. Es por esta razón que la mayor dificultad para la identificación de los alelos en los

individuos heterocigotas es la determinación de las fases de ligamiento entre los numerosos sitios

polimórficos.

La importancia adaptativa del polimorfismo de dicho gen en una población se debe a que tiende

a proteger a la especie frente a agentes infecciosos al ampliar la variedad de antígenos que se

pueden reconocer [25]. Dada la importancia del MHC en la salud y su elevado polimorfismo es

que resulta fundamental poder asignar correctamente los alelos de los diferentes genotipos

posibles a nivel poblacional para estudios de asociación y/o la aplicación de planes de control

basados en este marcador molecular.

En este trabajo se propone utilizar herramientas informáticas como las mencionadas

anteriormente para contribuir a las investigaciones que se están llevando a cabo en la Facultad de

Ciencias Veterinarias de la UNICEN, a través del análisis de las secuencias de ADN.

9

1.1. Motivación La principal motivación para llevar a cabo este proyecto es poder contribuir con trabajos que se

están llevando a cabo investigadores de la Facultad de Ciencias Veterinarias de la UNICEN con

respecto a la implicancia de un determinado gen en el desarrollo de leucemia en bovinos.

Actualmente se encuentran necesitando una herramienta informática que haga el proceso de

análisis y comparación de secuencias de ADN correspondientes al gen BoLA para poder obtener

resultados a mayor velocidad.

Si bien existen implementaciones de buscadores de haplotipos, éstos son pagos, programas

genéricos poco configurables o scripts poco intuitivos de usar por parte de los usuarios finales.

Es por ello que en este trabajo se propone realizar un software de análisis de secuencia de ADN a

partir de un dataset de secuencias ya documentadas.

1.2. Objetivos El software a desarrollar para la Facultad de Ciencias Veterinarias consta del análisis

bioinformático de secuencias de ADN con presencia de polimorfismo. Para eso se plantean los

siguientes objetivos específicos:

1. Estudio de librerías para el análisis de ADN, formatos de almacenamiento y el estado del arte.

Se analizará el formato de las secuencias de ADN y se investigarán diversas librerías de

desarrollo de herramientas de bioinformática evaluando cuál es la más conveniente a utilizar.

2. Uso de librerías bioinformáticas e implementación computacional de algoritmos de

comparación de secuencias de ADN para la asignación de los alelos correspondientes.

Se investigarán y analizarán algoritmos de comparación de secuencias, implementando y

evaluando diversas estrategias para obtener los resultados correctos. Mediante la comparación de

la secuencia de entrada con los alelos de la base de datos se asignarán los alelos asociados.

3. Presentación de los resultados

Una vez obtenidos los alelos asociados a la secuencia de entrada, se representarán los resultados

obtenidos por medio de una interfaz gráfica.

10

4. Evaluación de la herramienta y documentación.

Se evaluará la confianza en los resultados generados, el tiempo de respuesta y su usabilidad.

Además, se documentará el proceso de desarrollo y el producto obtenido.

1.3. Estructura de la tesis El informe estará organizado en seis capítulos. En cada uno de ellos se tratará un tema en

particular del proyecto.

En este primer Capítulo se realizó una introducción al trabajo, haciendo una revisión de las

tecnologías existentes orientadas al área de la bioinformática y presentando la problemática a

resolver. Además, se explicó la motivación del proyecto y se definieron los objetivos del mismo.

En el Capítulo 2 se profundiza acerca de los algoritmos, técnicas y heurísticas utilizadas en la

comparación de secuencias de ADN, analizando aspectos como complejidad algorítmica, la

adaptabilidad respecto al problema planteado y significancia estadística de los resultados.

En el Capítulo 3 se comparan distintas herramientas y programas que materializan los algoritmos

y técnicas del capítulo 2. Se utilizan secuencias de ejemplo para observar los resultados que

dichas herramientas brindan y comprender si son útiles para resolver el problema. Además se

hace un análisis de la herramienta actualmente utilizada por investigadores de la Facultad de

Ciencias Veterinarias, viendo tanto los aspectos positivos como negativos de la misma.

En el cuarto Capítulo se explica el diseño y desarrollo de las soluciones planteadas, siendo el

capítulo central del proyecto. En el mismo se plantean los patrones de arquitectura en los cuales

se basa el diseño de las mismas, se incluyen los diagramas de clases que ayudaron a pensar las

soluciones y se explican las implementaciones.

En el quinto Capítulo se analizan los resultados de las soluciones planteadas, teniendo en cuenta

la confiabilidad de la herramienta como así también la performance, en cuestión del tiempo de

procesamiento de cada funcionalidad, según el número de secuencias de la base de datos que se

utilice.

Por último, en el Capítulo 6 se hace una conclusión del desarrollo del proyecto y de los

conceptos aplicados. Además, se plantean propuestas de mejoras para trabajos futuros.

11

Capítulo 2

Estado del arte

En este capítulo se hará una revisión y análisis de las diversas técnicas, estrategias y

herramientas utilizadas en el análisis de secuencias de ADN. Para lograr la comprensión del

problema, se comenzará con una breve explicación del proceso de secuenciación y del concepto

de polimorfismo, para luego profundizar en las distintas formas de abordar la comparación de

secuencias.

2.1 La secuenciación del ADN La secuenciación del ADN se puede definir como el proceso por el cual se logra determinar el

orden de las bases nitrogenadas que componen una hebra de la molécula de ADN, mediante el

uso de métodos y técnicas bioquímicas [31]. Existen dos técnicas principales de secuenciación,

según se usen métodos enzimáticos y químicos. Mientras que los primeros métodos de

secuenciación utilizaban procedimientos químicos para cortar las cadenas de ADN, en la

actualidad se utilizan en mayor medida los métodos enzimáticos, que permiten sintetizar cadenas

de ADN complementarias a la cadena de interés. El método más común utilizado es la

secuenciación automática de Sanger por electroforesis capilar. El inicio de la síntesis de ADN en

la cadena molde es determinado por la elección del cebador (primer). Los cebadores utilizados

son fragmentos cortos de ADN complementarios a la secuencia a amplificar. Para realizar la

reacción de síntesis se agregan los nucleótidos necesarios para la construcción de la cadena

complementaria junto con la enzima ADN polimerasa, que es la que lleva a cabo la construcción

de la nueva hebra. Conjuntamente, se agrega análogos 2´,3´-dideoxi de cada uno de los

nucleótidos, denominados nucleótidos terminadores. Estos análogos se encuentran marcados con

distintos fluorescentes según su base e impiden el crecimiento posterior de la nueva cadena,

12

porque carecen del grupo hidroxilo en la posición 3´. En cada ciclo de reacción, la enzima ADN

polimerasa añade nucleótidos a la cadena hasta que aleatoriamente agregue un nucleótido

terminador en lugar de uno normal, terminando con el proceso de síntesis. Este proceso se repite

cierto número de ciclos. Cuando los ciclos terminan, es prácticamente seguro que se ha

incorporado un nucleótido terminador en cada una de las posiciones del ADN blanco en al

menos una reacción. De esta manera, el tubo de reacción contendrá fragmentos de diferentes

longitudes que terminan respectivamente en cada una de las posiciones de los nucleótidos del

ADN original. Posteriormente, se lleva a cabo el proceso denominado electroforesis capilar en

gel, en el cual los múltiples fragmentos obtenidos se hacen pasar a través de un tubo que contiene

un gel que es atravesado rápidamente por los fragmentos cortos, mientras que los fragmentos

largos lo atraviesan más lentamente, de modo que los fragmentos de diferentes tamaños se

separan [22]. Cuando cada fragmento llega a la línea final del tubo, un láser lo ilumina y permite

la detección del pigmento asociado al terminador (ver figura 1) .

Fig. 1: Proceso de secuenciación por el método Sanger

13

De esta manera, se puede reconstruir la secuencia del fragmento de ADN original a partir de los

colores de los pigmentos registrados por el detector. Los datos registrados por el detector

consisten en una serie de picos que indican la intensidad de las fluorescencias, los cuales generan

un cromatograma. La secuencia del ADN se lee a partir de los picos en el cromatograma (figura

2).

Fig. 2: Cromatografía obtenida por secuenciación

En la parte inferior de la cromatografía se pueden observar las ondas que indican la

pigmentación detectada por el lector, y en la parte superior se encuentra la base nitrogenada que

le corresponde a cada onda. Las posibilidades son: A (Adenina), C (Citosina), G (Guanina) y T

(Timina).

En el Proyecto Genoma Humano, se utilizó la secuenciación de Sanger para determinar las

secuencias de muchos fragmentos relativamente pequeños de ADN humano [23]. Aunque

actualmente los genomas se secuencian con otros métodos más rápidos y menos costosos, la

secuenciación de Sanger todavía es usado para secuenciar fragmentos cortos de ADN.

2.2 Polimorfismo El polimorfismo es una consecuencia de las mutaciones producidas por sustituciones, deleciones

o inserciones de bases nitrogenadas en una molécula de ADN que genera variantes genéticas

entre individuos de una misma especie. Para que una variación sea considerada polimorfismo

debe encontrarse con una frecuencia superior al 1% en una población, de otra forma es

considerada mutación [39].

14

Si bien existen polimorfismos que abarcan modificaciones de largos tramos de ADN, el tipo más

común de polimorfismo en regiones codificantes es aquel que implica la variación de sólo un par

de bases nitrogenadas, denominados polimorfismos de nucleótido único (SNP). Al proveer

variación en los genes, el polimorfismo genera alelos diversos de un gen, es decir formas

alternativas para un mismo gen de una misma especie. En base a investigaciones de los genomas,

los genetistas han determinado que la mayoría de las características fenotípicas de un individuo,

como así también su resistencia o susceptibilidad ante una enfermedad están relacionadas

principalmente con este tipo de mutaciones [11].

Existen genes que poseen una gran variedad de alelos, como es el gen del complejo mayor de

histocompatibilidad. Cuando un individuo hereda información genética de sus progenitores,

recibe ADN de dos individuos diferentes. Por lo tanto, puede recibir alelos diferentes o iguales

para un determinado gen. En caso de recibir alelos diferentes, se dice que el individuo es

heterocigota para dicho gen [32], y esto conlleva consecuencias a la hora de realizar la

secuenciación de esa porción de su ADN.

Cuando se quiere secuenciar una porción de ADN que puede tener diferentes alelos de un mismo

individuo, existen puntos en los que el secuenciador lee bases nitrogenadas diferentes y por lo

tanto no puede determinar correctamente cuál de las cuatro posibilidades es la correspondiente a

esa posición, por lo que indica una letra N para ese caso, que no se corresponde con ninguna de

las cuatro bases nitrogenadas posibles (Adenina, Timina, Citosina y Guanina). Sin embargo, los

investigadores y genetistas pueden interpretar las cromatografías obtenidas mediante la

secuenciación y en muchos casos son capaces de reconocer, en base a las ondas, cuáles son las

distintas posibilidades que existen para un punto polimolimórfico indicado con la letra N. De

esta manera, se han establecido letras para indicar las posibles combinaciones entre distintas

bases nitrogenadas. Por ejemplo, si en un determinado punto cuyo valor es N se observa la

superposición de dos picos como A y C, se le puede asignar a ese punto la letra M, que indica el

valor ambiguo A o C. Con las distintas combinaciones de bases nitrogenadas se ha extendido el

alfabeto para el ADN, formando el código IUPAC actual.

15

Fig. 3: Alfabeto IUPAC para el ADN

2.3 Comparación de secuencias La comparación de secuencias es una de las bases del área de la bioinformática. Una secuencia

puede ser modelada mediante un string, el cual puede definirse como una secuencia ordenada de

símbolos o letras de un alfabeto, concatenados entre sí [29]. Las secuencias contienen elementos

provenientes de un alfabeto, y puede sufrir inserciones, deleciones o sustituciones, llamados, en

términos generales, mutaciones [9]. En el caso de las secuencias de ADN, el alfabeto es el

definido por IUPAC, por lo que se encuentra acotado a la utilización de los 16 símbolos listados

en la figura 3 en el caso de las secuencias ambiguas o a la utilización de sólo 4 símbolos en

secuencias no polimórficas ó altamente conservadas.

El formato más utilizado actualmente para modelar las secuencias, tanto de ADN como

proteínas, es denominado FASTA. El mismo consta de dos partes: una cabecera y un cuerpo. La

cabecera contiene el nombre de la secuencia, precedido por el carácter “>”, y puede contener una

descripción, mientras que en el cuerpo se encuentra el contenido de la secuencia en sí.

16

Código IUPAC Base nitrogenada A Adenina C Citocina G Guanina T (o U) Timina (o Uracilo) R A o G Y C o T S G o C W A o T K G o T M A o C D A o G o T H A o C o T V A o C o G N Cualquier base . o - Hueco

El siguiente ejemplo contiene la secuencia identificada como DERB3*4501, y es una de las

secuencias documentadas utilizada por investigadores de la Facultad de Ciencias Veterinarias.

>DERB3*4501

GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGAC

AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCC

GGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTT

CCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGT

GAGAGTTTCACTGTG

La comparación de secuencias es un proceso de búsqueda de similitud entre dos o más

secuencias, en base a la correspondencia de patrones entre los elementos que las componen,

durante el cual se pueden incorporar huecos al alinearlas [9].

2.4 Tipos de comparación de secuencias A lo largo de los años se han ido desarrollando diversos algoritmos y heurísticas para comparar y

alinear secuencias, los cuales pueden clasificarse, según Pearson y Lipman, en tres tipos:

alineamiento de a pares, múltiple y estructural [34]. El primer tipo de algoritmo se utiliza para

comparar dos secuencias entre sí buscando patrones similares y estableciendo una

correspondencia entre los residuos que las componen. Por otro lado, el alineamiento múltiple

permite alinear más de dos secuencias a la vez, buscando un nivel óptimo de matching entre ellas

[44]. Por último, la comparación estructural se utiliza con secuencias de aminoácidos que

constituyen proteínas, haciendo foco en la estructura total de las mismas [34].

Este trabajo estará centrado en la primera categoría de algoritmos, ya que el problema requiere

comparar una secuencia de ADN de entrada con cada secuencia presente en una base de datos

para obtener aquellas más similares a la query, por lo que ni el alineamiento múltiple ni la

comparación de secuencias de aminoácidos son el objetivo de esta tesis. A continuación se

explicarán diversos algoritmos y heurísticas para llevar a cabo la comparación y alineamiento de

pares de secuencias.

17

2.5 Alineamiento de pares de secuencias El alineamiento de pares de secuencias es la base para la comparación de una secuencia con una

base de datos. Los algoritmos y heurísticas utilizados para este tipo de alineamiento pueden

basarse a su vez en dos estrategias diferentes. Por un lado, existen algoritmos de alineamiento

global, los cuales asumen que las secuencias a comparar son muy similares en contenido y

dimensión, por lo que se alinean desde el inicio hasta el final. Por otro lado se encuentran

mecanismos de alineamiento local, basados en la búsqueda de regiones similares entre dos

secuencias, dejando de lado las zonas de baja coincidencias [44]. El alineamiento global resulta

útil cuando las secuencias son muy similares entre sí y de igual longitud, sin embargo, esa

suposición no siempre se corresponde con la realidad.

A lo largo de los años, se han ido desarrollando técnicas y algoritmos para ambos tipos de

alineamientos, habiendo dos grandes ramas: los algoritmos exhaustivos y los heurísticos.

Mientras que los primeros permiten obtener un resultado óptimo, los segundos dan una

aproximación al mismo [18]. Dentro del primer grupo se pueden encontrar la matriz de puntos, la

Programación Dinámica, y el algoritmo de Smith–Waterman, mientras que en el segundo se

encuentran los mecanismos de alineamientos más utilizados dentro del área de la bioinformática:

FASTA y BLAST. A continuación se explicará cada uno de ellos.

2.5.1 Matriz de puntos

Esta técnica utiliza una matriz de dos dimensiones, en la cual las secuencias a comparar se

ubican en cada uno de sus ejes, y se completa comparando cada residuo de una secuencia con

todos los residuos de la otra.

Cada celda [i,j] contendrá un 1 si el nucleótido de la i-ésima posición de la primera secuencia

coincide con el j-ésimo nucleótido de la segunda. Las celdas con valor 0 se consideran vacías,

mientras que las de valor 1 representan un punto. Al final del proceso, los puntos quedan

agrupados en regiones formando tramos de líneas diagonales continuas. De la matriz obtenida, se

seleccionan las diagonales con la mayor concentración de puntos o 1s. Las interrupciones o

18

cortes de las diagonales indican inserciones o deleciones de bases en las secuencias comparadas

[19].

Fig. 4: Comparación de secuencias utilizando una matriz de puntos

Este método tiene el inconveniente de que a mayor longitud de las secuencias, más ruido se

añade, ya que muchos de los puntos distribuidos en la matriz no son realmente parte del

alineamiento, sino coincidencias puntuales a lo largo de las secuencias, dificultando el proceso.

Para reducir el ruido, en lugar de ubicar un punto en cada residuo coincidente, se puede utilizar

una ventana o una tupla de bases nitrogenadas, para comparar una determinada longitud de

residuos a la vez en cada cadena. La ventana se mueve a lo largo de ambas secuencias y sólo se

colocan puntos cuando la cantidad de residuos coincidentes sea igual a la longitud de la ventana.

La longitud de la ventana puede ser ajustada hasta encontrar el tamaño que permita encontrar un

patrón claro para el alineamiento [44].

La matriz de puntos presenta otras múltiples variantes, y es una solución gráfica que permite

visualizar fácilmente zonas de similitud entre dos secuencias. Sin embargo, puede resultar un

método poco práctico para cadenas de gran longitud, y carece de sustento estadístico para

determinar la calidad del alineamiento resultante.

19

2.5.2 Programación Dinámica

El método de programación dinámica es similar al de la matriz de puntos, ya que ambos basan su

algoritmo en la utilización de una matriz de dos dimensiones con una secuencia en sus dos ejes.

Sin embargo, la principal diferencia es que esta técnica utiliza una matriz de puntuaciones

acumuladas, con el objetivo de hallar el puntaje máximo que refleje el alineamiento óptimo. De

esta manera, sea P(n,m) la puntuación óptima, S[1..n] una secuencia de n elementos, y T[1..m]

una secuencia de m elementos, se arma una matriz en la que S se representa verticalmente y T

horizontalmente. Además se utiliza una función de score σ, que asigna un puntaje de acuerdo a

los valores de los elementos de S y de T. Sean éstos x, y tal que x e y son valores diferentes,

en el cual a, b y c son constantes positivas y los guiones representan huecos dentro de las

secuencias [18].

El algoritmo de programación dinámica para la comparación de secuencias es el siguiente:

1. Se completa la primera fila asignando los valores 1 o 0 en base a la igualdad o diferencia

del primer elemento de la secuencia ubicada verticalmente respecto a cada elemento de la

otra.

2. Se completan las filas posteriores. Por cada fila i se coloca en la primera columna el valor

1 o 0 en base a la igualdad o diferencia del i-ésimo elemento de la secuencia ubicada

verticalmente, con respecto al primer elemento de la secuencia en horizontal. Para las

siguientes columnas, se utiliza el siguiente cálculo:

De esta manera se van acumulando los valores diagonalmente desde la esquina superior

izquierda hasta la esquina inferior derecha.

20

3. Una vez calculados todos los valores, se debe buscar el camino que resulte en el

alineamiento óptimo de la secuencia. Para esto se recorre la matriz de manera inversa,

comenzando desde la posición con mayor puntaje hacia la esquina superior izquierda,

buscando el camino que acumule el mayor valor.

A continuación se muestra un ejemplo de alineamiento utilizando la técnica de programación

dinámica con las secuencias AGGTC y ATTC, para el cual se utilizó la siguiente función de

score:

En primer lugar se ubican las secuencias en los ejes de la matriz, y comienza a completarse la

primera fila de izquierda a derecha, ubicando 1 o 0 en cada intersección, de acuerdo a la función

de score definida. Luego se continúa con las filas posteriores, completando la primera columna

con la función de score. Para los siguientes casilleros se tendrá en cuenta la igualdad o diferencia

de los elementos de cada eje junto con el máximo valor que rodea a la intersección, haciendo una

suma entre ambos valores. Una vez completa la matriz, se debe encontrar el camino que

maximiza el valor total, partiendo desde la esquina inferior derecha.

A continuación se muestra un ejemplo para ilustrar el procedimiento que se debe llevar a cabo

para alinear dos secuencias.

Fig. 5: Ejemplo de alineamiento con Programación Dinámica

21

En el caso de ejemplo de la figura 5, el camino con mayor puntuación es el marcado con círculos

en la matriz 6. Al recorrer el camino desde el vértice inferior derecho, se obtiene como resultado:

AGGTC

A-TTC

Los movimientos horizontales y verticales en el recorrido implican la inserción de huecos.

Debido a que desde la posición [2,3] a la [2,2] se realiza un movimiento horizontal, se agrega el

hueco entre la A y la T en la segunda secuencia. De esta manera, el alineamiento resultante

contiene tres aciertos, un hueco y una diferencia.

No debe perderse de vista la probabilidad de que los sucesos mencionados ocurren en la

naturaleza durante el proceso evolutivo. Las inserciones y deleciones son menos probables que

las sustituciones, por lo que se les suele asignar un valor de penalización. La forma más simple

de penalizar dichos eventos es utilizando una constante como en el caso de ejemplo, para la cual

no existe actualmente una teoría que determine con exactitud la probabilidad de una inserción o

una deleción, por lo que la asignación del valor de penalización constante suele ser arbitraria,

teniendo en cuenta que si se asigna un valor muy bajo o muy alto se puede dar lugar a

alineaciones poco realistas [44]. Por otra parte, dado que las mutaciones suelen ocurrir en

bloques, la apertura de un hueco y la extensión podrían tener diferentes penalizaciones asociadas,

reflejando el comportamiento evolutivo [18]. Un esquema de ejemplo es el -12/-1, en la cual se

asigna una penalización de -12 al comienzo del hueco y de -1 a las extensiones. La penalización

total de un hueco (P) queda dado por la ecuación lineal:

P= γ + δ × (k− 1)

donde γ es la penalización de apertura del hueco, δ es la penalización por extensión, y k es la

longitud total [44].

2.5.3 Algoritmo de Smith–Waterman

La técnica previamente explicada puede ser utilizada para llevar a cabo alineamientos de pares

de secuencias globales como así también locales. En el primer caso el resultado óptimo se

obtiene con la totalidad de residuos de ambas secuencias, es decir la matriz es recorrida desde la

esquina inferior derecha hasta la esquina superior izquierda. Para los casos en los que es

22

conveniente utilizar el alineamiento local, es necesario adaptar la técnica descrita [44]. El

algoritmo de Smith-Waterman, propuesto en 1981, es un algoritmo basado en programación

dinámica que permite llevar a cabo alineamientos locales [13]. Dicho algoritmo difiere en

distintos puntos:

1. La primera fila y columna se completan enteramente con ceros.

2. Se asignan valores positivos a los residuos coincidentes y cero a los no coincidentes, sin

utilizar puntuaciones negativas.

3. Para obtener el camino, se empieza el recorrido en la posición de mayor puntaje

ascendiendo diagonalmente hacia la esquina superior izquierda hasta encontrar una celda

con puntuación cero.

Matemáticamente, puede ser expresado de la siguiente manera:

Donde a y b son las secuencias a comparar con la función de similitud S(a,b) y la puntuación de

huecos Wi, completando la matriz H [41].

De esta manera, el camino resultante puede comenzar y terminar en el interior de la matriz, sin

tener que llegar a los extremos. Si es necesario, pueden agregarse huecos en el trayecto.

A continuación se muestra un ejemplo de alineamiento de dos secuencias de ejemplo utilizando

el algoritmo de Smith-Waterman:

Sean TGTTACGG y GGTTGACTA las secuencias de entrada, y las funciones de similitud y

penalización

23

la matriz de Smith Waterman resultante se completa tal como se muestra en la siguiente figura.

Fig. 6: Ejemplo de alineamiento con el algoritmo Smith-Waterman

En primer lugar, se ubican las dos secuencias en los ejes de la matriz y se completa con ceros la

primera fila y la primera columna. A continuación se utilizan las funciones de similitud y

penalización elegidas para completar los valores de las celdas restantes. Por último, se busca el

alineamiento resultante partiendo desde la posición con mayor puntuación y avanzando hacia el

siguiente valor más cercano, hasta llegar a un valor cero. En este caso, el resultado del algoritmo

es:

GTT-AC

GTTGAC

2.6 Comparación de secuencias en bases de datos La comparación de una secuencia con una base de datos implica el alineamiento de a pares entre

cada una de las secuencias de la base de datos con la de entrada. En estos casos, se deben tener

en cuenta tres criterios básicos para que la herramienta sea utilizable y confiable:

1. Sensibilidad, para encontrar la mayor cantidad de hits o coincidencias posibles, minimizando los falsos negativos.

2. Especificidad, para seleccionar sólo las secuencias que están significativamente relacionadas con la secuencia de entrada, evitando obtener falsos positivos.

3. Velocidad, dada por el tiempo que lleva obtener los resultados de la búsqueda en la base de datos, afectada por la cantidad y la longitud de las secuencias que la componen.

24

Idealmente, un sistema debería tener gran sensibilidad, especificidad y velocidad. Sin embargo, el aumento de uno de dichos criterios generalmente va a decremento de los otros [16]. Por ejemplo, si el enfoque está puesto en una gran velocidad, no se podrá garantizar un alto nivel de sensibilidad y especificidad. Los métodos rigurosos y exhaustivos basados en la programación dinámica, como los

anteriormente explicados, hacen mayor hincapié en la sensibilidad y la especificidad, pero

resultan ineficientes y lentos en comparaciones de secuencias con una base de datos, dado que

para alinear sólo dos secuencias de longitudes M y N, el tiempo y el espacio requerido son

O(MN) [17].

Por este motivo es necesaria la utilización de algoritmos heurísticos para acelerar el

procesamiento computacional. Actualmente los más utilizados son FASTA y BLAST [6]. Ambos

usan como heurísticas el método de palabra, el cual se basa en encontrar segmentos idénticos o

casi idénticos entre dos secuencias, denominados palabras, y en la asunción de que dos

secuencias relacionadas deben tener al menos una palabra en común. Una vez identificados

dichos segmentos se puede continuar el alineamiento extendiendo las regiones de similitud desde

ellos [44].

2.6.1 FASTA

FASTA fue la primera herramienta de búsqueda de alineamientos en bases de datos, desarrollada

por Lipman y Pearson en 1985. Inicialmente estaba enfocada en la comparación de proteínas, y

luego evolucionó hasta extender su uso para la comparación de secuencias de ADN [14]. Su

estrategia se basa en la utilización de hashing para encontrar matching de segmentos cortos de

longitud k (k-tuplas), las cuales generalmente contienen una longitud de entre 4 y 6 residuos para

secuencias de ADN [44]. Este algoritmo se lleva a cabo en cuatro etapas:

1. Identificación de las 10 regiones más similares entre dos secuencias a comparar

El proceso de alineamiento comienza con la identificación de todas las k-tuplas de la secuencia

de entrada, mediante cortes de la misma longitud k denominados palabras. Éstas son

comparadas con las palabras de cada secuencia de la base de datos. Los matching pueden ser

25

representados como puntos dentro de una matriz de dos dimensiones, cuya sucesión forma

segmentos diagonales continuos. La representación de dicha matriz se lleva a cabo con una tabla

de hashing. Por otra parte, se identifican las diez regiones dentro de las diagonales con mayor

puntuación, calculada en base a la cantidad de coincidencias y diferencias entre las palabras de

cada secuencia.

2. Re-puntuación de las regiones seleccionadas

Para este paso se utiliza una matriz de sustitución, la cual contiene todos los valores posibles del

alfabeto en el eje vertical y horizontal superior de la matriz, y cada posición de la matriz contiene

información del análisis mutacional, revelando la probabilidad de las transiciones y las

transversiones entre las bases nitrogenadas [30]. Las 10 mejores secuencias re-puntuadas

constituyen lo que FASTA denomina init1 score [16].

3. Introducción de huecos

Los segmentos de alto puntaje seleccionados se tratan de unir para formar un alineamiento

aproximado con interrupciones. Este paso permite introducir espacios entre las diagonales,

aplicando penalización cuando esto ocurre. El puntaje del alineamiento resultante se calcula

nuevamente en base a la sumatoria de los puntajes de las regiones unidas, menos los valores de

penalización de la introducción de huecos. En este paso, FASTA utiliza un algoritmo de

Programación Dinámica para encontrar la combinación con mayor puntaje, cuyo valor se

denomina initn score [16].

Todas las secuencias de la base de datos pasan por los tres pasos mencionados, obteniendo un

initn score para cada una de ellas. Las secuencias cuyo valor sea mayor a un umbral se utilizan

en la siguiente etapa, mientras que las demás se descartan.

4. Alineamiento

Cada una de las secuencias obtenidas a partir de los pasos anteriores se compara con la secuencia

de entrada utilizando una variante del algoritmo de Smith-Waterman, obteniendo un valor

26

denominado opt score, finalmente utilizado para comparar los alineamientos seleccionando el de

mayor puntuación [16].

2.6.2 Basic Local Alignment Search Tool (BLAST)

El programa BLAST fue desarrollado en la década de 1990 por investigadores del Centro

Nacional para la Información Biotecnológica (NCBI) de Estados Unidos y se ha convertido en

uno de los más importantes para realizar alineamientos de pares de secuencias entre una

secuencia de entrada (query), con todas las secuencias de la base de datos [44]. Su principal

objetivo es obtener la similitud entre dos secuencias realizando alineamientos locales

sub-óptimos, pero suficientemente sensibles y más rápidos que FASTA, ya que sólo busca los

patrones más significativos en las secuencias [14].

A partir del programa BLAST original se han desarrollado variantes tales como BLASTN,

BLASTP, BLASTX, entre otros, y cada uno de ellos tiene un objetivo en particular. Mientras que

BLASTN es utilizado para la alineación de secuencias de nucleótidos con una base de datos de

secuencias de nucleótidos, BLASTP permite alinear una secuencia de proteínas con una base de

datos de secuencias de proteínas, y BLASTX utiliza secuencias de nucleótidos como entrada, que

son traducidas a secuencias de proteínas, para contrastarlas con una base de datos de proteínas.

Al igual que la herramienta anteriormente descrita, BLAST aumenta la velocidad de comparación

al buscar las palabras comunes entre la secuencia de entrada y cada secuencia de la base de

datos. Sin embargo, mientras FASTA busca todas las palabras posibles de una determinada

longitud, BLAST se enfoca en las más significativas, en base a un puntaje obtenido mediante una

matriz de sustitución. Por otro lado, la longitud de palabra en este programa es de 3 residuos para

proteínas y 11 residuos para ácidos nucléicos, debido a que dichas longitudes son las mínimas

requeridas para alcanzar un puntaje de palabra que sea lo suficientemente alto para ser

significativo, pero no son tan largas como para perder de vista patrones cortos que resulten de

importancia [30].

Para alinear las secuencias BLAST lleva a cabo una serie de pasos:

27

1. Pre-procesamiento

El proceso comienza formando un dataset de palabras de determinada longitud en base al

alfabeto de las secuencias a comparar. Asimismo, también se obtienen todas las palabras de igual

longitud contenidas en la secuencia de entrada. Por cada palabra de la query (entrada) se lleva a

cabo una comparación con las palabras del dataset, utilizando una matriz de sustitución y un

valor umbral T, con el cual se seleccionan aquellas tuplas del dataset que más se asemejan a la

palabra de la query. De esta manera, cada posición de la secuencia de entrada se asocia con una

lista de palabras del alfabeto cuya similitud superó el valor umbral al compararse con una

palabra comenzada en dicha posición. Dicha lista de palabras son llamadas vecinos [16].

2. Obtención de los hits

Luego del primer paso, la secuencia de entrada queda representada con una lista de vecinos por

cada posición y debe compararse con cada una de las secuencias de la base de datos. Para esto,

cada posición de la secuencia query es comparada con cada palabra de la secuencia de la base de

datos. Si uno de los vecinos en dicha posición coincide exactamente con la palabra a comparar,

entonces se reconoce como hit [16]. De esta manera, se obtienen todos los posibles hits entre la

secuencia de entrada y la secuencia de la base de datos.

3. Extensión

Cada hit hallado entre las secuencias a comparar es extendido en ambas direcciones, aumentando

o decrementando el valor del alineamiento de acuerdo a lo indicado por la misma matriz de

sustitución ya utilizada en pasos anteriores. La extensión se realiza hasta que el valor caiga por

debajo de un cierto umbral debido a diferencias entre la secuencia query y la secuencia de la base

de datos, o hasta que se llegue a los extremos [14]. El segmento resultante se llama par de

segmentos de alta puntuación o HSP por sus siglas en inglés (high-scoring segment pair) [27].

Una vez encontrados los HSP, se deben seleccionar aquellos que se consideren los más

significativos. Para eso se compara el puntaje asociado a cada uno de ellos con un valor de

umbral S, el cual es determinado empíricamente en base a los rangos de valores obtenidos en

comparaciones de secuencias aleatorias [30]. Una vez identificados los HSP que superen dicho

28

umbral, BLAST determina la significancia estadística de cada uno de ellos mediante el cálculo de

un parámetro denominado E. Cuando una secuencia de la base de datos llega a un valor de E

superador a un umbral, esa secuencia es considerada como un match [30].

El tiempo requerido para la ejecución de BLAST se puede calcular como la suma de los tiempos

de cada una de sus etapas. En la primera etapa, el tiempo de procesamiento será proporcional al

número de palabras generadas (W), mientras que en la segunda dependerá del número de

residuos totales de la base de datos (N). El tiempo correspondiente a la etapa de extensión es

proporcional al número de hits encontrados, lo cual a su vez depende de los parámetros

correspondientes a la longitud de la palabra y al valor umbral T, y de la cantidad de residuos en

la base de datos, dado que deberá hacerse letra por letra en cada secuencia. De esta manera, la

complejidad de BLAST puede expresarse como:

aW + bN + cNW

donde a, b y c son constantes [1]. Por lo tanto, se puede concluir que la complejidad temporal del

algoritmo BLAST en notación Big O es O(NW).

En términos de complejidad algorítmica, BLAST resulta más rápido que FASTA al buscar sólo

los patrones más significativos entre las secuencias. Análisis comparativos de ambos algoritmos

han demostrado que BLAST es hasta seis veces más rápido que FASTA, mientras que este

último es en promedio 2% más preciso [10].

2.7 Significancia estadística en alineamientos de secuencias Cuando dos secuencias son alineadas mostrando cierto grado de similitud, puede resultar de

interés preguntarse si dicho resultado fue obtenido de forma casual, o si ambas secuencias están

verdaderamente relacionadas entre sí. Arratia, Gordon y Waterman observaron que secuencias de

ADN de organismos no relacionados contienen subsecuencias continuas muy extensas que son

prácticamente idénticas entre sí. A modo de demostrar homología entre dos secuencias, se

basaron en pruebas estadísticas, al preguntarse si dadas dos secuencias aleatorias e

independientes entre sí era posible obtener una distribución de las longitudes más extensas de

29

segmentos continuos coincidentes [4]. Luego de varios modelos estadísticos con los cuales se

intentó demostrar la significancia de un alineamiento, los autores ya mencionados basaron su

enfoque en la predicción de la cantidad de residuos secuencialmente coincidentes entre dos

secuencias aleatorias de determinada longitud. Para esto modelaron el alineamiento de

secuencias con experimentos de lanzamientos de monedas [3], dado que el alineamiento

aleatorio contendría una mezcla de coincidencias y diferencias, al igual que dicho experimento.

De este modo, la probabilidad de producir una serie de coincidencias entre secuencias aleatorias

es similar a la posibilidad de que la moneda caiga de la misma manera repetidamente de forma

continua, por ejemplo, saliendo siempre cara.

Análisis matemáticos posteriores llevados a cabo por Karlin y Altschul revelaron que las

puntuaciones esperadas en el alineamiento de secuencias aleatorias no relacionadas siguen la

distribución de Gumbel, la cual es utilizada para el estudio de valores extremos [20, 21]. En base

a eso, realizaron evaluaciones de la importancia de los segmentos sin huecos en las

comparaciones entre una secuencia de prueba y una base de datos de secuencias utilizando el

programa BLAST. Dicha distribución de valores extremos es utilizada actualmente para evaluar

la significancia de la puntuación de las alineaciones locales de secuencias ADN y de proteínas,

especialmente cuando se trata de búsquedas de similitud en bases de datos, ya que permite

realizar pruebas de hipótesis estadísticas basadas en el número de desviaciones estándar del

puntaje promedio [30].

Las pruebas de hipótesis estadísticas tienen como objetivo probar si una determinada afirmación

se encuentra apoyada por la evidencia experimental que se obtiene a través de una prueba

aleatoria. Si la probabilidad de que los datos muestrales apoyen una hipótesis es mínima,

entonces la hipótesis es rechazada [8]. Una prueba de hipótesis estadística de la relación entre

dos secuencias puede ser llevada a cabo obteniendo en primer lugar una alineación óptima y

luego generando secuencias del mismo tamaño de manera aleatoria que serán alineadas entre sí.

Los puntajes obtenidos con estas últimas comparaciones son utilizados para hacer una

distribución de puntuación aleatoria y son contrastados con el del caso óptimo. Si la puntuación

se encuentra en el extremo de la distribución, es poco probable que haya sido aleatoria, por lo

que se considera significativa. De la prueba estadística puede obtenerse el P-valor, como un

30

indicador de posibles relaciones homólogas. Estudios estadísticos han develado cómo interpretar

el P-valor [44]:

❏ P-valor ≤ 10-100 : matching exacto entre las dos secuencias.

❏ 10-100 < P-valor ≤ 10 -50 : matching casi idéntico.

❏ 10-50 < P-valor ≤ 10-5 : secuencias claramente homólogas.

❏ 10-5 < P-valor ≤ 10-1 : secuencias posiblemente homólogas.

❏ 10-1 < P-valor: las dos secuencias pueden estar relacionadas al azar

BLAST provee, junto con la puntuación final de la alineación, un valor de significancia

estadística que permite distinguir cuando dos secuencias están evolutivamente relacionadas.

Dicho valor, denominado E-value o valor esperado, indica la probabilidad de que las

alineaciones resultantes de la base de datos hayan ocurrido por azar. El valor E está relacionado

con el valor P, previamente explicado. Dado que este programa compara una secuencia de

entrada contra todas las presentes en una base de datos, utiliza la siguiente fórmula para el

cálculo del valor esperado:

E = M × N × P

Donde M es el número total de residuos en la base de datos, N es el número de residuos de la

secuencia de entrada y P es la probabilidad de que la alineación sea producto del azar [44].

Mientras menor sea el valor resultante, más significativo es el matching.

Empíricamente, este valor puede interpretarse de la siguiente manera:

● E ≤ 10-50: se puede asegurar con total confianza que las secuencias son homólogas.

● 10-50 < E ≤ 10-2 : las secuencias pueden ser consideradas homólogas.

● 10-2 < E ≤ 10: la alineación no puede considerarse relevante pero puede insinuar una

posible relación de homología remota. ● 10 < E: las secuencias no están relacionadas entre sí, o tienen una relación tan distante

que no puede ser detectada por este método.

Debe tenerse en cuenta que el E-value es proporcional al tamaño de la base de datos, por lo que

mientras mayor sea su dimensión, más alto será el valor resultante, y menor será la confianza en

la alineación.

31

Capítulo 3

Programas similares y comparación con la herramienta

En la actualidad, existen diversos programas y herramientas, tanto web como desktop, que

implementan los algoritmos y heurísticas mencionados anteriormente. A continuación se

analizarán distintas opciones disponibles de manera gratuita. Por último, se incluirá el programa

utilizado hasta el momento por investigadores de la Facultad de Ciencias Veterinarias para

comparar las secuencias entre sí de manera tal de obtener los alelos asociados a las mismas.

3.1 Matriz de puntos dotmatcher y dottup son dos programas del EMBOSS, un paquete de software gratuito y de

código abierto para la biología molecular. Ambos resultan muy similares, dado que permiten

obtener una matriz de puntos a partir de dos secuencias de entrada, permitiendo la comparación

de secuencias de ADN o proteínas. El diagrama de puntos es una representación gráfica intuitiva

de las regiones de similitud entre las dos secuencias. Además se tienen diversos parámetros para

configurar la imagen de salida. Ambos pueden ser utilizados de forma web en las siguientes

direcciones URL:

❏ dotmatcher: https://www.bioinformatics.nl/cgi-bin/emboss/dotmatcher

❏ dottup: http://bioinfo.nhri.org.tw/cgi-bin/emboss/dottup

Las siguientes imágenes son capturas de pantallas de ambos programas, en las cuales se pueden

observar las grandes similitudes entre ellos. Sin embargo, dotmatcher permite seleccionar un

32

https://www.bioinformatics.nl/cgi-bin/emboss/dotmatcher

http://bioinfo.nhri.org.tw/cgi-bin/emboss/dottup

tamaño de ventana y un valor umbral que será utilizado por el algoritmo para realizar el

alineamiento.

Fig. 7: Inicio del programa web dotmatcher

33

Fig. 8: Inicio del programa web dottup

Si bien a simple vista parecen no tener diferencia, dotmatcher y dottup difieren en diversos

puntos. Por un lado, dotmatcher genera un diagrama de puntos comparando todas las posiciones

de la primera secuencia de entrada con todas las posiciones de la segunda secuencia de entrada

usando una matriz de sustitución. Las dos secuencias son los ejes de la gráfica de salida. Una

ventana, cuya longitud es especificada por el usuario, se mueve a lo largo de todas las diagonales

posibles. Cada posición en la ventana corresponde a una puntuación por pares de la matriz de

puntuación. El puntaje para toda la ventana es la suma de los puntajes para las posiciones

individuales dentro de ella. Si el puntaje de la ventana está por encima de un valor umbral,

también definido por el usuario, entonces se traza una línea en el diagrama de puntos

correspondiente a la ventana. Por otro lado, dottup no utiliza un valor umbral, sino que sólo

verifica la coincidencia de palabras. Esta diferencia hace que dotmatcher sea más lento pero a su

34

vez más sensible que dottup, lo que se traduce a diferencias entre ambas salidas. Por último, en

ninguno de los dos casos se obtiene el alineamiento resultante entre las dos secuencias.

Fig. 9: Salidas de los programas web dotmatcher y dottup con dos secuencias de prueba

3.2 Algoritmo de Smith-Waterman Water y Matcher son dos herramientas de comparación de secuencias basadas en el algoritmo de

Smith-Waterman. El Instituto Europeo de Bioinformática, conocido como EMBL-EBI,

proporciona acceso gratuito a dichas aplicaciones de análisis de secuencias, ya sea a través de las

API de servicios web RESTful y SOAP, como así también por medio de interfaces web, a través

del siguiente link https://www.ebi.ac.uk/Tools/psa/ [26]. Mientras que Water es un programa

para obtener el alineamiento local entre dos secuencias utilizando el algoritmo de Smith

Waterman, Matcher identifica similitudes locales entre dos secuencias utilizando un algoritmo

riguroso que presenta variaciones con respecto al algoritmo original. Las herramientas pueden

utilizarse tanto con secuencias de nucleótidos como con secuencias de aminoácidos. A

continuación se adjuntan imágenes de las distintas aplicaciones junto con la salida

correspondiente a cada procesamiento.

35

https://www.ebi.ac.uk/Tools/psa/

Fig. 10: Inicio del programa Water por medio de la interfaz web provista por EMBL-EBI

36

Fig. 11: Salida del programa Water con dos secuencias de prueba

37

Fig. 12: Inicio del programa Matcher por medio de la interfaz web provista por

EMBL-EBI

38

Fig. 13: Salida del programa Water con dos secuencias de prueba

39

En las imágenes se puede observar que una misma entrada en ambos algoritmos genera una

alineación ligeramente diferente. Esto se podría asociar a que ambos algoritmos utilizan distintos

valores por defecto para la generación y extensión de los huecos, como así también a que ambos

programas no utilizan el mismo algoritmo. Por otro lado, ambos permiten modificar los valores

por defecto de inicio y extensión de huecos, como así también seleccionar distintas matrices de

sustitución.

3.3 Comparación con bases de datos: FASTA y BLAST EMBL-EBI también proporciona acceso web a los programas FASTA y BLAST en sus distintas

variantes a través del siguiente link https://www.ebi.ac.uk/Tools/sss/, para comparación de

proteínas y de secuencias de ADN con bases de datos preexistentes. En este caso, se analizaron

ambas herramientas respecto al análisis de secuencias de ADN utilizando secuencias de prueba

como entrada.

40

https://www.ebi.ac.uk/Tools/sss/

Fig. 14: Entrada del programa FASTA por la interfaz web de EMBL-EBI

41

Fig. 15: Entrada del programa BLAST por la interfaz web de EMBL-EBI

42

Fig. 16: Fragmento de los resultados del programa FASTA por la interfaz web de EMBL-EBI

43

Fig. 17: Fragmento de los resultados del programa BLAST por la interfaz web de EMBL-EBI

44

Como se puede ver en las figuras 14 y 15, las interfaces web para ambos programas permiten

seleccionar una base de datos preexistente y configurar diversos parámetros, como la

penalización por apertura de un hueco, la penalización de la extensión, la cantidad de secuencias

de salida, entre otros. Los algoritmos fueron probados con la misma base de datos preexistente,

la misma secuencia de prueba, y los parámetros por defecto.

Por un lado, el programa FASTA tarda aproximadamente 30 minutos en ejecutarse con la base de

datos preexistente seleccionada, mientras que el programa BLAST finaliza en 5 minutos. La

salida en ambos casos consta de una lista de 50 secuencias, o el número que se indique en la

configuración inicial, ordenadas de mayor a menor score, y de menor a mayor E-Value. Además

se agrega el resultado del alineamiento de cada una de las secuencias listadas con la secuencia de

entrada. En las figuras 16 y 17 se incluyen únicamente los alineamientos de la primera secuencia,

pero en el anexo se adjunta la salida completa de ambos programas.

Por otro lado, los resultados de ambos algoritmos indican a la misma secuencia como la más

similar, aunque los valores de salida en cuanto a score y E-Value difieran, lo cual puede deberse

a que cada algoritmo realiza sus cálculos con sus propios parámetros por defecto.

El programa BLAST también puede ser utilizado desde la página web del Centro Nacional de

Información Biotecnológica (NCBI, por sus siglas en inglés), por el cual fue creado. En dicha

página web se pueden encontrar distintas formas de usar el programa. Una de ellas es la interfaz

web, con la posibilidad de usar las distintas versiones existentes, ya sea BLASTN, BLASTP,

BLASTX, TBLASTN, TBLASTX. Cada uno de ellos tiene una utilidad determinada. En este caso,

resulta de interés analizar BLASTN, la versión que compara una secuencia de ADN de entrada

con una base de datos de secuencias de ADN, dado que es la funcionalidad que más se asemeja

al objetivo del trabajo.

En la siguiente imagen se puede ver la interfaz web del programa. La misma permite ingresar

una secuencia de entrada para compararla con una base de datos predefinida, o bien para ser

alineada con otra secuencia de entrada. Dicha elección puede realizarse tildando la opción Align

two or more sequences, sin embargo en este caso se seleccionó la comparación con una base de

datos. Por otro lado permite el ingreso de información extra respecto a la secuencia ingresada,

como el tipo de organismo al cual pertenece, o un límite inferior y superior para realizar la

45

comparación. Además, brinda la posibilidad de generar la búsqueda en una base de datos

personalizada, aplicando filtros a la base de datos previamente seleccionada para reducir su

tamaño. Por último, permite la selección de variantes del programa BLASTN original, dando

como alternativas Megablast y Discontiguous Megablast. La misma interfaz indica en un cuadro

informativo, que Megablast es muy rápido para la comparación de secuencias muy relacionadas

(con un porcentaje de similitud cercano al 95%) mientras que Discontiguous Megablast se utiliza

en secuencias de distintas especies (por lo tanto menos relacionadas entre sí), y BLASTN se

presenta como la opción más lenta pero más sensible de las tres. Para el caso de prueba se

seleccionó la última opción.

Fig. 18: Programa BLASTN por la interfaz web de NCBI

46

El programa tardó en correr alrededor de 10 segundos, resultando mucho más rápido que los

programas probados anteriormente y arrojando como resultado la siguiente tabla.

Fig. 19: Resultado del programa BLASTN por la interfaz web de NCBI

Como se puede ver, los resultados arrojaron que la secuencia corresponde al gen BoLA, lo cual

coincide con lo esperado, dado que la secuencia de prueba utilizada es parte del conjunto de

secuencias que constituyen la base de datos del gen BoLA, utilizado en la investigación llevada a

cabo por investigadores de la Facultad de Ciencias Veterinarias. Este reconocimiento fue

realizado de manera automática por el programa, sin ninguna configuración previa además de la

explicada anteriormente.

Si bien la interfaz web del programa BLASTN por la página web de NCBI es muy rápida a la

hora de comparar una secuencia con una base de datos y el resultado de prueba fue coincidente,

corre con la desventaja de no poder crear bases de datos personalizadas con secuencias propias.

Sin embargo, en la página se presentan diversas alternativas para usar los programas. La primera

opción consta de descargar y ejecutar localmente los comandos del programa para crear bases de

datos y realizar comparaciones. Esta opción es totalmente gratuita y no cuenta con limitaciones,

sin embargo al correr en la computadora del usuario la velocidad de ejecución dependerá de los

recursos de la máquina. La segunda opción disponible permite utilizar una interfaz RESTful

expuesta mediante peticiones HTTP a los servidores de NCBI. Si bien esta opción resulta fácil de

47

usar por medio de una aplicación, ya que evita tener que correr procesos localmente, tiene

limitaciones por ser un servicio público. Por este motivo, entre cada llamada debe pasar un

tiempo mínimo de 10 segundos y si se desea realizar más de 50 búsquedas mediante scripts, se

solicita realizarlo durante los fines de semanas o entre las 9 pm y las 5 pm EST. Además, se

solicita enviar el email del usuario entre los parámetros por si ocurre algún error. Por último, se

presenta una tercera opción que consta de utilizar una imagen Docker del programa para poder

utilizarlo en la nube, permitiendo búsquedas ilimitadas sin restringir la performance del

programa a los recursos de la máquina del usuario.

3.4 Herramienta utilizada por los investigadores en la

búsqueda de alelos Si bien existen diversas herramientas que permiten la comparación de secuencias de ADN,

incluso en bases de datos, la búsqueda de alelos es más compleja que una comparación de

secuencias. El problema planteado implica comparar secuencias ambiguas, donde el valor de

algunas posiciones puede ser desconocido, o bien ser resultado de una combinación conocida. En

el primer caso, en dicha posición se encontraría la letra N, que no corresponde con ninguna de

las cuatro bases nitrogenadas que componen el ADN, representando a cualquier base. En el

segundo caso, se encontraría la letra correspondiente a la combinación dada por el alfabeto

IUPAC extendido. Por lo tanto, si una secuencia tiene una letra ambigua en una posición

determinada, por ejemplo una M, los alelos de los cuales proviene esa secuencia deberán tener

una A y una C, sin saber cuál de los dos contiene cada base y sabiendo que si o si ambos alelos

tienen un valor diferente en esa posición. En ese caso, si se compara la secuencia ambigua con

ambas secuencias daría una diferencia en el punto polimórfico, a pesar de que en realidad existe

una relación entre ellas. Los algoritmos y programas previamente analizados no contemplan el

caso de secuencias ambiguas, asignando la misma penalización a la comparación de M con A y

C, que a la comparación de M con T y G. Esto generaría resultados indeseados, ya que se

podrían descartar secuencias que están relacionadas u obtener como secuencias más similares a

48

un par que no cumpla con la combinación para formar los puntos polimórficos de la secuencia

ambigua de entrada.

Para encontrar los alelos de las secuencias ambiguas, investigadores de la Facultad de Ciencias

Veterinarias de la UNICEN llevaban a cabo un proceso manual utilizando el programa CLC

Genomics Workbench. Este programa tiene, entre otras funcionalidades, la capacidad de alinear y

comparar dos o más secuencias de manera visual, facilitando la tarea asignando distintos colores

a las bases nitrogenadas y marcando las diferencias o igualdades por medio de barras en cada

posición, tal como se muestra en la siguiente imagen.

Fig. 20: Comparación de secuencias mediante el programa CLC Genomics Workbench

Por otro lado, los investigadores habían realizado una clasificación de las secuencias de la base

de datos de alelos en base a la frecuencia de aparición en la población de individuos en estudio.

Dicha clasificación les permitía priorizar las secuencias documentadas a la hora de buscar los

alelos asociados a una secuencia ambigua, a modo de agilizar el proceso. A pesar de esa

heurística, el proceso de comparación podía llevar algunos cuantos minutos, incluso horas.

49

https://digitalinsights.qiagen.com/products-overview/analysis-and-visualization/qiagen-clc-genomics-workbench/

Además, hasta un ojo entrenado puede cometer errores a la hora de realizar extensas

comparaciones.

Frente a este problema, se diseñó y se implementó una herramienta que utiliza el programa

BLASTN para encontrar los alelos asociados a una secuencia ambigua de entrada, automatizando

la tarea que era realizada de forma manual, de forma tal que el tiempo de comparación se vea

reducido a minutos y los errores humanos sean evitados.

50

Capítulo 4

Diseño e implementación

En este capítulo se detallarán las tecnologías utilizadas para la implementación de la solución,

como así también el proceso de diseño y desarrollo en base a los requerimientos funcionales y no

funcionales de la herramienta, integrando diagramas UML que fueron de ayuda durante el

proceso de desarrollo.

4.1 Elección de las tecnologías En la actualidad, existen numerosos lenguajes, librerías y herramientas que permiten desarrollar

programas y scripts aplicados al área de la bioinformática. Entre los lenguajes interpretados más

utilizados se pueden encontrar Perl, Python, Java y Ruby.

Por un lado, Perl cuenta con BioPerl, una colección de módulos que realizan funciones útiles en

bioinformática, como cargar un archivo FASTA o analizar la salida del programa BLAST. Al ser

un lenguaje de scripting, la programación resulta más ágil, ya que cada cambio realizado puede

probarse rápidamente. Si bien es capaz de manejar objetos, no es verdaderamente un lenguaje

orientado a objetos [2]. Por otro lado, permite resumir el código en gran medida y puede

escribirse código de manera desestructurada, dando lugar al desarrollo de scripts tan crípticos y

desordenados que resulten difíciles de comprender, lo cual no suele suceder con Python y Ruby.

Estos últimos son lenguajes con una sintaxis más limpia y realmente orientados a objetos, lo que

facilita la lectura, organización y reutilización del código, aunque diversas pruebas los han

catalogado como lenguajes más lentos que Perl [15]. Sin embargo, la tendencia actual ubica a

Python y a Biopython, su librería aplicada a la bioinformática, como uno de los lenguajes más

utilizados en el área [2].

51

Otro lenguaje ampliamente utilizado en la actualidad que posee una librería especializada en

bioinformática es Java. Este lenguaje orientado a objetos cuenta con BioJava, el cual contiene

módulos destinados a manipular y alinear secuencias, a identificar modificaciones en proteínas,

al uso y análisis de datos genómicos, entre otras funcionalidades. A diferencia de los lenguajes

mencionados previamente, Java es semi-compilado, lo que lo hace más rápido que a los

interpretados.

Por último, R y MATLAB son lenguajes y entornos utilizados en la bioinformática,

principalmente para llevar a cabo análisis estadísticos. Ambos tienen una gran cantidad de

paquetes especializados en el área de la biología y se suelen utilizar a la hora de trabajar con

tablas de datos organizados en matrices. Sin embargo, cuando los datos tienen una estructura más

compleja, pueden resultar bastante lentos.

De las tecnologías mencionadas se eligió Python para el desarrollo del proyecto, por ser un

lenguaje muy utilizado en la actualidad que contiene una serie de librerías útiles para el trabajo

relacionado con secuencias de ADN, incluido BioPython, para el cual se puede encontrar una

documentación muy extensa y explicativa que facilita el desarrollo. Por otra parte, es un lenguaje

simple, flexible y ordenado, lo que permite programar ágilmente diversos tipos de aplicaciones,

además de ser un lenguaje muy portable. Por estas razones, se utilizó Python para desarrollar un

programa que, dado una base de datos de secuencias documentadas (alelos de un determinado

gen) y una secuencia ambigua de entrada, sea capaz de determinar cuáles son los dos alelos de

los cuales proviene la secuencia de entrada.

4.2 Requerimientos de la herramienta La herramienta a desarrollar debía contar con una serie de requisitos funcionales y no

funcionales para hallar la solución del problema.

4.2.1 Requerimientos funcionales

❏ Agregar bases de datos de secuencias no ambiguas, a partir de las cuales se obtienen los

alelos asociados a una determinada secuencia ambigua de entrada. Si bien el problema

52

inicial se trataba de la asignación de alelos de un determinado gen llamado BoLA, la

funcionalidad puede ser extendida para cualquier gen que pueda presentar polimorfismo.

Por esta razón, resultó necesaria la funcionalidad de agregar bases de datos de secuencias.

❏ Eliminar una base de datos: dado que es posible agregar bases de datos, resulta necesario

poder eliminar cualquier base de datos del sistema.

❏ Editar bases de datos, con posibilidad de agregar o eliminar secuencias a una base de

datos preexistente.

❏ Comparar una secuencia ambigua de entrada con una base de datos, obteniendo como

resultado una lista de las combinaciones de alelos más similares, ordenada de acuerdo a

los valores de score resultante para cada combinación.

❏ Seleccionar la cantidad de combinaciones de alelos deseadas en la salida de la

comparación.

❏ Alinear dos secuencias, ya sean ambiguas o no, obteniendo su valor de similitud y el

resultado del alineamiento.

4.2.2 Requerimientos no funcionales

❏ Brindar una interfaz gráfica. Dado que los usuarios finales de la herramienta serían

investigadores del área de Ciencias Veterinarias de la UNICEN, resulta necesario que la

solución final sea simple de usar. Por este motivo, se debe presentar al usuario una

interfaz gráfica intuitiva y sencilla.

❏ Tener un tiempo de procesamiento significativamente menor al que les llevaba a los

investigadores realizar la misma tarea de comparación de forma manual, logrando una

reducción de horas a minutos o segundos.

❏ La aplicación debe poder utilizarse en el sistema operativo Windows, dado que es el que

utilizan los usuarios finales.

❏ El sistema debe reconocer y aceptar como entrada el formato de archivo FASTA,

utilizado en bioinformática para representar secuencias de ADN.

53

4.2 Diseño e implementación del primer prototipo La solución inicial para el problema planteado constó en una aplicación desktop, utilizando el

programa BLASTN de manera local, por las ventajas previamente mencionadas, y framework Qt

por medio de la librería Pyside. El desarrollo se basó en la arquitectura llamada MVC

(Modelo-Vista-Controlador), con la cual se organiza la aplicación separando la lógica de

negocio, la representación de los datos y la comunicación entre ellos en diferentes módulos,

llamados Modelo, Vista y Controlador respectivamente. Este modelo arquitectónico permite

lograr una clara organización del proyecto, facilita el manejo de errores, y permite la

escalabilidad y la reutilización de componentes, en caso de ser requerido.

Fig. 21: Interacción entre los módulos MVC

4.2.1. Modelo

El modelo consiste en una serie de clases encargadas de la administración de base de datos, de la

ejecución del programa BLASTN y de la obtención de los resultados. A continuación se detallará

cada una de las funcionalidades.

54

Fig. 22: Diagrama de Clases UML del Modelo de la versión desktop

Administración de las bases de datos

La base de datos utilizada por el programa BLASTN consta de un archivo de texto donde se

encuentran todas las secuencias en formato FASTA, ubicadas una tras otra de manera secuencial.

Fig. 23: Base de datos BLAST

55

Este archivo es construido a partir de archivos de texto de entrada ubicados en un determinado

directorio. Cada archivo de entrada debe contener una única secuencia, cuyo formato también

debe ser FASTA. Para que el archivo de texto resultante pueda ser utilizado por el programa, es

necesario correr un comando que es proporcionado por el programa BLASTN.

La solución administra las bases de datos utilizando las siguientes clases:

❏ DbCreator: Es una clase abstracta en la que se define el método makeDb y los atributos

necesarios para crear una base de datos BLASTN, tales como el directorio de entrada, el

nombre de la base de datos, y el directorio de salida. El método makeDb es definido pero

no implementado en esta clase.

❏ SimpleDbCreator: Esta clase hereda de DbCreator los atributos y el método makeDb.

Este último, es implementado de manera tal que, a partir de los archivos del directorio de

entrada, genera un archivo FASTA con todas las secuencias, y luego ejecuta el comando

makeblastdb de BLASTN, con los parámetros requeridos (directorio de entrada, directorio

de salida, y tipo de base de datos), obteniendo una base de datos que puede ser utilizada

por el programa BLASTN.

❏ AmbiguousDbCreator: Esta clase también hereda de DbCreator, pero su implementación

del método makeDb es muy distinta a la de SimpleDbCreator. Como su nombre lo indica,

esta clase crea una base de datos ambigua. Esto se debe a que el problema que se quiere

resolver implica encontrar la combinación de dos secuencias que más se asemeje a la

secuencia ambigua de entrada. Para ello, se crea una base de datos de todas las

combinaciones de a pares posibles, generando secuencias ambiguas. Para lograr la

creación de una base de datos ambigua, el método makeDb se encarga de obtener todas

las secuencias de una base de datos simple, comparar y alinear cada una de ellas contra la

misma base de datos, y a partir de cada alineación generar una secuencia ambigua

teniendo en cuenta el alfabeto de IUPAC. Cada nueva secuencia ambigua resultante es

agregada a un archivo intermedio con el cual se crea la base de datos final. De esta

manera, se obtiene una base de datos de N x N con todas las secuencias ambiguas

posibles. Para llevar a cabo esta tarea, hace uso de SimpleBlast, encargada de ejecutar el

56

programa de alineamiento de secuencias. Los archivos resultantes son guardados dentro

de una carpeta del sistema.

❏ DbAdmin: Es la clase encargada de las funcionalidades relacionadas con las bases de

datos, tales como agregar una nueva base de datos, eliminar una base de datos existente, y

agregar o eliminar secuencias de una base de datos determinada. Para lograr dichas

funcionalidades hace uso de las clases anteriormente mencionadas. Por otro lado,

implementa la interfaz QRunnable de Qt, y por lo tanto el método run(). Esto permite

llevar a cabo tareas asíncronas que no proveerán resultados inmediatos en un thread

independiente. Una vez que el procesamiento de datos termina, se emite una señal que es

recibida por el controlador, el cual se encargará de actualizar la vista con los resultados.

De esta manera, la aplicación no queda bloqueada hasta el final de la tarea. La clase

encargada de la definición de los distintos tipos de señales es HaploSignal.

Comparación con una base de datos

La comparación de una secuencia de entrada con una base de datos es llevada a cabo utilizando

el programa BLASTN. Hay dos clases encargadas de utilizar dicho programa, SimpleBlast y

GlobalBlast. Ambas implementan el método align(), pero tienen distinta funcionalidad, ya que

SimpleBlast permite comparar una secuencia con una base de datos, mientras que GlobalBlast

permite alinear una base de datos contra sí misma.

❏ SimpleBlast: Esta clase se encarga de comparar una secuencia de entrada con una base de

datos determinada, obteniendo un archivo de salida con todas las alineaciones resultantes.

Para esto, necesita el directorio donde se encuentra la base de datos, el nombre, el

formato y el directorio del archivo de salida. BLASTN es llamado por medio de una

librería de Biopython llamada NcbiblastnCommandLine, la cual permite generar un

proceso que ejecuta el programa con los parámetros deseados. SimpleBlast es utilizada

por HaplotypesSearcher, la clase encargada de hallar los resultados de la comparación de

una secuencia con una base de datos ambigua. Al igual que DbAdmin,

HaplotypesSearcher implementa la interfaz QRunnable, y por lo tanto el método run(),

en el cual llama a SimpleBlast para procesar las comparaciones. Los resultados obtenidos

57

son leídos por ResultAnalizer, la cual le retorna a HaplotypesSearcher la lista de

combinaciones más similares a la secuencia de entrada, de acuerdo a la cantidad de

elementos de salida solicitada por el usuario a través de la interfaz gráfica. Una vez

finalizado el proceso, se emite una señal que es recibida por el controlador

correspondiente, que actualiza los datos en la vista, mostrando los resultados.

❏ GlobalBlast: Es la clase encargada de comparar todas las secuencias de una base de datos

entre sí, generando un archivo de salida con N alineaciones para cada una de las N

secuencias de la base de datos original. Cada alineación en dichos archivos es utilizada

por DbAdmin para generar la base de datos ambigua.

4.2.2. Vista

Fig. 24: Diagrama de Clases UML de la Vista de la versión desktop

58

La vista de la aplicación fue realizada utilizando el framework Qt. Para el diseño de las vistas se

utilizó la herramienta Qt Designer, la cual permite desarrollar interfaces de manera gráfica y

sencilla mediante drag and drop de componentes configurables. Los archivos generados por

medio de la herramienta pueden ser traducidos a código Python por medio de la librería Pyside a

través del comando pyside-uic compareView.ui > compareView_ui.py, en el cual

compareView.ui es el archivo generado por Qt Designer y compareView.py es el archivo Python

que se va a generar.

Dentro del archivo de salida, se encuentra la clase Ui_MainWindow que se genera

automáticamente a partir del archivo de entrada. En dicha clase se encuentran todos los

componentes agregados por medio de la herramienta. Todos esos componentes y sus acciones

asociadas son parte de las clases QtCore y QTGui, en las cuales se definen las principales

funciones para construir las aplicaciones Pyside. Mientras que QtGui contiene las funciones

relacionadas con los widgets, botones, etiquetas, líneas de texto, entre otros componentes,

QtCore tiene los métodos relacionados a las señales y ranuras (también conocidos como signals

y slots) que permiten comunicar los widgets entre sí y con otros elementos de Qt.

Una vez obtenida dicha clase, es necesario agregar comportamiento a la vista, en base a las

funcionalidades deseadas. En este caso, se utilizó un widget principal al cual se le fueron

agregando otros widgets, uno por cada funcionalidad del sistema, con los elementos necesarios

para llevar a cabo cada tarea. Por ese motivo, resultó necesario mostrar aquellos elementos

asociados a cada funcionalidad, ocultando los elementos restantes, de acuerdo a la opción

seleccionada por el usuario. Para ello se creó la clase MainWindow, que hereda de

Ui_MainWindow y de QMainWindow (otro elemento de QtGui), y contiene una instancia de cada

controlador. En el constructor de la clase MainWindow se asocian eventos a los elementos del

menú principal, de manera tal que al hacer clic en un determinado botón se muestre la vista

deseada. Esto último es llevado a cabo mediante los siguientes métodos:

❏ changeToAdd: adapta la vista a la funcionalidad de agregar una base de datos.

❏ changeToEdit: muestra los elementos necesarios para editar una base de datos.

❏ changeToDelete: muestra el widget con los elementos necesarios para llevar a cabo el

borrado de una base de datos.

59

❏ changeToCompare: muestra los elementos necesarios para llevar a cabo la comparación

de una secuencias con una base de datos determinada

❏ changeToAlign: encargada de mostrar los elementos necesarios para alinear dos

secuencias entre sí.

Para cada una de las funcionalidades específicas, los controladores correspondientes

implementan la función configureView, en la cual se configura el comportamiento de cada

elemento del widget asociado. A continuación se muestran cada una de las vistas del sistema.

Menú principal

El menú principal es lo primero que se muestra al iniciar la aplicación. Desde el mismo se

pueden navegar las distintas bases de datos ambiguas utilizando el panel lateral izquierdo, como

así también seleccionar cualquiera de las funcionalidades del sistema, mediante los botones

ubicados en la sección derecha. Las opciones brindadas son: Comparar una secuencia con una

base de datos, Agregar base de datos, Editar base de datos, Eliminar base de datos y Alinear

dos secuencias.

Fig. 25: Menú principal de la aplicación desktop

60

Comparación de una secuencia con una base de datos

Inicialmente, la vista contiene el área de texto y la tabla de resultados en blanco. El selector que

se encuentra en la esquina superior izquierda permite cambiar la base de datos con la cual se va a

comparar la secuencia. El contador de la esquina superior derecha permite seleccionar la

cantidad de resultados que se desean obtener, con un mínimo de 1 y un máximo de 99. En el caso

de ejemplo, se utilizó una secuencia que es parte de la base de datos, por lo que la combinación

más similar resultante es ella misma (DRB3*0101-DRB3*0101).

La tabla de resultados contiene en cada fila el nombre combinación, formada con nombres del

par de secuencias concatenados, el score y el E-value obtenidos como salida del programa

BLASTN, y el valor de similitud. Éste último es calculado como la razón entre la cantidad de

residuos utilizados para comparar la secuencia de entrada con la combinación y la cantidad de

coincidencias en la comparación, ambos obtenidos de la salida del programa BLASTN.

La salida es ordenada de mayor a menor similitud y de menor a mayor E-value, dado que este

último indica la probabilidad de que no haya una relación real entre las secuencias comparadas.

Fig. 26: Comparación de una secuencia con una base de datos en la versión desktop

61

Agregar una base de datos

Dado que uno de los requerimientos funcionales era poder agregar bases de datos de secuencias

de ADN, se provee una vista en la cual se solicita al usuario el nombre de la base de datos a

agregar y el directorio que contiene las secuencias a ingresar. Al hacer clic en el botón

Seleccionar carpeta de archivos se abre un explorador de archivos del sistema que permite

navegar los distintos directorios existentes en la computadora del usuario y seleccionar uno de

ellos.

Una vez seleccionada la carpeta, el sistema verifica que todos los archivos tengan el formato

FASTA y que puedan ser reconocidos como secuencias de ADN por medio de las librerías de

Biopython. En caso de haber algún error, el usuario es informado y el proceso se detiene. En caso

contrario, se crea una base de datos ambigua y se le informa al usuario una vez que la misma esté

disponible, además de agregarse a la lista de bases de datos que el usuario puede seleccionar.

Fig. 27: Agregar una nueva base de datos en la versión desktop

Editar una base de datos

Esta vista permite agregar o eliminar secuencias de una base de datos seleccionada. Para eliminar

una secuencia se debe hacer doble click sobre el archivo deseado en la lista del panel lateral

izquierdo. El nombre de la secuencia seleccionada aparecerá a la derecha y el botón Eliminar

62

secuencia se habilitará. Este botón eliminará la secuencia de la base de datos seleccionada y

ejecutará el proceso para obtener la base de datos ambigua resultante.

Para agregar una nueva secuencia se debe ingresar el nombre que tendrá el archivo a crear y el

contenido de la secuencia. Cuando ambos campos estén completos se habilitará el botón Agregar

secuencia, el cual generará un archivo con el formato FASTA y ejecutará el proceso necesario

para incluir la secuencia dentro de la base de datos ambigua.

Fig. 28: Editar base de datos en la versión desktop

Eliminar una base de datos

Dado que es posible agregar bases de datos, resulta necesario poder eliminarlas del sistema. Para

ello se provee una vista que permite seleccionar la base de datos que se desea eliminar, por

medio de un selector. Al hacer clic en el botón Eliminar base de datos se solicita la confirmación

del usuario. Si el usuario confirma, se eliminan del sistema todos los archivos relacionados con

la base de datos seleccionada y, una vez finalizado el proceso, se elimina la opción de los

selectores y se le informa al usuario que la eliminación ya fue realizada.

63

Fig. 29: Eliminar una base de datos en la versión desktop

Alinear dos secuencias entre sí

Para alinear dos secuencias entre sí, esta vista provee dos áreas de texto y un botón para

comenzar la alineación. Al iniciar el proceso se muestra una barra de progreso. Luego de unos

instantes, cuando la alineación termina, la barra de progreso desaparece y se puede ver el

resultado clickeando el botón Ver alineación, el cual permite guardar la alineación resultante en

un archivo PDF que es abierto en el lector de PDF del sistema.

Fig. 30: Alineamiento de dos secuencias en la versión desktop

64

4.2.3. Controlador

Fig. 31: Diagrama de clases UML de los controladores de versión desktop

Los controladores del sistema son una serie de clases encargadas de la comunicación entre la

vista y el modelo. Desde la vista se ingresan los datos de entrada para llevar a cabo una

determinada funcionalidad, y el controlador correspondiente se encarga de pedirle al modelo el

procesamiento de dichos datos, para luego actualizar la vista con los resultados obtenidos.

Todos los controladores heredan de la clase Controller, la cual contiene una instancia de la vista

(MainWindow), del administrador de base de datos, del buscador de haplotipos, y de

QThreadPool. Esta última es necesaria para poder ejecutar el método run del administrador de

base de datos y del buscador de haplotipos, dado que ambos heredan de la clase QRunnable. Por

otro lado, también posee la lista de bases de datos del sistema e implementa las funciones

getDatabases y setDatabases, las cuales permiten obtener la lista de bases de datos y setearla a

los elementos de la vista que la requieran. Por último, define el método configureView, el cual no

es implementado.

65

Cada uno de los controladores que heredan de la clase previamente mencionada se encargan de

un requisito funcional específico. Todos ellos implementan el método configureView, de modo

tal que configuran los elementos las vistas asociadas a su funcionalidad. De esta manera, se

conectan los botones, áreas de textos, tablas, etc., con las funciones que llaman al modelo para

procesar los datos y mostrar los resultados. Los controladores específicos son los siguientes:

❏ AddController: Este controlador se encarga de la funcionalidad de agregar una base de

datos, configurando los elementos del widget correspondiente, e implementando métodos

que se encargan de obtener los archivos del directorio seleccionado en la vista y

corroborar que tengan el formato válido antes de llamar al administrador de base de datos

con los datos de entrada.

❏ AlignController: Esta clase contiene los datos del par de secuencias ingresado por el

usuario en las áreas de texto de la vista de alineación de secuencias. Además, posee una

instancia de Aligner, la clase encargada de la alineación entre dos secuencias. Cuando el

botón para alinear dos secuencias es presionado, este controlador llama a la instancia

previamente mencionada para que lleve a cabo el proceso correspondiente y, al finalizar,

emite la señal aligned, que es captada por el controlador. Dicha señal se conecta con la

función showAlignment, la cual configura elementos de la vista como el botón para ver la

alineación o la barra de progreso y llama a la función showResults, encargada de obtener

un pdf con los resultados obtenidos.

❏ CompareController: Este controlador, además de configurar la vista relacionada con la

comparación de una secuencia con una base de datos ambigua, tiene una instancia de la

clase CustomTableModel, la cual hereda de QAbstractTableModel implementando las

funciones necesarias para mostrar una lista de objetos en una tabla. De esta manera,

cuando se presiona el botón para realizar la comparación se llama a la función compare,

encargada de la configuración del comportamiento de la interfaz de usuario, se obtiene la

secuencia de entrada guardandola en un archivo temporal, y se ejecuta la función run del

buscador de haplotipos con la base de datos seleccionada. Cuando el proceso termina, se

emite la señal result, previamente conectada al método showResult del controlador. Éste

66

último es quien se encarga de mostrar los resultados en la tabla implementada por la clase

CustomTableModel.

❏ DeleteController: Es el controlador encargado de la vista y la funcionalidad de eliminar

una base de datos. Además de la función configureView, implementa la función deleteDb,

en la cual obtiene el dato de la base de datos seleccionada por el usuario y ejecuta el

método run del administrador de base de datos. Una vez eliminada, el administrador

emite la señal deleted, la cual está conectada a la función deletedDb, encargada de

mostrar el mensaje correspondiente en la vista. Por otro lado, las funciones showWidget y

hideWidget permiten mostrar el mensaje de alerta al usuario, previo a la eliminación de la

base de datos, para evitar la eliminación de secuencias por error.

❏ EditController: Se encarga de la vista y funcionalidad relacionada con agregar o eliminar

secuencias de una determinada base de datos. Para ello implementa una serie de

funciones, tales como:

❏ changeDb: permite cambiar la base de datos de destino al cambiar la opción del

selector. Además, muestra en la interfaz gráfica cuál base de datos se estará

editando.

❏ setSelectedSeq: permite cambiar la secuencia seleccionada para eliminar al hacer

doble clic en algún archivo del panel izquierdo, actualizando la vista para saber

cuál es la secuencia a eliminar y habilitando el botón Eliminar secuencia.

❏ validSeq, checkSeqName y checkSeqContent: son funciones de validación de la

secuencia de entrada, dando un mensaje de error en caso de que se ingresen

valores erróneos o que la secuencia ya exista en la base de datos.

❏ deleteSeq: es la función ejecutada al presionar el botón Eliminar secuencia, y la

encargada de configurar la opción de borrado y la secuencia a eliminar en el

administrador de base de datos, ejecutando luego el método run, el cual emite la

señal deletedSeq al finalizar. Dicha señal dispara la ejecución de la función

dbReady, que configura los elementos de la vista para mostrar el resultado de la

ejecución.

67

❏ addSeq: Al contrario que la función anterior, esta es la encargada de agregar una

secuencia a la base de datos seleccionada. Es ejecutada al presionar el botón

Agregar secuencia, y básicamente configura el administrador con los datos de

entrada (base de datos, nombre de la nueva secuencia y contenido) previo a

ejecutar el método run. En este caso, este emite la función addedSeq, conectada a

la función newSeqReady, la cual indica en la interfaz gráfica el resultado del

procesamiento.

La relación entre el modelo, la vista y el controlador permiten lograr el funcionamiento del

sistema, brindando una solución al problema mediante una aplicación de escritorio, capaz de ser

empaquetada e instalada en otra computadora con sistema operativo Windows.

4.3 Diseño e implementación del segundo prototipo Una vez finalizado el diseño y desarrollo de la solución desktop se planteó la posibilidad de

realizar una herramienta web que permita solucionar el problema planteado. Ante esto, se realizó

un prototipo de aplicación web adaptando el diseño preexistente de la versión de escritorio,

aunque teniendo en cuenta las diferencias entre los requerimientos funcionales de ambas

versiones, dado que en el prototipo web se agregaron las siguientes funcionalidades:

❏ Administración de bases de datos por usuarios: Cada usuario debe ser capaz de

administrar su propia base de datos sin interferir en la de los demás usuarios.

❏ Registrar usuarios: Para cumplir el requisito anterior es necesario poder agregar usuarios

al sistema.

❏ Login de usuarios: Los usuarios deben poder ingresar al sistema con un usuario y una

contraseña.

❏ Logout de usuarios: Se debe brindar la posibilidad de salir del sistema, cerrando la sesión.

Por otra parte, al ser una aplicación web, se planteó una arquitectura Cliente-Servidor, en la cual

un cliente o grupo de clientes realizan peticiones a un servidor, que actúa como depósito de datos

68

y ofrece un conjunto de servicios que ejecuta de acuerdo a las peticiones recibidas, dando una

respuesta a los clientes.

Fig. 32: Arquitectura Cliente-Servidor.

Para el desarrollo del servidor se reutilizó parte del modelo ya implementado y se agregaron

nuevas funcionalidades, utilizando el framework Flask por su simplicidad y facilidad a la hora de

crear aplicaciones web. Por otro lado, se diseñó el lado cliente en base a los nuevos

requerimientos. A continuación se explicará el diseño e implementación de la solución.

4.3.1. Servidor

El servidor consta de un modelo y de una serie de controladores para llevar a cabo las

funcionalidades necesarias. Al recibir una petición HTTP, Flask permite vincular la URL

enviada desde el cliente con funciones del servidor, desde las cuales se puede acceder al objeto

request, que posee toda la información de la petición HTTP. Los endpoints utilizan los

controladores correspondientes para llevar a cabo su tarea, los cuales a su vez hacen uso del

modelo. A continuación se presenta el diseño de los controladores y del modelo a modo general,

y luego se detalla cómo son utilizados por cada uno de los endpoints.

69

Modelo

Para la implementación del modelo se reutilizaron la mayoría de las clases de la versión de

escritorio. Sin embargo, algunas de ellas fueron adaptadas a los nuevos requerimientos y también

se debieron agregar nuevas clases.

Fig. 33: Diagrama de clases UML del modelo de la versión web

Las principales diferencias con el modelo de la versión de escritorio se encuentran en las clases

DbAdmin y HapotypesSearcher, las cuales en la versión previamente explicada heredan de una

clase propia de Qt (QRunnable) y ejecutaban sus principales funcionalidades en forma de hilos o

threads. En este caso, no existe tal herencia, y las funciones principales son llamadas por los

controladores sin threads de por medio. Por esta misma razón, tampoco se utilizan señales al

terminar el procesamiento de los datos.

Por otro lado, se implementó la clase User, la cual contiene como atributos el email, contraseña y

nombre del usuario, y hereda de la clase UserMinix perteneciente a la librería flask_login. Ésta

librería es parte del framework Flask, y permite implementar de manera sencilla la autenticación

de usuarios al sistema. Para ello, la clase User implementa una serie de funciones declaradas en

UserMinix.

70

Controladores

Los controladores son una serie de clases que funcionan de intermediarias entre los endpoints y

el modelo.

Fig. 34: Diagrama de clases UML de los controladores de la versión web

En este caso, se tiene una herencia de clases, en la cual la clase padre (Controller) contiene

funciones y atributos necesarios para todos los hijos. Cada uno de los controladores que heredan

de dicha clase se encarga de una funcionalidad específica. A continuación se explicará

brevemente cada uno de ellos:

❏ CompareController: Es utilizado por las APIs encargadas de realizar comparaciones y

alineaciones de secuencias, ya sea contra una base de datos ambigua o contra otra

secuencia de entrada. Para ello implementa la función compare, la cual recibe como

parámetros el contenido de la secuencia de entrada, la base de datos a utilizar, la cantidad

máxima de resultados esperados y el valor ambiguo, que indica si la comparación es

contra una base de datos ambigua o simplemente contra otra secuencia.

❏ UserController: Este controlador es utilizado por los endpoints que se encargan de

realizar operaciones con usuarios, dado que implementa las siguientes funciones:

❏ addUser: permite agregar un nuevo usuario con un mail, un nombre y contraseña.

❏ getUser: permite obtener un usuario de la base de datos a partir de su email, el

cual funciona como atributo único e identificador.

❏ saveUser: permite editar el nombre y la contraseña de un usuario, no así su email,

dado que funciona como id del objeto en la base de datos.

71

❏ DbAdminController: Es el controlador encargado de realizar operaciones relacionadas

con las bases de datos de los usuarios, haciendo uso del objeto dbAdmin declarado en el

padre. Las operaciones que permite llevar a cabo esta clase son las siguientes:

❏ createDb: permite crear una base de datos ambigua, al recibir el email del usuario

logueado y el nombre asignado a la base de datos.

❏ createSimpleDb: permite crear una base de datos no ambiguas, recibiendo el

email del usuario y el nombre de la nueva base de datos.

❏ deleteDatabase: esta función se encarga de eliminar una base de datos

seleccionada por el usuario.

❏ deleteSequence: es la función encargada de eliminar una secuencia determinada

de una base de datos seleccionada por el usuario. Para ello, recibe el nombre del

usuario logueado, el nombre de la base de datos y el nombre de la secuencia.

❏ restartDb: permite volver a configurar una base de datos ambigua a partir de los

archivos seleccionados. De esta manera, se pueden agregar nuevas secuencias y

volver a generar la combinación entre todas ellas, reemplazando la base de datos

anterior.

4.3.2. Cliente

El lado cliente de la aplicación web fue implementada utilizando HTML, CSS y JavaScript.

HTML es un lenguaje de marcas de hipertexto o de etiquetas, con las cuales se puede definir la

estructura de la página web utilizando elementos como títulos, párrafos, secciones, imágenes,

etc.

Por otra parte, CSS permite establecer el diseño visual que tendrá la página, otorgándoles estilos,

colores, fuentes, tamaños y disposición espacial a dichos elementos.

Por último, Javascript es un lenguaje de programación interpretado, orientado a objetos,

débilmente tipado y dinámico, lo cual lo hace muy versátil y útil a la hora de otorgar dinamismo

a las páginas web desde el lado cliente, aunque también puede ser utilizado para la

implementación del servidor. En este caso, fue utilizado para otorgarle dinamismo a la página,

mediante la implementación de funciones que procesan los resultados o que disparan acciones

72

ante eventos. Además, se utilizó la librería de JavaScript denominada JQuery, que permite

trabajar de una manera muy simple con los elementos de los documentos HTML desde los

scripts, así como también interactuar con los endpoints del servidor mediante el uso de funciones

AJAX. Dicha técnica es una tecnología asíncrona, que permite realizar peticiones al servidor

desde el lado cliente sin interferir con la visualización ni el comportamiento de la página web.

Particularmente, en las vistas se utilizó AJAX en las funcionalidades relacionadas a agregar y

eliminar secuencias a una base de datos, para las cuales se realiza una petición al servidor

mientras la vista indica que se está procesando la solicitud. Una vez que el servidor responde, la

vista es actualizada con los datos obtenidos como respuesta.

El framework Flask reconoce los elementos de la vista que se encuentran en el directorio

/template y /statics. Mientras que en el primer directorio se ubican los archivos HTML, en el

segundo se encuentran los archivos CSS, los JavaScript, las imágenes y los íconos utilizados por

la vista. Los archivos HTML pueden ser utilizados por los endpoints, e incluso se les puede

enviar información, tal como en el siguiente ejemplo, el cual corresponde al endpoint de login de

la aplicación: return render_template("login.html", email="", password="", username="", msg="Please

enter a valid user")

Como se puede observar, se llama a la función render_template con el nombre del archivo

HTML a mostrar, y cada uno de los datos que se quieran mostrar u obtener de la vista, los cuales

se vinculan con los elementos de la vista por medio de la notación {{ <variable> }}, de la

siguiente manera: <input type="email" name="email" id="email" class="form-control" value="{{ email }}"

required placeholder="Email" >

De este modo, es posible lograr una comunicación entre cada una de las vistas y los endpoints de

la aplicación.

4.3.3. Endpoints

La aplicación web contiene una serie de endpoints para llevar a cabo las distintas funcionalidades

del sistema. Todos los endpoints se encuentran en un archivo llamado app.py, en el cual se

inicializan los controladores y Flask, y se ejecuta el método que hace funcionar la aplicación

73

mediante la sentencia app.run(). A continuación se explicará cada uno de los endpoints, como

así también la relación entre el lado cliente y servidor de la aplicación.

Login

El primer punto de acceso a la aplicación, correspondiente a la URL “/” mediante el método

HTTP GET es la función login, la cual hace uso de la librería Flask Login, cuyo objetivo es

facilitar el manejo de sesión de usuario. De esta manera, lo primero que hace esta función es

corroborar si el usuario actual, gestionado por el módulo flask_login, está autenticado. En caso

afirmativo, se redirecciona al usuario al interior del sistema, y en caso contrario se utiliza la

función render_template para mostrar la vista del login.

Fig. 35: Login de la aplicación web

En la vista del login se muestra el nombre del sistema y se le solicita al usuario el ingreso del

email y de la contraseña, la cual tiene un formato de 6 caracteres que pueden ser números o

letras. También se muestra la opción para registrarse, en caso de no ser usuario del sistema, y los

logos de la Universidad Nacional del Centro de la Provincia de Buenos Aires, de las facultades

de Ciencias Exactas y Veterinarias, con los links a las respectivas páginas web de cada una de

ellas.

74

Cuando el usuario presiona login, se envía una petición al mismo endpoint “/” utilizando el

método POST. Es entonces cuando la función de login verifica el usuario y la contraseña

ingresadas, haciendo uso de UserController. Si los datos ingresados se corresponden con un

usuario del sistema, se utiliza Flask Login para registrar el inicio de sesión del mismo, y luego se

lo redirecciona al interior del sistema.

Unauthorized

Flask Login permite utilizar la notación @login_required en cada uno de los endpoints que

requieran que el usuario esté logueado para poder acceder. Cuando cualquiera de ellos es

llamando con un usuario no logueado en el sistema, automáticamente ejecuta la función

unauthorized(), que debe ser implementada en la aplicación. En este caso, dicha función

redirecciona al usuario a la URL “/”, correspondiente a la vista de inicio.

Register

Cuando el usuario presiona el botón para registrarse, es redireccionado a la URL /register,

correspondiente a la función register() en el archivo app.py. Dicha función renderiza el

correspondiente archivo HTML, donde se le solicita al usuario el nombre completo, el email y

una contraseña.

Fig. 36: Registrar un nuevo usuario en la aplicación web

75

Una vez ingresados los datos y presionado el botón Register, se hace una petición HTTP con el

método POST al mismo endpoint, el cual hace uso de UserController para agregar el usuario. Al

agregarlo a la base de datos, el modelo cifra la contraseña ingresada utilizando la librería

Werkzeug. Una vez procesada la petición, se le indica al usuario si la registración fue exitosa o

no por medio de un mensaje.

Compare

Una vez que el usuario accede, se envía una petición HTTP utilizando el método GET a la

dirección “/compare/<id>”, donde <id> es el email ingresado en el paso previo. La función

compare obtiene el usuario con el id recibido como parámetro, utilizando la instancia de

UserController, y la lista de bases de datos del mismo, mediante DbAdminController. Con

dichos datos, se renderiza la vista correspondiente que se muestra a continuación.

Fig. 37: Comparación de una secuencia con una base de datos en la aplicación web

La página permite al usuario seleccionar un número de secuencias de salida y una base de datos,

como así también ingresar una secuencia de ADN con el formato FASTA, tal como indica la

secuencia de ejemplo. Al presionar Search se envía una petición al mismo endpoint pero de tipo

POST, con la cual se obtienen los datos del formulario y se llama a la función compare de

76

CompareController con la secuencia de entrada, la cantidad de resultados deseados, la base de

datos seleccionada, el id del usuario y el booleano ambiguos en True, dado que se va a contrastar

la secuencia de entrada con una base de datos ambigua. Cuando se obtienen los resultados se

renderiza nuevamente la vista, utilizando una función JavaScript para construir la tabla de

resultados.

Por otro lado, la página contiene una barra lateral con el menú de opciones y un header con un

icono de usuario, desde el cual se despliega otro menú que permite editar el usuario y

desloguearse del sistema. La misma estructura se mantiene en todas las páginas internas de la

aplicación.

Align

Al seleccionar la opción align del menú lateral, se redirecciona a la URL /align/<id>, donde

<id> es el email del usuario logueado en el sistema. La función vinculada a dicha URL renderiza

la vista correspondiente, donde se solicita el contenido de dos secuencias de ADN, ambiguas o

no, en formato FASTA, mostrando dos secuencias de ejemplo.

Al presionar el botón Align se realiza una petición HTTP con el método POST al mismo

endpoint. Allí se obtienen las dos secuencias de entrada, y se utiliza la instancia de

DbAdminController para crear una base de datos FASTA temporal con la primera secuencia.

Luego se utiliza a CompareController para obtener los resultados de la comparación de la

segunda secuencia con la base de datos previamente creada. Al obtener el resultado, se utiliza

nuevamente DbAdminController para eliminar la base de datos temporal y luego se renderiza la

vista con la alineación resultante, en la cual se ejecuta la función JavaScript showResults(),

encargada de generar dinámicamente el reporte de la alineación, dando la posibilidad de

descargarlo como PDF.

77

Fig. 38: Alineación de dos secuencias en la aplicación web

En el reporte se puede observar una primera línea, donde se indica el score y el E-value

obtenidos del programa BLASTN, y el valor de similitud, calculado en base a la cantidad de

residuos usados en cada secuencia y la cantidad de coincidencias.

A continuación, se muestra el detalle del alineamiento en distintos renglones. A la izquierda se

incluyen los nombres de las secuencias de entrada, luego la posición inicial del renglón para cada

una de ellas, seguido por el contenido del alineamiento y por último la posición final del renglón

para cada secuencia. Las similitudes se marcan con el caracter “|”, mientras que en las

diferencias se muestra un punto. De la misma manera, la información es mostrada en el archivo

PDF que se puede descargar.

78

Inspect

Al seleccionar la opción Admin del menú lateral, se redirecciona a la URL /admin/<id>, la cual

se vincula con la función inspect en el archivo app.py. Dicha función obtiene las bases de datos

del usuario cuyo id es obtenido como parámetro y renderiza el archivo HTML correspondiente.

La vista da la posibilidad de crear una nueva base de datos seleccionando un conjunto de

archivos de texto en formato FASTA y otorgándole un nombre, como así también inspeccionar,

agregar y eliminar secuencias de una base de datos ya existente.

Fig. 39: Administración de las bases de datos de un usuario en la aplicación web

Add Database

Al ingresar un nombre y seleccionar un conjunto de archivos en formato FASTA, se habilita el

botón Create database, desde el cual se envía una petición HTTP con el método POST al

servidor. Allí se obtienen los datos ingresados y se verifica que el contenido de cada uno de los

archivos sea válido para generar una base de datos. Luego, son guardados en el directorio

Databases/<id>/<dbName> y se utiliza la instancia de DbAdminController para crear una base

de datos ambigua, indicando la ruta del nuevo directorio. La base de datos ambigua resultante se

guarda en el directorio DbAmbigua/<id>/<DbName>, de esta manera se diferencian las bases de

79

datos de los distintos usuarios. Al finalizar el proceso, se renderiza la vista con la nueva base de

datos.

Delete Database

Al presionar el icono de eliminar en alguna base de datos listada en la sección Your Databases

en la página Admin, se llama a una función JavaScript que muestra un mensaje de alerta para

confirmar o cancelar la eliminación. Al confirmar, se ejecuta una llamada AJAX a la URL

/deletedatabase con el método POST y con el id del usuario y el nombre de la base de datos

seleccionada como cuerpo de la petición. De esta manera, se llama a la función deleteDatabase()

del servidor, la cual utiliza la instancia de DbAdminController para eliminar todos los archivos

del directorio DbAmbigua/<id>/<DbName>. La llamada AJAX contiene dos caminos posibles,

uno para cuando la petición finaliza de manera exitosa y otro para casos de errores. De esta

manera, si la llamada termina correctamente retorna la lista de bases de datos del usuario y se

re-dibuja la tabla de la sección Your Databases, y en caso contrario se muestra un mensaje de

error.

Add Sequence

De forma similar a la funcionalidad anterior, cuando se presiona la opción para agregar una

secuencia en una base de datos, se permite seleccionar un archivo con formato FASTA. A

continuación, se consulta al usuario si confirma que desea agregar la nueva secuencia a la base

de datos seleccionada. Al confirmar, se realiza una llamada AJAX a la URL /addsequence

utilizando el método POST, y enviando la información del archivo seleccionado. Dicha petición

se corresponde con la función addSequence() del servidor, encargada de obtener los datos

enviados, corroborar el formato y contenido de la nueva secuencia y agregarla al directorio

Databases/<id>/<dbName>. Por último, se llama a la función restartDb de

DbAdminController, la cual elimina la base de datos ambigua y la genera nuevamente a partir de

los archivos originales guardados en el directorio Databases. Al terminar el proceso, se retorna la

lista de bases de datos ambigua a la llamada AJAX, y a continuación se re-dibuja la tabla

mostrando los cambios realizados.

80

Delete Sequence

Al expandir una base de datos, se despliega la lista de secuencias en forma de acordeón. Para

cada secuencia se muestra su nombre, su tamaño en Kilobytes, un ícono de lupa para

inspeccionar su contenido, y un icono de un cesto de basura para eliminarla de la base de datos.

Fig. 40: Secuencias de una base de datos ambigua en la aplicación web

Al seleccionar el icono de eliminar secuencia, se pide la confirmación del usuario. Al confirmar

se realiza una llamada AJAX con la URL /deletesequence con el método POST, agregando los

datos del id del usuario, el nombre de la base de datos y de la secuencia en el cuerpo de la

petición HTTP. Dicha petición es asociada, por medio de Flask, a la función deleteSequence()

del servidor, donde se obtienen los datos enviados desde el lado cliente, y se utiliza la función

deleteSequence de la instancia de la clase DbAdminController. Una vez que la secuencia es

eliminada del directorio correspondiente, se reinicia la base de datos y finaliza el proceso

retornando la lista de bases de datos del usuario. De esta manera, al finalizar la llamada AJAX, se

re-dibuja la tabla.

81

Logout

Cuando un usuario se desloguea, se realiza una petición HTTP al endpoint /logout/<id>, donde

<id> es el email del usuario. Flask vincula dicha URL a la función logout, encargada de llamar a

logout_user de la librería Flask Login, terminando la sesión del usuario, redireccionando luego al

login del sistema.

Edit

El usuario puede editar su información al seleccionar la opción correspondiente en el menú

superior derecho, el cual es desplegado al presionar el ícono de usuario. De esa manera, es

redireccionado a la URL /edit/<id>. El endpoint renderiza el respectivo archivo HTML, donde

se muestra un formulario que permite modificar el nombre completo y la contraseña del usuario,

impidiendo el cambio de su id, que en este caso es el email.

Fig. 41: Actualización de los datos de un usuario en la aplicación web

Al guardar los cambios, se envía una petición al endpoint con el método POST, en la cual se

incluyen los datos agregados. El servidor utiliza la instancia de UserController para guardar los

cambios realizados y renderiza la vista con un mensaje de éxito o error, de acuerdo al resultado

obtenido en el proceso.

82

4.3.4. Almacenamiento de datos

El almacenamiento de los datos, tanto de las secuencias como de los usuarios, se llevó a cabo

utilizando el sistema de archivos propio del servidor. Esto se debe a que el programa BLASTN

requiere un directorio con los archivos correspondientes a una base de datos para poder obtener

los resultados, los cuales a su vez son guardados en un archivo de salida.

Por otro lado, la base de datos que se genera contiene un archivo en formato FASTA y otros en

diversos formatos y codificaciones, como .nhr, .nin, .nog, .nsd, .nsi y .nsq. Esto implica que no se

trata de una base de datos relacional, donde sólo se guardan tipos de datos simples como cadenas

de caracteres, números o booleanos, sino que requeriría utilizar un sistema en la nube que

permita al usuario el almacenamiento de archivos, utilizando una tecnología de Object Storage.

Sin embargo, también debe tenerse en cuenta que el sistema genera bases de datos ambiguas a

partir de archivos no ambiguos mediante la combinación de todas ellas, generando una salida de

N x N. Los archivos que modelan los alelos del gen BoLa, un gen altamente polimórfico, suman

un total de 133, y generan una base de datos ambigua con 931 elementos y un tamaño de 10MB.

Guardar esa cantidad de archivos en otro sistema de almacenamiento y obtenerlos nuevamente,

guardandolos temporalmente en el servidor cada vez que se quiera realizar una comparación

complejizaría el sistema haciéndolo más lento.

Por este motivo, se decidió organizar los archivos de secuencias en dos carpetas: Databases y

DbAmbigua. En la primera se guardan los archivos seleccionados por los usuarios, y la segunda

las bases de datos ambiguas generadas por el sistema. A su vez, cada una de ellas tiene una

carpeta por usuario (cuyo nombre es el email correspondiente), en donde se guardan los archivos

propios, sin interferir con el contenido de otros usuarios.

Por otra parte, los usuarios son guardados en un archivo JSON, también en el sistema de

almacenamiento del servidor. Sin embargo, esto puede mejorarse utilizando una base de datos

relacional, dado que sólo se acceden a los datos de los usuarios durante el login y la edición de

los datos personales.

83

4.3.5. Deploy de la aplicación y el uso de contenedores

La aplicación fue deployada en Kubernetes, una plataforma que permite deployar y administrar

aplicaciones, utilizando contenedores. Los contenedores son un mecanismo para empaquetar

lógicamente todo lo que una aplicación necesita para ejecutarse, permitiendo el versionado y la

reutilización de sistemas [38]. Un contenedor es descrito en un archivo donde se configura el

entorno de ejecución y el servidor donde se va a deployar la aplicación. A partir de ese archivo

se puede obtener una imagen docker, la cual es básicamente una instancia de contenedor.

Los contenedores, a diferencia de las máquinas virtuales, utilizan el sistema operativo

proporcionado por la máquina en la que se ejecutan, es decir la máquina host, sin necesidad de

un sistema operativo propio. Esta diferencia hace que los contenedores requieran recursos

mínimos, y que además sean más pequeños, rápidos y fáciles de instalar. En la actualidad,

Kubernetes es la herramienta estándar para implementar y deployar aplicaciones utilizando

contenedores [38].

Fig. 42: Comparación entre máquina virtual y contenedor

En este caso, el instituto de investigación Pladema, dependiente de la Universidad Nacional del

Centro de la Provincia de Buenos Aires, cuenta con un servidor web en el cual se utiliza

Kubernetes. Por este motivo, fue la tecnología utilizada para deployar la aplicación y exponerla

en la web.

84

Capítulo 5

Resultados

En este capítulo se hará un análisis de los resultados obtenidos por la aplicación desarrollada, en

base a diversos aspectos, con el objetivo de evaluar el rendimiento general del sistema.

En primer lugar, se evaluará la confiabilidad de los resultados obtenidos en las comparaciones

realizando distintas pruebas, tales como:

- Comparar una secuencia no ambigua contra una base de datos en la cual se encuentra

presente.

- Comparar una secuencia ambigua, resultado de la combinación de dos secuencias, contra

una base de datos en la cual ambas secuencias se encuentran presentes.

- Comparar una secuencia ambigua modificada en ciertos puntos polimórficos,

convirtiéndolos a bases nitrogenadas reales (A, C, T o G).

- Eliminar una secuencia de una base de datos y compararla contra la misma base de datos.

- Agregar la secuencia eliminada y compararla contra la base de datos nuevamente.

- Alinear una secuencia contra ella misma.

- Alinear una secuencia con una versión modificada de ella misma.

- Alinear dos secuencias diferentes.

Por otra parte, se evaluará la performance de la aplicación. Dado que el tiempo de cada

funcionalidad depende en gran medida de la cantidad de secuencias utilizadas, se utilizarán

conjuntos de 150, 100, 50 y 25 secuencias para realizar cada una de las pruebas. Las

funcionalidades a evaluar serán:

- Creación de una base de datos ambigua.

- Eliminar una base de datos ambigua.

85

- Eliminar una secuencia de una base de datos ambigua.

- Agregar una secuencia a una base de datos ambigua.

- Comparar una secuencia contra una base de datos ambigua.

- Alinear dos secuencias entre sí.

5.1 Confiabilidad de los resultados obtenidos La confiabilidad de los resultados obtenidos mediante el sistema puede evaluarse ejecutando

distintas pruebas, sabiendo previamente cuál es el resultado esperado. Se debe tener en cuenta

que, dado que el programa utilizado en la versión web y en la versión de escritorio es el mismo,

los resultados en ambas versiones del sistema son iguales. Por este motivo, sólo se incluirán los

resultados obtenidos mediante la versión web.

Las primeras cinco pruebas tienen como objetivo evaluar la funcionalidad de comparar una

secuencia contra una base de datos, mientras que las últimas tres se enfocan en corroborar los

resultados obtenidos en el alineamiento de dos secuencias entre sí.

A continuación se enuncian cada una de las pruebas llevadas a cabo.

Prueba 1: Comparar una secuencia no ambigua contra una base de datos en la cual se

encuentra presente.

En esta prueba se espera que el resultado con mayor puntuación sea la combinación de la

secuencia de entrada con ella misma, con un puntaje de similitud igual a 1, equivalente al 100%.

Secuencia de entrada:

>DRB3*0101

CACATTTCCTGGAGTATTCTAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGATACTA

CACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCAGGAC

GCCGAGTACTGGAACAGCCAGAAGGACTTCCTGGAGGAGAAGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACG

GGGGTATGGAGAGTTTCACTGTGCAGCGGCGAGTGGAGCCTACAGTGACTGTGTATCCTGCAA

86

Resultados obtenidos:

Fig. 43: Resultados de la prueba 1

Tal como se esperaba, la combinación más similar a la secuencia de entrada es ella misma con un

valor de similitud igual a 1, por lo que la prueba concluye satisfactoriamente.

Prueba 2: Comparar una secuencia ambigua, resultado de la combinación de dos secuencias,

contra una base de datos en la cual ambas secuencias se encuentran presentes.

En esta prueba se espera que el resultado con mayor puntuación sea la combinación de las dos

secuencias utilizadas para generar la secuencia ambigua de entrada, con un puntaje de similitud

igual a 1.

Secuencia de entrada: Combinación de la secuencia DERB3*4501 y DRB3*2703.

>DERB3*4501-DRB3*2703

GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAG

AAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTRGGGCGGCCGGACGCCRAGTACTG

GAACAGCCAGAAGGACTTCCTGGAGSAGRSGCGGGCCGMGGTGGACASGKWSTGCAGACACAACTACGGGGTCGGTGAG

AGTTTCACTGTG

87



El resultado de la comparación es satisfactorio, al retornar como combinación más similar las

dos secuencias utilizadas para crear la secuencia ambigua de entrada, con un valor igual a 1.

Prueba 3: Comparar una secuencia ambigua modificada en ciertos puntos polimórficos,

convirtiéndolos a bases nitrogenadas reales (A, C, T o G)

En esta prueba se espera que a pesar de los cambios, el resultado con mayor puntuación sea la

combinación de secuencias que generaron la secuencia ambigua, con un puntaje de similitud

menor a 1. En la secuencia ambigua elegida se encuentran 10 puntos polimórficos, de los cuales

cuatro fueron reemplazados por las bases nitrogenadas de una de las secuencias originales antes

de combinarse.

88

Secuencia de entrada: Combinación de la secuencia DERB3*4501 y DRB3*2703 con

modificaciones.

>DERB3*4501_DRB3*2703_original


AAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTRGGGCGGCCGGACGCCRAGTACTGGAACAGCCAGAAGGACTTCCTGGAGSAGRSGCGGGCCGMGGTGGACASGNWSTGCAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTG

>DERB3*4501_DRB3*2703_modificada


AAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTRGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTGGAGSAGGSGCGGGCCGAGGTGGACASGNTSTGCAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTG



El resultado demuestra que, a pesar de los cambios realizados en los puntos polimórficos

aleatoriamente seleccionados, la combinación de secuencias más similar sigue siendo la correcta,

aunque con una similitud menor a 1, dado que no todos los puntos a lo largo de ambas

secuencias son iguales.

89

Prueba 4: Eliminar una secuencia de una base de datos y compararla contra la misma base de

datos.

En esta prueba se espera que la secuencia eliminada no se encuentre entre en los resultados

brindados por el sistema como parte de ninguna combinación de secuencias, dado que al haber

sido eliminada también lo fueron todas las combinaciones de la que era parte.

Secuencia de ejemplo a eliminar y comparar:

>DRB3*0103

CACATTTCCTGGAGTATTCTAAGAGCGAGTGTCATTTCTTCAACGGGACAGAGCGGGTGCGGTTCCTGGACAGATACTA


GCCGAGTACTGGAACAGCCAGAAGGACATCCTGGAGGAGAAGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACG

GGGGTATGGAGAGTTTCACTGTGCAGCGGCGAG



Como se puede observar, la secuencia DRB3*0103 no se encuentra formando parte de ninguna

de las combinaciones más similares resultantes. Además, todas las combinaciones resultantes

90

tienen un puntaje de similitud menor a 1, lo cual tiene sentido, ya que la secuencia de entrada no

deriva completamente de ninguna de las combinaciones presentes en la base de datos. Por lo

tanto, se puede afirmar que la prueba concluye satisfactoriamente.

Prueba 5: Agregar la secuencia eliminada y compararla contra la base de datos nuevamente.

En esta prueba se espera que la secuencia agregada se encuentre entre los resultados, siendo esta

misma la combinación más similar.

Secuencia de ejemplo agregar y comparar:

>DRB3*0103

CACATTTCCTGGAGTATTCTAAGAGCGAGTGTCATTTCTTCAACGGGACAGAGCGGGTGCGGTTCCTGGACAGATACTA


GCCGAGTACTGGAACAGCCAGAAGGACATCCTGGAGGAGAAGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACG

GGGGTATGGAGAGTTTCACTGTGCAGCGGCGAG



91

Luego de agregar la secuencia previamente eliminada, la comparación de dicha secuencia con la

base de datos da como resultado a la misma secuencia con una similitud igual a 1, la cual además

se encuentra dentro de las otras combinaciones más similares. Por lo tanto, los resultados

obtenidos son los esperados.

Prueba 6: Alinear una secuencia contra ella misma

En esta prueba se espera que el puntaje de similitud del alineamiento sea 1, y que no haya

diferencias ni huecos entre las secuencias alineadas.

Secuencia de ejemplo a alinear con ella misma:

>DRB3*3102

TGGAGTATTCTAAGGGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGACACTTCTATAATGG

AGAAGAGTTCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGCCGCCAAGTAC

TGGAACAGCCAGAAGGACTTCCTGGAGCAGAAGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGGTGTG



La primera línea del resultado del alineamiento indica el score y el E-value, ambos obtenidos del

programa BLASTN, como así también el valor de similitud, calculado en base a la cantidad de

92

residuos implicados en el alineamiento y el número de coincidencias. En este caso, se utilizó la

totalidad de ambas cadenas de entrada y no hubo ninguna diferencia entre ellas ni se tuvieron que

introducir huecos en el proceso, por lo que la similitud resultante, tal como se esperaba, es 1. En

este caso, en el detalle del alineamiento tampoco se observa ninguna diferencia entre ellas, por lo

que el resultado es satisfactorio.

Prueba 7: Alinear una secuencia con una versión modificada de ella misma.

En esta prueba se espera que el puntaje de similitud del alineamiento sea menor a 1, y que se

encuentren diferencias entre las dos secuencias de entrada.

Secuencia de ejemplo original y modificada a alinear:

>DRB3*3102_original




>DRB3*3102_modificada

TGGAGTATTCTAAGGGCGATTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGACACTTCTATAATGG

AGAAGAGTTCGTGCGCTTCGACAGCGACTGGGGCGGGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGCCGCCGAGTAC

TGGAACAGCCAGAAGGACTTCCTGGAGCAGAAGAGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGGTGTG

93



Los resultados obtenidos en el alineamiento muestran que las secuencias no tienen una similitud

de 1, y en el detalle del mismo se pueden ver marcados con puntos las diferencias encontradas.

Por otro lado, no se observan huecos ni corrimientos, lo cual es correcto, ya que no se

introdujeron bases nitrogenadas adicionales, sino que sólo se modificaron algunas de las

presentes. Por lo tanto, el resultado obtenido es el esperado.

Prueba 8: Alinear dos secuencias totalmente diferentes.

En esta prueba se espera que el puntaje de similitud del alineamiento sea menor a 1, y que se

encuentren diferencias entre las dos secuencias de entrada. También podrían encontrarse huecos.

Secuencias de ejemplo a alinear:

>DRB3*3102




94

>DRB3*7001

CATTTCCTGGAGTATTCTAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGATACTTCC

ATAATGGAGAAGAGAACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGCCGC

CGAGTACTGGAACAGCCAGAAGGACATCCTGGAGCGGGAGCGGGCCTATGTGGACACGTACTGCAGACACAACTACGGG

GTCGTTGAGAGTTTCACTGTGCAGCGGCGA



Tal como se esperaba, los resultados obtenidos en el alineamiento demuestran que las secuencias

tienen una similitud menor a 1. Además el E-value obtenido es mucho mayor que el del

alineamiento llevado a cabo en la prueba 7, lo que demuestra que la relación entre las últimas dos

secuencias es significativamente menor. Por otro lado, no se observan huecos en el medio del

alineamiento, pero sí se observa que la secuencia DRB3*7001 comienza en el octavo nucleótido,

por lo que se puede afirmar que para alinear ambas secuencias fue necesario realizar un

corrimiento.

Las pruebas previamente realizadas permiten confirmar que los resultados brindados por el

programa son los esperados. En los casos de ejemplo utilizados en las pruebas, las secuencias

provienen de un origen conocido, lo cual permite reconocer si los resultados son correctos o no.

95

Sin embargo, se debe tener en cuenta que uno de los principales objetivos del proyecto, además

de alinear dos secuencias entre sí, es asignar alelos a una secuencia ambigua, es decir, obtener las

dos secuencias no ambiguas de las cuales proviene. Por ese motivo, resulta de importancia saber

que las pruebas realizadas coinciden con lo esperado.

5.2 Performance del sistema La performance del sistema puede evaluarse en términos del tiempo que tarda en realizar las

distintas operaciones, lo cual depende de diversos factores, tales como los recursos físicos de la

máquina donde se ejecute la aplicación, la cantidad de secuencias de la base de datos que se

utilice, la complejidad de los algoritmos utilizados, entre otros.

En este caso, se realizó una comparación de los tiempos de las distintas funcionalidades en la

versión web y en la versión de escritorio, utilizando bases de datos de distintas dimensiones. El

objetivo de dichas pruebas era determinar si la utilización de la aplicación logra optimizar los

tiempos de comparación respecto a la forma en la que se hacían anteriormente. Para llevarlas a

cabo se utilizaron bases de datos de 150, 100, 50 y 25 secuencias de ejemplo y se cronometró el

tiempo de cada funcionalidad.

Creación de una base de datos

96

Aplicación de escritorio Aplicación web

150 secuencias 2’ 11’’ 1’ 94’’

100 secuencias 1’ 09’’ 0’ 30’’

50 secuencias 0’ 27’’ 0’ 10’’

25 secuencias 0’ 12’’ 0’ 04’’

Eliminar una base de datos

Eliminar una secuencia de una base de datos

Agregar una secuencia a una base de datos

Comparar una secuencia con una base de datos

97


150 secuencias 0’ 02’’ 0’ 02’’

100 secuencias 0’ 02’’ 0’ 02’’

50 secuencias 0’ 01’’ 0’ 02’’

25 secuencias 0’ 01’’ 0’ 02’’


150 secuencias 3’ 18’’ 1’ 56’’

100 secuencias 1’ 37’’ 0’ 55’’

50 secuencias 0’ 35’’ 0’ 17’’

25 secuencias 0’ 15’’ 0’ 07’’


150 secuencias 2’ 28’’ 1’ 01’’

100 secuencias 1’ 15’’ 0’ 30’’

50 secuencias 0’ 24’’ 0’ 10’’

25 secuencias 0’ 11’’ 0’ 05’’


150 secuencias 0’ 25’’ 0’ 23’’

100 secuencias 0’ 09’’ 0’ 10’’

50 secuencias 0’ 05’’ 0’ 04’’

25 secuencias 0’ 02’’ 0’ 02’’

Alinear dos secuencias entre sí

Para comprobar el tiempo de alineamiento de dos secuencias, se utilizaron los siguientes

ejemplos, con las cuales se obtuvo el resultado en 2 segundos.

>DRB3*3102




>DRB3*3103

CACATTTCCTGGAGTATTATAAGGGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGACACTT

CTATAATGGAGAAGAGTTCGTGCGCTTCGACAGCGACTGGGACGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGCC

GCCGAGCACTGGAACAGCCAGAAGGACTTCCTGGAGCAGAAGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACG

GGGGTGTGGAGAGTTTCACTGTGCAGCGGCGAG

En base a las pruebas llevadas a cabo, se puede afirmar que la tarea de comparación de una

secuencia contra una base de datos se reduce a términos de segundos, mientras que antes podía

llevar minutos u horas, dependiendo de la experiencia del investigador que llevaba a cabo la

tarea de forma manual. Además, el alineamiento de dos secuencias entre sí se lleva a cabo a una

gran velocidad, dando resultados de manera instantánea.

Por otra parte, las funcionalidades que más tiempo llevan son las relacionadas con la

configuración de una base de datos, es decir el proceso de creación, eliminación o adición de

secuencias. Sin embargo, la configuración o creación de una base de datos no sería una tarea tan

frecuente como la comparación de una secuencia ambigua para encontrar sus alelos, o el

alineamiento de dos secuencias entre sí.

98

Capítulo 6

Conclusiones y trabajos futuros

En este capítulo se realizarán diversas conclusiones, a las cuales se arribaron durante el

desarrollo de la aplicación, como así también durante la etapa de análisis de la confiabilidad y la

performance del sistema.

Dichas conclusiones abarcan distintas dimensiones, tales como la aplicación e influencia de los

conceptos aprendidos a lo largo de la carrera de Ingeniería de Sistemas, las contribuciones

realizadas con el proyecto, las limitaciones encontradas en el diseño y desarrollo actual, y los

trabajos futuros que pueden realizarse en base a todo lo que se llevó a cabo.

6.1 Aplicación de conceptos adquiridos durante la carrera El desarrollo de este proyecto permitió integrar y aplicar una gran cantidad de conceptos

adquiridos en cátedras de distintas áreas que conforman la carrera de Ingeniería de Sistemas. En

primer lugar, se pueden mencionar Introducción a la Programación I y II, las cuales sentaron las

bases de conceptos fundamentales tales como variables, constantes, arreglos, matrices,

estructuras de control, divide y conquista, recursión e iteración. Luego, en Análisis y Diseño de

Algoritmos I y II se estudiaron algunos conceptos mencionados en este trabajo, tales como

complejidad temporal, y programación dinámica. Además, a partir de la noción de los Tipos de

Datos Abstractos introdujeron lo que luego se profundizó en Programación Orientada a Objetos,

una cátedra que brindó la capacidad de pensamiento abstracto y presentó los conceptos de objeto,

clases y patrones, permitiendo afrontar problemas de distintos grados de complejidad, pensando

en las sub-partes que componen el todo y la forma en la que interactúan entre sí.

99

Posteriormente, los conceptos de binding dinámico, polimorfismo, herencia y encapsulamiento

presentados en Programación Orientada a Objetos fueron profundizados en la cátedra de

Lenguajes de Programación, en la cual se estudió el alcance y el almacenamiento en memoria de

los atributos de un objeto, como así también el mecanismo para lograr la herencia de propiedades

y métodos. Además, se introdujeron distintos aspectos de los lenguajes que permiten clasificarlos

en distintos tipos y analizar sus funcionalidades en base a sus particularidades. Esto resultó

fundamental para comprender la variedad de lenguajes existentes e identificar sus características

sintácticas y semánticas, principalmente porque hasta esa cátedra sólo se había trabajado con

lenguajes estáticos, tales como Pascal, C++ y Java. De esta manera, permitió comprender

distintos mecanismos de ejecución y disminuir la curva de aprendizaje de nuevos lenguajes. En

particular, este proyecto se implementó principalmente en Python, un lenguaje orientado a

objetos, utilizando clases que modelan a los objetos mediante atributos y métodos, aplicando los

conceptos de encapsulamiento, herencia, polimorfismo y binding dinámico, propios de dicho

paradigma de programación. Además, tanto Python como Javascript fueron introducidos en la

cátedra de Lenguajes de Programación, como ejemplos de lenguajes dinámicos e interpretados.

Por otra parte, como mencionó previamente, la cátedra de Programación Orientada a Objetos

presentó patrones de diseño, tales como Strategy, Composite, Iterator, y Observer, que permiten

resolver problemas similares mediante técnicas efectivas y reutilizables. Sin embargo, no fue

hasta la cátedra de Diseño de Sistema de Software que se introdujeron los patrones de

arquitecturas como Modelo-Vista-Controlador y Cliente-Servidor, utilizados en el desarrollo del

proyecto. Además, se estudiaron los atributos de calidad de un sistema, los cuales fueron tenidos

en cuenta a la hora del diseño e implementación del sistema, haciendo foco en la simplicidad,

usabilidad, robustez, correctitud, extensibilidad y seguridad. Adicionalmente, el modelo

Cliente-Servidor fue estudiado con mayor profundidad en la materia optativa Taller de

Desarrollo Web, en la cual se introdujeron conceptos como HyperText Transfer Protocol (más

conocido como HTTP), Uniform Resource Identifier (URI), Common Gateway Interface (CGI) y

REST, implementando por primera vez una página web con frontend y backend utilizando el

stack MEAN. Si bien en este proyecto no se utilizaron las mismas tecnologías, ya que se optó

100

por usar Python con el framework Flask, dicho taller sentó las bases para comprender el

funcionamiento y la implementación de aplicaciones web.

Por otro lado, en el trabajo se pueden encontrar aportes de cátedras como Metodología de

Desarrollo de Software y Sistemas Operativos. Con respecto a la primera se puede afirmar que

en el desarrollo del proyecto se aplicaron las distintas etapas del ciclo de vida en cascada. De tal

manera, en primer lugar se llevó a cabo la captura de requerimientos con los usuarios finales del

sistema, para conocer las necesidades y comprender el problema a resolver. A continuación

diseñó el sistema, planteando los diagramas de clases correspondientes para definir la estructura

de la solución. Luego, se procedió con la implementación utilizando las tecnologías elegidas y el

testeo mediante una serie de pruebas para verificar la confiabilidad de los resultados. Por último,

la aplicación de escritorio fue empaquetada con los archivos necesarios, generando un ejecutable,

y la versión web fue deployada en un servidor. Adicionalmente, en el presente informe se

adjuntaron los diagramas de clase UML correspondientes, según lo estudiado en dicha materia.

En cuanto a Sistemas Operativos, se aplicaron los conceptos de thread y concurrencia, como así

también resultó de interés conocer el concepto de máquina virtual para comparar sus diferencias

y similitudes con la tecnología de contenedores utilizadas para deployar el sistema web.

En último lugar, se puede mencionar el aporte de materias como Análisis Matemático I y II, las

cuales sentaron sólidas bases que permiten interpretar ecuaciones matemáticas complejas y

fueron necesarias para comprender los conceptos de Probabilidades y Estadística, tales como

distribuciones de muestreo, p-valor y test de hipótesis, utilizados en este caso para comprender la

significancia estadística de una alineación.

6.2 Contribuciones realizadas con el proyecto El proyecto llevado a cabo permitió reducir los tiempos de comparación de secuencias ambiguas

con todos posibles alelos para obtener la combinación adecuada. Anteriormente el proceso era

llevado a cabo manualmente, por lo que el tiempo de comparación y la posibilidad de introducir

errores dependía del nivel de experiencia y entrenamiento de quien analiza las secuencias,

pudiendo llevar varios minutos u horas. En cambio, el sistema desarrollado permite obtener en

101

cuestión de segundos una determinada cantidad de combinaciones más similares. En caso de que

haya más de una combinación resultante con los mismos valores y el sistema no pueda

determinar una combinación como la mejor posibilidad, permite que el investigador se enfoque

en el análisis de unas pocas secuencias, acotando el espacio de búsqueda. De esta manera, el

experto podrá desambiguar teniendo en cuenta aspectos genéticos que el sistema desconoce.

Por otra parte, si bien en una primera instancia el programa iba a ser aplicado a un gen en

particular, durante el desarrollo del proyecto se agregaron las funcionalidades necesarias para

poder operar con cualquier gen que presente el mismo tipo de polimorfismo. De esta manera, el

sistema otorga más escalabilidad y usabilidad.

Por último, el sistema también permite llevar a cabo alineaciones de dos secuencia de manera

automática, unificando dos funcionalidades que comúnmente pueden encontrarse distribuidas en

distintos programas.

6.3 Limitaciones actuales y trabajos futuros Si bien el proyecto realizado tiene una serie de ventajas y contribuciones respecto a la manera

anterior de llevar a cabo la tarea de análisis de secuencias de ADN para la asignación de alelos,

existen una serie de limitaciones que valen la pena mencionar para dar lugar a posibles trabajos

futuros.

En primer lugar, un aspecto a mejorar es la persistencia de los datos. Las bases de datos BLAST

del sistema desktop y web fueron guardadas en archivos de manera local, ya sea en la máquina

del usuario como en el servidor, respectivamente. Esto es potencialmente problemático,

principalmente para la versión web, dado que si se piensa escalar el sistema para que lo utilicen

un gran número de usuarios, el almacenamiento de los datos sería inmanejable. En ese caso, el

servidor requeriría cada vez más espacio para no colapsar. Además, si el sistema se cae por algún

problema del servidor, las bases de datos guardadas allí se perderían al reiniciar el servicio

deployado. Ante estos posibles problemas debería pensarse en una estrategia para almacenar el

contenido de los archivos en una base de datos de documentos, optimizando la organización

actual de los datos, para evitar realizar un gran número de llamadas a la base de datos cada vez

102

que se quiera realizar una comparación, ya que eso aumentaría el tiempo necesario para llevar a

cabo cada consulta.

Por otra parte, utilizar BLASTN localmente para el programa de escritorio puede ser una solución

adecuada, ya que al tener todos los datos guardados localmente, no se requiere de conexión a

internet para poder utilizar cualquier funcionalidad del sistema. Sin embargo, para la versión web

podría pensarse en una arquitectura de micro servicios, utilizando la versión cloud de BLASTN,

simplificando el diseño y separando la funcionalidad propia del sistema con la correspondiente a

dicho programa. Adicionalmente, la versión cloud cuenta con bases de datos de secuencias pre

cargadas, lo que podría evitar tener que crear nuevas bases de datos.

Por otro lado, la versión web también puede mejorarse con respecto a las tecnologías utilizadas

para generar la vista del sistema. En este caso, se utilizó HTML, CSS y JavaScript con JQuery y

AJAX. Sin embargo, se podría pensar en utilizar frameworks que facilitan el desarrollo y que

permiten implementar componentes reutilizables, tales como React o Angular. Además, a la hora

de programar, dichos frameworks cuentan con herramientas para revisión de código, permitiendo

que muchos errores se detecten en tiempo de compilación y no haya que esperar hasta la

ejecución para encontrarlos, lo cual agiliza el desarrollo.

Por último, tanto en la versión web como en la de escritorio, podrían llevarse a cabo mejoras que

pueden ser útiles para los usuarios, tales como visualizar el alineamiento de cada combinación

resultante con la secuencia de entrada y brindar la posibilidad de alinear más de dos secuencias

entre sí.

103

6.4 Conclusiones finales Como cierre de este trabajo, se puede afirmar que el proyecto permitió aplicar una gran variedad

de conceptos estudiados durante la carrera, integrando la lógica funcional con la persistencia y la

visualización de los datos. Además, al comenzarlo desde cero, se pudieron llevar a la práctica

una serie de conocimientos ligados al proceso de desarrollo de software, desde la captura de

requerimientos hasta el deploy en un servidor. Por otro lado, durante el proceso se aprendieron

diversos lenguajes, conceptos y tecnologías con los cuales nunca se había trabajado, tales como

Python y el framework Flask. Adicionalmente, al ser la primera aplicación web con diversas

funcionalidades realizada durante la carrera, se utilizaron tecnologías como AJAX y JQuery, así

como también, se tuvo que aprender sobre containers y el uso de Kubernetes para poder

desplegar la aplicación en un servidor.

Por último, debe destacarse que se logró llevar a cabo un proyecto interdisciplinar, con docentes

e investigadores de distintas Facultades de la Universidad Nacional del Centro de la Provincia de

Buenos Aires, como son la Facultad de Ciencias Exactas y la Facultad de Ciencias Veterinarias,

lo que genera un intercambio de ideas y enriquecimiento mutuo, favoreciendo los vínculos y

dando la posibilidad de pensar en potenciales trabajos futuros.

104

Glosario

❏ ADN: El ADN es la biomolécula que contiene la información genética de los seres vivos

que determina las características biológicas y fisiológicas de un individuo a lo largo de

toda su vida. El modelo de Watson y Crick describe a esta biomolécula como “una doble

hélice, entrelazada y sumamente larga” [12], donde cada hélice es una cadena de

nucleótidos.

❏ Alelo: Son las distintas variantes o formas alternativas de un determinado gen [12]. Por

ejemplo, el gen que codifica el color de ojos de una persona presenta diversas formas

alternativas, dando lugar a una variedad de colores.

❏ Base nitrogenada: Es una de las moléculas que constituyen a los nucleótidos, y es la

responsable de portar la información genética. Las dos hebras que constituyen el ADN se

encuentran interconectadas entre sí por medio de las bases nitrogenadas presentes en cada

una de ellas. Las cuatro bases nitrogenadas presentes en el ADN son la Adenina, Timina,

Citosina, Guanina [35], las cuales se agrupan en dos tipos: purinas (Adenina y Guanina) y

pirimidinas (Timina y Citosina), y sólo pueden unirse entre sí mediante puentes de

Hidrógeno las combinaciones Adenina-Timina y Citosina-Guanina.

❏ Diploide: Una célula u organismo es diploide cuando contiene dos conjuntos de

cromosomas, heredados de cada progenitor. En el ser humano, todas las células excepto

las sexuales son diploides, y contienen 23 pares de cromosomas. En cambio, las células

sexuales se denominan haploides, ya que sólo contienen un juego de cromosomas [7].

❏ Fenotipo: Son los rasgos observables de un individuo, como el color de ojos o la altura.

Diferentes alelos pueden producir diferencias en el fenotipo.

105

❏ Gen: Es un fragmento de la cadena de ADN que contiene la información para sintetizar

una proteína ó una molécula de ARN. Es la organización de las bases nitrogenadas de un

gen lo que hace que cada uno de ellos sea diferente [42].

❏ Genotipo: Es el conjunto de genes que posee un individuo. También puede entenderse

como los dos alelos heredados de un gen en particular. El genotipo que se expresa,

utilizando su información para fabricar proteínas y moléculas de ARN, da lugar al

fenotipo de un individuo, determinando sus rasgos observables [32].

❏ Haplotipo: Es un conjunto de variaciones del ADN o polimorfismos que tienden a ser

heredados juntos. Puede referirse a una combinación de alelos o a un conjunto de

polimorfismos de nucleótido sencillo (SNP) que se encuentran en el mismo cromosoma

[32].

❏ Heterocigota: Se dice que un individuo diploide es heterocigota para determinado gen

cuando hereda dos formas distintas de dicho gen, una de cada progenitor [32]. Es decir,

un individuo es heterocigota para un gen si contiene dos alelos distintos que lo codifican.

❏ Homocigota: Cuando un individuo diploide hereda para un determinado gen dos alelos

idénticos, se dice que es homocigota para dicho gen [32].

❏ Mutación: Es un fenómeno molecular que genera un cambio permanente en la secuencias

de bases nitrogenadas que constituyen el ADN de un organismo. Es una variación

inesperada, que no está presente ni en los progenitores ni en ninguno de sus predecesores

[43]. Existen diversos tipos de mutaciones, entre las cuales se pueden mencionar:

❏ Deleciones: Son mutaciones que conllevan la eliminación de una hasta miles de

bases nitrogenadas de la secuencia de ADN, lo que puede producir inconvenientes

como la falta de producción de una determinada proteína.

106

❏ Inserciones: Consta de la inserción de bases nitrogenadas en una secuencia de

ADN. Esto puede ocurrir debido a virus capaces de intercalarse en un gen

agregando su propio ADN a la secuencia del individuo invadido.

❏ Sustituciones: Consta de la sustitución de un nucleótido por otro. Este tipo de

mutaciones son muy frecuentes y tienen como consecuencia el fenómeno llamado

polimorfismo bioquímico [12]. Es muy común encontrar este tipo de mutaciones

en las poblaciones naturales y gran parte de ellas están asociadas a patologías

hereditarias.

❏ Nucleótido: Es la unidad monomérica que constituye la molécula de ADN. Cada

nucleótido está compuesto por un grupo fosfato, un azúcar de cinco carbonos llamada

pentosa y una base nitrogenada. De esta manera, una molécula de ADN consta de un gran

conjunto de nucleótidos que portan la información genética de un organismo. Por

ejemplo, el genoma del E. Coli es una molécula de ADN con 4.6 millones de nucleótidos

[5].

❏ Transiciones: Es el cambio de un nucleótido de una base púrica (Adenina (A), Guanina

(G)) por otra púrica o de una pirimidínica (Citosina (C), Timina (T), Uracilo (U)) por otra

pirimidínica. (ej: cambio de A por G ó viceversa, etc.)

❏ Transversiones: Es el cambio de una base púrica por una pirimidínica o viceversa (ej:

cambio de A por C ó viceversa, etc.)

107

Anexos

Resultados del programa BLAST por la interfaz web de EMBL-EB

BLASTN 2.9.0+

Reference: Stephen F. Altschul, Thomas L. Madden, Alejandro A.

Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J.

Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of

protein database search programs", Nucleic Acids Res. 25:3389-3402.

Database: em_rel 218,240,662 sequences; 408,005,271,872 total letters

Query= DERB3*4501

Length=249

Score E

Sequences producing significant alignments: (Bits) Value

EM_OM:AF144545 AF144545.1 Bos taurus clone EFC18.3 MHC class II an... 494 2e-135

EM_OM:AB048735 AB048735.1 Bos taurus BoLA-DRB3*4501 gene for leuko... 450 2e-122

EM_OM:LC455525 LC455525.1 Bos indicus Nyalawi36 BoLA-DRB3 gene for... 438 8e-119

EM_OM:AF144544 AF144544.1 Bos taurus clone EFCK4 MHC class II anti... 438 8e-119

EM_OM:FJ381733 FJ381733.1 Bos taurus MHC class II antigen beta cha... 430 2e-116

EM_OM:AY374126 AY374126.1 Bos grunniens MHC class II antigen gene,... 430 2e-116

EM_OM:AJ277156 AJ277156.1 Bos indicus gudali partial BLA-DRB3 gene... 430 2e-116

EM_OM:AB610140 AB610140.1 Bos taurus BoLA-DRB3 gene for major hist... 430 2e-116

EM_OM:LC455469 LC455469.1 Bos indicus Daeinawi29 BoLA-DRB3 gene fo... 422 5e-114

EM_OM:KY682173 KY682173.1 Bos grunniens MHC class II antigen (MHC-... 422 5e-114

EM_OM:AJ277153 AJ277153.1 Bos indicus gudali partial BLA-DRB3 gene... 422 5e-114

EM_OM:AF144543 AF144543.1 Bos taurus clone EFC13.1 MHC class II an... 422 5e-114

EM_OM:AB610139 AB610139.1 Bos taurus BoLA-DRB3 gene for major hist... 422 5e-114

EM_OM:AB558437 AB558437.1 Bos taurus BoLA-DRB3 gene for MHC class ... 422 5e-114

EM_OM:Z48224 Z48224.1 B.indicus BoLA DRB3 gene for first domain of... 414 1e-111

EM_OM:MF960855 MF960855.1 Saiga tatarica isolate saigak5_4 MHC cla... 414 1e-111

EM_OM:LC455467 LC455467.1 Bos indicus Daeinawi27 BoLA-DRB3 gene fo... 414 1e-111

EM_OM:JN887489 JN887489.1 Bos taurus MHC class II antigen (BoLA-DR... 414 1e-111

EM_OM:JN887488 JN887488.1 Bos taurus MHC class II antigen (BoLA-DR... 414 1e-111

EM_OM:AY125892 AY125892.1 Bos taurus MHC class II antigen (BoLA-DR... 414 1e-111



EM_EST:CO882141 CO882141.1 BovGen_10466 normal cattle brain Bos ta... 414 1e-111

EM_OM:U00140 U00140.1 Bos taurus Swiss Simmental breed DR beta-cha... 412 5e-111

EM_OM:Z82031 Z82031.1 Bos indicus BoLA-DRB3 gene, exon 2, allele D... 406 3e-109

EM_OM:X87664 X87664.1 B.taurus class II DR-beta gene, exon 2, alle... 406 3e-109

EM_OM:MF960850 MF960850.1 Saiga tatarica isolate saigak1_11 MHC cl... 406 3e-109

EM_OM:M99052 M99052.1 Bovine MHC class II BoLA-DR-beta 3 gene, exon 2 406 3e-109

EM_OM:LC455502 LC455502.1 Bos indicus Nyalawi_6 BoLA-DRB3 gene for... 406 3e-109

EM_OM:KF929427 KF929427.1 Bos taurus MHC class II antigen (BoLA-DR... 406 3e-109

EM_OM:KF918674 KF918674.1 Bos taurus isolate gs4 MHC class II anti... 406 3e-109

EM_OM:DQ834889 DQ834889.1 Bos indicus genotype HaeIII-a MHC class ... 406 3e-109

EM_OM:AY805108 AY805108.1 Bison bison MHC class II beta chain (Bib... 406 3e-109

EM_OM:AJ487835 AJ487835.1 Bos taurus partial BoLA-DRB3 gene for MH... 406 3e-109

EM_OM:AJ302760 AJ302760.1 Damaliscus pygargus phillipsi DRB gene f... 406 3e-109



EM_EST:BE487505 BE487505.1 176287 BARC 5BOV Bos taurus cDNA 5', mR... 406 3e-109

EM_OM:AF010396 AF010396.1 Bos taurus MHC class II antigen (BoLA-DR... 404 1e-108

EM_OM:X98653 X98653.1 B.bison MHC class II DR-beta gene, exon 2 (i... 398 7e-107

EM_OM:LC455506 LC455506.1 Bos indicus Nyalawi12 BoLA-DRB3 gene for... 398 7e-107

EM_OM:LC455377 LC455377.1 Bos indicus BuQ_13 BoLA-DRB3 gene for MH... 398 7e-107

EM_OM:LC455374 LC455374.1 Bos indicus But_Q9 BoLA-DRB3 gene for MH... 398 7e-107

EM_OM:LC455364 LC455364.1 Bos indicus Bu_A33 BoLA-DRB3 gene for MH... 398 7e-107

EM_OM:LC455341 LC455341.2 Bos indicus Bu_A6 BoLA-DRB3 gene for MHC... 398 7e-107

EM_OM:AY847712 AY847712.1 Bos taurus MHC class II antigen (BoLA-DR... 398 7e-107

EM_OM:AY805104 AY805104.1 Bison bison MHC class II beta chain (Bib... 398 7e-107

EM_OM:AJ002002 AJ002002.1 Bos indicus BoLA-DRB3 gene, exon 2, alle... 398 7e-107

EM_OM:AF387317 AF387317.2 Ovibos moschatus MHC class II DR beta ch... 398 7e-107

EM_OM:AF162657 AF162657.2 Ovibos moschatus MHC class II antigen (D... 398 7e-107

>EM_OM:AF144545 AF144545.1 Bos taurus clone EFC18.3 MHC class II antigen BoLA-DRB3

108

gene, exon 2 and partial cds.

Length=249

Score = 494 bits (249), Expect = 2e-135

Identities = 249/249 (100%), Gaps = 0/249 (0%)

Strand=Plus/Plus

Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60

Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120

Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180

Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240

Query 241 TTCACTGTG 249

|||||||||

Sbjct 241 TTCACTGTG 249

>EM_OM:AB048735 AB048735.1 Bos taurus BoLA-DRB3*4501 gene for leukocyte antigen

DRB3, partial cds.

Length=227


Identities = 227/227 (100%), Gaps = 0/227 (0%)

Strand=Plus/Plus

Query 10 AAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTAC 69

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 1 AAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTAC 60

Query 70 ACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACC 129

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 61 ACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACC 120

Query 130 GAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGCG 189

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 121 GAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGCG 180

Query 190 CGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGA 236

|||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 181 CGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGA 227

>EM_OM:LC455525 LC455525.1 Bos indicus Nyalawi36 BoLA-DRB3 gene for MHC class

II antigen, partial cds.

Length=280


Identities = 242/249 (97%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 83 AGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142


|||||||||||||||||||||||||||||| || ||||||||||||||||||||||||||

Sbjct 143 GCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGCACTGGAACAGCCAGAAGGACTTCCTG 202


|||| | ||||||||||||||||||||||||||||||||||||||||||||| ||||||

Sbjct 203 GAGCGGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGGGAGAGT 262


|||||||||


>EM_OM:AF144544 AF144544.1 Bos taurus clone EFCK4 MHC class II antigen BoLA-DRB3


Length=249

109


Identities = 242/249 (97%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 1 GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60


|||| || | ||||||||||||| ||||||||||||||||||||||||||||||||||

Sbjct 61 AGATACTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240


|||||||||


>EM_OM:FJ381733 FJ381733.1 Bos taurus MHC class II antigen beta chain (BoLA-DRB3)

gene, BoLA-DRB3-6-1 allele, exon 2 and partial cds.

Length=268


Identities = 241/249 (97%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||| ||||||||||||||||||||||||||||||||||||||||||||| ||||||

Sbjct 14 GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTGCTGGAC 73


|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||

Sbjct 134 GCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 193


|||||| |||||||||||||||||||||||||||||||||||||||||||| ||||||

Sbjct 194 GAGCAGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGTGGAGAGT 253


|||||||||


>EM_OM:AY374126 AY374126.1 Bos grunniens MHC class II antigen gene, exon 2 and

partial cds.

Length=268


Identities = 241/249 (97%), Gaps = 0/249 (0%)

Strand=Plus/Plus


|||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||

Sbjct 10 GAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 69


|||| ||||| |||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 70 AGATACTACAATAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 129


||||||||||||||||||| |||||||||| || |||| |||||||||||||||||||||

Sbjct 130 GCGGTGACCGAGCTGGGGCCGCCGGACGCCGAGCACTGCAACAGCCAGAAGGACTTCCTG 189


|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 190 GAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 249


|||||||||


>EM_OM:AJ277156 AJ277156.1 Bos indicus gudali partial BLA-DRB3 gene for MHC class

110

II antigen, exon 2, allele DRB3*2007

Length=249


Identities = 241/249 (97%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||| ||||||||||||||||||||||||||||||||||||||||||||| ||||||



|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||



|||||| |||||||||||||||||||||||||||||||||||||||||||| ||||||



|||||||||


>EM_OM:AB610140 AB610140.1 Bos taurus BoLA-DRB3 gene for major histocompatibility

complex class II DR-beta chain, partial cds, allele: BoLA-DRB3*4802.

Length=281


Identities = 241/249 (97%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||| ||||||||||||||||||||||||||||||||||||||||||||| ||||||



|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||



|||||| |||||||||||||||||||||||||||||||||||||||||||| ||||||



|||||||||


>EM_OM:LC455469 LC455469.1 Bos indicus Daeinawi29 BoLA-DRB3 gene for MHC class


Length=280


Identities = 240/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||| || | ||||||||||||| |||||||||||||||||||||||||||||||||||

Sbjct 83 AGATACTTCTATAATGGAGAAGAGTCCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||| |||||||| |||||||||||||||||||||||||||||||||||| ||||||

Sbjct 203 GAGCAGAAGCGGGCCGAGGTGGACACGTACTGCAGACACAACTACGGGGTCGGGGAGAGT 262


|||||||||


111

>EM_OM:KY682173 KY682173.1 Bos grunniens MHC class II antigen (MHC-DRB) mRNA,

complete cds.

Length=973


Identities = 240/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


|||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||



|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||



||| |||||||||||||||||| ||||||| || | ||||||||||||||||||||||||

Sbjct 251 GCGTTGACCGAGCTGGGGCGGCAGGACGCCGAGCAGTGGAACAGCCAGAAGGACTTCCTG 310


|||| ||||||||||||||||||||||||||||||| |||||||||||||||||||||||

Sbjct 311 GAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGATACAACTACGGGGTCGGTGAGAGT 370


|||||||||


>EM_OM:AJ277153 AJ277153.1 Bos indicus gudali partial BLA-DRB3 gene for MHC class

II antigen, exon 2, allele DRB3*4401

Length=249


Identities = 240/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


|||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||



|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||



||| |||||||||||||||||| ||||||| || | ||||||||||||||||||||||||



|||| ||||||||||||||||||||||||||||||| |||||||||||||||||||||||



|||||||||


>EM_OM:AF144543 AF144543.1 Bos taurus clone EFC13.1 MHC class II antigen BoLA-DRB3


Length=249


Identities = 240/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


|||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||



|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||



||| |||||||||||||||||| ||||||| || | ||||||||||||||||||||||||



|||| ||||||||||||||||||||||||||||||| |||||||||||||||||||||||



|||||||||

112


>EM_OM:AB610139 AB610139.1 Bos taurus BoLA-DRB3 gene for major histocompatibility

complex class II DR-beta chain, partial cds, allele: BoLA-DRB3*4401.

Length=281


Identities = 240/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


|||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||



|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||



||| |||||||||||||||||| ||||||| || | ||||||||||||||||||||||||



|||| ||||||||||||||||||||||||||||||| |||||||||||||||||||||||



|||||||||


>EM_OM:AB558437 AB558437.1 Bos taurus BoLA-DRB3 gene for MHC class II DR beta

chain, partial cds, allele: BoLA-DRB3*4401.

Length=281


Identities = 240/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


|||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||



|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||



||| |||||||||||||||||| ||||||| || | ||||||||||||||||||||||||



|||| ||||||||||||||||||||||||||||||| |||||||||||||||||||||||



|||||||||


>EM_OM:Z48224 Z48224.1 B.indicus BoLA DRB3 gene for first domain of the MHC

class 2 molecule, beta chain.

Length=250


Identities = 239/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||

Sbjct 122 GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 181


||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||

Sbjct 182 GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGT 241

113


|||||||||


>EM_OM:MF960855 MF960855.1 Saiga tatarica isolate saigak5_4 MHC class II antigen

(DRB3) gene, partial cds.

Length=250


Identities = 239/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


|||||||||||||| ||||||||||||||||||||||||||||||||| |||||||| ||

Sbjct 2 GAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGTGGTTCCTGTAC 61


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



||| |||||||||||||||||||||||||||||||||||||| ||||||||||||||||

Sbjct 122 GCGTTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACGACCAGAAGGACTTCCTG 181


|||||| |||||||||||||||||||||||||||||||||||||||||||| ||| |||

Sbjct 182 GAGCAGAAGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGTTGACAGT 241


|||||||||


>EM_OM:LC455467 LC455467.1 Bos indicus Daeinawi27 BoLA-DRB3 gene for MHC class


Length=280


Identities = 239/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


|||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 23 GAGTATCATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 82


|||| || | ||||||||||||| |||||||||||||||||||||||||||||||||||



||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||| | ||||||||||||||||||||||||||||||||||||||||||||| ||||||

Sbjct 203 GAGCGGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGGGAGAGT 262


|||||||||


>EM_OM:JN887489 JN887489.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene,

BoLA-DRB3-4 allele, exon 2 and partial cds.

Length=301


Identities = 239/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||



||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||

114



|||||||||


>EM_OM:JN887488 JN887488.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene,

BoLA-DRB3-3 allele, exon 2 and partial cds.

Length=303


Identities = 239/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||



||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||



|||||||||


>EM_OM:AY125892 AY125892.1 Bos taurus MHC class II antigen (BoLA-DRB3) mRNA,

BoLA-DRB3*2703 allele, complete cds.

Length=801


Identities = 239/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||



||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||



|||||||||


>EM_OM:AB558435 AB558435.1 Bos taurus BoLA-DRB3 gene for MHC class II DR beta

chain, partial cds, allele: BoLA-DRB3*2703.

Length=281


Identities = 239/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||


115


||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||



|||||||||


>EM_OM:AB523828 AB523828.1 Bos taurus BoLA-DRB3 gene for MHC class II antigen,

partial cds, allele: DRB3*2703.

Length=281


Identities = 239/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||



||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||



|||||||||


>EM_EST:CO882141 CO882141.1 BovGen_10466 normal cattle brain Bos taurus cDNA clone

RZPDp1056P1415Q 5', mRNA sequence.

Length=777


Identities = 239/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||



||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||



|||||||||


>EM_OM:U00140 U00140.1 Bos taurus Swiss Simmental breed DR beta-chain antigen

binding domain, MHC class II DRB (Bota-DRB06) gene, partial

CDS.

Length=359


Identities = 238/248 (96%), Gaps = 0/248 (0%)

Strand=Plus/Plus

Query 2 AGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACA 61

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 1 AGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACA 60

Query 62 GATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGG 121

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 61 GATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGG 120

Query 122 CGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTGG 181

116

||||||||||||| ||||||||||||||| ||||||||||||||||||||||||||||||

Sbjct 121 CGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTGG 180

Query 182 AGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGTT 241

|| || |||||||| |||||||| | |||||||||||||||||||||||||||||||

Sbjct 181 AGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGTT 240

Query 242 TCACTGTG 249

||||||||

Sbjct 241 TCACTGTG 248

>EM_OM:Z82031 Z82031.1 Bos indicus BoLA-DRB3 gene, exon 2, allele DRB3*2705

Length=249


Identities = 238/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||



||| || ||||||||||||||||| | |||||||||||||||||||||| ||||||

Sbjct 181 GAGGAGAGGCGGGCCGCGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGTGGAGAGT 240


|||||||||


>EM_OM:X87664 X87664.1 B.taurus class II DR-beta gene, exon 2, allele BoLADRB3*2002

Length=250


Identities = 238/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||| ||||||||||||||||||||||||||||||||||||||||||||| ||||||



|||| || | ||||||||||||| ||||||||||||||||||||||||||||||||||

Sbjct 62 AGATACTTCTATAATGGAGAAGAGCGCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 121


|||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||



|||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 182 GAGCAGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 241


|||||||||


>EM_OM:MF960850 MF960850.1 Saiga tatarica isolate saigak1_11 MHC class II antigen

(DRB3) gene, partial cds.

Length=250


Identities = 238/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


|||||||||||||| |||||||||||||||||||||||||||||||||||||||||| ||

Sbjct 2 GAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGCAC 61


||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||

Sbjct 62 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTACCGG 121


117

||| |||||||||||||||||||||||||||||||||||||| |||||||||||| |||

Sbjct 122 GCGTTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACGACCAGAAGGACTTACTG 181


|||||| |||||||| ||||||||||||||||||||||||||||||||||||||| |||

Sbjct 182 GAGCAGAGGCGGGCCGAGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGACAGT 241


|||||||||


>EM_OM:M99052 M99052.1 Bovine MHC class II BoLA-DR-beta 3 gene, exon 2.

Length=261


Identities = 238/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||

Sbjct 10 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCAGTTCCTGGAC 69


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||



||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||



|||||||||


>EM_OM:LC455502 LC455502.1 Bos indicus Nyalawi_6 BoLA-DRB3 gene for MHC class


Length=280


Identities = 238/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||| || | ||||||||||||| ||||||||||||||||||||||||||||||||||

Sbjct 83 AGATACTTCCATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142


||||||||||||||||||| ||||| |||| |||||||||||||||||||||||||||||

Sbjct 143 GCGGTGACCGAGCTGGGGCAGCCGGTCGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 202


|||| || ||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 203 GAGCGGGGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 262


|||||||||


>EM_OM:KF929427 KF929427.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene,

partial cds.

Length=294


Identities = 238/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Minus


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||


118


|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||



||| || |||||||| |||||||| | |||||||||||||||||||||| |||||||

Sbjct 105 GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGATGAGAGT 46


|||||||||


>EM_OM:KF918674 KF918674.1 Bos taurus isolate gs4 MHC class II antigen (BoLA-DRB3)

gene, partial cds.

Length=294


Identities = 238/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 10 GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 69


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||



||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||



|||||||||


>EM_OM:DQ834889 DQ834889.1 Bos indicus genotype HaeIII-a MHC class II antigen

(BoLa-DRB3) gene, exon 2 and partial cds.

Length=284


Identities = 238/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||| ||||||||||||||||||||||||||||||||||||||||||||| ||||||



|||| || | ||||||||||||| ||||||||||||||||||||||||||||||||||



|||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||



|||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||


>EM_OM:AY805108 AY805108.1 Bison bison MHC class II beta chain (Bibi-DRB3) gene,

Bibi-DRB3*1001 allele, exon 2 and partial cds.

Length=252


Identities = 232/241 (96%), Gaps = 0/241 (0%)

Strand=Plus/Plus

Query 9 TAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTA 68

|||||||||||||||||||||||||||||||||||||||||||||||||||||||| |||

Sbjct 11 TAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGATACTA 70

Query 69 CACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGAC 128

||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||

119

Sbjct 71 CACCAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGAC 130

Query 129 CGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGC 188

|||||||||||||| ||||||| |||||||||||||||||||||||||||||||| ||

Sbjct 131 CGAGCTGGGGCGGCAGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTGGAGGAGAG 190

Query 189 GCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGTTTCACTGT 248

|||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||

Sbjct 191 GCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGTGGAGAGTTTCACTGT 250

Query 249 G 249

|

Sbjct 251 G 251

>EM_OM:AJ487835 AJ487835.1 Bos taurus partial BoLA-DRB3 gene for MHC class II

antigen, BoLA-DRB3*2002 allele, exon 2

Length=486


Identities = 238/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||| ||||||||||||||||||||||||||||||||||||||||||||| ||||||



|||| || | ||||||||||||| ||||||||||||||||||||||||||||||||||



|||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||



|||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||


>EM_OM:AJ302760 AJ302760.1 Damaliscus pygargus phillipsi DRB gene for MHC class

II antigen, exon 2

Length=249


Identities = 238/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||| |||||| |||||||||||||||||||||||||||||||||||||||||||||

Sbjct 1 GAGTATTCTAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60


|||| ||||| |||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 61 AGATACTACAGTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120


|||||||||||||||||||||||||||||| || | ||||||||||||||||| |||||

Sbjct 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGCAATGGAACAGCCAGAAGGAGATCCTG 180


||||||| |||||||||||||||||||||||||||| |||||||||||||||||||||||

Sbjct 181 GAGCAGGAGCGGGCCGCGGTGGACACGTACTGCAGATACAACTACGGGGTCGGTGAGAGT 240


|||||||||




Length=281


Identities = 238/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||


120


|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||



||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||



|||||||||




Length=281


Identities = 238/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||



||| || ||||||||||||||||| | |||||||||||||||||||||| ||||||

Sbjct 203 GAGGAGAGGCGGGCCGCGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGTGGAGAGT 262


|||||||||


>EM_EST:BE487505 BE487505.1 176287 BARC 5BOV Bos taurus cDNA 5', mRNA sequence.

Length=439


Identities = 238/249 (96%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||



||| || |||||||| |||||||| | |||| |||||||||||||||||||||||||

Sbjct 337 GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCATACACAACTACGGGGTCGGTGAGAGT 396


|||||||||


>EM_OM:AF010396 AF010396.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene,

partial cds.

Length=359


Identities = 237/248 (96%), Gaps = 0/248 (0%)

Strand=Plus/Plus

Query 2 AGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACA 61

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 1 AGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACA 60

121

Query 62 GATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGG 121

||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 61 GATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGG 120

Query 122 CGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTGG 181

||||||||||||| ||||||||||||||| ||||||||||||||||||||||||||||||

Sbjct 121 CGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTGG 180

Query 182 AGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGTT 241

|| || |||||||| |||||||| | |||||||||||||||||||||||||||||||

Sbjct 181 AGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGTT 240

Query 242 TCACTGTG 249

||||||||

Sbjct 241 TCACTGTG 248

>EM_OM:X98653 X98653.1 B.bison MHC class II DR-beta gene, exon 2 (isolate CSP

239)

Length=250


Identities = 237/249 (95%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||| |||||||||||||||||||||||||||||| |||||||||||||||||||||

Sbjct 2 GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACTGAGCGGGTGCGGTTCCTGGAC 61


||||||| | ||||||||||||| ||||||||||||||||||||||||||||||||||

Sbjct 62 AGATGCTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 121


|||||||||||||||||||||||| ||||||||||||||||||||||||||| |||||

Sbjct 122 GCGGTGACCGAGCTGGGGCGGCCGTCCGCCAAGTACTGGAACAGCCAGAAGGAGATCCTG 181


|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||


>EM_OM:LC455506 LC455506.1 Bos indicus Nyalawi12 BoLA-DRB3 gene for MHC class


Length=280


Identities = 237/249 (95%), Gaps = 0/249 (0%)

Strand=Plus/Plus


|||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 23 GAGTATCATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 82


|||| || | ||||||||||||| ||||||||||||||||||||||||||||||||||



||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||| | ||||||| |||||||||||||||||||||||||||||||||||||||||||

Sbjct 203 GAGCGGAAGCGGGCCAAGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 262


|||||||||


>EM_OM:LC455377 LC455377.1 Bos indicus BuQ_13 BoLA-DRB3 gene for MHC class II

antigen, partial cds.

Length=280


Identities = 237/249 (95%), Gaps = 0/249 (0%)

Strand=Plus/Plus


122

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



||||||| | ||||||||||||| ||||||||||||||||||||||||||||||||||

Sbjct 83 AGATGCTTCCATAATGGAGAAGAGTTCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142


|||||||||||||||||||||||||||||| || ||||||||||||||||||||||||||

Sbjct 143 GCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGCACTGGAACAGCCAGAAGGACTTCCTG 202


||| || |||||||| |||||||| ||||||||||||||||||||||||||||||||||

Sbjct 203 GAGGAGAGGCGGGCCGAGGTGGACAGGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 262


|||||||||


>EM_OM:LC455374 LC455374.1 Bos indicus But_Q9 BoLA-DRB3 gene for MHC class II


Length=280


Identities = 237/249 (95%), Gaps = 0/249 (0%)

Strand=Plus/Plus


|||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||



|||| |||| |||||||||||||| ||||||||||||||||||||||||||||||||||

Sbjct 83 AGATACTACTATAATGGAGAAGAGATCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142


||| |||||||||||||||||||||||||| || ||||||||||||||||||||||||||

Sbjct 143 GCGTTGACCGAGCTGGGGCGGCCGGACGCCGAGCACTGGAACAGCCAGAAGGACTTCCTG 202


|||| | ||||||||||||||||||||||||||||| |||||||||||||||| ||||||

Sbjct 203 GAGCGGACGCGGGCCGCGGTGGACACGTACTGCAGATACAACTACGGGGTCGGGGAGAGT 262


|||||||||


>EM_OM:LC455364 LC455364.1 Bos indicus Bu_A33 BoLA-DRB3 gene for MHC class II


Length=280


Identities = 237/249 (95%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||

Sbjct 23 GAGTATTATAAGAAAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 82


|||| || | ||||||||||||| |||||||||||||||||||||||||||||||||||



||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||

Sbjct 143 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGCACTGGAACAGCCAGAAGGACTTCCTG 202


|||| | |||||||| ||||||||||||||||||||||||||||||||||||||||||

Sbjct 203 GAGCGGAAGCGGGCCGATGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 262


|||||||||


>EM_OM:LC455341 LC455341.2 Bos indicus Bu_A6 BoLA-DRB3 gene for MHC class II


Length=280


Identities = 237/249 (95%), Gaps = 0/249 (0%)

Strand=Plus/Plus

123


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



||||||| | ||||||||||||| |||||||||||||||||||||||||||||||||||

Sbjct 83 AGATGCTTCTATAATGGAGAAGAGTCCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||| |||||||| ||||||| | | ||||||||||||||||||||||| ||||||

Sbjct 203 GAGCAGAGGCGGGCCGATGTGGACAGGGAGTGCAGACACAACTACGGGGTCGGGGAGAGT 262


|||||||||


>EM_OM:AY847712 AY847712.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene,

BoLA-DRB3*R-142 allele, exon 2 and partial cds.

Length=302


Identities = 237/249 (95%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||

Sbjct 27 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTGCTGGAC 86


|||| || | ||||||||||||| ||||||||||||||||||||||||||||||||||



|||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||



|||||| |||||||||||||||||||||||||||||||||||||||||||| ||||||



|||||||||


>EM_OM:AY805104 AY805104.1 Bison bison MHC class II beta chain (Bibi-DRB3) gene,

Bibi-DRB3*0701 allele, exon 2 and partial cds.

Length=252


Identities = 237/249 (95%), Gaps = 0/249 (0%)

Strand=Plus/Plus


||||||| |||||||||||||||||||||||||||||| |||||||||||||||||||||

Sbjct 3 GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACTGAGCGGGTGCGGTTCCTGGAC 62


||||||| | ||||||||||||| ||||||||||||||||||||||||||||||||||

Sbjct 63 AGATGCTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 122


|||||||||||||||||||||||| ||||||||||||||||||||||||||| |||||

Sbjct 123 GCGGTGACCGAGCTGGGGCGGCCGTCCGCCAAGTACTGGAACAGCCAGAAGGAGATCCTG 182


|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||


>EM_OM:AJ002002 AJ002002.1 Bos indicus BoLA-DRB3 gene, exon 2, allele DRB3*2707

Length=249


Identities = 237/249 (95%), Gaps = 0/249 (0%)

124

Strand=Plus/Plus


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||



|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||



||| || |||||||| |||||||| | |||||||||||||||||||||| ||||||

Sbjct 181 GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGTGGAGAGT 240


|||||||||


>EM_OM:AF387317 AF387317.2 Ovibos moschatus MHC class II DR beta chain precursor

(DRB) mRNA, partial cds.

Length=765


Identities = 237/249 (95%), Gaps = 0/249 (0%)

Strand=Plus/Plus


|||||| ||||||| |||||||||||||||||||||||||||||||||||||||||||||

Sbjct 73 GAGTATCATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 132


|||| || | ||||||||||||| ||||||||||||||||||||||||||||||||||



|||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||

Sbjct 193 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCTGAAGGACTTCCTG 252


|||||| ||||||||| ||||||||||||||||||||||||||||||||||||||||||

Sbjct 253 GAGCAGAGGCGGGCCGCCGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 312


|||||||||


>EM_OM:AF162657 AF162657.2 Ovibos moschatus MHC class II antigen (DRB) gene,

partial cds.

Length=269


Identities = 237/249 (95%), Gaps = 0/249 (0%)

Strand=Plus/Plus


|||||| ||||||| |||||||||||||||||||||||||||||||||||||||||||||

Sbjct 12 GAGTATCATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 71


|||| || | ||||||||||||| ||||||||||||||||||||||||||||||||||



|||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||

Sbjct 132 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCTGAAGGACTTCCTG 191


|||||| ||||||||| ||||||||||||||||||||||||||||||||||||||||||

Sbjct 192 GAGCAGAGGCGGGCCGCCGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 251


|||||||||


Lambda K H

1.37 0.711 1.31

125

Gapped

Lambda K H

1.37 0.711 1.31

Effective search space used: 90622686596400

Database: em_rel

Posted date: Apr 6, 2020 10:32 AM

Number of letters in database: 408,005,271,872

Number of sequences in database: 218,240,662

Matrix: blastn matrix 1 -3

Gap Penalties: Existence: 5, Extension: 2

126

Resultados del programa FASTA por la interfaz web de EMBL-EB

FASTA searches a protein or DNA sequence data bank

version 36.3.8h Aug, 2019

Please cite:

W.R. Pearson & D.J. Lipman PNAS (1988) 85:2444-2448

Query: @

1>>>DERB3_4501 - 249 nt

Library: ENA

408005271872 residues in 218240662 sequences

Statistics: Expectation_n fit: rho(ln(x))= 9.3500+/-7.1e-05; mu= 7.7814+/- 0.004

mean_var=69.9908+/-12.489, 0's: 35 Z-trim(109.4): 588 B-trim: 41 in 1/79

Lambda= 0.153304

statistics sampled from 60000 (93004) to 23220040 sequences

Algorithm: FASTA (3.8 Nov 2011) [optimized]

Parameters: DNA matrix (5:-4), open/ext: -14/-4

ktup: 6, E-join: 0.25 (0.171), E-opt: 0.05 (0.0602), width: 16

Scan time: 10327.800

The best scores are: opt bits E(219849525)

EM_OM: AF144545 AF144545.1 Bos taurus clone EFC ( 249) [f] 1245 283.0 6.4e-72 EM_OM: AF144544 AF144544.1 Bos taurus clone EFC ( 249) [f] 1182 269.1 1e-67 EM_OM: LC455525 LC455525.1 Bos indicus Nyalawi3 ( 280) [f] 1182 269.0 1.1e-67 EM_OM: AJ277156 AJ277156.1 Bos indicus gudali p ( 249) [f] 1173 267.1 4e-67 EM_OM: AY374126 AY374126.1 Bos grunniens MHC cl ( 268) [f] 1173 267.1 4.1e-67 EM_OM: FJ381733 FJ381733.1 Bos taurus MHC class ( 268) [f] 1173 267.1 4.1e-67 EM_OM: AB610140 AB610140.1 Bos taurus BoLA-DRB3 ( 281) [f] 1173 267.0 4.2e-67 EM_OM: AF144543 AF144543.1 Bos taurus clone EFC ( 249) [f] 1164 265.1 1.6e-66 EM_OM: AJ277153 AJ277153.1 Bos indicus gudali p ( 249) [f] 1164 265.1 1.6e-66 EM_OM: LC455469 LC455469.1 Bos indicus Daeinawi ( 280) [f] 1164 265.0 1.7e-66 EM_OM: AB558437 AB558437.1 Bos taurus BoLA-DRB3 ( 281) [f] 1164 265.0 1.7e-66 EM_OM: AB610139 AB610139.1 Bos taurus BoLA-DRB3 ( 281) [f] 1164 265.0 1.7e-66 EM_OM: KY682173 KY682173.1 Bos grunniens MHC cl ( 973) [f] 1164 264.3 2.8e-66 EM_OM: Z48224 Z48224.1 B.indicus BoLA DRB3 gene ( 250) [f] 1155 263.1 6.3e-66 EM_OM: MF960855 MF960855.1 Saiga tatarica isola ( 250) [f] 1155 263.1 6.3e-66 EM_OM: LC455467 LC455467.1 Bos indicus Daeinawi ( 280) [f] 1155 263.1 6.6e-66 EM_OM: AB558435 AB558435.1 Bos taurus BoLA-DRB3 ( 281) [f] 1155 263.1 6.6e-66 EM_OM: AB523828 AB523828.1 Bos taurus BoLA-DRB3 ( 281) [f] 1155 263.1 6.6e-66 EM_OM: JN887489 JN887489.1 Bos taurus MHC class ( 301) [f] 1155 263.0 6.8e-66 EM_OM: JN887488 JN887488.1 Bos taurus MHC class ( 303) [f] 1155 263.0 6.8e-66 EM_EST: CO882141 CO882141.1 BovGen_10466 normal ( 777) [f] 1155 262.4 1e-65 EM_OM: AY125892 AY125892.1 Bos taurus MHC class ( 801) [f] 1155 262.4 1e-65 EM_OM: U00140 U00140.1 Bos taurus Swiss Simment ( 359) [f] 1150 261.8 1.6e-65 EM_OM: AJ302760 AJ302760.1 Damaliscus pygargus ( 249) [f] 1146 261.1 2.5e-65 EM_OM: Z82031 Z82031.1 Bos indicus BoLA-DRB3 ge ( 249) [f] 1146 261.1 2.5e-65 EM_OM: MF960850 MF960850.1 Saiga tatarica isola ( 250) [f] 1146 261.1 2.5e-65 EM_OM: X87664 X87664.1 B.taurus class II DR-bet ( 250) [f] 1146 261.1 2.5e-65 EM_OM: AY805108 AY805108.1 Bison bison MHC clas ( 252) [f] 1146 261.1 2.5e-65 EM_OM: M99052 M99052.1 Bovine MHC class II BoLA ( 261) [f] 1146 261.1 2.5e-65 EM_OM: LC455502 LC455502.1 Bos indicus Nyalawi_ ( 280) [f] 1146 261.1 2.6e-65 EM_OM: AB523829 AB523829.1 Bos taurus BoLA-DRB3 ( 281) [f] 1146 261.1 2.6e-65 EM_OM: AB523830 AB523830.1 Bos taurus BoLA-DRB3 ( 281) [f] 1146 261.1 2.6e-65 EM_OM: DQ834889 DQ834889.1 Bos indicus genotype ( 284) [f] 1146 261.1 2.6e-65 EM_OM: KF918674 KF918674.1 Bos taurus isolate g ( 294) [f] 1146 261.0 2.7e-65 EM_OM: KF929427 KF929427.1 Bos taurus MHC class ( 294) [r] 1146 261.0 2.7e-65 EM_EST: BE487505 BE487505.1 176287 BARC 5BOV Bo ( 439) [f] 1146 260.8 3.2e-65 EM_OM: AJ487835 AJ487835.1 Bos taurus partial B ( 486) [f] 1146 260.7 3.3e-65 EM_OM: AF010396 AF010396.1 Bos taurus MHC class ( 359) [f] 1141 259.8 6.3e-65 EM_OM: AJ002002 AJ002002.1 Bos indicus BoLA-DRB ( 249) [f] 1137 259.1 9.9e-65 EM_OM: AF012715 AF012715.1 Ovibos moschatus MHC ( 249) [f] 1137 259.1 9.9e-65 EM_OM: X98653 X98653.1 B.bison MHC class II DR- ( 250) [f] 1137 259.1 9.9e-65 EM_OM: AY805104 AY805104.1 Bison bison MHC clas ( 252) [f] 1137 259.1 1e-64 EM_OM: AF162657 AF162657.2 Ovibos moschatus MHC ( 269) [f] 1137 259.1 1e-64

127

https://www.ebi.ac.uk/ena/data/view/AF144545


https://www.ebi.ac.uk/ena/data/view/LC455525

https://www.ebi.ac.uk/ena/data/view/AJ277156

https://www.ebi.ac.uk/ena/data/view/AY374126

https://www.ebi.ac.uk/ena/data/view/FJ381733

https://www.ebi.ac.uk/ena/data/view/AB610140






https://www.ebi.ac.uk/ena/data/view/KY682173

https://www.ebi.ac.uk/ena/data/view/Z48224

https://www.ebi.ac.uk/ena/data/view/MF960855




https://www.ebi.ac.uk/ena/data/view/JN887489


https://www.ebi.ac.uk/ena/data/view/CO882141


https://www.ebi.ac.uk/ena/data/view/U00140




https://www.ebi.ac.uk/ena/data/view/X87664


https://www.ebi.ac.uk/ena/data/view/M99052




https://www.ebi.ac.uk/ena/data/view/DQ834889

https://www.ebi.ac.uk/ena/data/view/KF918674


https://www.ebi.ac.uk/ena/data/view/BE487505








EM_OM: LC455374 LC455374.1 Bos indicus But_Q9 B ( 280) [f] 1137 259.1 1e-64 EM_OM: LC455506 LC455506.1 Bos indicus Nyalawi1 ( 280) [f] 1137 259.1 1e-64 EM_OM: LC455341 LC455341.2 Bos indicus Bu_A6 Bo ( 280) [f] 1137 259.1 1e-64 EM_OM: LC455364 LC455364.1 Bos indicus Bu_A33 B ( 280) [f] 1137 259.1 1e-64 EM_OM: LC455377 LC455377.1 Bos indicus BuQ_13 B ( 280) [f] 1137 259.1 1e-64 EM_OM: AY847712 AY847712.1 Bos taurus MHC class ( 302) [f] 1137 259.0 1.1e-64 EM_OM: AB048735 AB048735.1 Bos taurus BoLA-DRB3 ( 227) [f] 1135 258.8 1.3e-64

>>EM_OM: AF144545 AF144545.1 Bos taurus clone EFC18.3 MHC class II antigen BoLA-DRB3 gene, exon 2 and partial cds. (249 nt)

initn: 1245 init1: 1245 opt: 1245 Z-score: 1489.1 bits: 283.0 E(219849525): 6.4e-72

banded Smith-Waterman score: 1245; 100.0% identity (100.0% similar) in 249 nt overlap

(1-249:1-249)

10 20 30 40 50 60

DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC

10 20 30 40 50 60

70 80 90 100 110 120

DERB3_ AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG

70 80 90 100 110 120

130 140 150 160 170 180

DERB3_ GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG

130 140 150 160 170 180

190 200 210 220 230 240

DERB3_ GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT

190 200 210 220 230 240

DERB3_ TTCACTGTG

:::::::::

EM_OM: TTCACTGTG

>>EM_OM: AF144544 AF144544.1 Bos taurus clone EFCK4 MHC class II antigen BoLA-DRB3 gene, exon 2 and partial cds. (249 nt)

initn: 1182 init1: 1182 opt: 1182 Z-score: 1413.8 bits: 269.1 E(219849525): 1e-67


(1-249:1-249)

10 20 30 40 50 60


::::::: ::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC

10 20 30 40 50 60

70 80 90 100 110 120


:::: :: : ::::::::::::: ::::::::::::::::::::::::::::::::::

EM_OM: AGATACTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG

70 80 90 100 110 120

130 140 150 160 170 180


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::


130 140 150 160 170 180

190 200 210 220 230 240


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT

190 200 210 220 230 240

DERB3_ TTCACTGTG

:::::::::

EM_OM: TTCACTGTG

>>EM_OM: LC455525 LC455525.1 Bos indicus Nyalawi36 BoLA-DRB3 gene for MHC class II antigen, partial cds. (280 nt)

128













(1-249:23-271)

10 20 30

DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC

::::::::::::::::::::::::::::::::::::::

EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC

10 20 30 40 50 60

40 50 60 70 80 90

DERB3_ CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA

:::::::::::::::::::::::::: :::::::::::::::::::::::::::::::::

EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGA

70 80 90 100 110 120

100 110 120 130 140 150

DERB3_ CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG

:::::::::::::::::::::::::::::::::::::::::::::::::::: :: ::::

EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGCACTG

130 140 150 160 170 180

160 170 180 190 200 210

DERB3_ GAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACA

:::::::::::::::::::::::::: : ::::::::::::::::::::::::::::::

EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCGGAGGCGGGCCGCGGTGGACACGTACTGCAGACA

190 200 210 220 230 240

220 230 240

DERB3_ CAACTACGGGGTCGGTGAGAGTTTCACTGTG

::::::::::::::: :::::::::::::::

EM_OM: CAACTACGGGGTCGGGGAGAGTTTCACTGTGCAGCGGCGA

250 260 270 280

>>EM_OM: AJ277156 AJ277156.1 Bos indicus gudali partial BLA-DRB3 gene for MHC class II antigen, exon 2, allele

DRB3*2007 (249 nt)



(1-249:1-249)

10 20 30 40 50 60


::::::: ::::::::::::::::::::::::::::::::::::::::::::: ::::::

EM_OM: GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTGCTGGAC

10 20 30 40 50 60

70 80 90 100 110 120


:::: :::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: AGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG

70 80 90 100 110 120

130 140 150 160 170 180


:::::::::::::::::::::::::::::: :::::::::::::::::::::::::::::

EM_OM: GCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG

130 140 150 160 170 180

190 200 210 220 230 240


:::::: :::::::::::::::::::::::::::::::::::::::::::: ::::::

EM_OM: GAGCAGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGTGGAGAGT

190 200 210 220 230 240

DERB3_ TTCACTGTG

:::::::::

EM_OM: TTCACTGTG

>>EM_OM: AY374126 AY374126.1 Bos grunniens MHC class II antigen gene, exon 2 and partial cds. (268 nt)



(1-249:10-258)

10 20 30 40 50

DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGG

:::::::::::::: ::::::::::::::::::::::::::::::::::::

EM_OM: CATTTCCTGGAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGG

10 20 30 40 50 60

60 70 80 90 100 110

DERB3_ TTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGC

129



::::::::::::: ::::: ::::::::::::::::::::::::::::::::::::::::

EM_OM: TTCCTGGACAGATACTACAATAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGC

70 80 90 100 110 120

120 130 140 150 160 170

DERB3_ GAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAG

:::::::::::::::::::::::::::: :::::::::: :: :::: ::::::::::::

EM_OM: GAGTTCCGGGCGGTGACCGAGCTGGGGCCGCCGGACGCCGAGCACTGCAACAGCCAGAAG

130 140 150 160 170 180

180 190 200 210 220 230

DERB3_ GACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTC

::::::::::::: ::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: GACTTCCTGGAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTC

190 200 210 220 230 240

240

DERB3_ GGTGAGAGTTTCACTGTG

::::::::::::::::::

EM_OM: GGTGAGAGTTTCACTGTGCAGCGGCGAG

250 260

>>EM_OM: FJ381733 FJ381733.1 Bos taurus MHC class II antigen beta chain (BoLA-DRB3) gene, BoLA-DRB3-6-1 allele, exon 2

and partial cds. (268 nt)



(1-249:14-262)

10 20 30 40

DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGT

::::::: :::::::::::::::::::::::::::::::::::::::

EM_OM: AGCACATTTCCTGGAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGT

10 20 30 40 50 60

50 60 70 80 90 100

DERB3_ GCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTG

:::::: :::::::::: ::::::::::::::::::::::::::::::::::::::::::

EM_OM: GCGGTTGCTGGACAGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTG

70 80 90 100 110 120

110 120 130 140 150 160

DERB3_ GGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCA

::::::::::::::::::::::::::::::::::::::::::: ::::::::::::::::

EM_OM: GGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGTACTGGAACAGCCA

130 140 150 160 170 180

170 180 190 200 210 220

DERB3_ GAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGG

::::::::::::::::::: :::::::::::::::::::::::::::::::::::::::

EM_OM: GAAGGACTTCCTGGAGCAGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGG

190 200 210 220 230 240

230 240

DERB3_ GGTCGGTGAGAGTTTCACTGTG

::::: :::::::::::::::

EM_OM: GGTCGTGGAGAGTTTCACTGTGCAGCGG

250 260

>>EM_OM: AB610140 AB610140.1 Bos taurus BoLA-DRB3 gene for major histocompatibility complex class II DR-beta chain,

partial cds, allele: BoLA-DRB3*4802. (281 nt)



(1-249:23-271)

10 20 30


::::::: ::::::::::::::::::::::::::::::

EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGAC

10 20 30 40 50 60

40 50 60 70 80 90


::::::::::::::: :::::::::: :::::::::::::::::::::::::::::::::

EM_OM: CGAGCGGGTGCGGTTGCTGGACAGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGA

70 80 90 100 110 120

100 110 120 130 140 150


:::::::::::::::::::::::::::::::::::::::::::::::::::: :::::::

EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGTACTG

130 140 150 160 170 180

160 170 180 190 200 210

130

https://www.ebi.ac.uk/ena/data/view/FJ381733



:::::::::::::::::::::::::::: ::::::::::::::::::::::::::::::

EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCAGAGGCGGGCCGCGGTGGACACGTACTGCAGACA

190 200 210 220 230 240

220 230 240


:::::::::::::: :::::::::::::::

EM_OM: CAACTACGGGGTCGTGGAGAGTTTCACTGTGCAGCGGCGAG

250 260 270 280

>>EM_OM: AF144543 AF144543.1 Bos taurus clone EFC13.1 MHC class II antigen BoLA-DRB3 gene, exon 2 and partial cds. (249 nt)



(1-249:1-249)

10 20 30 40 50 60


:::::::::::::: :::::::::::::::::::::::::::::::::::::::::::::

EM_OM: GAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC

10 20 30 40 50 60

70 80 90 100 110 120


:::: :::::::::::::::::::::::::::::::::::::::::::::::::::::::


70 80 90 100 110 120

130 140 150 160 170 180


::: :::::::::::::::::: ::::::: :: : ::::::::::::::::::::::::

EM_OM: GCGTTGACCGAGCTGGGGCGGCAGGACGCCGAGCAGTGGAACAGCCAGAAGGACTTCCTG

130 140 150 160 170 180

190 200 210 220 230 240


:::: ::::::::::::::::::::::::::::::: :::::::::::::::::::::::

EM_OM: GAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGATACAACTACGGGGTCGGTGAGAGT

190 200 210 220 230 240

DERB3_ TTCACTGTG

:::::::::

EM_OM: TTCACTGTG

>>EM_OM: AJ277153 AJ277153.1 Bos indicus gudali partial BLA-DRB3 gene for MHC class II antigen, exon 2, allele

DRB3*4401 (249 nt)



(1-249:1-249)

10 20 30 40 50 60


:::::::::::::: :::::::::::::::::::::::::::::::::::::::::::::

EM_OM: GAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC

10 20 30 40 50 60

70 80 90 100 110 120


:::: :::::::::::::::::::::::::::::::::::::::::::::::::::::::


70 80 90 100 110 120

130 140 150 160 170 180


::: :::::::::::::::::: ::::::: :: : ::::::::::::::::::::::::

EM_OM: GCGTTGACCGAGCTGGGGCGGCAGGACGCCGAGCAGTGGAACAGCCAGAAGGACTTCCTG

130 140 150 160 170 180

190 200 210 220 230 240


:::: ::::::::::::::::::::::::::::::: :::::::::::::::::::::::

EM_OM: GAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGATACAACTACGGGGTCGGTGAGAGT

190 200 210 220 230 240

DERB3_ TTCACTGTG

:::::::::

EM_OM: TTCACTGTG

>>EM_OM: LC455469 LC455469.1 Bos indicus Daeinawi29 BoLA-DRB3

131




gene for MHC class II antigen, partial cds. (280 nt)



(1-249:23-271)

10 20 30


::::::::::::::::::::::::::::::::::::::


10 20 30 40 50 60

40 50 60 70 80 90


:::::::::::::::::::::::::: :: : ::::::::::::: :::::::::::::

EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATACTTCTATAATGGAGAAGAGTCCGTGCGCTTCGA

70 80 90 100 110 120

100 110 120 130 140 150


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG

130 140 150 160 170 180

160 170 180 190 200 210


:::::::::::::::::::::::::::: :::::::: :::::::::::::::::::::

EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCAGAAGCGGGCCGAGGTGGACACGTACTGCAGACA

190 200 210 220 230 240

220 230 240


::::::::::::::: :::::::::::::::


250 260 270 280

>>EM_OM: AB558437 AB558437.1 Bos taurus BoLA-DRB3 gene for MHC class II DR beta chain, partial cds, allele:

BoLA-DRB3*4401. (281 nt)



(1-249:23-271)

10 20 30


:::::::::::::: :::::::::::::::::::::::

EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGAC

10 20 30 40 50 60

40 50 60 70 80 90


:::::::::::::::::::::::::: :::::::::::::::::::::::::::::::::


70 80 90 100 110 120

100 110 120 130 140 150


::::::::::::::::::::::::: :::::::::::::::::: ::::::: :: : ::

EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGTTGACCGAGCTGGGGCGGCAGGACGCCGAGCAGTG

130 140 150 160 170 180

160 170 180 190 200 210


:::::::::::::::::::::::::: ::::::::::::::::::::::::::::::: :

EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGATA

190 200 210 220 230 240

220 230 240


:::::::::::::::::::::::::::::::

EM_OM: CAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGAG

250 260 270 280

>>EM_OM: AB610139 AB610139.1 Bos taurus BoLA-DRB3 gene for major histocompatibility complex class II DR-beta chain,

partial cds, allele: BoLA-DRB3*4401. (281 nt)



(1-249:23-271)

10 20 30


:::::::::::::: :::::::::::::::::::::::


10 20 30 40 50 60

132



40 50 60 70 80 90


:::::::::::::::::::::::::: :::::::::::::::::::::::::::::::::


70 80 90 100 110 120

100 110 120 130 140 150


::::::::::::::::::::::::: :::::::::::::::::: ::::::: :: : ::

EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGTTGACCGAGCTGGGGCGGCAGGACGCCGAGCAGTG

130 140 150 160 170 180

160 170 180 190 200 210


:::::::::::::::::::::::::: ::::::::::::::::::::::::::::::: :

EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGATA

190 200 210 220 230 240

220 230 240


:::::::::::::::::::::::::::::::


250 260 270 280

>>EM_OM: KY682173 KY682173.1 Bos grunniens MHC class II antigen (MHC-DRB) mRNA, complete cds. (973 nt)



(1-249:131-379)

10 20 30

DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTC

:::::::::::::: :::::::::::::::

EM_OM: TGGGCCAGGGAGATCCAACCACATTTCCTGGAGTATTATAAGAGCGAGTGTCATTTCTTC

110 120 130 140 150 160

40 50 60 70 80 90

DERB3_ AACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTG

:::::::::::::::::::::::::::::::::: :::::::::::::::::::::::::

EM_OM: AACGGGACCGAGCGGGTGCGGTTCCTGGACAGATACTACACTAATGGAGAAGAGACCGTG

170 180 190 200 210 220

100 110 120 130 140 150

DERB3_ CGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCC

::::::::::::::::::::::::::::::::: :::::::::::::::::: :::::::

EM_OM: CGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGTTGACCGAGCTGGGGCGGCAGGACGCC

230 240 250 260 270 280

160 170 180 190 200 210

DERB3_ AAGTACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTAC

:: : :::::::::::::::::::::::::::: :::::::::::::::::::::::::

EM_OM: GAGCAGTGGAACAGCCAGAAGGACTTCCTGGAGCGGGCGCGGGCCGCGGTGGACACGTAC

290 300 310 320 330 340

220 230 240

DERB3_ TGCAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTG

:::::: ::::::::::::::::::::::::::::::::

EM_OM: TGCAGATACAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGAGTGGAACCTATA

350 360 370 380 390 400

EM_OM: GTGACTGTGTATCCTGCAAAGACCCAGCCCCTGCAGCACCACAACCTCCTGGTCTGCTCT

410 420 430 440 450 460

>>EM_OM: Z48224 Z48224.1 B.indicus BoLA DRB3 gene for first domain of the MHC class 2 molecule, beta chain. (250 nt)



(1-249:2-250)

10 20 30 40 50

DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGA

:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: GGAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGA

10 20 30 40 50 60

60 70 80 90 100 110

DERB3_ CAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCG

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: CAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCG

70 80 90 100 110 120

120 130 140 150 160 170

DERB3_ GGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCT

::::::::::::::: ::::::::::::::: ::::::::::::::::::::::::::::

EM_OM: GGCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCT

133

https://www.ebi.ac.uk/ena/data/view/KY682173


130 140 150 160 170 180

180 190 200 210 220 230

DERB3_ GGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAG

:::: :: :::::::: :::::::: : :::::::::::::::::::::::::::::

EM_OM: GGAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAG

190 200 210 220 230 240

240

DERB3_ TTTCACTGTG

::::::::::

EM_OM: TTTCACTGTG

250

>>EM_OM: MF960855 MF960855.1 Saiga tatarica isolate saigak5_4 MHC class II antigen (DRB3) gene, partial cds. (250 nt)



(1-249:2-250)

10 20 30 40 50


:::::::::::::: ::::::::::::::::::::::::::::::::: :::::::: :

EM_OM: GGAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGTGGTTCCTGTA

10 20 30 40 50 60

60 70 80 90 100 110


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: CAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCG

70 80 90 100 110 120

120 130 140 150 160 170


:::: :::::::::::::::::::::::::::::::::::::: :::::::::::::::

EM_OM: GGCGTTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACGACCAGAAGGACTTCCT

130 140 150 160 170 180

180 190 200 210 220 230


::::::: :::::::::::::::::::::::::::::::::::::::::::: ::: ::

EM_OM: GGAGCAGAAGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGTTGACAG

190 200 210 220 230 240

240

DERB3_ TTTCACTGTG

::::::::::

EM_OM: TTTCACTGTG

250

>>EM_OM: LC455467 LC455467.1 Bos indicus Daeinawi27 BoLA-DRB3 gene for MHC class II antigen, partial cds. (280 nt)



(1-249:23-271)

10 20 30


:::::: :::::::::::::::::::::::::::::::

EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATCATAAGAGAGAGTGTCATTTCTTCAACGGGAC

10 20 30 40 50 60

40 50 60 70 80 90


:::::::::::::::::::::::::: :: : ::::::::::::: :::::::::::::


70 80 90 100 110 120

100 110 120 130 140 150


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::


130 140 150 160 170 180

160 170 180 190 200 210


:::::::::::::::::::::::::: : ::::::::::::::::::::::::::::::

EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCGGAGGCGGGCCGCGGTGGACACGTACTGCAGACA

190 200 210 220 230 240

220 230 240


::::::::::::::: :::::::::::::::


250 260 270 280

134



>>EM_OM: AB558435 AB558435.1 Bos taurus BoLA-DRB3 gene for MHC class II DR beta chain, partial cds, allele:

BoLA-DRB3*2703. (281 nt)



(1-249:23-271)

10 20 30


::::::::::::::::::::::::::::::::::::::


10 20 30 40 50 60

40 50 60 70 80 90


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA

70 80 90 100 110 120

100 110 120 130 140 150


:::::::::::::::::::::::::::::::::::: ::::::::::::::: :::::::

EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTG

130 140 150 160 170 180

160 170 180 190 200 210


::::::::::::::::::::::::: :: :::::::: :::::::: : ::::::::

EM_OM: GAACAGCCAGAAGGACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACA

190 200 210 220 230 240

220 230 240


:::::::::::::::::::::::::::::::


250 260 270 280

>>EM_OM: AB523828 AB523828.1 Bos taurus BoLA-DRB3 gene for MHC class II antigen, partial cds, allele: DRB3*2703. (281 nt)



(1-249:23-271)

10 20 30


::::::::::::::::::::::::::::::::::::::


10 20 30 40 50 60

40 50 60 70 80 90


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::


70 80 90 100 110 120

100 110 120 130 140 150


:::::::::::::::::::::::::::::::::::: ::::::::::::::: :::::::


130 140 150 160 170 180

160 170 180 190 200 210


::::::::::::::::::::::::: :: :::::::: :::::::: : ::::::::


190 200 210 220 230 240

220 230 240


:::::::::::::::::::::::::::::::


250 260 270 280

>>EM_OM: JN887489 JN887489.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene, BoLA-DRB3-4 allele, exon 2 and partial

cds. (301 nt)



(1-249:28-276)

10 20 30

DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAAC

:::::::::::::::::::::::::::::::::

EM_OM: TATCCTCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAAC

135




10 20 30 40 50 60

40 50 60 70 80 90

DERB3_ GGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGC

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: GGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGC

70 80 90 100 110 120

100 110 120 130 140 150

DERB3_ TTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAG

::::::::::::::::::::::::::::::::::::::::: ::::::::::::::: ::

EM_OM: TTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCCGAG

130 140 150 160 170 180

160 170 180 190 200 210

DERB3_ TACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGC

:::::::::::::::::::::::::::::: :: :::::::: :::::::: : :::

EM_OM: TACTGGAACAGCCAGAAGGACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGC

190 200 210 220 230 240

220 230 240

DERB3_ AGACACAACTACGGGGTCGGTGAGAGTTTCACTGTG

::::::::::::::::::::::::::::::::::::

EM_OM: AGACACAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGAGGTGAGCGCGAATTT

250 260 270 280 290 300

EM_OM: A

>>EM_OM: JN887488 JN887488.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene, BoLA-DRB3-3 allele, exon 2 and partial

cds. (303 nt)



(1-249:29-277)

10 20 30

DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAA

::::::::::::::::::::::::::::::::

EM_OM: TTATCCTCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAA

10 20 30 40 50 60

40 50 60 70 80 90

DERB3_ CGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCG

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: CGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCG

70 80 90 100 110 120

100 110 120 130 140 150

DERB3_ CTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAA

:::::::::::::::::::::::::::::::::::::::::: ::::::::::::::: :

EM_OM: CTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCCGA

130 140 150 160 170 180

160 170 180 190 200 210

DERB3_ GTACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTG

::::::::::::::::::::::::::::::: :: :::::::: :::::::: : ::

EM_OM: GTACTGGAACAGCCAGAAGGACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGGTGTG

190 200 210 220 230 240

220 230 240

DERB3_ CAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTG

:::::::::::::::::::::::::::::::::::::

EM_OM: CAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGAGGTGAGCGCGAATT

250 260 270 280 290 300

EM_OM: TAA

>>EM_EST: CO882141 CO882141.1 BovGen_10466 normal cattle brain Bos taurus cDNA clone RZPDp1056P1415Q 5', mRNA sequence. (777 nt)



(1-249:130-378)

10 20 30


::::::::::::::::::::::::::::::

EM_EST TGGGCCAGGGAGATCCAACCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTC

100 110 120 130 140 150

40 50 60 70 80 90


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_EST AACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTG

136


https://www.ebi.ac.uk/ena/data/view/CO882141

160 170 180 190 200 210

100 110 120 130 140 150


:::::::::::::::::::::::::::::::::::::::::::: :::::::::::::::

EM_EST CGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCC

220 230 240 250 260 270

160 170 180 190 200 210


:::::::::::::::::::::::::::::::: :: :::::::: :::::::: :

EM_EST GAGTACTGGAACAGCCAGAAGGACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGGTG

280 290 300 310 320 330

220 230 240


:::::::::::::::::::::::::::::::::::::::

EM_EST TGCAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGAGTGGAGCCTACA

340 350 360 370 380 390

EM_EST GTGACTGTGTATCCTGCAAAGACTCAGCCCCTGCAGCACCACAACCTCCTGGTCTGCTCT

400 410 420 430 440 450

>>EM_OM: AY125892 AY125892.1 Bos taurus MHC class II antigen (BoLA-DRB3) mRNA, BoLA-DRB3*2703 allele, complete cds. (801 nt)



(1-249:112-360)

10 20 30


::::::::::::::::::::::::::::::

EM_OM: TGGGCCAGGGAGATCCAACCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTC

90 100 110 120 130 140

40 50 60 70 80 90


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: AACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTG

150 160 170 180 190 200

100 110 120 130 140 150


:::::::::::::::::::::::::::::::::::::::::::: :::::::::::::::

EM_OM: CGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCC

210 220 230 240 250 260

160 170 180 190 200 210


:::::::::::::::::::::::::::::::: :: :::::::: :::::::: :

EM_OM: GAGTACTGGAACAGCCAGAAGGACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGGTG

270 280 290 300 310 320

220 230 240


:::::::::::::::::::::::::::::::::::::::

EM_OM: TGCAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGAGTGGAGCCTACA

330 340 350 360 370 380

EM_OM: GTGACTGTGTATCCTGCAAAGACTCAGCCCCTGCAGCACCACAACCTCCTGGTCTGCTCT

390 400 410 420 430 440

>>EM_OM: U00140 U00140.1 Bos taurus Swiss Simmental breed DR beta-chain antigen binding domain, MHC class II DRB

(Bota-DRB06) gene, partial CDS. (359 nt)



(2-249:1-248)

10 20 30 40 50 60


:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: AGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC

10 20 30 40 50

70 80 90 100 110 120


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::


60 70 80 90 100 110

130 140 150 160 170 180


:::::::::::::: ::::::::::::::: :::::::::::::::::::::::::::::

EM_OM: GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG

137


https://www.ebi.ac.uk/ena/data/view/U00140

120 130 140 150 160 170

190 200 210 220 230 240


::: :: :::::::: :::::::: : ::::::::::::::::::::::::::::::

EM_OM: GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGT

180 190 200 210 220 230

DERB3_ TTCACTGTG

:::::::::

EM_OM: TTCACTGTGCAGCGGCGAGGTGAGTGCGGGGGTGGACGGCCAGAGTGGAGCAGTGTGTGT

240 250 260 270 280 290

>>EM_OM: AJ302760 AJ302760.1 Damaliscus pygargus phillipsi DRB gene for MHC class II antigen, exon 2 (249 nt)



(1-249:1-249)

10 20 30 40 50 60


::::::: :::::: :::::::::::::::::::::::::::::::::::::::::::::

EM_OM: GAGTATTCTAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC

10 20 30 40 50 60

70 80 90 100 110 120


:::: ::::: :::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: AGATACTACAGTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG

70 80 90 100 110 120

130 140 150 160 170 180


:::::::::::::::::::::::::::::: :: : ::::::::::::::::: :::::

EM_OM: GCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGCAATGGAACAGCCAGAAGGAGATCCTG

130 140 150 160 170 180

190 200 210 220 230 240


::::::: :::::::::::::::::::::::::::: :::::::::::::::::::::::

EM_OM: GAGCAGGAGCGGGCCGCGGTGGACACGTACTGCAGATACAACTACGGGGTCGGTGAGAGT

190 200 210 220 230 240

DERB3_ TTCACTGTG

:::::::::

EM_OM: TTCACTGTG

>>EM_OM: Z82031 Z82031.1 Bos indicus BoLA-DRB3 gene, exon 2, allele DRB3*2705 (249 nt)



(1-249:1-249)

10 20 30 40 50 60


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::


10 20 30 40 50 60

70 80 90 100 110 120


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::


70 80 90 100 110 120

130 140 150 160 170 180


:::::::::::::: ::::::::::::::: :::::::::::::::::::::::::::::


130 140 150 160 170 180

190 200 210 220 230 240


::: :: ::::::::::::::::: : :::::::::::::::::::::: ::::::

EM_OM: GAGGAGAGGCGGGCCGCGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGTGGAGAGT

190 200 210 220 230 240

DERB3_ TTCACTGTG

:::::::::

EM_OM: TTCACTGTG

138



>>EM_OM: MF960850 MF960850.1 Saiga tatarica isolate saigak1_11 MHC class II antigen (DRB3) gene, partial cds. (250 nt)



(1-249:2-250)

10 20 30 40 50


:::::::::::::: :::::::::::::::::::::::::::::::::::::::::: :

EM_OM: GGAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGCA

10 20 30 40 50 60

60 70 80 90 100 110


:::::::::::::::::::::::::::::::::::::::::::::::::::::::: :::

EM_OM: CAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTACCG

70 80 90 100 110 120

120 130 140 150 160 170


:::: :::::::::::::::::::::::::::::::::::::: :::::::::::: ::

EM_OM: GGCGTTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACGACCAGAAGGACTTACT

130 140 150 160 170 180

180 190 200 210 220 230


::::::: :::::::: ::::::::::::::::::::::::::::::::::::::: ::

EM_OM: GGAGCAGAGGCGGGCCGAGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGACAG

190 200 210 220 230 240

240

DERB3_ TTTCACTGTG

::::::::::

EM_OM: TTTCACTGTG

250

>>EM_OM: X87664 X87664.1 B.taurus class II DR-beta gene, exon 2, allele BoLADRB3*2002 (250 nt)



(1-249:2-250)

10 20 30 40 50


::::::: ::::::::::::::::::::::::::::::::::::::::::::: :::::

EM_OM: GGAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTGCTGGA

10 20 30 40 50 60

60 70 80 90 100 110


::::: :: : ::::::::::::: :::::::::::::::::::::::::::::::::

EM_OM: CAGATACTTCTATAATGGAGAAGAGCGCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCG

70 80 90 100 110 120

120 130 140 150 160 170


::::::::::::::::::::::::::::::: ::::::::::::::::::::::::::::

EM_OM: GGCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCT

130 140 150 160 170 180

180 190 200 210 220 230


::::::: :::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: GGAGCAGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAG

190 200 210 220 230 240

240

DERB3_ TTTCACTGTG

::::::::::

EM_OM: TTTCACTGTG

250

>>EM_OM: AY805108 AY805108.1 Bison bison MHC class II beta chain (Bibi-DRB3) gene, Bibi-DRB3*1001 allele, exon 2 and

partial cds. (252 nt)



(1-249:3-251)

10 20 30 40 50

DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGG

:::::: ::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: TGGAGTATCGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGG

10 20 30 40 50 60

139




60 70 80 90 100 110

DERB3_ ACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCC

:::::: :::::: ::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: ACAGATACTACACCAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCC

70 80 90 100 110 120

120 130 140 150 160 170

DERB3_ GGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCC

:::::::::::::::::::::::: ::::::: :::::::::::::::::::::::::::

EM_OM: GGGCGGTGACCGAGCTGGGGCGGCAGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCC

130 140 150 160 170 180

180 190 200 210 220 230

DERB3_ TGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGA

::::: :: :::::::::::::::::::::::::::::::::::::::::::: ::::

EM_OM: TGGAGGAGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGTGGAGA

190 200 210 220 230 240

240

DERB3_ GTTTCACTGTG

:::::::::::

EM_OM: GTTTCACTGTGC

250

>>EM_OM: M99052 M99052.1 Bovine MHC class II BoLA-DR-beta 3 gene, exon 2. (261 nt)



(1-249:10-258)

10 20 30 40 50


::::::::::::::::::::::::::::::::::::::::::::::::: :

EM_OM: CATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCAG

10 20 30 40 50 60

60 70 80 90 100 110


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: TTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGC

70 80 90 100 110 120

120 130 140 150 160 170


::::::::::::::::::::::: ::::::::::::::: ::::::::::::::::::::

EM_OM: GAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAG

130 140 150 160 170 180

180 190 200 210 220 230


:::::::::::: :: :::::::: :::::::: : :::::::::::::::::::::

EM_OM: GACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTC

190 200 210 220 230 240

240


::::::::::::::::::

EM_OM: GGTGAGAGTTTCACTGTGCAG

250 260

>>EM_OM: LC455502 LC455502.1 Bos indicus Nyalawi_6 BoLA-DRB3 gene for MHC class II antigen, partial cds. (280 nt)



(1-249:23-271)

10 20 30


::::::::::::::::::::::::::::::::::::::


10 20 30 40 50 60

40 50 60 70 80 90


:::::::::::::::::::::::::: :: : ::::::::::::: ::::::::::::

EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATACTTCCATAATGGAGAAGAGTACGTGCGCTTCGA

70 80 90 100 110 120

100 110 120 130 140 150


::::::::::::::::::::::::::::::::::::::::: ::::: :::: :::::::

EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCAGCCGGTCGCCGAGTACTG

130 140 150 160 170 180

140

https://www.ebi.ac.uk/ena/data/view/M99052


160 170 180 190 200 210


:::::::::::::::::::::::::: :: ::::::::::::::::::::::::::::::

EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCGGGGGCGGGCCGCGGTGGACACGTACTGCAGACA

190 200 210 220 230 240

220 230 240


:::::::::::::::::::::::::::::::

EM_OM: CAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGA

250 260 270 280




(1-249:23-271)

10 20 30


::::::::::::::::::::::::::::::::::::::


10 20 30 40 50 60

40 50 60 70 80 90


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::


70 80 90 100 110 120

100 110 120 130 140 150


:::::::::::::::::::::::::::::::::::: ::::::::::::::: :::::::


130 140 150 160 170 180

160 170 180 190 200 210


::::::::::::::::::::::::: :: ::::::::::::::::: : ::::::::

EM_OM: GAACAGCCAGAAGGACTTCCTGGAGGAGAGGCGGGCCGCGGTGGACAGGGTGTGCAGACA

190 200 210 220 230 240

220 230 240


:::::::::::::: :::::::::::::::

EM_OM: CAACTACGGGGTCGTGGAGAGTTTCACTGTGCAGCGGCGAG

250 260 270 280




(1-249:23-271)

10 20 30


::::::::::::::::::::::::::::::::::::::


10 20 30 40 50 60

40 50 60 70 80 90


:::::::::::::::::::::::::: :::::::::::::::::::::::::::::::::


70 80 90 100 110 120

100 110 120 130 140 150


:::::::::::::::::::::::::::::::::::: ::::::::::::::: :::::::


130 140 150 160 170 180

160 170 180 190 200 210


::::::::::::::::::::::::: :: :::::::: :::::::: : ::::::::


190 200 210 220 230 240

220 230 240


:::::::::::::::::::::::::::::::


250 260 270 280

>>EM_OM: DQ834889 DQ834889.1 Bos indicus genotype HaeIII-a MHC

141



https://www.ebi.ac.uk/ena/data/view/DQ834889

class II antigen (BoLa-DRB3) gene, exon 2 and partial cds. (284 nt)



(1-249:27-275)

10 20 30

DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACG

::::::: ::::::::::::::::::::::::::

EM_OM: ATCCTCTCTCTGCAGCACATTTCCTGGAGTATTGTAAGAGAGAGTGTCATTTCTTCAACG

10 20 30 40 50 60

40 50 60 70 80 90

DERB3_ GGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCT

::::::::::::::::::: :::::::::: :: : ::::::::::::: ::::::::

EM_OM: GGACCGAGCGGGTGCGGTTGCTGGACAGATACTTCTATAATGGAGAAGAGCGCGTGCGCT

70 80 90 100 110 120

100 110 120 130 140 150

DERB3_ TCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGT

:::::::::::::::::::::::::::::::::::::::::::::::::::::::: :::

EM_OM: TCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGT

130 140 150 160 170 180

160 170 180 190 200 210

DERB3_ ACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCA

:::::::::::::::::::::::::::::::: ::::::::::::::::::::::::::

EM_OM: ACTGGAACAGCCAGAAGGACTTCCTGGAGCAGAGGCGGGCCGCGGTGGACACGTACTGCA

190 200 210 220 230 240

220 230 240

DERB3_ GACACAACTACGGGGTCGGTGAGAGTTTCACTGTG

:::::::::::::::::::::::::::::::::::

EM_OM: GACACAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGA

250 260 270 280

>>EM_OM: KF918674 KF918674.1 Bos taurus isolate gs4 MHC class II antigen (BoLA-DRB3) gene, partial cds. (294 nt)



(1-249:10-258)

10 20 30 40 50


::::::: :::::::::::::::::::::::::::::::::::::::::::

EM_OM: CATTTCCTGGAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGG

10 20 30 40 50 60

60 70 80 90 100 110


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: TTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGC

70 80 90 100 110 120

120 130 140 150 160 170


::::::::::::::::::::::: ::::::::::::::: ::::::::::::::::::::

EM_OM: GAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAG

130 140 150 160 170 180

180 190 200 210 220 230


:::::::::::: :: :::::::: :::::::: : :::::::::::::::::::::

EM_OM: GACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTC

190 200 210 220 230 240

240


::::::::::::::::::

EM_OM: GGTGAGAGTTTCACTGTGCAGCGGCGAGGTGAGCGCGGGGGTGAAGGGCGAATT

250 260 270 280 290

>>EM_OM: KF929427 KF929427.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene, partial cds. (294 nt)

rev-comp initn: 1146 init1: 1146 opt: 1146 Z-score: 1368.9 bits: 261.0 E(219849525): 2.7e-65


(249-1:37-285)

250 240 230

DERB3- CACAGTGAAACTCTCACCGACCCCGTAGTT

:::::::::::::::: :::::::::::::

EM_OM: CCCTTCACCCCCGCGCTCACCTCGCCGCTGCACAGTGAAACTCTCATCGACCCCGTAGTT

10 20 30 40 50 60

220 210 200 190 180 170

DERB3- GTGTCTGCAGTACGTGTCCACCGCGGCCCGCGCCTGCTCCAGGAAGTCCTTCTGGCTGTT

142



::::::::: : :::::::: :::::::: :: ::::::::::::::::::::::::

EM_OM: GTGTCTGCACACCCTGTCCACCTCGGCCCGCCTCTCCTCCAGGAAGTCCTTCTGGCTGTT

70 80 90 100 110 120

160 150 140 130 120 110

DERB3- CCAGTACTTGGCGTCCGGCCGCCCCAGCTCGGTCACCGCCCGGAACTCGCCCCAGTCGCT

:::::::: ::::::::::::::: :::::::::::::::::::::::::::::::::::

EM_OM: CCAGTACTCGGCGTCCGGCCGCCCTAGCTCGGTCACCGCCCGGAACTCGCCCCAGTCGCT

130 140 150 160 170 180

100 90 80 70 60 50

DERB3- GTCGAAGCGCACGGTCTCTTCTCCATTAGTGTAGCATCTGTCCAGGAACCGCACCCGCTC

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: GTCGAAGCGCACGGTCTCTTCTCCATTAGTGTAGCATCTGTCCAGGAACCGCACCCGCTC

190 200 210 220 230 240

40 30 20 10

DERB3- GGTCCCGTTGAAGAAATGACACTCTCTCTTATAATACTC

:::::::::::::::::::::::::::::::::::::::

EM_OM: GGTCCCGTTGAAGAAATGACACTCTCTCTTATAATACTCCAGGAAATG

250 260 270 280 290

>>EM_EST: BE487505 BE487505.1 176287 BARC 5BOV Bos taurus cDNA 5', mRNA sequence. (439 nt)



(1-249:157-405)

10 20 30


::::::::::::::::::::::::::::::

EM_EST TGGGCCAGGGAGATCCAACCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTC

130 140 150 160 170 180

40 50 60 70 80 90


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_EST AACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTG

190 200 210 220 230 240

100 110 120 130 140 150


:::::::::::::::::::::::::::::::::::::::::::: :::::::::::::::

EM_EST CGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCC

250 260 270 280 290 300

160 170 180 190 200 210


:::::::::::::::::::::::::::::::: :: :::::::: :::::::: :

EM_EST GAGTACTGGAACAGCCAGAAGGACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGGTG

310 320 330 340 350 360

220 230 240


:::: ::::::::::::::::::::::::::::::::::

EM_EST TGCATACACAACTACGGGGTCGGTGAGAGTTTCACTGTGCAACGGCGAGTGGGAGCCTAC

370 380 390 400 410 420

EM_EST AGTGACTGTGTAT

430

>>EM_OM: AJ487835 AJ487835.1 Bos taurus partial BoLA-DRB3 gene for MHC class II antigen, BoLA-DRB3*2002 allele, exon 2 (486 nt)



(1-249:57-305)

10 20 30


::::::: ::::::::::::::::::::::

EM_OM: ATCTATCCTCTCTCTGCAGCACATTTCCTGGAGTATTGTAAGAGAGAGTGTCATTTCTTC

30 40 50 60 70 80

40 50 60 70 80 90


::::::::::::::::::::::: :::::::::: :: : ::::::::::::: ::::

EM_OM: AACGGGACCGAGCGGGTGCGGTTGCTGGACAGATACTTCTATAATGGAGAAGAGCGCGTG

90 100 110 120 130 140

100 110 120 130 140 150


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: CGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCC

150 160 170 180 190 200

143

https://www.ebi.ac.uk/ena/data/view/BE487505


160 170 180 190 200 210


::::::::::::::::::::::::::::::::::: ::::::::::::::::::::::

EM_OM: GAGTACTGGAACAGCCAGAAGGACTTCCTGGAGCAGAGGCGGGCCGCGGTGGACACGTAC

210 220 230 240 250 260

220 230 240


:::::::::::::::::::::::::::::::::::::::

EM_OM: TGCAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGAGGTGAGCGCGGG

270 280 290 300 310 320

EM_OM: GGTGGACGGCCAGTGTGGAGCAGTGTGCGTGTGTGTGTGTGTGTGTGAGAGAGAGAGAGA

330 340 350 360 370 380

>>EM_OM: AF010396 AF010396.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene, partial cds. (359 nt)



(2-249:1-248)

10 20 30 40 50 60


:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: AGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC

10 20 30 40 50

70 80 90 100 110 120


:::: :::::::::::::::::::::::::::::::::::::::::::::::::::::::


60 70 80 90 100 110

130 140 150 160 170 180


:::::::::::::: ::::::::::::::: :::::::::::::::::::::::::::::


120 130 140 150 160 170

190 200 210 220 230 240


::: :: :::::::: :::::::: : ::::::::::::::::::::::::::::::

EM_OM: GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGT

180 190 200 210 220 230

DERB3_ TTCACTGTG

:::::::::

EM_OM: TTCACTGTGCAGCGGCGAGGTGAGCGCGGGGGTGGACGGCCAATGTGGAGCAGTGTGTGT

240 250 260 270 280 290

>>EM_OM: AJ002002 AJ002002.1 Bos indicus BoLA-DRB3 gene, exon 2, allele DRB3*2707 (249 nt)



(1-249:1-249)

10 20 30 40 50 60


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::


10 20 30 40 50 60

70 80 90 100 110 120


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::


70 80 90 100 110 120

130 140 150 160 170 180


:::::::::::::: ::::::::::::::: :::::::::::::::::::::::::::::


130 140 150 160 170 180

190 200 210 220 230 240


::: :: :::::::: :::::::: : :::::::::::::::::::::: ::::::

EM_OM: GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGTGGAGAGT

190 200 210 220 230 240

DERB3_ TTCACTGTG

:::::::::

EM_OM: TTCACTGTG

144



>>EM_OM: AF012715 AF012715.1 Ovibos moschatus MHC class II DR beta-chain (DRB1) gene, partial cds. (249 nt)



(1-249:1-249)

10 20 30 40 50 60


:::::: ::::::: :::::::::::::::::::::::::::::::::::::::::::::

EM_OM: GAGTATCATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC

10 20 30 40 50 60

70 80 90 100 110 120


:::: :: : ::::::::::::: ::::::::::::::::::::::::::::::::::

EM_OM: AGATACTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG

70 80 90 100 110 120

130 140 150 160 170 180


:::::::::::::::::::::::::::::::::::::::::::::: :::::::::::::

EM_OM: GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCTGAAGGACTTCCTG

130 140 150 160 170 180

190 200 210 220 230 240


:::::: ::::::::: ::::::::::::::::::::::::::::::::::::::::::

EM_OM: GAGCAGAGGCGGGCCGCCGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT

190 200 210 220 230 240

DERB3_ TTCACTGTG

:::::::::

EM_OM: TTCACTGTG

>>EM_OM: X98653 X98653.1 B.bison MHC class II DR-beta gene, exon 2 (isolate CSP 239) (250 nt)



(1-249:2-250)

10 20 30 40 50


::::::: :::::::::::::::::::::::::::::: ::::::::::::::::::::

EM_OM: GGAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACTGAGCGGGTGCGGTTCCTGGA

10 20 30 40 50 60

60 70 80 90 100 110


:::::::: : ::::::::::::: :::::::::::::::::::::::::::::::::

EM_OM: CAGATGCTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCG

70 80 90 100 110 120

120 130 140 150 160 170


::::::::::::::::::::::::: ::::::::::::::::::::::::::: ::::

EM_OM: GGCGGTGACCGAGCTGGGGCGGCCGTCCGCCAAGTACTGGAACAGCCAGAAGGAGATCCT

130 140 150 160 170 180

180 190 200 210 220 230


::::: ::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: GGAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAG

190 200 210 220 230 240

240

DERB3_ TTTCACTGTG

::::::::::

EM_OM: TTTCACTGTG

250

>>EM_OM: AY805104 AY805104.1 Bison bison MHC class II beta chain (Bibi-DRB3) gene, Bibi-DRB3*0701 allele, exon 2 and




(1-249:3-251)

10 20 30 40 50

DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGG

::::::: :::::::::::::::::::::::::::::: :::::::::::::::::::

EM_OM: TGGAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACTGAGCGGGTGCGGTTCCTGG

145




10 20 30 40 50 60

60 70 80 90 100 110

DERB3_ ACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCC

::::::::: : ::::::::::::: ::::::::::::::::::::::::::::::::

EM_OM: ACAGATGCTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCC

70 80 90 100 110 120

120 130 140 150 160 170

DERB3_ GGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCC

:::::::::::::::::::::::::: ::::::::::::::::::::::::::: :::

EM_OM: GGGCGGTGACCGAGCTGGGGCGGCCGTCCGCCAAGTACTGGAACAGCCAGAAGGAGATCC

130 140 150 160 170 180

180 190 200 210 220 230

DERB3_ TGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGA

:::::: :::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: TGGAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGA

190 200 210 220 230 240

240

DERB3_ GTTTCACTGTG

:::::::::::

EM_OM: GTTTCACTGTGC

250

>>EM_OM: AF162657 AF162657.2 Ovibos moschatus MHC class II antigen (DRB) gene, partial cds. (269 nt)



(1-249:12-260)

10 20 30 40

DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGC

:::::: ::::::: ::::::::::::::::::::::::::::::::::

EM_OM: CACATTTCTTGGAGTATCATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGC

10 20 30 40 50 60

50 60 70 80 90 100

DERB3_ GGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGG

::::::::::::::: :: : ::::::::::::: :::::::::::::::::::::::

EM_OM: GGTTCCTGGACAGATACTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGG

70 80 90 100 110 120

110 120 130 140 150 160

DERB3_ GCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGA

::::::::::::::::::::::::::::::::::::::::::::::::::::::::: ::

EM_OM: GCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCTGA

130 140 150 160 170 180

170 180 190 200 210 220

DERB3_ AGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGG

::::::::::::::::: ::::::::: :::::::::::::::::::::::::::::::

EM_OM: AGGACTTCCTGGAGCAGAGGCGGGCCGCCGTGGACACGTACTGCAGACACAACTACGGGG

190 200 210 220 230 240

230 240

DERB3_ TCGGTGAGAGTTTCACTGTG

::::::::::::::::::::

EM_OM: TCGGTGAGAGTTTCACTGTGCAGCGGCGA

250 260

>>EM_OM: LC455374 LC455374.1 Bos indicus But_Q9 BoLA-DRB3 gene for MHC class II antigen, partial cds. (280 nt)



(1-249:23-271)

10 20 30


:::::::::::::: :::::::::::::::::::::::


10 20 30 40 50 60

40 50 60 70 80 90


:::::::::::::::::::::::::: :::: :::::::::::::: ::::::::::::

EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATACTACTATAATGGAGAAGAGATCGTGCGCTTCGA

70 80 90 100 110 120

100 110 120 130 140 150


::::::::::::::::::::::::: :::::::::::::::::::::::::: :: ::::

EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGTTGACCGAGCTGGGGCGGCCGGACGCCGAGCACTG

130 140 150 160 170 180

146



160 170 180 190 200 210


:::::::::::::::::::::::::: : ::::::::::::::::::::::::::::: :

EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCGGACGCGGGCCGCGGTGGACACGTACTGCAGATA

190 200 210 220 230 240

220 230 240


::::::::::::::: :::::::::::::::


250 260 270 280

>>EM_OM: LC455506 LC455506.1 Bos indicus Nyalawi12 BoLA-DRB3 gene for MHC class II antigen, partial cds. (280 nt)



(1-249:23-271)

10 20 30


:::::: :::::::::::::::::::::::::::::::

EM_OM: TGTCTCTGCAGCACATTTCCTGGAGTATCATAAGAGAGAGTGTCATTTCTTCAACGGGAC

10 20 30 40 50 60

40 50 60 70 80 90


:::::::::::::::::::::::::: :: : ::::::::::::: ::::::::::::

EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATACTTCTATAATGGAGAAGAGTACGTGCGCTTCGA

70 80 90 100 110 120

100 110 120 130 140 150


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::


130 140 150 160 170 180

160 170 180 190 200 210


:::::::::::::::::::::::::: : ::::::: :::::::::::::::::::::

EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCGGAAGCGGGCCAAGGTGGACACGTACTGCAGACA

190 200 210 220 230 240

220 230 240


:::::::::::::::::::::::::::::::


250 260 270 280

>>EM_OM: LC455341 LC455341.2 Bos indicus Bu_A6 BoLA-DRB3 gene for MHC class II antigen, partial cds. (280 nt)



(1-249:23-271)

10 20 30


::::::::::::::::::::::::::::::::::::::

EM_OM: TGTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC

10 20 30 40 50 60

40 50 60 70 80 90


::::::::::::::::::::::::::::: : ::::::::::::: :::::::::::::

EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATGCTTCTATAATGGAGAAGAGTCCGTGCGCTTCGA

70 80 90 100 110 120

100 110 120 130 140 150


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::


130 140 150 160 170 180

160 170 180 190 200 210


:::::::::::::::::::::::::::: :::::::: ::::::: : : ::::::::

EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCAGAGGCGGGCCGATGTGGACAGGGAGTGCAGACA

190 200 210 220 230 240

220 230 240


::::::::::::::: :::::::::::::::


250 260 270 280

147



>>EM_OM: LC455364 LC455364.1 Bos indicus Bu_A33 BoLA-DRB3 gene for MHC class II antigen, partial cds. (280 nt)



(1-249:23-271)

10 20 30


::::::::::::: ::::::::::::::::::::::::

EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAAAGAGTGTCATTTCTTCAACGGGAC

10 20 30 40 50 60

40 50 60 70 80 90


:::::::::::::::::::::::::: :: : ::::::::::::: :::::::::::::


70 80 90 100 110 120

100 110 120 130 140 150


::::::::::::::::::::::::::::::::::::::::::::::::::::::: ::::

EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGCACTG

130 140 150 160 170 180

160 170 180 190 200 210


:::::::::::::::::::::::::: : :::::::: ::::::::::::::::::::

EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCGGAAGCGGGCCGATGTGGACACGTACTGCAGACA

190 200 210 220 230 240

220 230 240


:::::::::::::::::::::::::::::::


250 260 270 280

>>EM_OM: LC455377 LC455377.1 Bos indicus BuQ_13 BoLA-DRB3 gene for MHC class II antigen, partial cds. (280 nt)



(1-249:23-271)

10 20 30


::::::::::::::::::::::::::::::::::::::


10 20 30 40 50 60

40 50 60 70 80 90


::::::::::::::::::::::::::::: : ::::::::::::: ::::::::::::

EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATGCTTCCATAATGGAGAAGAGTTCGTGCGCTTCGA

70 80 90 100 110 120

100 110 120 130 140 150


:::::::::::::::::::::::::::::::::::::::::::::::::::: :: ::::

EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGCACTG

130 140 150 160 170 180

160 170 180 190 200 210


::::::::::::::::::::::::: :: :::::::: :::::::: ::::::::::::

EM_OM: GAACAGCCAGAAGGACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGTACTGCAGACA

190 200 210 220 230 240

220 230 240


:::::::::::::::::::::::::::::::


250 260 270 280

>>EM_OM: AY847712 AY847712.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene, BoLA-DRB3*R-142 allele, exon 2 and




(1-249:27-275)

10 20 30

DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACG

::::::::::::::::::::::::::::::::::

EM_OM: ATCCTCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAACG

10 20 30 40 50 60

148




40 50 60 70 80 90

DERB3_ GGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCT

::::::::::::::::::: :::::::::: :: : ::::::::::::: ::::::::

EM_OM: GGACCGAGCGGGTGCGGTTGCTGGACAGATACTTCTATAATGGAGAAGAGCGCGTGCGCT

70 80 90 100 110 120

100 110 120 130 140 150

DERB3_ TCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGT

:::::::::::::::::::::::::::::::::::::::::::::::::::::::: :::

EM_OM: TCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGT

130 140 150 160 170 180

160 170 180 190 200 210

DERB3_ ACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCA

:::::::::::::::::::::::::::::::: ::::::::::::::::::::::::::

EM_OM: ACTGGAACAGCCAGAAGGACTTCCTGGAGCAGAGGCGGGCCGCGGTGGACACGTACTGCA

190 200 210 220 230 240

220 230 240

DERB3_ GACACAACTACGGGGTCGGTGAGAGTTTCACTGTG

:::::::::::::::::: :::::::::::::::

EM_OM: GACACAACTACGGGGTCGTGGAGAGTTTCACTGTGCAGCGGCGAGGTGAGCGCGAATTTA

250 260 270 280 290 300

EM_OM: AA

>>EM_OM: AB048735 AB048735.1 Bos taurus BoLA-DRB3*4501 gene for leukocyte antigen DRB3, partial cds. (227 nt)



(10-236:1-227)

10 20 30 40 50 60


:::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: AAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC

10 20 30 40 50

70 80 90 100 110 120


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::


60 70 80 90 100 110

130 140 150 160 170 180


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::


120 130 140 150 160 170

190 200 210 220 230 240


::::::::::::::::::::::::::::::::::::::::::::::::::::::::

EM_OM: GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGA

180 190 200 210 220

DERB3_ TTCACTGTG

249 residues in 1 query sequences

408005271872 residues in 218240662 library sequences

Tcomplib [36.3.8h Aug, 2019] (32 proc in memory [15G])

start: Tue Sep 22 23:08:18 2020 done: Tue Sep 22 23:31:08 2020

Total Scan time: 10327.800 Total Display time: 0.020

Function used was FASTA [36.3.8h Aug, 2019]

149


Referencias

[1] Altschul, S. F., Gish, W., Miller, W., Myers, E. W. y Lipman, D. J. (1990). Basic local alignment search tool. Journal of molecular biology, 215(3), 403–410. https://doi.org/10.1016/S0022-2836(05)80360-2

[2] Andaluza, P. (2011). Lenguajes de programación para la bioinformática. Encuentros en Biología, 4(134), 31–32.

[3] Arratia R. y Waterman M.S. (1989). The Erdös-Rényi strong law for pattern matching with a given proportion of mismatches. Ann. Probab. 17: 1152–1169.

[4] Arratia R., Gordon L. y Waterman M. (1986). An extreme value theory for sequence matching. Ann. Statist. 14, no. 3, 971--993. doi:10.1214/aos/1176350045. https://projecteuclid.org/euclid.aos/1176350045

[5] Berg, J.M., Timoczko, J.L. y Stryer, L. (2008). Bioquímica. 6ª Edición. Barcelona, España. Editorial Reverté.

[6] Bordoli, L. (2003). Similarity Searches on Sequence Databases: BLAST, FASTA. EMBnet Course. [Diapositiva de PowerPoint]. Swiss Institute of Bioinformatic. http://darwin.informatics.indiana.edu/col/courses/L519/Lab/Lab3/BLAST_FASTA.pdf

[7] Campbell, N.A. y Reece, J.B. (2005). Biología. 7ª Edición. Madrid, España. Editorial Panamericana.

[8] Canavos, G. (1988). Probabilidad y Estadística Aplicaciones y Métodos. México DF, México: McGraw-Hill.

[9] Chan, S.C., Wong, A.K.C. y Chiu, D.K.Y. A survey of multiple sequence comparison methods. Bltn Mathcal Biology 54, 563–598 (1992). https://doi.org/10.1007/BF02459635

[10] Chataraj, A., Williams, H.E., y Cannane, A. (1999). Fast Homology Search using

Categorization Profiles. RMIT University, Melbourne.

https://www.jsbi.org/pdfs/journal1/GIW04/GIW04P085.pdf accessed on 28/8/2020

150

https://doi.org/10.1007/BF02459635

https://doi.org/10.1007/BF02459635

https://www.jsbi.org/pdfs/journal1/GIW04/GIW04P085.pdf

https://www.jsbi.org/pdfs/journal1/GIW04/GIW04P085.pdf

[11] Checa Caratachea, M. A. (2007). Polimorfismos genéticos: Importancia y aplicaciones. Revista del Instituto Nacional de Enfermedades Respiratorias de México, 213-221.

[12] Curtis H., Barnes S., Schnek A. y Massarini A. (2008) Biología. 7ª Edición. Editorial Médica Panamericana.

[13] Dreyfus, S.E. (2002). Richard Bellman on the Birth of Dynamic Programming. Operations Research. 50. 48-51. 10.1287/opre.50.1.48.17791.

[14] Eric, S.D., Nicholas, T.K.D.D. y Theophilus, K.A. (2014). Bioinformatics with basic local alignment search tool (BLAST) and fast alignment (FASTA). Journal of Bioinformatics and Sequence Analysis, 6(1), 1–6. DOI: https://doi.org/10.5897/ijbc2013.0086

[15] Fourment, M. y Gillings, M.R. (2008). A comparison of common programming languages used in bioinformatics. BMC Bioinformatics. DOI: https://doi.org/10.1186/1471-2105-9-82

[16] Galison F. The Fasta and Blast programs. (2000). Extraido de: http://bioweb.pasteur.fr/seqanal/blast/.

[17] Gonzalez, G. (2007-2014). Bioinformáticos. Córdoba, Argentina: Algoritmo Smith-Waterman. Extraido de http://www.bioinformaticos.com.ar/algoritmo-smith-waterman/

[18] Haque,W., Aravind A., y Reddy B. 2009. Pairwise sequence alignment algorithms: a survey. In Proceedings of the 2009 conference on Information Science, Technology and Applications (ISTA ’09). Association for Computing Machinery, New York, United States of America, 96–103. DOI: https://doi.org/10.1145/1551950.1551980.

[19] Jones, N.C. y Pevzner, P.A. (2004) An Introduction to Bioinformatics Algorithms. Massachusetts Institute of Technology. United States of America.

[20] Karlin S. y Altschul S.F. (1990). Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proc. Natl. Acad. Sci. 87: 2264–2268.

[21] Karlin S. y Altschul S.F. (1993). Applications and statistics for multiple high-scoring segments in molecular sequences. Proc. Natl. Acad. Sci. 90: 5873–5877.

[22] Khan Academy. Introducción a la biotecnología: Secuenciación de ADN. Extraido de https://es.khanacademy.org/science/biology/biotech-dna-technology/dna-sequencing-pcr-electrophoresis/a/dna-sequencing.

151

https://doi.org/10.5897/ijbc2013.0086

https://doi.org/10.5897/ijbc2013.0086

https://doi.org/10.1186/1471-2105-9-82

https://doi.org/10.1186/1471-2105-9-82

http://bioweb.pasteur.fr/seqanal/blast/

http://www.bioinformaticos.com.ar/algoritmo-smith-waterman/

http://www.bioinformaticos.com.ar/algoritmo-smith-waterman/

https://doi.org/10.1145/1551950.1551980

https://es.khanacademy.org/science/biology/biotech-dna-technology/intro-to-biotech-tutorial/a/intro-to-biotechnology

https://es.khanacademy.org/science/biology/biotech-dna-technology/intro-to-biotech-tutorial/a/intro-to-biotechnology

https://es.khanacademy.org/science/biology/biotech-dna-technology/dna-sequencing-pcr-electrophoresis/a/dna-sequencing



[23] Lab tests online. (6 de Abril de 2020). Secuenciación del ADN. Recuperado de https://labtestsonline.es/articles/secuenciacion-del-adn.

[24] Librado, P. y Rozas, J. (2009). DnaSP v5: a software for comprehensive analysis of DNA polymorphism data. Bioinformatics, 1451–1452 .

[25] Lopez-Martinez, A., Chavez-Munoz, C. y Granados, J. (2005). Función biológica del complejo principal de histocompatibilidad. Rev. Investigación clínica, vol.57, n.2, pp.132-141. ISSN 0034-8376.

[26] Madeira F., Park Y. M. y Lee, J. (2019). The EMBL-EBI search and sequence analysis tools APIs. Nucleic Acids Research. 2019 Jul;47(W1):W636-W641. DOI: 10.1093/nar/gkz268.

[27] Mc.Clean, P. (2004). BLAST Basic Local Alignment Search Tool. Recuperado de https://www.ndsu.edu/pubweb/~mcclean/plsc411/Blast-explanation-lecture-and-overhead.pdf

[28] Meneses Escobar, C. A., Rozo Murillo, L. V. y Franco Soto, J. (2011). Tecnologías bioinformáticas para el análisis de secuencias de ADN. Scientia et Technica, 116 - 121.

[29] Miclet, L. (1986). Structural Methods in Pattern Recognition. Oxford, U.K.: North Oxford Academic.

[30] Mount, D.W. (2004), Bioinformatics: Sequence and Genome Analysis, New York, United States of America, Cold Spring Harbor Laboratory Press.

[31] National Human Genome Research Institute. (2019). Secuenciación del ADN. Recuperado de: https://www.genome.gov/es/about-genomics/fact-sheets/Secuenciacion-del-ADN.

[32] National Human Genome Research Institute. (2019). El Glosario Hablado de Términos Genéticos. Recuperado de https://www.genome.gov/es/genetics-glossary

[33] Notredame, C. y Higgins, D. (1996). SAGA: sequence alignment by genetic algorithm. Oxford University Press, 1515–1524.

[34] Pearson, W.R. y Lipman, D.J. (1988). Improved tools for biological sequence comparison. Proc. Natl. Acad. Sci. USA

[35] Peña Diaz, A., Arroyo Begovich, A., Gomez Puyou, A., Tapia Ibargüengoytia R. y Gomez Eichelman, C. (2002) Bioquímica. 2ª Edición. Editorial Limusa.

152

https://labtestsonline.es/articles/secuenciacion-del-adn

https://labtestsonline.es/articles/secuenciacion-del-adn

https://www.ndsu.edu/pubweb/~mcclean/plsc411/Blast-explanation-lecture-and-overhead.pdf

https://www.ndsu.edu/pubweb/~mcclean/plsc411/Blast-explanation-lecture-and-overhead.pdf

https://www.genome.gov/es/about-genomics/fact-sheets/Secuenciacion-del-ADN

https://www.genome.gov/es/genetics-glossary/Heterocigoto

https://www.genome.gov/es/genetics-glossary/Heterocigoto

[36] Pevsnet, J. (2015). Bioinformatics and functional genomics. (3ª Edición). Singapore: Wiley Blackwell, 3.

[37] Ramirez-Bello, J., Vargas-Alarcón, G., Tovilla-Zárate, C. y Fragoso, J. M. (2013). Polimorfismos de un solo nucleótido (SNP): implicaciones funcionales de los SNP reguladores (rSNP) y de los SNP-ARN estructurales (srSNP) en enfermedades complejas. Gaceta Médica de México, 149-220.

[38] Rodriguez, T. (10 de Septiembre 2019). Xataka. De Docker a Kubernetes: entendiendo qué son los contenedores y por qué es una de las mayores revoluciones de la industria del desarrollo. Recuperado de: https://www.xataka.com/otros/docker-a-kubernetes-entendiendo-que-contenedores-que-mayores-revoluciones-industria-desarrollo.

[39] Sabater-Tobella, J. (8 de Noviembre de 2018). Polimorfismo genético (SNP). Obtenido de EuGenomic Genomic Personalized Medicine: https://www.eugenomic.com/es/home/genomica/glossary/p/Polimorfismo.html

[40] Santa María, C., Rebrij, R., Santa María, V., López, L. y Soria, M. (2018). Reconocimiento de Patrones Genéticos por Medio de Grafos. XX Workshop de Investigadores en Ciencias de la Computación. San Justo, Buenos Aires, Argentina.

[41] Smith, T. F, y Waterman, M. S. (1981). Identification of common molecular subsequence. Molecular Biology, vol. 147, 195-197.

[42] Soberón, X. y Bolivar Zapata, F. (1999). Gen y genoma. 1ª Edición. México DF, México. Universidad Autónoma de México.

[43] Solari, A. (2004). Genética humana. Fundamentos y aplicaciones en medicina. 3ª Edición. Buenos Aires, Argentina. Editorial Médica Panamericana.

[44] Xiong, J, (2006), Essential Bioinformatics, New York, United States of America, Cambridge University Press.

153

https://www.xataka.com/otros/docker-a-kubernetes-entendiendo-que-contenedores-que-mayores-revoluciones-industria-desarrollo



https://www.eugenomic.com/es/home/genomica/glossary/p/Polimorfismo.html

https://www.eugenomic.com/es/home/genomica/glossary/p/Polimorfismo.html