Software de análisis de secuencias de ADN para
la asignación de genotipos
Universidad Nacional del Centro de la Provincia de Buenos Aires
Trabajo Final de la carrera Ingeniería de Sistemas
Alumna: Paula Villanueva
Director: Dr. Ignacio Larrabide Co-Directora: Dra. Marcela Alicia Juliarena
Resumen
El avance de la industria bioinformática ha tenido un crecimiento exponencial en las últimas
décadas, generando una enorme cantidad de datos. Específicamente, el análisis de las secuencias
de ADN ha permitido describir detalladamente la información genética de los seres vivos, como
así también predecir el riesgo de padecer ciertas enfermedades o incluso, adaptar los tratamientos
médicos y producir fármacos personalizados en función de la estructura genética del individuo.
En la producción ganadera, las nuevas herramientas biotecnológicas tienen un gran impacto.
Desde el punto de vista sanitario, la identificación de genes asociados a la resistencia o
susceptibilidad a agentes infecciosos ha permitido el diseño de planes de control genéticos.
Desde un punto de vista genético, la identificación de los alelos presentes en regiones altamente
polimórficas del genotipo de animales heterocigotas genera un desafío a resolver desde la
bioinformática.
Por ese motivo, este trabajo interdisciplinario tiene como objetivo desarrollar un software
especializado en el análisis de secuencias de ADN para tareas de investigación que se desarrollan
en la Facultad de Ciencias Veterinarias de la UNICEN. Dicha herramienta deberá identificar los
alelos de secuencias correspondientes al genoma de un animal heterocigoto, las cuales en una
región altamente polimórfica podrían presentar varios puntos ambiguos al no poder conocer con
certeza los haplotipos de una muestra de un individuo diploide.
1
Agradecimientos
Quiero agradecer a todas las personas que formaron parte de esta etapa tan importante en mi
vida, principalmente a mi familia. En particular, a mi mamá Mirta, mi papá Francisco y mi
hermana Cecilia, quienes siempre confiaron en mí y me brindaron el apoyo y las herramientas
necesarias para llevar adelante mis estudios.
A mi director Dr. Ignacio Larrabide y a mi co-directora Dra. Marcela Alicia Juliarena por su
constante guía, ya que sus correcciones e indicaciones fueron indispensables en el desarrollo de
este trabajo.
A la Universidad Nacional del Centro de la Provincia de Buenos Aires, y en particular a la
Facultad de Ciencias Exactas por la formación allí recibida.
A todos mis compañeros de cursada, por los momentos compartidos a lo largo de la carrera. A
mis amigos de siempre, a los a los que fui cosechando a lo largo de esta etapa y también a los
que perdí durante ella.
A cada una de las personas que han aportado a mi carrera profesional, como así también a
quienes me han brindado su apoyo incondicional durante mi etapa de formación.
¡A todos ellos muchas gracias!
2
Índice general
Resumen 1
Agradecimientos 2
Índice general 3
Índice de figuras 5
Introducción 7 1.1. Motivación 10 1.2. Objetivos 10 1.3. Estructura de la tesis 11
Estado del arte 12 2.1 La secuenciación del ADN 12 2.2 Polimorfismo 14 2.3 Comparación de secuencias 16 2.4 Tipos de comparación de secuencias 17 2.5 Alineamiento de pares de secuencias 18
2.5.1 Matriz de puntos 18 2.5.2 Programación Dinámica 20 2.5.3 Algoritmo de Smith–Waterman 22
2.6 Comparación de secuencias en bases de datos 24 2.6.1 FASTA 25 2.6.2 Basic Local Alignment Search Tool (BLAST) 27
2.7 Significancia estadística en alineamientos de secuencias 29
Programas similares y comparación con la herramienta 32 3.1 Matriz de puntos 32 3.2 Algoritmo de Smith-Waterman 35 3.3 Comparación con bases de datos: FASTA y BLAST 40 3.4 Herramienta utilizada por los investigadores en la búsqueda de alelos 48
Diseño e implementación 51 4.1 Elección de las tecnologías 51 4.2 Requerimientos de la herramienta 52
3
4.2.1 Requerimientos funcionales 52 4.2.2 Requerimientos no funcionales 53
4.2 Diseño e implementación del primer prototipo 54 4.2.1. Modelo 54 4.2.2. Vista 58 4.2.3. Controlador 65
4.3 Diseño e implementación del segundo prototipo 68 4.3.1. Servidor 69 4.3.2. Cliente 72 4.3.3. Endpoints 73 4.3.4. Almacenamiento de datos 83 4.3.5. Deploy de la aplicación y el uso de contenedores 84
Resultados 85 5.1 Confiabilidad de los resultados obtenidos 86 5.2 Performance del sistema 96
Conclusiones y trabajos futuros 99 6.1 Aplicación de conceptos adquiridos durante la carrera 99 6.2 Contribuciones realizadas con el proyecto 101 6.3 Limitaciones actuales y trabajos futuros 102 6.4 Conclusiones finales 104
Glosario 105
Anexos 108 Resultados del programa BLAST por la interfaz web de EMBL-EB 108 Resultados del programa FASTA por la interfaz web de EMBL-EB 127
Referencias 150
4
Índice de figuras Fig. 1: Proceso de secuenciación por el método Sanger 13 Fig. 2: Cromatografía obtenida por secuenciación 14 Fig. 3: Alfabeto IUPAC para el ADN 16 Fig. 4: Comparación de secuencias utilizando una matriz de puntos 19 Fig. 5: Ejemplo de alineamiento con Programación Dinámica 21 Fig. 6: Ejemplo de alineamiento con el algoritmo Smith-Waterman 24 Fig. 7: Inicio del programa web dotmatcher 33 Fig. 8: Inicio del programa web dottup 34 Fig. 9: Salidas de los programas web dotmatcher y dottup con dos secuencias de prueba 35 Fig. 10: Inicio del programa Water por medio de la interfaz web provista por EMBL-EBI 36 Fig. 11: Salida del programa Water con dos secuencias de prueba 37 Fig. 12: Inicio del programa Matcher por medio de la interfaz web provista por EMBL-EBI 38 Fig. 13: Salida del programa Water con dos secuencias de prueba 39 Fig. 14: Entrada del programa FASTA por la interfaz web de EMBL-EBI 41 Fig. 15: Entrada del programa BLAST por la interfaz web de EMBL-EBI 42 Fig. 16: Fragmento de los resultados del programa FASTA por la interfaz web de EMBL-EBI 43 Fig. 17: Fragmento de los resultados del programa BLAST por la interfaz web de EMBL-EBI 44 Fig. 18: Programa BLASTN por la interfaz web de NCBI 46 Fig. 19: Resultado del programa BLASTN por la interfaz web de NCBI 47 Fig. 20: Comparación de secuencias mediante el programa CLC Genomics Workbench 49 Fig. 21: Interacción entre los módulos MVC 54 Fig. 22: Diagrama de Clases UML del Modelo de la versión desktop 55 Fig. 23: Base de datos BLAST 55 Fig. 24: Diagrama de Clases UML de la Vista de la versión desktop 58 Fig. 25: Menú principal de la aplicación desktop 60 Fig. 26: Comparación de una secuencia con una base de datos en la versión desktop 61 Fig. 27: Agregar una nueva base de datos en la versión desktop 62 Fig. 28: Editar base de datos en la versión desktop 63 Fig. 29: Eliminar una base de datos en la versión desktop 64 Fig. 30: Alineamiento de dos secuencias en la versión desktop 64
5
Fig. 31: Diagrama de clases UML de los controladores de versión desktop 65 Fig. 32: Arquitectura Cliente-Servidor. 69 Fig. 33: Diagrama de clases UML del modelo de la versión web 70 Fig. 34: Diagrama de clases UML de los controladores de la versión web 71 Fig. 35: Login de la aplicación web 74 Fig. 36: Registrar un nuevo usuario en la aplicación web 75 Fig. 37: Comparación de una secuencia con una base de datos en la aplicación web 76 Fig. 38: Alineación de dos secuencias en la aplicación web 78 Fig. 39: Administración de las bases de datos de un usuario en la aplicación web 79 Fig. 40: Secuencias de una base de datos ambigua en la aplicación web 81 Fig. 41: Actualización de los datos de un usuario en la aplicación web 82 Fig. 42: Comparación entre máquina virtual y contenedor 84 Fig. 43: Resultados de la prueba 1 87 Fig. 44: Resultados de la prueba 2 88 Fig. 45: Resultados de la prueba 3 89 Fig. 46: Resultados de la prueba 4 90 Fig. 47: Resultados de la prueba 5 91 Fig. 48: Resultados de la prueba 6 92 Fig. 49: Resultados de la prueba 7 94 Fig. 50: Resultados de la prueba 8 95
6
Capítulo 1
Introducción La bioinformática es un campo interdisciplinar que abarca conocimientos de diversas áreas de
estudio como las ciencias médicas, las ciencias naturales y la informática, cuyo objetivo es
desarrollar herramientas para la exploración de la diversidad genética, la evolución, las
estructuras poblacionales, los mecanismos de patogenicidad y el mapeo genético, entre otras
aplicaciones. Así mismo, se la puede definir como el uso de bases de datos y algoritmos
computacionales para analizar proteínas, genes y secuencias de ADN que comprometen a un
individuo [36]. Por ello resulta un área de conocimiento sumamente útil para comprender la
información genética y las estructuras moleculares que codifica, sus funciones bioquímicas y sus
asociaciones con enfermedades y características fenotípicas de los seres vivos.
Debido a los grandes avances que se han generado en los últimos años en esta disciplina y su
constante progreso, se espera que la bioinformática revolucione los sistemas de salud mediante el
desarrollo de la medicina personalizada. La secuenciación de nueva generación, junto con la
tecnología informática, permitirá que los médicos se basen en la información genética de sus
pacientes para detectar posibles mutaciones dañinas del genoma, favoreciendo el diagnóstico
precoz y el tratamiento eficaz de enfermedades. A su vez, las herramientas bioinformáticas son
de sumo interés para la agroindustria. Actualmente se están analizando bases de datos del
genoma de plantas y animales para desarrollar y obtener individuos de mayor productividad y
resistencia a enfermedades [28].
La comparación de secuencias de ADN ocupa un lugar primordial dentro de la bioinformática al
posibilitar el análisis estructural y funcional del gran volumen de información genética que hoy
en día es posible obtener en cortos períodos de tiempo. Para ello, es necesario realizar un
preprocesamiento de los datos aplicando métodos de alineamiento de secuencias y eliminación
7
de marcadores que se agregan durante la secuenciación. Luego se pueden alinear múltiples
secuencias y así continuar con el procesamiento y análisis [40].
El auge de la genómica tuvo lugar en la década de 1980, época en la que se crearon grandes
bases de datos de secuencias de ADN, como GenBank, EMBL y DDBJ. En 1990 se lanzó el
Proyecto de Genoma Humano, cuyo objetivo era descifrar su secuencia completa [11]. En base a
la enorme cantidad de datos generados se desarrollaron algoritmos de comparación de secuencias
como FASTA o FAST-All y BLAST (Basic Local Alignment Search Tool) [28].
Con el surgimiento de la minería de datos, la inteligencia artificial y los algoritmos genéticos,
entre otras áreas dentro de la informática, se fueron perfeccionando y optimizando las
herramientas ya existentes y surgiendo otras nuevas. Ejemplos de esos avances han sido el uso de
algoritmos genéticos para el alineamiento de múltiples secuencias, conocido como SAGA [33], y
programas de software especializados en el pre-procesamiento y análisis de secuencias como es
el caso de DNAsp [24]. También se han desarrollado librerías como Bioinformatics Toolbox de
MatLab, Biopython y Bioperl, que ayudan al desarrollo de software dedicado al procesamiento y
análisis de secuencias de ADN [28, 15, 16].
Uno de los aspectos a analizar en las secuencias de ADN es la presencia de polimorfismos de un
solo nucleótido (SNP, de su nombre en inglés). Se sabe que, debido a factores ambientales o por
errores en los mecanismos de replicación, se pueden generar mutaciones en el ADN, dando lugar
al polimorfismo que provoca variación alélica entre individuos y diversidad dentro de una misma
especie. Para que una mutación sea considerada polimorfismo la frecuencia de uno de sus alelos
en la población debe ser superior al 1%. Si bien existen diversos tipos de polimorfismos, como
las inserciones y deleciones, los más frecuentes en el genoma humano y los mamíferos en
general son los SNPs. Debido a su amplia distribución, estos polimorfismos se localizan en
cualquier parte de la estructura del genoma [37, 14].
Este proyecto surgió por la necesidad de analizar específicamente secuencias de ADN
correspondientes a la codificación del complejo mayor de histocompatibilidad (MHC) de
bovinos. La importancia biológica y médica del dicho gen reside en su rol dentro del sistema
inmune. El MHC en bovinos recibe el nombre de BoLA (Bovine Lymphocyte Antigen). Los
genes BoLA son particularmente interesantes porque están asociados con resistencia y
8
susceptibilidad genética a una amplia variedad de enfermedades como mastitis y la diseminación
del virus de la leucosis bovina en el hospedador. Debido a su rol central en el reconocimiento y
presentación de antígenos, el exón 2 del gen BoLA B3 presenta gran variabilidad genética (108
alelos descritos hasta el momento), siendo polimórficas gran parte de las posiciones
nucleotídicas. Es por esta razón que la mayor dificultad para la identificación de los alelos en los
individuos heterocigotas es la determinación de las fases de ligamiento entre los numerosos sitios
polimórficos.
La importancia adaptativa del polimorfismo de dicho gen en una población se debe a que tiende
a proteger a la especie frente a agentes infecciosos al ampliar la variedad de antígenos que se
pueden reconocer [25]. Dada la importancia del MHC en la salud y su elevado polimorfismo es
que resulta fundamental poder asignar correctamente los alelos de los diferentes genotipos
posibles a nivel poblacional para estudios de asociación y/o la aplicación de planes de control
basados en este marcador molecular.
En este trabajo se propone utilizar herramientas informáticas como las mencionadas
anteriormente para contribuir a las investigaciones que se están llevando a cabo en la Facultad de
Ciencias Veterinarias de la UNICEN, a través del análisis de las secuencias de ADN.
9
1.1. Motivación La principal motivación para llevar a cabo este proyecto es poder contribuir con trabajos que se
están llevando a cabo investigadores de la Facultad de Ciencias Veterinarias de la UNICEN con
respecto a la implicancia de un determinado gen en el desarrollo de leucemia en bovinos.
Actualmente se encuentran necesitando una herramienta informática que haga el proceso de
análisis y comparación de secuencias de ADN correspondientes al gen BoLA para poder obtener
resultados a mayor velocidad.
Si bien existen implementaciones de buscadores de haplotipos, éstos son pagos, programas
genéricos poco configurables o scripts poco intuitivos de usar por parte de los usuarios finales.
Es por ello que en este trabajo se propone realizar un software de análisis de secuencia de ADN a
partir de un dataset de secuencias ya documentadas.
1.2. Objetivos El software a desarrollar para la Facultad de Ciencias Veterinarias consta del análisis
bioinformático de secuencias de ADN con presencia de polimorfismo. Para eso se plantean los
siguientes objetivos específicos:
1. Estudio de librerías para el análisis de ADN, formatos de almacenamiento y el estado del arte.
Se analizará el formato de las secuencias de ADN y se investigarán diversas librerías de
desarrollo de herramientas de bioinformática evaluando cuál es la más conveniente a utilizar.
2. Uso de librerías bioinformáticas e implementación computacional de algoritmos de
comparación de secuencias de ADN para la asignación de los alelos correspondientes.
Se investigarán y analizarán algoritmos de comparación de secuencias, implementando y
evaluando diversas estrategias para obtener los resultados correctos. Mediante la comparación de
la secuencia de entrada con los alelos de la base de datos se asignarán los alelos asociados.
3. Presentación de los resultados
Una vez obtenidos los alelos asociados a la secuencia de entrada, se representarán los resultados
obtenidos por medio de una interfaz gráfica.
10
4. Evaluación de la herramienta y documentación.
Se evaluará la confianza en los resultados generados, el tiempo de respuesta y su usabilidad.
Además, se documentará el proceso de desarrollo y el producto obtenido.
1.3. Estructura de la tesis El informe estará organizado en seis capítulos. En cada uno de ellos se tratará un tema en
particular del proyecto.
En este primer Capítulo se realizó una introducción al trabajo, haciendo una revisión de las
tecnologías existentes orientadas al área de la bioinformática y presentando la problemática a
resolver. Además, se explicó la motivación del proyecto y se definieron los objetivos del mismo.
En el Capítulo 2 se profundiza acerca de los algoritmos, técnicas y heurísticas utilizadas en la
comparación de secuencias de ADN, analizando aspectos como complejidad algorítmica, la
adaptabilidad respecto al problema planteado y significancia estadística de los resultados.
En el Capítulo 3 se comparan distintas herramientas y programas que materializan los algoritmos
y técnicas del capítulo 2. Se utilizan secuencias de ejemplo para observar los resultados que
dichas herramientas brindan y comprender si son útiles para resolver el problema. Además se
hace un análisis de la herramienta actualmente utilizada por investigadores de la Facultad de
Ciencias Veterinarias, viendo tanto los aspectos positivos como negativos de la misma.
En el cuarto Capítulo se explica el diseño y desarrollo de las soluciones planteadas, siendo el
capítulo central del proyecto. En el mismo se plantean los patrones de arquitectura en los cuales
se basa el diseño de las mismas, se incluyen los diagramas de clases que ayudaron a pensar las
soluciones y se explican las implementaciones.
En el quinto Capítulo se analizan los resultados de las soluciones planteadas, teniendo en cuenta
la confiabilidad de la herramienta como así también la performance, en cuestión del tiempo de
procesamiento de cada funcionalidad, según el número de secuencias de la base de datos que se
utilice.
Por último, en el Capítulo 6 se hace una conclusión del desarrollo del proyecto y de los
conceptos aplicados. Además, se plantean propuestas de mejoras para trabajos futuros.
11
Capítulo 2
Estado del arte
En este capítulo se hará una revisión y análisis de las diversas técnicas, estrategias y
herramientas utilizadas en el análisis de secuencias de ADN. Para lograr la comprensión del
problema, se comenzará con una breve explicación del proceso de secuenciación y del concepto
de polimorfismo, para luego profundizar en las distintas formas de abordar la comparación de
secuencias.
2.1 La secuenciación del ADN La secuenciación del ADN se puede definir como el proceso por el cual se logra determinar el
orden de las bases nitrogenadas que componen una hebra de la molécula de ADN, mediante el
uso de métodos y técnicas bioquímicas [31]. Existen dos técnicas principales de secuenciación,
según se usen métodos enzimáticos y químicos. Mientras que los primeros métodos de
secuenciación utilizaban procedimientos químicos para cortar las cadenas de ADN, en la
actualidad se utilizan en mayor medida los métodos enzimáticos, que permiten sintetizar cadenas
de ADN complementarias a la cadena de interés. El método más común utilizado es la
secuenciación automática de Sanger por electroforesis capilar. El inicio de la síntesis de ADN en
la cadena molde es determinado por la elección del cebador (primer). Los cebadores utilizados
son fragmentos cortos de ADN complementarios a la secuencia a amplificar. Para realizar la
reacción de síntesis se agregan los nucleótidos necesarios para la construcción de la cadena
complementaria junto con la enzima ADN polimerasa, que es la que lleva a cabo la construcción
de la nueva hebra. Conjuntamente, se agrega análogos 2´,3´-dideoxi de cada uno de los
nucleótidos, denominados nucleótidos terminadores. Estos análogos se encuentran marcados con
distintos fluorescentes según su base e impiden el crecimiento posterior de la nueva cadena,
12
porque carecen del grupo hidroxilo en la posición 3´. En cada ciclo de reacción, la enzima ADN
polimerasa añade nucleótidos a la cadena hasta que aleatoriamente agregue un nucleótido
terminador en lugar de uno normal, terminando con el proceso de síntesis. Este proceso se repite
cierto número de ciclos. Cuando los ciclos terminan, es prácticamente seguro que se ha
incorporado un nucleótido terminador en cada una de las posiciones del ADN blanco en al
menos una reacción. De esta manera, el tubo de reacción contendrá fragmentos de diferentes
longitudes que terminan respectivamente en cada una de las posiciones de los nucleótidos del
ADN original. Posteriormente, se lleva a cabo el proceso denominado electroforesis capilar en
gel, en el cual los múltiples fragmentos obtenidos se hacen pasar a través de un tubo que contiene
un gel que es atravesado rápidamente por los fragmentos cortos, mientras que los fragmentos
largos lo atraviesan más lentamente, de modo que los fragmentos de diferentes tamaños se
separan [22]. Cuando cada fragmento llega a la línea final del tubo, un láser lo ilumina y permite
la detección del pigmento asociado al terminador (ver figura 1) .
Fig. 1: Proceso de secuenciación por el método Sanger
13
De esta manera, se puede reconstruir la secuencia del fragmento de ADN original a partir de los
colores de los pigmentos registrados por el detector. Los datos registrados por el detector
consisten en una serie de picos que indican la intensidad de las fluorescencias, los cuales generan
un cromatograma. La secuencia del ADN se lee a partir de los picos en el cromatograma (figura
2).
Fig. 2: Cromatografía obtenida por secuenciación
En la parte inferior de la cromatografía se pueden observar las ondas que indican la
pigmentación detectada por el lector, y en la parte superior se encuentra la base nitrogenada que
le corresponde a cada onda. Las posibilidades son: A (Adenina), C (Citosina), G (Guanina) y T
(Timina).
En el Proyecto Genoma Humano, se utilizó la secuenciación de Sanger para determinar las
secuencias de muchos fragmentos relativamente pequeños de ADN humano [23]. Aunque
actualmente los genomas se secuencian con otros métodos más rápidos y menos costosos, la
secuenciación de Sanger todavía es usado para secuenciar fragmentos cortos de ADN.
2.2 Polimorfismo El polimorfismo es una consecuencia de las mutaciones producidas por sustituciones, deleciones
o inserciones de bases nitrogenadas en una molécula de ADN que genera variantes genéticas
entre individuos de una misma especie. Para que una variación sea considerada polimorfismo
debe encontrarse con una frecuencia superior al 1% en una población, de otra forma es
considerada mutación [39].
14
Si bien existen polimorfismos que abarcan modificaciones de largos tramos de ADN, el tipo más
común de polimorfismo en regiones codificantes es aquel que implica la variación de sólo un par
de bases nitrogenadas, denominados polimorfismos de nucleótido único (SNP). Al proveer
variación en los genes, el polimorfismo genera alelos diversos de un gen, es decir formas
alternativas para un mismo gen de una misma especie. En base a investigaciones de los genomas,
los genetistas han determinado que la mayoría de las características fenotípicas de un individuo,
como así también su resistencia o susceptibilidad ante una enfermedad están relacionadas
principalmente con este tipo de mutaciones [11].
Existen genes que poseen una gran variedad de alelos, como es el gen del complejo mayor de
histocompatibilidad. Cuando un individuo hereda información genética de sus progenitores,
recibe ADN de dos individuos diferentes. Por lo tanto, puede recibir alelos diferentes o iguales
para un determinado gen. En caso de recibir alelos diferentes, se dice que el individuo es
heterocigota para dicho gen [32], y esto conlleva consecuencias a la hora de realizar la
secuenciación de esa porción de su ADN.
Cuando se quiere secuenciar una porción de ADN que puede tener diferentes alelos de un mismo
individuo, existen puntos en los que el secuenciador lee bases nitrogenadas diferentes y por lo
tanto no puede determinar correctamente cuál de las cuatro posibilidades es la correspondiente a
esa posición, por lo que indica una letra N para ese caso, que no se corresponde con ninguna de
las cuatro bases nitrogenadas posibles (Adenina, Timina, Citosina y Guanina). Sin embargo, los
investigadores y genetistas pueden interpretar las cromatografías obtenidas mediante la
secuenciación y en muchos casos son capaces de reconocer, en base a las ondas, cuáles son las
distintas posibilidades que existen para un punto polimolimórfico indicado con la letra N. De
esta manera, se han establecido letras para indicar las posibles combinaciones entre distintas
bases nitrogenadas. Por ejemplo, si en un determinado punto cuyo valor es N se observa la
superposición de dos picos como A y C, se le puede asignar a ese punto la letra M, que indica el
valor ambiguo A o C. Con las distintas combinaciones de bases nitrogenadas se ha extendido el
alfabeto para el ADN, formando el código IUPAC actual.
15
Fig. 3: Alfabeto IUPAC para el ADN
2.3 Comparación de secuencias La comparación de secuencias es una de las bases del área de la bioinformática. Una secuencia
puede ser modelada mediante un string, el cual puede definirse como una secuencia ordenada de
símbolos o letras de un alfabeto, concatenados entre sí [29]. Las secuencias contienen elementos
provenientes de un alfabeto, y puede sufrir inserciones, deleciones o sustituciones, llamados, en
términos generales, mutaciones [9]. En el caso de las secuencias de ADN, el alfabeto es el
definido por IUPAC, por lo que se encuentra acotado a la utilización de los 16 símbolos listados
en la figura 3 en el caso de las secuencias ambiguas o a la utilización de sólo 4 símbolos en
secuencias no polimórficas ó altamente conservadas.
El formato más utilizado actualmente para modelar las secuencias, tanto de ADN como
proteínas, es denominado FASTA. El mismo consta de dos partes: una cabecera y un cuerpo. La
cabecera contiene el nombre de la secuencia, precedido por el carácter “>”, y puede contener una
descripción, mientras que en el cuerpo se encuentra el contenido de la secuencia en sí.
16
Código IUPAC Base nitrogenada A Adenina C Citocina G Guanina T (o U) Timina (o Uracilo) R A o G Y C o T S G o C W A o T K G o T M A o C D A o G o T H A o C o T V A o C o G N Cualquier base . o - Hueco
El siguiente ejemplo contiene la secuencia identificada como DERB3*4501, y es una de las
secuencias documentadas utilizada por investigadores de la Facultad de Ciencias Veterinarias.
>DERB3*4501
GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGAC
AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCC
GGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTT
CCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGT
GAGAGTTTCACTGTG
La comparación de secuencias es un proceso de búsqueda de similitud entre dos o más
secuencias, en base a la correspondencia de patrones entre los elementos que las componen,
durante el cual se pueden incorporar huecos al alinearlas [9].
2.4 Tipos de comparación de secuencias A lo largo de los años se han ido desarrollando diversos algoritmos y heurísticas para comparar y
alinear secuencias, los cuales pueden clasificarse, según Pearson y Lipman, en tres tipos:
alineamiento de a pares, múltiple y estructural [34]. El primer tipo de algoritmo se utiliza para
comparar dos secuencias entre sí buscando patrones similares y estableciendo una
correspondencia entre los residuos que las componen. Por otro lado, el alineamiento múltiple
permite alinear más de dos secuencias a la vez, buscando un nivel óptimo de matching entre ellas
[44]. Por último, la comparación estructural se utiliza con secuencias de aminoácidos que
constituyen proteínas, haciendo foco en la estructura total de las mismas [34].
Este trabajo estará centrado en la primera categoría de algoritmos, ya que el problema requiere
comparar una secuencia de ADN de entrada con cada secuencia presente en una base de datos
para obtener aquellas más similares a la query, por lo que ni el alineamiento múltiple ni la
comparación de secuencias de aminoácidos son el objetivo de esta tesis. A continuación se
explicarán diversos algoritmos y heurísticas para llevar a cabo la comparación y alineamiento de
pares de secuencias.
17
2.5 Alineamiento de pares de secuencias El alineamiento de pares de secuencias es la base para la comparación de una secuencia con una
base de datos. Los algoritmos y heurísticas utilizados para este tipo de alineamiento pueden
basarse a su vez en dos estrategias diferentes. Por un lado, existen algoritmos de alineamiento
global, los cuales asumen que las secuencias a comparar son muy similares en contenido y
dimensión, por lo que se alinean desde el inicio hasta el final. Por otro lado se encuentran
mecanismos de alineamiento local, basados en la búsqueda de regiones similares entre dos
secuencias, dejando de lado las zonas de baja coincidencias [44]. El alineamiento global resulta
útil cuando las secuencias son muy similares entre sí y de igual longitud, sin embargo, esa
suposición no siempre se corresponde con la realidad.
A lo largo de los años, se han ido desarrollando técnicas y algoritmos para ambos tipos de
alineamientos, habiendo dos grandes ramas: los algoritmos exhaustivos y los heurísticos.
Mientras que los primeros permiten obtener un resultado óptimo, los segundos dan una
aproximación al mismo [18]. Dentro del primer grupo se pueden encontrar la matriz de puntos, la
Programación Dinámica, y el algoritmo de Smith–Waterman, mientras que en el segundo se
encuentran los mecanismos de alineamientos más utilizados dentro del área de la bioinformática:
FASTA y BLAST. A continuación se explicará cada uno de ellos.
2.5.1 Matriz de puntos
Esta técnica utiliza una matriz de dos dimensiones, en la cual las secuencias a comparar se
ubican en cada uno de sus ejes, y se completa comparando cada residuo de una secuencia con
todos los residuos de la otra.
Cada celda [i,j] contendrá un 1 si el nucleótido de la i-ésima posición de la primera secuencia
coincide con el j-ésimo nucleótido de la segunda. Las celdas con valor 0 se consideran vacías,
mientras que las de valor 1 representan un punto. Al final del proceso, los puntos quedan
agrupados en regiones formando tramos de líneas diagonales continuas. De la matriz obtenida, se
seleccionan las diagonales con la mayor concentración de puntos o 1s. Las interrupciones o
18
cortes de las diagonales indican inserciones o deleciones de bases en las secuencias comparadas
[19].
Fig. 4: Comparación de secuencias utilizando una matriz de puntos
Este método tiene el inconveniente de que a mayor longitud de las secuencias, más ruido se
añade, ya que muchos de los puntos distribuidos en la matriz no son realmente parte del
alineamiento, sino coincidencias puntuales a lo largo de las secuencias, dificultando el proceso.
Para reducir el ruido, en lugar de ubicar un punto en cada residuo coincidente, se puede utilizar
una ventana o una tupla de bases nitrogenadas, para comparar una determinada longitud de
residuos a la vez en cada cadena. La ventana se mueve a lo largo de ambas secuencias y sólo se
colocan puntos cuando la cantidad de residuos coincidentes sea igual a la longitud de la ventana.
La longitud de la ventana puede ser ajustada hasta encontrar el tamaño que permita encontrar un
patrón claro para el alineamiento [44].
La matriz de puntos presenta otras múltiples variantes, y es una solución gráfica que permite
visualizar fácilmente zonas de similitud entre dos secuencias. Sin embargo, puede resultar un
método poco práctico para cadenas de gran longitud, y carece de sustento estadístico para
determinar la calidad del alineamiento resultante.
19
2.5.2 Programación Dinámica
El método de programación dinámica es similar al de la matriz de puntos, ya que ambos basan su
algoritmo en la utilización de una matriz de dos dimensiones con una secuencia en sus dos ejes.
Sin embargo, la principal diferencia es que esta técnica utiliza una matriz de puntuaciones
acumuladas, con el objetivo de hallar el puntaje máximo que refleje el alineamiento óptimo. De
esta manera, sea P(n,m) la puntuación óptima, S[1..n] una secuencia de n elementos, y T[1..m]
una secuencia de m elementos, se arma una matriz en la que S se representa verticalmente y T
horizontalmente. Además se utiliza una función de score σ, que asigna un puntaje de acuerdo a
los valores de los elementos de S y de T. Sean éstos x, y tal que x e y son valores diferentes,
en el cual a, b y c son constantes positivas y los guiones representan huecos dentro de las
secuencias [18].
El algoritmo de programación dinámica para la comparación de secuencias es el siguiente:
1. Se completa la primera fila asignando los valores 1 o 0 en base a la igualdad o diferencia
del primer elemento de la secuencia ubicada verticalmente respecto a cada elemento de la
otra.
2. Se completan las filas posteriores. Por cada fila i se coloca en la primera columna el valor
1 o 0 en base a la igualdad o diferencia del i-ésimo elemento de la secuencia ubicada
verticalmente, con respecto al primer elemento de la secuencia en horizontal. Para las
siguientes columnas, se utiliza el siguiente cálculo:
De esta manera se van acumulando los valores diagonalmente desde la esquina superior
izquierda hasta la esquina inferior derecha.
20
3. Una vez calculados todos los valores, se debe buscar el camino que resulte en el
alineamiento óptimo de la secuencia. Para esto se recorre la matriz de manera inversa,
comenzando desde la posición con mayor puntaje hacia la esquina superior izquierda,
buscando el camino que acumule el mayor valor.
A continuación se muestra un ejemplo de alineamiento utilizando la técnica de programación
dinámica con las secuencias AGGTC y ATTC, para el cual se utilizó la siguiente función de
score:
En primer lugar se ubican las secuencias en los ejes de la matriz, y comienza a completarse la
primera fila de izquierda a derecha, ubicando 1 o 0 en cada intersección, de acuerdo a la función
de score definida. Luego se continúa con las filas posteriores, completando la primera columna
con la función de score. Para los siguientes casilleros se tendrá en cuenta la igualdad o diferencia
de los elementos de cada eje junto con el máximo valor que rodea a la intersección, haciendo una
suma entre ambos valores. Una vez completa la matriz, se debe encontrar el camino que
maximiza el valor total, partiendo desde la esquina inferior derecha.
A continuación se muestra un ejemplo para ilustrar el procedimiento que se debe llevar a cabo
para alinear dos secuencias.
Fig. 5: Ejemplo de alineamiento con Programación Dinámica
21
En el caso de ejemplo de la figura 5, el camino con mayor puntuación es el marcado con círculos
en la matriz 6. Al recorrer el camino desde el vértice inferior derecho, se obtiene como resultado:
AGGTC
A-TTC
Los movimientos horizontales y verticales en el recorrido implican la inserción de huecos.
Debido a que desde la posición [2,3] a la [2,2] se realiza un movimiento horizontal, se agrega el
hueco entre la A y la T en la segunda secuencia. De esta manera, el alineamiento resultante
contiene tres aciertos, un hueco y una diferencia.
No debe perderse de vista la probabilidad de que los sucesos mencionados ocurren en la
naturaleza durante el proceso evolutivo. Las inserciones y deleciones son menos probables que
las sustituciones, por lo que se les suele asignar un valor de penalización. La forma más simple
de penalizar dichos eventos es utilizando una constante como en el caso de ejemplo, para la cual
no existe actualmente una teoría que determine con exactitud la probabilidad de una inserción o
una deleción, por lo que la asignación del valor de penalización constante suele ser arbitraria,
teniendo en cuenta que si se asigna un valor muy bajo o muy alto se puede dar lugar a
alineaciones poco realistas [44]. Por otra parte, dado que las mutaciones suelen ocurrir en
bloques, la apertura de un hueco y la extensión podrían tener diferentes penalizaciones asociadas,
reflejando el comportamiento evolutivo [18]. Un esquema de ejemplo es el -12/-1, en la cual se
asigna una penalización de -12 al comienzo del hueco y de -1 a las extensiones. La penalización
total de un hueco (P) queda dado por la ecuación lineal:
P= γ + δ × (k− 1)
donde γ es la penalización de apertura del hueco, δ es la penalización por extensión, y k es la
longitud total [44].
2.5.3 Algoritmo de Smith–Waterman
La técnica previamente explicada puede ser utilizada para llevar a cabo alineamientos de pares
de secuencias globales como así también locales. En el primer caso el resultado óptimo se
obtiene con la totalidad de residuos de ambas secuencias, es decir la matriz es recorrida desde la
esquina inferior derecha hasta la esquina superior izquierda. Para los casos en los que es
22
conveniente utilizar el alineamiento local, es necesario adaptar la técnica descrita [44]. El
algoritmo de Smith-Waterman, propuesto en 1981, es un algoritmo basado en programación
dinámica que permite llevar a cabo alineamientos locales [13]. Dicho algoritmo difiere en
distintos puntos:
1. La primera fila y columna se completan enteramente con ceros.
2. Se asignan valores positivos a los residuos coincidentes y cero a los no coincidentes, sin
utilizar puntuaciones negativas.
3. Para obtener el camino, se empieza el recorrido en la posición de mayor puntaje
ascendiendo diagonalmente hacia la esquina superior izquierda hasta encontrar una celda
con puntuación cero.
Matemáticamente, puede ser expresado de la siguiente manera:
Donde a y b son las secuencias a comparar con la función de similitud S(a,b) y la puntuación de
huecos Wi, completando la matriz H [41].
De esta manera, el camino resultante puede comenzar y terminar en el interior de la matriz, sin
tener que llegar a los extremos. Si es necesario, pueden agregarse huecos en el trayecto.
A continuación se muestra un ejemplo de alineamiento de dos secuencias de ejemplo utilizando
el algoritmo de Smith-Waterman:
Sean TGTTACGG y GGTTGACTA las secuencias de entrada, y las funciones de similitud y
penalización
23
la matriz de Smith Waterman resultante se completa tal como se muestra en la siguiente figura.
Fig. 6: Ejemplo de alineamiento con el algoritmo Smith-Waterman
En primer lugar, se ubican las dos secuencias en los ejes de la matriz y se completa con ceros la
primera fila y la primera columna. A continuación se utilizan las funciones de similitud y
penalización elegidas para completar los valores de las celdas restantes. Por último, se busca el
alineamiento resultante partiendo desde la posición con mayor puntuación y avanzando hacia el
siguiente valor más cercano, hasta llegar a un valor cero. En este caso, el resultado del algoritmo
es:
GTT-AC
GTTGAC
2.6 Comparación de secuencias en bases de datos La comparación de una secuencia con una base de datos implica el alineamiento de a pares entre
cada una de las secuencias de la base de datos con la de entrada. En estos casos, se deben tener
en cuenta tres criterios básicos para que la herramienta sea utilizable y confiable:
1. Sensibilidad, para encontrar la mayor cantidad de hits o coincidencias posibles, minimizando los falsos negativos.
2. Especificidad, para seleccionar sólo las secuencias que están significativamente relacionadas con la secuencia de entrada, evitando obtener falsos positivos.
3. Velocidad, dada por el tiempo que lleva obtener los resultados de la búsqueda en la base de datos, afectada por la cantidad y la longitud de las secuencias que la componen.
24
Idealmente, un sistema debería tener gran sensibilidad, especificidad y velocidad. Sin embargo, el aumento de uno de dichos criterios generalmente va a decremento de los otros [16]. Por ejemplo, si el enfoque está puesto en una gran velocidad, no se podrá garantizar un alto nivel de sensibilidad y especificidad. Los métodos rigurosos y exhaustivos basados en la programación dinámica, como los
anteriormente explicados, hacen mayor hincapié en la sensibilidad y la especificidad, pero
resultan ineficientes y lentos en comparaciones de secuencias con una base de datos, dado que
para alinear sólo dos secuencias de longitudes M y N, el tiempo y el espacio requerido son
O(MN) [17].
Por este motivo es necesaria la utilización de algoritmos heurísticos para acelerar el
procesamiento computacional. Actualmente los más utilizados son FASTA y BLAST [6]. Ambos
usan como heurísticas el método de palabra, el cual se basa en encontrar segmentos idénticos o
casi idénticos entre dos secuencias, denominados palabras, y en la asunción de que dos
secuencias relacionadas deben tener al menos una palabra en común. Una vez identificados
dichos segmentos se puede continuar el alineamiento extendiendo las regiones de similitud desde
ellos [44].
2.6.1 FASTA
FASTA fue la primera herramienta de búsqueda de alineamientos en bases de datos, desarrollada
por Lipman y Pearson en 1985. Inicialmente estaba enfocada en la comparación de proteínas, y
luego evolucionó hasta extender su uso para la comparación de secuencias de ADN [14]. Su
estrategia se basa en la utilización de hashing para encontrar matching de segmentos cortos de
longitud k (k-tuplas), las cuales generalmente contienen una longitud de entre 4 y 6 residuos para
secuencias de ADN [44]. Este algoritmo se lleva a cabo en cuatro etapas:
1. Identificación de las 10 regiones más similares entre dos secuencias a comparar
El proceso de alineamiento comienza con la identificación de todas las k-tuplas de la secuencia
de entrada, mediante cortes de la misma longitud k denominados palabras. Éstas son
comparadas con las palabras de cada secuencia de la base de datos. Los matching pueden ser
25
representados como puntos dentro de una matriz de dos dimensiones, cuya sucesión forma
segmentos diagonales continuos. La representación de dicha matriz se lleva a cabo con una tabla
de hashing. Por otra parte, se identifican las diez regiones dentro de las diagonales con mayor
puntuación, calculada en base a la cantidad de coincidencias y diferencias entre las palabras de
cada secuencia.
2. Re-puntuación de las regiones seleccionadas
Para este paso se utiliza una matriz de sustitución, la cual contiene todos los valores posibles del
alfabeto en el eje vertical y horizontal superior de la matriz, y cada posición de la matriz contiene
información del análisis mutacional, revelando la probabilidad de las transiciones y las
transversiones entre las bases nitrogenadas [30]. Las 10 mejores secuencias re-puntuadas
constituyen lo que FASTA denomina init1 score [16].
3. Introducción de huecos
Los segmentos de alto puntaje seleccionados se tratan de unir para formar un alineamiento
aproximado con interrupciones. Este paso permite introducir espacios entre las diagonales,
aplicando penalización cuando esto ocurre. El puntaje del alineamiento resultante se calcula
nuevamente en base a la sumatoria de los puntajes de las regiones unidas, menos los valores de
penalización de la introducción de huecos. En este paso, FASTA utiliza un algoritmo de
Programación Dinámica para encontrar la combinación con mayor puntaje, cuyo valor se
denomina initn score [16].
Todas las secuencias de la base de datos pasan por los tres pasos mencionados, obteniendo un
initn score para cada una de ellas. Las secuencias cuyo valor sea mayor a un umbral se utilizan
en la siguiente etapa, mientras que las demás se descartan.
4. Alineamiento
Cada una de las secuencias obtenidas a partir de los pasos anteriores se compara con la secuencia
de entrada utilizando una variante del algoritmo de Smith-Waterman, obteniendo un valor
26
denominado opt score, finalmente utilizado para comparar los alineamientos seleccionando el de
mayor puntuación [16].
2.6.2 Basic Local Alignment Search Tool (BLAST)
El programa BLAST fue desarrollado en la década de 1990 por investigadores del Centro
Nacional para la Información Biotecnológica (NCBI) de Estados Unidos y se ha convertido en
uno de los más importantes para realizar alineamientos de pares de secuencias entre una
secuencia de entrada (query), con todas las secuencias de la base de datos [44]. Su principal
objetivo es obtener la similitud entre dos secuencias realizando alineamientos locales
sub-óptimos, pero suficientemente sensibles y más rápidos que FASTA, ya que sólo busca los
patrones más significativos en las secuencias [14].
A partir del programa BLAST original se han desarrollado variantes tales como BLASTN,
BLASTP, BLASTX, entre otros, y cada uno de ellos tiene un objetivo en particular. Mientras que
BLASTN es utilizado para la alineación de secuencias de nucleótidos con una base de datos de
secuencias de nucleótidos, BLASTP permite alinear una secuencia de proteínas con una base de
datos de secuencias de proteínas, y BLASTX utiliza secuencias de nucleótidos como entrada, que
son traducidas a secuencias de proteínas, para contrastarlas con una base de datos de proteínas.
Al igual que la herramienta anteriormente descrita, BLAST aumenta la velocidad de comparación
al buscar las palabras comunes entre la secuencia de entrada y cada secuencia de la base de
datos. Sin embargo, mientras FASTA busca todas las palabras posibles de una determinada
longitud, BLAST se enfoca en las más significativas, en base a un puntaje obtenido mediante una
matriz de sustitución. Por otro lado, la longitud de palabra en este programa es de 3 residuos para
proteínas y 11 residuos para ácidos nucléicos, debido a que dichas longitudes son las mínimas
requeridas para alcanzar un puntaje de palabra que sea lo suficientemente alto para ser
significativo, pero no son tan largas como para perder de vista patrones cortos que resulten de
importancia [30].
Para alinear las secuencias BLAST lleva a cabo una serie de pasos:
27
1. Pre-procesamiento
El proceso comienza formando un dataset de palabras de determinada longitud en base al
alfabeto de las secuencias a comparar. Asimismo, también se obtienen todas las palabras de igual
longitud contenidas en la secuencia de entrada. Por cada palabra de la query (entrada) se lleva a
cabo una comparación con las palabras del dataset, utilizando una matriz de sustitución y un
valor umbral T, con el cual se seleccionan aquellas tuplas del dataset que más se asemejan a la
palabra de la query. De esta manera, cada posición de la secuencia de entrada se asocia con una
lista de palabras del alfabeto cuya similitud superó el valor umbral al compararse con una
palabra comenzada en dicha posición. Dicha lista de palabras son llamadas vecinos [16].
2. Obtención de los hits
Luego del primer paso, la secuencia de entrada queda representada con una lista de vecinos por
cada posición y debe compararse con cada una de las secuencias de la base de datos. Para esto,
cada posición de la secuencia query es comparada con cada palabra de la secuencia de la base de
datos. Si uno de los vecinos en dicha posición coincide exactamente con la palabra a comparar,
entonces se reconoce como hit [16]. De esta manera, se obtienen todos los posibles hits entre la
secuencia de entrada y la secuencia de la base de datos.
3. Extensión
Cada hit hallado entre las secuencias a comparar es extendido en ambas direcciones, aumentando
o decrementando el valor del alineamiento de acuerdo a lo indicado por la misma matriz de
sustitución ya utilizada en pasos anteriores. La extensión se realiza hasta que el valor caiga por
debajo de un cierto umbral debido a diferencias entre la secuencia query y la secuencia de la base
de datos, o hasta que se llegue a los extremos [14]. El segmento resultante se llama par de
segmentos de alta puntuación o HSP por sus siglas en inglés (high-scoring segment pair) [27].
Una vez encontrados los HSP, se deben seleccionar aquellos que se consideren los más
significativos. Para eso se compara el puntaje asociado a cada uno de ellos con un valor de
umbral S, el cual es determinado empíricamente en base a los rangos de valores obtenidos en
comparaciones de secuencias aleatorias [30]. Una vez identificados los HSP que superen dicho
28
umbral, BLAST determina la significancia estadística de cada uno de ellos mediante el cálculo de
un parámetro denominado E. Cuando una secuencia de la base de datos llega a un valor de E
superador a un umbral, esa secuencia es considerada como un match [30].
El tiempo requerido para la ejecución de BLAST se puede calcular como la suma de los tiempos
de cada una de sus etapas. En la primera etapa, el tiempo de procesamiento será proporcional al
número de palabras generadas (W), mientras que en la segunda dependerá del número de
residuos totales de la base de datos (N). El tiempo correspondiente a la etapa de extensión es
proporcional al número de hits encontrados, lo cual a su vez depende de los parámetros
correspondientes a la longitud de la palabra y al valor umbral T, y de la cantidad de residuos en
la base de datos, dado que deberá hacerse letra por letra en cada secuencia. De esta manera, la
complejidad de BLAST puede expresarse como:
aW + bN + cNW
donde a, b y c son constantes [1]. Por lo tanto, se puede concluir que la complejidad temporal del
algoritmo BLAST en notación Big O es O(NW).
En términos de complejidad algorítmica, BLAST resulta más rápido que FASTA al buscar sólo
los patrones más significativos entre las secuencias. Análisis comparativos de ambos algoritmos
han demostrado que BLAST es hasta seis veces más rápido que FASTA, mientras que este
último es en promedio 2% más preciso [10].
2.7 Significancia estadística en alineamientos de secuencias Cuando dos secuencias son alineadas mostrando cierto grado de similitud, puede resultar de
interés preguntarse si dicho resultado fue obtenido de forma casual, o si ambas secuencias están
verdaderamente relacionadas entre sí. Arratia, Gordon y Waterman observaron que secuencias de
ADN de organismos no relacionados contienen subsecuencias continuas muy extensas que son
prácticamente idénticas entre sí. A modo de demostrar homología entre dos secuencias, se
basaron en pruebas estadísticas, al preguntarse si dadas dos secuencias aleatorias e
independientes entre sí era posible obtener una distribución de las longitudes más extensas de
29
segmentos continuos coincidentes [4]. Luego de varios modelos estadísticos con los cuales se
intentó demostrar la significancia de un alineamiento, los autores ya mencionados basaron su
enfoque en la predicción de la cantidad de residuos secuencialmente coincidentes entre dos
secuencias aleatorias de determinada longitud. Para esto modelaron el alineamiento de
secuencias con experimentos de lanzamientos de monedas [3], dado que el alineamiento
aleatorio contendría una mezcla de coincidencias y diferencias, al igual que dicho experimento.
De este modo, la probabilidad de producir una serie de coincidencias entre secuencias aleatorias
es similar a la posibilidad de que la moneda caiga de la misma manera repetidamente de forma
continua, por ejemplo, saliendo siempre cara.
Análisis matemáticos posteriores llevados a cabo por Karlin y Altschul revelaron que las
puntuaciones esperadas en el alineamiento de secuencias aleatorias no relacionadas siguen la
distribución de Gumbel, la cual es utilizada para el estudio de valores extremos [20, 21]. En base
a eso, realizaron evaluaciones de la importancia de los segmentos sin huecos en las
comparaciones entre una secuencia de prueba y una base de datos de secuencias utilizando el
programa BLAST. Dicha distribución de valores extremos es utilizada actualmente para evaluar
la significancia de la puntuación de las alineaciones locales de secuencias ADN y de proteínas,
especialmente cuando se trata de búsquedas de similitud en bases de datos, ya que permite
realizar pruebas de hipótesis estadísticas basadas en el número de desviaciones estándar del
puntaje promedio [30].
Las pruebas de hipótesis estadísticas tienen como objetivo probar si una determinada afirmación
se encuentra apoyada por la evidencia experimental que se obtiene a través de una prueba
aleatoria. Si la probabilidad de que los datos muestrales apoyen una hipótesis es mínima,
entonces la hipótesis es rechazada [8]. Una prueba de hipótesis estadística de la relación entre
dos secuencias puede ser llevada a cabo obteniendo en primer lugar una alineación óptima y
luego generando secuencias del mismo tamaño de manera aleatoria que serán alineadas entre sí.
Los puntajes obtenidos con estas últimas comparaciones son utilizados para hacer una
distribución de puntuación aleatoria y son contrastados con el del caso óptimo. Si la puntuación
se encuentra en el extremo de la distribución, es poco probable que haya sido aleatoria, por lo
que se considera significativa. De la prueba estadística puede obtenerse el P-valor, como un
30
indicador de posibles relaciones homólogas. Estudios estadísticos han develado cómo interpretar
el P-valor [44]:
❏ P-valor ≤ 10-100 : matching exacto entre las dos secuencias.
❏ 10-100 < P-valor ≤ 10 -50 : matching casi idéntico.
❏ 10-50 < P-valor ≤ 10-5 : secuencias claramente homólogas.
❏ 10-5 < P-valor ≤ 10-1 : secuencias posiblemente homólogas.
❏ 10-1 < P-valor: las dos secuencias pueden estar relacionadas al azar
BLAST provee, junto con la puntuación final de la alineación, un valor de significancia
estadística que permite distinguir cuando dos secuencias están evolutivamente relacionadas.
Dicho valor, denominado E-value o valor esperado, indica la probabilidad de que las
alineaciones resultantes de la base de datos hayan ocurrido por azar. El valor E está relacionado
con el valor P, previamente explicado. Dado que este programa compara una secuencia de
entrada contra todas las presentes en una base de datos, utiliza la siguiente fórmula para el
cálculo del valor esperado:
E = M × N × P
Donde M es el número total de residuos en la base de datos, N es el número de residuos de la
secuencia de entrada y P es la probabilidad de que la alineación sea producto del azar [44].
Mientras menor sea el valor resultante, más significativo es el matching.
Empíricamente, este valor puede interpretarse de la siguiente manera:
● E ≤ 10-50: se puede asegurar con total confianza que las secuencias son homólogas.
● 10-50 < E ≤ 10-2 : las secuencias pueden ser consideradas homólogas.
● 10-2 < E ≤ 10: la alineación no puede considerarse relevante pero puede insinuar una
posible relación de homología remota. ● 10 < E: las secuencias no están relacionadas entre sí, o tienen una relación tan distante
que no puede ser detectada por este método.
Debe tenerse en cuenta que el E-value es proporcional al tamaño de la base de datos, por lo que
mientras mayor sea su dimensión, más alto será el valor resultante, y menor será la confianza en
la alineación.
31
Capítulo 3
Programas similares y comparación con la herramienta
En la actualidad, existen diversos programas y herramientas, tanto web como desktop, que
implementan los algoritmos y heurísticas mencionados anteriormente. A continuación se
analizarán distintas opciones disponibles de manera gratuita. Por último, se incluirá el programa
utilizado hasta el momento por investigadores de la Facultad de Ciencias Veterinarias para
comparar las secuencias entre sí de manera tal de obtener los alelos asociados a las mismas.
3.1 Matriz de puntos dotmatcher y dottup son dos programas del EMBOSS, un paquete de software gratuito y de
código abierto para la biología molecular. Ambos resultan muy similares, dado que permiten
obtener una matriz de puntos a partir de dos secuencias de entrada, permitiendo la comparación
de secuencias de ADN o proteínas. El diagrama de puntos es una representación gráfica intuitiva
de las regiones de similitud entre las dos secuencias. Además se tienen diversos parámetros para
configurar la imagen de salida. Ambos pueden ser utilizados de forma web en las siguientes
direcciones URL:
❏ dotmatcher: https://www.bioinformatics.nl/cgi-bin/emboss/dotmatcher
❏ dottup: http://bioinfo.nhri.org.tw/cgi-bin/emboss/dottup
Las siguientes imágenes son capturas de pantallas de ambos programas, en las cuales se pueden
observar las grandes similitudes entre ellos. Sin embargo, dotmatcher permite seleccionar un
32
tamaño de ventana y un valor umbral que será utilizado por el algoritmo para realizar el
alineamiento.
Fig. 7: Inicio del programa web dotmatcher
33
Fig. 8: Inicio del programa web dottup
Si bien a simple vista parecen no tener diferencia, dotmatcher y dottup difieren en diversos
puntos. Por un lado, dotmatcher genera un diagrama de puntos comparando todas las posiciones
de la primera secuencia de entrada con todas las posiciones de la segunda secuencia de entrada
usando una matriz de sustitución. Las dos secuencias son los ejes de la gráfica de salida. Una
ventana, cuya longitud es especificada por el usuario, se mueve a lo largo de todas las diagonales
posibles. Cada posición en la ventana corresponde a una puntuación por pares de la matriz de
puntuación. El puntaje para toda la ventana es la suma de los puntajes para las posiciones
individuales dentro de ella. Si el puntaje de la ventana está por encima de un valor umbral,
también definido por el usuario, entonces se traza una línea en el diagrama de puntos
correspondiente a la ventana. Por otro lado, dottup no utiliza un valor umbral, sino que sólo
verifica la coincidencia de palabras. Esta diferencia hace que dotmatcher sea más lento pero a su
34
vez más sensible que dottup, lo que se traduce a diferencias entre ambas salidas. Por último, en
ninguno de los dos casos se obtiene el alineamiento resultante entre las dos secuencias.
Fig. 9: Salidas de los programas web dotmatcher y dottup con dos secuencias de prueba
3.2 Algoritmo de Smith-Waterman Water y Matcher son dos herramientas de comparación de secuencias basadas en el algoritmo de
Smith-Waterman. El Instituto Europeo de Bioinformática, conocido como EMBL-EBI,
proporciona acceso gratuito a dichas aplicaciones de análisis de secuencias, ya sea a través de las
API de servicios web RESTful y SOAP, como así también por medio de interfaces web, a través
del siguiente link https://www.ebi.ac.uk/Tools/psa/ [26]. Mientras que Water es un programa
para obtener el alineamiento local entre dos secuencias utilizando el algoritmo de Smith
Waterman, Matcher identifica similitudes locales entre dos secuencias utilizando un algoritmo
riguroso que presenta variaciones con respecto al algoritmo original. Las herramientas pueden
utilizarse tanto con secuencias de nucleótidos como con secuencias de aminoácidos. A
continuación se adjuntan imágenes de las distintas aplicaciones junto con la salida
correspondiente a cada procesamiento.
35
Fig. 10: Inicio del programa Water por medio de la interfaz web provista por EMBL-EBI
36
Fig. 11: Salida del programa Water con dos secuencias de prueba
37
Fig. 12: Inicio del programa Matcher por medio de la interfaz web provista por
EMBL-EBI
38
Fig. 13: Salida del programa Water con dos secuencias de prueba
39
En las imágenes se puede observar que una misma entrada en ambos algoritmos genera una
alineación ligeramente diferente. Esto se podría asociar a que ambos algoritmos utilizan distintos
valores por defecto para la generación y extensión de los huecos, como así también a que ambos
programas no utilizan el mismo algoritmo. Por otro lado, ambos permiten modificar los valores
por defecto de inicio y extensión de huecos, como así también seleccionar distintas matrices de
sustitución.
3.3 Comparación con bases de datos: FASTA y BLAST EMBL-EBI también proporciona acceso web a los programas FASTA y BLAST en sus distintas
variantes a través del siguiente link https://www.ebi.ac.uk/Tools/sss/, para comparación de
proteínas y de secuencias de ADN con bases de datos preexistentes. En este caso, se analizaron
ambas herramientas respecto al análisis de secuencias de ADN utilizando secuencias de prueba
como entrada.
40
Fig. 14: Entrada del programa FASTA por la interfaz web de EMBL-EBI
41
Fig. 15: Entrada del programa BLAST por la interfaz web de EMBL-EBI
42
Fig. 16: Fragmento de los resultados del programa FASTA por la interfaz web de EMBL-EBI
43
Fig. 17: Fragmento de los resultados del programa BLAST por la interfaz web de EMBL-EBI
44
Como se puede ver en las figuras 14 y 15, las interfaces web para ambos programas permiten
seleccionar una base de datos preexistente y configurar diversos parámetros, como la
penalización por apertura de un hueco, la penalización de la extensión, la cantidad de secuencias
de salida, entre otros. Los algoritmos fueron probados con la misma base de datos preexistente,
la misma secuencia de prueba, y los parámetros por defecto.
Por un lado, el programa FASTA tarda aproximadamente 30 minutos en ejecutarse con la base de
datos preexistente seleccionada, mientras que el programa BLAST finaliza en 5 minutos. La
salida en ambos casos consta de una lista de 50 secuencias, o el número que se indique en la
configuración inicial, ordenadas de mayor a menor score, y de menor a mayor E-Value. Además
se agrega el resultado del alineamiento de cada una de las secuencias listadas con la secuencia de
entrada. En las figuras 16 y 17 se incluyen únicamente los alineamientos de la primera secuencia,
pero en el anexo se adjunta la salida completa de ambos programas.
Por otro lado, los resultados de ambos algoritmos indican a la misma secuencia como la más
similar, aunque los valores de salida en cuanto a score y E-Value difieran, lo cual puede deberse
a que cada algoritmo realiza sus cálculos con sus propios parámetros por defecto.
El programa BLAST también puede ser utilizado desde la página web del Centro Nacional de
Información Biotecnológica (NCBI, por sus siglas en inglés), por el cual fue creado. En dicha
página web se pueden encontrar distintas formas de usar el programa. Una de ellas es la interfaz
web, con la posibilidad de usar las distintas versiones existentes, ya sea BLASTN, BLASTP,
BLASTX, TBLASTN, TBLASTX. Cada uno de ellos tiene una utilidad determinada. En este caso,
resulta de interés analizar BLASTN, la versión que compara una secuencia de ADN de entrada
con una base de datos de secuencias de ADN, dado que es la funcionalidad que más se asemeja
al objetivo del trabajo.
En la siguiente imagen se puede ver la interfaz web del programa. La misma permite ingresar
una secuencia de entrada para compararla con una base de datos predefinida, o bien para ser
alineada con otra secuencia de entrada. Dicha elección puede realizarse tildando la opción Align
two or more sequences, sin embargo en este caso se seleccionó la comparación con una base de
datos. Por otro lado permite el ingreso de información extra respecto a la secuencia ingresada,
como el tipo de organismo al cual pertenece, o un límite inferior y superior para realizar la
45
comparación. Además, brinda la posibilidad de generar la búsqueda en una base de datos
personalizada, aplicando filtros a la base de datos previamente seleccionada para reducir su
tamaño. Por último, permite la selección de variantes del programa BLASTN original, dando
como alternativas Megablast y Discontiguous Megablast. La misma interfaz indica en un cuadro
informativo, que Megablast es muy rápido para la comparación de secuencias muy relacionadas
(con un porcentaje de similitud cercano al 95%) mientras que Discontiguous Megablast se utiliza
en secuencias de distintas especies (por lo tanto menos relacionadas entre sí), y BLASTN se
presenta como la opción más lenta pero más sensible de las tres. Para el caso de prueba se
seleccionó la última opción.
Fig. 18: Programa BLASTN por la interfaz web de NCBI
46
El programa tardó en correr alrededor de 10 segundos, resultando mucho más rápido que los
programas probados anteriormente y arrojando como resultado la siguiente tabla.
Fig. 19: Resultado del programa BLASTN por la interfaz web de NCBI
Como se puede ver, los resultados arrojaron que la secuencia corresponde al gen BoLA, lo cual
coincide con lo esperado, dado que la secuencia de prueba utilizada es parte del conjunto de
secuencias que constituyen la base de datos del gen BoLA, utilizado en la investigación llevada a
cabo por investigadores de la Facultad de Ciencias Veterinarias. Este reconocimiento fue
realizado de manera automática por el programa, sin ninguna configuración previa además de la
explicada anteriormente.
Si bien la interfaz web del programa BLASTN por la página web de NCBI es muy rápida a la
hora de comparar una secuencia con una base de datos y el resultado de prueba fue coincidente,
corre con la desventaja de no poder crear bases de datos personalizadas con secuencias propias.
Sin embargo, en la página se presentan diversas alternativas para usar los programas. La primera
opción consta de descargar y ejecutar localmente los comandos del programa para crear bases de
datos y realizar comparaciones. Esta opción es totalmente gratuita y no cuenta con limitaciones,
sin embargo al correr en la computadora del usuario la velocidad de ejecución dependerá de los
recursos de la máquina. La segunda opción disponible permite utilizar una interfaz RESTful
expuesta mediante peticiones HTTP a los servidores de NCBI. Si bien esta opción resulta fácil de
47
usar por medio de una aplicación, ya que evita tener que correr procesos localmente, tiene
limitaciones por ser un servicio público. Por este motivo, entre cada llamada debe pasar un
tiempo mínimo de 10 segundos y si se desea realizar más de 50 búsquedas mediante scripts, se
solicita realizarlo durante los fines de semanas o entre las 9 pm y las 5 pm EST. Además, se
solicita enviar el email del usuario entre los parámetros por si ocurre algún error. Por último, se
presenta una tercera opción que consta de utilizar una imagen Docker del programa para poder
utilizarlo en la nube, permitiendo búsquedas ilimitadas sin restringir la performance del
programa a los recursos de la máquina del usuario.
3.4 Herramienta utilizada por los investigadores en la
búsqueda de alelos Si bien existen diversas herramientas que permiten la comparación de secuencias de ADN,
incluso en bases de datos, la búsqueda de alelos es más compleja que una comparación de
secuencias. El problema planteado implica comparar secuencias ambiguas, donde el valor de
algunas posiciones puede ser desconocido, o bien ser resultado de una combinación conocida. En
el primer caso, en dicha posición se encontraría la letra N, que no corresponde con ninguna de
las cuatro bases nitrogenadas que componen el ADN, representando a cualquier base. En el
segundo caso, se encontraría la letra correspondiente a la combinación dada por el alfabeto
IUPAC extendido. Por lo tanto, si una secuencia tiene una letra ambigua en una posición
determinada, por ejemplo una M, los alelos de los cuales proviene esa secuencia deberán tener
una A y una C, sin saber cuál de los dos contiene cada base y sabiendo que si o si ambos alelos
tienen un valor diferente en esa posición. En ese caso, si se compara la secuencia ambigua con
ambas secuencias daría una diferencia en el punto polimórfico, a pesar de que en realidad existe
una relación entre ellas. Los algoritmos y programas previamente analizados no contemplan el
caso de secuencias ambiguas, asignando la misma penalización a la comparación de M con A y
C, que a la comparación de M con T y G. Esto generaría resultados indeseados, ya que se
podrían descartar secuencias que están relacionadas u obtener como secuencias más similares a
48
un par que no cumpla con la combinación para formar los puntos polimórficos de la secuencia
ambigua de entrada.
Para encontrar los alelos de las secuencias ambiguas, investigadores de la Facultad de Ciencias
Veterinarias de la UNICEN llevaban a cabo un proceso manual utilizando el programa CLC
Genomics Workbench. Este programa tiene, entre otras funcionalidades, la capacidad de alinear y
comparar dos o más secuencias de manera visual, facilitando la tarea asignando distintos colores
a las bases nitrogenadas y marcando las diferencias o igualdades por medio de barras en cada
posición, tal como se muestra en la siguiente imagen.
Fig. 20: Comparación de secuencias mediante el programa CLC Genomics Workbench
Por otro lado, los investigadores habían realizado una clasificación de las secuencias de la base
de datos de alelos en base a la frecuencia de aparición en la población de individuos en estudio.
Dicha clasificación les permitía priorizar las secuencias documentadas a la hora de buscar los
alelos asociados a una secuencia ambigua, a modo de agilizar el proceso. A pesar de esa
heurística, el proceso de comparación podía llevar algunos cuantos minutos, incluso horas.
49
Además, hasta un ojo entrenado puede cometer errores a la hora de realizar extensas
comparaciones.
Frente a este problema, se diseñó y se implementó una herramienta que utiliza el programa
BLASTN para encontrar los alelos asociados a una secuencia ambigua de entrada, automatizando
la tarea que era realizada de forma manual, de forma tal que el tiempo de comparación se vea
reducido a minutos y los errores humanos sean evitados.
50
Capítulo 4
Diseño e implementación
En este capítulo se detallarán las tecnologías utilizadas para la implementación de la solución,
como así también el proceso de diseño y desarrollo en base a los requerimientos funcionales y no
funcionales de la herramienta, integrando diagramas UML que fueron de ayuda durante el
proceso de desarrollo.
4.1 Elección de las tecnologías En la actualidad, existen numerosos lenguajes, librerías y herramientas que permiten desarrollar
programas y scripts aplicados al área de la bioinformática. Entre los lenguajes interpretados más
utilizados se pueden encontrar Perl, Python, Java y Ruby.
Por un lado, Perl cuenta con BioPerl, una colección de módulos que realizan funciones útiles en
bioinformática, como cargar un archivo FASTA o analizar la salida del programa BLAST. Al ser
un lenguaje de scripting, la programación resulta más ágil, ya que cada cambio realizado puede
probarse rápidamente. Si bien es capaz de manejar objetos, no es verdaderamente un lenguaje
orientado a objetos [2]. Por otro lado, permite resumir el código en gran medida y puede
escribirse código de manera desestructurada, dando lugar al desarrollo de scripts tan crípticos y
desordenados que resulten difíciles de comprender, lo cual no suele suceder con Python y Ruby.
Estos últimos son lenguajes con una sintaxis más limpia y realmente orientados a objetos, lo que
facilita la lectura, organización y reutilización del código, aunque diversas pruebas los han
catalogado como lenguajes más lentos que Perl [15]. Sin embargo, la tendencia actual ubica a
Python y a Biopython, su librería aplicada a la bioinformática, como uno de los lenguajes más
utilizados en el área [2].
51
Otro lenguaje ampliamente utilizado en la actualidad que posee una librería especializada en
bioinformática es Java. Este lenguaje orientado a objetos cuenta con BioJava, el cual contiene
módulos destinados a manipular y alinear secuencias, a identificar modificaciones en proteínas,
al uso y análisis de datos genómicos, entre otras funcionalidades. A diferencia de los lenguajes
mencionados previamente, Java es semi-compilado, lo que lo hace más rápido que a los
interpretados.
Por último, R y MATLAB son lenguajes y entornos utilizados en la bioinformática,
principalmente para llevar a cabo análisis estadísticos. Ambos tienen una gran cantidad de
paquetes especializados en el área de la biología y se suelen utilizar a la hora de trabajar con
tablas de datos organizados en matrices. Sin embargo, cuando los datos tienen una estructura más
compleja, pueden resultar bastante lentos.
De las tecnologías mencionadas se eligió Python para el desarrollo del proyecto, por ser un
lenguaje muy utilizado en la actualidad que contiene una serie de librerías útiles para el trabajo
relacionado con secuencias de ADN, incluido BioPython, para el cual se puede encontrar una
documentación muy extensa y explicativa que facilita el desarrollo. Por otra parte, es un lenguaje
simple, flexible y ordenado, lo que permite programar ágilmente diversos tipos de aplicaciones,
además de ser un lenguaje muy portable. Por estas razones, se utilizó Python para desarrollar un
programa que, dado una base de datos de secuencias documentadas (alelos de un determinado
gen) y una secuencia ambigua de entrada, sea capaz de determinar cuáles son los dos alelos de
los cuales proviene la secuencia de entrada.
4.2 Requerimientos de la herramienta La herramienta a desarrollar debía contar con una serie de requisitos funcionales y no
funcionales para hallar la solución del problema.
4.2.1 Requerimientos funcionales
❏ Agregar bases de datos de secuencias no ambiguas, a partir de las cuales se obtienen los
alelos asociados a una determinada secuencia ambigua de entrada. Si bien el problema
52
inicial se trataba de la asignación de alelos de un determinado gen llamado BoLA, la
funcionalidad puede ser extendida para cualquier gen que pueda presentar polimorfismo.
Por esta razón, resultó necesaria la funcionalidad de agregar bases de datos de secuencias.
❏ Eliminar una base de datos: dado que es posible agregar bases de datos, resulta necesario
poder eliminar cualquier base de datos del sistema.
❏ Editar bases de datos, con posibilidad de agregar o eliminar secuencias a una base de
datos preexistente.
❏ Comparar una secuencia ambigua de entrada con una base de datos, obteniendo como
resultado una lista de las combinaciones de alelos más similares, ordenada de acuerdo a
los valores de score resultante para cada combinación.
❏ Seleccionar la cantidad de combinaciones de alelos deseadas en la salida de la
comparación.
❏ Alinear dos secuencias, ya sean ambiguas o no, obteniendo su valor de similitud y el
resultado del alineamiento.
4.2.2 Requerimientos no funcionales
❏ Brindar una interfaz gráfica. Dado que los usuarios finales de la herramienta serían
investigadores del área de Ciencias Veterinarias de la UNICEN, resulta necesario que la
solución final sea simple de usar. Por este motivo, se debe presentar al usuario una
interfaz gráfica intuitiva y sencilla.
❏ Tener un tiempo de procesamiento significativamente menor al que les llevaba a los
investigadores realizar la misma tarea de comparación de forma manual, logrando una
reducción de horas a minutos o segundos.
❏ La aplicación debe poder utilizarse en el sistema operativo Windows, dado que es el que
utilizan los usuarios finales.
❏ El sistema debe reconocer y aceptar como entrada el formato de archivo FASTA,
utilizado en bioinformática para representar secuencias de ADN.
53
4.2 Diseño e implementación del primer prototipo La solución inicial para el problema planteado constó en una aplicación desktop, utilizando el
programa BLASTN de manera local, por las ventajas previamente mencionadas, y framework Qt
por medio de la librería Pyside. El desarrollo se basó en la arquitectura llamada MVC
(Modelo-Vista-Controlador), con la cual se organiza la aplicación separando la lógica de
negocio, la representación de los datos y la comunicación entre ellos en diferentes módulos,
llamados Modelo, Vista y Controlador respectivamente. Este modelo arquitectónico permite
lograr una clara organización del proyecto, facilita el manejo de errores, y permite la
escalabilidad y la reutilización de componentes, en caso de ser requerido.
Fig. 21: Interacción entre los módulos MVC
4.2.1. Modelo
El modelo consiste en una serie de clases encargadas de la administración de base de datos, de la
ejecución del programa BLASTN y de la obtención de los resultados. A continuación se detallará
cada una de las funcionalidades.
54
Fig. 22: Diagrama de Clases UML del Modelo de la versión desktop
Administración de las bases de datos
La base de datos utilizada por el programa BLASTN consta de un archivo de texto donde se
encuentran todas las secuencias en formato FASTA, ubicadas una tras otra de manera secuencial.
Fig. 23: Base de datos BLAST
55
Este archivo es construido a partir de archivos de texto de entrada ubicados en un determinado
directorio. Cada archivo de entrada debe contener una única secuencia, cuyo formato también
debe ser FASTA. Para que el archivo de texto resultante pueda ser utilizado por el programa, es
necesario correr un comando que es proporcionado por el programa BLASTN.
La solución administra las bases de datos utilizando las siguientes clases:
❏ DbCreator: Es una clase abstracta en la que se define el método makeDb y los atributos
necesarios para crear una base de datos BLASTN, tales como el directorio de entrada, el
nombre de la base de datos, y el directorio de salida. El método makeDb es definido pero
no implementado en esta clase.
❏ SimpleDbCreator: Esta clase hereda de DbCreator los atributos y el método makeDb.
Este último, es implementado de manera tal que, a partir de los archivos del directorio de
entrada, genera un archivo FASTA con todas las secuencias, y luego ejecuta el comando
makeblastdb de BLASTN, con los parámetros requeridos (directorio de entrada, directorio
de salida, y tipo de base de datos), obteniendo una base de datos que puede ser utilizada
por el programa BLASTN.
❏ AmbiguousDbCreator: Esta clase también hereda de DbCreator, pero su implementación
del método makeDb es muy distinta a la de SimpleDbCreator. Como su nombre lo indica,
esta clase crea una base de datos ambigua. Esto se debe a que el problema que se quiere
resolver implica encontrar la combinación de dos secuencias que más se asemeje a la
secuencia ambigua de entrada. Para ello, se crea una base de datos de todas las
combinaciones de a pares posibles, generando secuencias ambiguas. Para lograr la
creación de una base de datos ambigua, el método makeDb se encarga de obtener todas
las secuencias de una base de datos simple, comparar y alinear cada una de ellas contra la
misma base de datos, y a partir de cada alineación generar una secuencia ambigua
teniendo en cuenta el alfabeto de IUPAC. Cada nueva secuencia ambigua resultante es
agregada a un archivo intermedio con el cual se crea la base de datos final. De esta
manera, se obtiene una base de datos de N x N con todas las secuencias ambiguas
posibles. Para llevar a cabo esta tarea, hace uso de SimpleBlast, encargada de ejecutar el
56
programa de alineamiento de secuencias. Los archivos resultantes son guardados dentro
de una carpeta del sistema.
❏ DbAdmin: Es la clase encargada de las funcionalidades relacionadas con las bases de
datos, tales como agregar una nueva base de datos, eliminar una base de datos existente, y
agregar o eliminar secuencias de una base de datos determinada. Para lograr dichas
funcionalidades hace uso de las clases anteriormente mencionadas. Por otro lado,
implementa la interfaz QRunnable de Qt, y por lo tanto el método run(). Esto permite
llevar a cabo tareas asíncronas que no proveerán resultados inmediatos en un thread
independiente. Una vez que el procesamiento de datos termina, se emite una señal que es
recibida por el controlador, el cual se encargará de actualizar la vista con los resultados.
De esta manera, la aplicación no queda bloqueada hasta el final de la tarea. La clase
encargada de la definición de los distintos tipos de señales es HaploSignal.
Comparación con una base de datos
La comparación de una secuencia de entrada con una base de datos es llevada a cabo utilizando
el programa BLASTN. Hay dos clases encargadas de utilizar dicho programa, SimpleBlast y
GlobalBlast. Ambas implementan el método align(), pero tienen distinta funcionalidad, ya que
SimpleBlast permite comparar una secuencia con una base de datos, mientras que GlobalBlast
permite alinear una base de datos contra sí misma.
❏ SimpleBlast: Esta clase se encarga de comparar una secuencia de entrada con una base de
datos determinada, obteniendo un archivo de salida con todas las alineaciones resultantes.
Para esto, necesita el directorio donde se encuentra la base de datos, el nombre, el
formato y el directorio del archivo de salida. BLASTN es llamado por medio de una
librería de Biopython llamada NcbiblastnCommandLine, la cual permite generar un
proceso que ejecuta el programa con los parámetros deseados. SimpleBlast es utilizada
por HaplotypesSearcher, la clase encargada de hallar los resultados de la comparación de
una secuencia con una base de datos ambigua. Al igual que DbAdmin,
HaplotypesSearcher implementa la interfaz QRunnable, y por lo tanto el método run(),
en el cual llama a SimpleBlast para procesar las comparaciones. Los resultados obtenidos
57
son leídos por ResultAnalizer, la cual le retorna a HaplotypesSearcher la lista de
combinaciones más similares a la secuencia de entrada, de acuerdo a la cantidad de
elementos de salida solicitada por el usuario a través de la interfaz gráfica. Una vez
finalizado el proceso, se emite una señal que es recibida por el controlador
correspondiente, que actualiza los datos en la vista, mostrando los resultados.
❏ GlobalBlast: Es la clase encargada de comparar todas las secuencias de una base de datos
entre sí, generando un archivo de salida con N alineaciones para cada una de las N
secuencias de la base de datos original. Cada alineación en dichos archivos es utilizada
por DbAdmin para generar la base de datos ambigua.
4.2.2. Vista
Fig. 24: Diagrama de Clases UML de la Vista de la versión desktop
58
La vista de la aplicación fue realizada utilizando el framework Qt. Para el diseño de las vistas se
utilizó la herramienta Qt Designer, la cual permite desarrollar interfaces de manera gráfica y
sencilla mediante drag and drop de componentes configurables. Los archivos generados por
medio de la herramienta pueden ser traducidos a código Python por medio de la librería Pyside a
través del comando pyside-uic compareView.ui > compareView_ui.py, en el cual
compareView.ui es el archivo generado por Qt Designer y compareView.py es el archivo Python
que se va a generar.
Dentro del archivo de salida, se encuentra la clase Ui_MainWindow que se genera
automáticamente a partir del archivo de entrada. En dicha clase se encuentran todos los
componentes agregados por medio de la herramienta. Todos esos componentes y sus acciones
asociadas son parte de las clases QtCore y QTGui, en las cuales se definen las principales
funciones para construir las aplicaciones Pyside. Mientras que QtGui contiene las funciones
relacionadas con los widgets, botones, etiquetas, líneas de texto, entre otros componentes,
QtCore tiene los métodos relacionados a las señales y ranuras (también conocidos como signals
y slots) que permiten comunicar los widgets entre sí y con otros elementos de Qt.
Una vez obtenida dicha clase, es necesario agregar comportamiento a la vista, en base a las
funcionalidades deseadas. En este caso, se utilizó un widget principal al cual se le fueron
agregando otros widgets, uno por cada funcionalidad del sistema, con los elementos necesarios
para llevar a cabo cada tarea. Por ese motivo, resultó necesario mostrar aquellos elementos
asociados a cada funcionalidad, ocultando los elementos restantes, de acuerdo a la opción
seleccionada por el usuario. Para ello se creó la clase MainWindow, que hereda de
Ui_MainWindow y de QMainWindow (otro elemento de QtGui), y contiene una instancia de cada
controlador. En el constructor de la clase MainWindow se asocian eventos a los elementos del
menú principal, de manera tal que al hacer clic en un determinado botón se muestre la vista
deseada. Esto último es llevado a cabo mediante los siguientes métodos:
❏ changeToAdd: adapta la vista a la funcionalidad de agregar una base de datos.
❏ changeToEdit: muestra los elementos necesarios para editar una base de datos.
❏ changeToDelete: muestra el widget con los elementos necesarios para llevar a cabo el
borrado de una base de datos.
59
❏ changeToCompare: muestra los elementos necesarios para llevar a cabo la comparación
de una secuencias con una base de datos determinada
❏ changeToAlign: encargada de mostrar los elementos necesarios para alinear dos
secuencias entre sí.
Para cada una de las funcionalidades específicas, los controladores correspondientes
implementan la función configureView, en la cual se configura el comportamiento de cada
elemento del widget asociado. A continuación se muestran cada una de las vistas del sistema.
Menú principal
El menú principal es lo primero que se muestra al iniciar la aplicación. Desde el mismo se
pueden navegar las distintas bases de datos ambiguas utilizando el panel lateral izquierdo, como
así también seleccionar cualquiera de las funcionalidades del sistema, mediante los botones
ubicados en la sección derecha. Las opciones brindadas son: Comparar una secuencia con una
base de datos, Agregar base de datos, Editar base de datos, Eliminar base de datos y Alinear
dos secuencias.
Fig. 25: Menú principal de la aplicación desktop
60
Comparación de una secuencia con una base de datos
Inicialmente, la vista contiene el área de texto y la tabla de resultados en blanco. El selector que
se encuentra en la esquina superior izquierda permite cambiar la base de datos con la cual se va a
comparar la secuencia. El contador de la esquina superior derecha permite seleccionar la
cantidad de resultados que se desean obtener, con un mínimo de 1 y un máximo de 99. En el caso
de ejemplo, se utilizó una secuencia que es parte de la base de datos, por lo que la combinación
más similar resultante es ella misma (DRB3*0101-DRB3*0101).
La tabla de resultados contiene en cada fila el nombre combinación, formada con nombres del
par de secuencias concatenados, el score y el E-value obtenidos como salida del programa
BLASTN, y el valor de similitud. Éste último es calculado como la razón entre la cantidad de
residuos utilizados para comparar la secuencia de entrada con la combinación y la cantidad de
coincidencias en la comparación, ambos obtenidos de la salida del programa BLASTN.
La salida es ordenada de mayor a menor similitud y de menor a mayor E-value, dado que este
último indica la probabilidad de que no haya una relación real entre las secuencias comparadas.
Fig. 26: Comparación de una secuencia con una base de datos en la versión desktop
61
Agregar una base de datos
Dado que uno de los requerimientos funcionales era poder agregar bases de datos de secuencias
de ADN, se provee una vista en la cual se solicita al usuario el nombre de la base de datos a
agregar y el directorio que contiene las secuencias a ingresar. Al hacer clic en el botón
Seleccionar carpeta de archivos se abre un explorador de archivos del sistema que permite
navegar los distintos directorios existentes en la computadora del usuario y seleccionar uno de
ellos.
Una vez seleccionada la carpeta, el sistema verifica que todos los archivos tengan el formato
FASTA y que puedan ser reconocidos como secuencias de ADN por medio de las librerías de
Biopython. En caso de haber algún error, el usuario es informado y el proceso se detiene. En caso
contrario, se crea una base de datos ambigua y se le informa al usuario una vez que la misma esté
disponible, además de agregarse a la lista de bases de datos que el usuario puede seleccionar.
Fig. 27: Agregar una nueva base de datos en la versión desktop
Editar una base de datos
Esta vista permite agregar o eliminar secuencias de una base de datos seleccionada. Para eliminar
una secuencia se debe hacer doble click sobre el archivo deseado en la lista del panel lateral
izquierdo. El nombre de la secuencia seleccionada aparecerá a la derecha y el botón Eliminar
62
secuencia se habilitará. Este botón eliminará la secuencia de la base de datos seleccionada y
ejecutará el proceso para obtener la base de datos ambigua resultante.
Para agregar una nueva secuencia se debe ingresar el nombre que tendrá el archivo a crear y el
contenido de la secuencia. Cuando ambos campos estén completos se habilitará el botón Agregar
secuencia, el cual generará un archivo con el formato FASTA y ejecutará el proceso necesario
para incluir la secuencia dentro de la base de datos ambigua.
Fig. 28: Editar base de datos en la versión desktop
Eliminar una base de datos
Dado que es posible agregar bases de datos, resulta necesario poder eliminarlas del sistema. Para
ello se provee una vista que permite seleccionar la base de datos que se desea eliminar, por
medio de un selector. Al hacer clic en el botón Eliminar base de datos se solicita la confirmación
del usuario. Si el usuario confirma, se eliminan del sistema todos los archivos relacionados con
la base de datos seleccionada y, una vez finalizado el proceso, se elimina la opción de los
selectores y se le informa al usuario que la eliminación ya fue realizada.
63
Fig. 29: Eliminar una base de datos en la versión desktop
Alinear dos secuencias entre sí
Para alinear dos secuencias entre sí, esta vista provee dos áreas de texto y un botón para
comenzar la alineación. Al iniciar el proceso se muestra una barra de progreso. Luego de unos
instantes, cuando la alineación termina, la barra de progreso desaparece y se puede ver el
resultado clickeando el botón Ver alineación, el cual permite guardar la alineación resultante en
un archivo PDF que es abierto en el lector de PDF del sistema.
Fig. 30: Alineamiento de dos secuencias en la versión desktop
64
4.2.3. Controlador
Fig. 31: Diagrama de clases UML de los controladores de versión desktop
Los controladores del sistema son una serie de clases encargadas de la comunicación entre la
vista y el modelo. Desde la vista se ingresan los datos de entrada para llevar a cabo una
determinada funcionalidad, y el controlador correspondiente se encarga de pedirle al modelo el
procesamiento de dichos datos, para luego actualizar la vista con los resultados obtenidos.
Todos los controladores heredan de la clase Controller, la cual contiene una instancia de la vista
(MainWindow), del administrador de base de datos, del buscador de haplotipos, y de
QThreadPool. Esta última es necesaria para poder ejecutar el método run del administrador de
base de datos y del buscador de haplotipos, dado que ambos heredan de la clase QRunnable. Por
otro lado, también posee la lista de bases de datos del sistema e implementa las funciones
getDatabases y setDatabases, las cuales permiten obtener la lista de bases de datos y setearla a
los elementos de la vista que la requieran. Por último, define el método configureView, el cual no
es implementado.
65
Cada uno de los controladores que heredan de la clase previamente mencionada se encargan de
un requisito funcional específico. Todos ellos implementan el método configureView, de modo
tal que configuran los elementos las vistas asociadas a su funcionalidad. De esta manera, se
conectan los botones, áreas de textos, tablas, etc., con las funciones que llaman al modelo para
procesar los datos y mostrar los resultados. Los controladores específicos son los siguientes:
❏ AddController: Este controlador se encarga de la funcionalidad de agregar una base de
datos, configurando los elementos del widget correspondiente, e implementando métodos
que se encargan de obtener los archivos del directorio seleccionado en la vista y
corroborar que tengan el formato válido antes de llamar al administrador de base de datos
con los datos de entrada.
❏ AlignController: Esta clase contiene los datos del par de secuencias ingresado por el
usuario en las áreas de texto de la vista de alineación de secuencias. Además, posee una
instancia de Aligner, la clase encargada de la alineación entre dos secuencias. Cuando el
botón para alinear dos secuencias es presionado, este controlador llama a la instancia
previamente mencionada para que lleve a cabo el proceso correspondiente y, al finalizar,
emite la señal aligned, que es captada por el controlador. Dicha señal se conecta con la
función showAlignment, la cual configura elementos de la vista como el botón para ver la
alineación o la barra de progreso y llama a la función showResults, encargada de obtener
un pdf con los resultados obtenidos.
❏ CompareController: Este controlador, además de configurar la vista relacionada con la
comparación de una secuencia con una base de datos ambigua, tiene una instancia de la
clase CustomTableModel, la cual hereda de QAbstractTableModel implementando las
funciones necesarias para mostrar una lista de objetos en una tabla. De esta manera,
cuando se presiona el botón para realizar la comparación se llama a la función compare,
encargada de la configuración del comportamiento de la interfaz de usuario, se obtiene la
secuencia de entrada guardandola en un archivo temporal, y se ejecuta la función run del
buscador de haplotipos con la base de datos seleccionada. Cuando el proceso termina, se
emite la señal result, previamente conectada al método showResult del controlador. Éste
66
último es quien se encarga de mostrar los resultados en la tabla implementada por la clase
CustomTableModel.
❏ DeleteController: Es el controlador encargado de la vista y la funcionalidad de eliminar
una base de datos. Además de la función configureView, implementa la función deleteDb,
en la cual obtiene el dato de la base de datos seleccionada por el usuario y ejecuta el
método run del administrador de base de datos. Una vez eliminada, el administrador
emite la señal deleted, la cual está conectada a la función deletedDb, encargada de
mostrar el mensaje correspondiente en la vista. Por otro lado, las funciones showWidget y
hideWidget permiten mostrar el mensaje de alerta al usuario, previo a la eliminación de la
base de datos, para evitar la eliminación de secuencias por error.
❏ EditController: Se encarga de la vista y funcionalidad relacionada con agregar o eliminar
secuencias de una determinada base de datos. Para ello implementa una serie de
funciones, tales como:
❏ changeDb: permite cambiar la base de datos de destino al cambiar la opción del
selector. Además, muestra en la interfaz gráfica cuál base de datos se estará
editando.
❏ setSelectedSeq: permite cambiar la secuencia seleccionada para eliminar al hacer
doble clic en algún archivo del panel izquierdo, actualizando la vista para saber
cuál es la secuencia a eliminar y habilitando el botón Eliminar secuencia.
❏ validSeq, checkSeqName y checkSeqContent: son funciones de validación de la
secuencia de entrada, dando un mensaje de error en caso de que se ingresen
valores erróneos o que la secuencia ya exista en la base de datos.
❏ deleteSeq: es la función ejecutada al presionar el botón Eliminar secuencia, y la
encargada de configurar la opción de borrado y la secuencia a eliminar en el
administrador de base de datos, ejecutando luego el método run, el cual emite la
señal deletedSeq al finalizar. Dicha señal dispara la ejecución de la función
dbReady, que configura los elementos de la vista para mostrar el resultado de la
ejecución.
67
❏ addSeq: Al contrario que la función anterior, esta es la encargada de agregar una
secuencia a la base de datos seleccionada. Es ejecutada al presionar el botón
Agregar secuencia, y básicamente configura el administrador con los datos de
entrada (base de datos, nombre de la nueva secuencia y contenido) previo a
ejecutar el método run. En este caso, este emite la función addedSeq, conectada a
la función newSeqReady, la cual indica en la interfaz gráfica el resultado del
procesamiento.
La relación entre el modelo, la vista y el controlador permiten lograr el funcionamiento del
sistema, brindando una solución al problema mediante una aplicación de escritorio, capaz de ser
empaquetada e instalada en otra computadora con sistema operativo Windows.
4.3 Diseño e implementación del segundo prototipo Una vez finalizado el diseño y desarrollo de la solución desktop se planteó la posibilidad de
realizar una herramienta web que permita solucionar el problema planteado. Ante esto, se realizó
un prototipo de aplicación web adaptando el diseño preexistente de la versión de escritorio,
aunque teniendo en cuenta las diferencias entre los requerimientos funcionales de ambas
versiones, dado que en el prototipo web se agregaron las siguientes funcionalidades:
❏ Administración de bases de datos por usuarios: Cada usuario debe ser capaz de
administrar su propia base de datos sin interferir en la de los demás usuarios.
❏ Registrar usuarios: Para cumplir el requisito anterior es necesario poder agregar usuarios
al sistema.
❏ Login de usuarios: Los usuarios deben poder ingresar al sistema con un usuario y una
contraseña.
❏ Logout de usuarios: Se debe brindar la posibilidad de salir del sistema, cerrando la sesión.
Por otra parte, al ser una aplicación web, se planteó una arquitectura Cliente-Servidor, en la cual
un cliente o grupo de clientes realizan peticiones a un servidor, que actúa como depósito de datos
68
y ofrece un conjunto de servicios que ejecuta de acuerdo a las peticiones recibidas, dando una
respuesta a los clientes.
Fig. 32: Arquitectura Cliente-Servidor.
Para el desarrollo del servidor se reutilizó parte del modelo ya implementado y se agregaron
nuevas funcionalidades, utilizando el framework Flask por su simplicidad y facilidad a la hora de
crear aplicaciones web. Por otro lado, se diseñó el lado cliente en base a los nuevos
requerimientos. A continuación se explicará el diseño e implementación de la solución.
4.3.1. Servidor
El servidor consta de un modelo y de una serie de controladores para llevar a cabo las
funcionalidades necesarias. Al recibir una petición HTTP, Flask permite vincular la URL
enviada desde el cliente con funciones del servidor, desde las cuales se puede acceder al objeto
request, que posee toda la información de la petición HTTP. Los endpoints utilizan los
controladores correspondientes para llevar a cabo su tarea, los cuales a su vez hacen uso del
modelo. A continuación se presenta el diseño de los controladores y del modelo a modo general,
y luego se detalla cómo son utilizados por cada uno de los endpoints.
69
Modelo
Para la implementación del modelo se reutilizaron la mayoría de las clases de la versión de
escritorio. Sin embargo, algunas de ellas fueron adaptadas a los nuevos requerimientos y también
se debieron agregar nuevas clases.
Fig. 33: Diagrama de clases UML del modelo de la versión web
Las principales diferencias con el modelo de la versión de escritorio se encuentran en las clases
DbAdmin y HapotypesSearcher, las cuales en la versión previamente explicada heredan de una
clase propia de Qt (QRunnable) y ejecutaban sus principales funcionalidades en forma de hilos o
threads. En este caso, no existe tal herencia, y las funciones principales son llamadas por los
controladores sin threads de por medio. Por esta misma razón, tampoco se utilizan señales al
terminar el procesamiento de los datos.
Por otro lado, se implementó la clase User, la cual contiene como atributos el email, contraseña y
nombre del usuario, y hereda de la clase UserMinix perteneciente a la librería flask_login. Ésta
librería es parte del framework Flask, y permite implementar de manera sencilla la autenticación
de usuarios al sistema. Para ello, la clase User implementa una serie de funciones declaradas en
UserMinix.
70
Controladores
Los controladores son una serie de clases que funcionan de intermediarias entre los endpoints y
el modelo.
Fig. 34: Diagrama de clases UML de los controladores de la versión web
En este caso, se tiene una herencia de clases, en la cual la clase padre (Controller) contiene
funciones y atributos necesarios para todos los hijos. Cada uno de los controladores que heredan
de dicha clase se encarga de una funcionalidad específica. A continuación se explicará
brevemente cada uno de ellos:
❏ CompareController: Es utilizado por las APIs encargadas de realizar comparaciones y
alineaciones de secuencias, ya sea contra una base de datos ambigua o contra otra
secuencia de entrada. Para ello implementa la función compare, la cual recibe como
parámetros el contenido de la secuencia de entrada, la base de datos a utilizar, la cantidad
máxima de resultados esperados y el valor ambiguo, que indica si la comparación es
contra una base de datos ambigua o simplemente contra otra secuencia.
❏ UserController: Este controlador es utilizado por los endpoints que se encargan de
realizar operaciones con usuarios, dado que implementa las siguientes funciones:
❏ addUser: permite agregar un nuevo usuario con un mail, un nombre y contraseña.
❏ getUser: permite obtener un usuario de la base de datos a partir de su email, el
cual funciona como atributo único e identificador.
❏ saveUser: permite editar el nombre y la contraseña de un usuario, no así su email,
dado que funciona como id del objeto en la base de datos.
71
❏ DbAdminController: Es el controlador encargado de realizar operaciones relacionadas
con las bases de datos de los usuarios, haciendo uso del objeto dbAdmin declarado en el
padre. Las operaciones que permite llevar a cabo esta clase son las siguientes:
❏ createDb: permite crear una base de datos ambigua, al recibir el email del usuario
logueado y el nombre asignado a la base de datos.
❏ createSimpleDb: permite crear una base de datos no ambiguas, recibiendo el
email del usuario y el nombre de la nueva base de datos.
❏ deleteDatabase: esta función se encarga de eliminar una base de datos
seleccionada por el usuario.
❏ deleteSequence: es la función encargada de eliminar una secuencia determinada
de una base de datos seleccionada por el usuario. Para ello, recibe el nombre del
usuario logueado, el nombre de la base de datos y el nombre de la secuencia.
❏ restartDb: permite volver a configurar una base de datos ambigua a partir de los
archivos seleccionados. De esta manera, se pueden agregar nuevas secuencias y
volver a generar la combinación entre todas ellas, reemplazando la base de datos
anterior.
4.3.2. Cliente
El lado cliente de la aplicación web fue implementada utilizando HTML, CSS y JavaScript.
HTML es un lenguaje de marcas de hipertexto o de etiquetas, con las cuales se puede definir la
estructura de la página web utilizando elementos como títulos, párrafos, secciones, imágenes,
etc.
Por otra parte, CSS permite establecer el diseño visual que tendrá la página, otorgándoles estilos,
colores, fuentes, tamaños y disposición espacial a dichos elementos.
Por último, Javascript es un lenguaje de programación interpretado, orientado a objetos,
débilmente tipado y dinámico, lo cual lo hace muy versátil y útil a la hora de otorgar dinamismo
a las páginas web desde el lado cliente, aunque también puede ser utilizado para la
implementación del servidor. En este caso, fue utilizado para otorgarle dinamismo a la página,
mediante la implementación de funciones que procesan los resultados o que disparan acciones
72
ante eventos. Además, se utilizó la librería de JavaScript denominada JQuery, que permite
trabajar de una manera muy simple con los elementos de los documentos HTML desde los
scripts, así como también interactuar con los endpoints del servidor mediante el uso de funciones
AJAX. Dicha técnica es una tecnología asíncrona, que permite realizar peticiones al servidor
desde el lado cliente sin interferir con la visualización ni el comportamiento de la página web.
Particularmente, en las vistas se utilizó AJAX en las funcionalidades relacionadas a agregar y
eliminar secuencias a una base de datos, para las cuales se realiza una petición al servidor
mientras la vista indica que se está procesando la solicitud. Una vez que el servidor responde, la
vista es actualizada con los datos obtenidos como respuesta.
El framework Flask reconoce los elementos de la vista que se encuentran en el directorio
/template y /statics. Mientras que en el primer directorio se ubican los archivos HTML, en el
segundo se encuentran los archivos CSS, los JavaScript, las imágenes y los íconos utilizados por
la vista. Los archivos HTML pueden ser utilizados por los endpoints, e incluso se les puede
enviar información, tal como en el siguiente ejemplo, el cual corresponde al endpoint de login de
la aplicación: return render_template("login.html", email="", password="", username="", msg="Please
enter a valid user")
Como se puede observar, se llama a la función render_template con el nombre del archivo
HTML a mostrar, y cada uno de los datos que se quieran mostrar u obtener de la vista, los cuales
se vinculan con los elementos de la vista por medio de la notación {{ <variable> }}, de la
siguiente manera: <input type="email" name="email" id="email" class="form-control" value="{{ email }}"
required placeholder="Email" >
De este modo, es posible lograr una comunicación entre cada una de las vistas y los endpoints de
la aplicación.
4.3.3. Endpoints
La aplicación web contiene una serie de endpoints para llevar a cabo las distintas funcionalidades
del sistema. Todos los endpoints se encuentran en un archivo llamado app.py, en el cual se
inicializan los controladores y Flask, y se ejecuta el método que hace funcionar la aplicación
73
mediante la sentencia app.run(). A continuación se explicará cada uno de los endpoints, como
así también la relación entre el lado cliente y servidor de la aplicación.
Login
El primer punto de acceso a la aplicación, correspondiente a la URL “/” mediante el método
HTTP GET es la función login, la cual hace uso de la librería Flask Login, cuyo objetivo es
facilitar el manejo de sesión de usuario. De esta manera, lo primero que hace esta función es
corroborar si el usuario actual, gestionado por el módulo flask_login, está autenticado. En caso
afirmativo, se redirecciona al usuario al interior del sistema, y en caso contrario se utiliza la
función render_template para mostrar la vista del login.
Fig. 35: Login de la aplicación web
En la vista del login se muestra el nombre del sistema y se le solicita al usuario el ingreso del
email y de la contraseña, la cual tiene un formato de 6 caracteres que pueden ser números o
letras. También se muestra la opción para registrarse, en caso de no ser usuario del sistema, y los
logos de la Universidad Nacional del Centro de la Provincia de Buenos Aires, de las facultades
de Ciencias Exactas y Veterinarias, con los links a las respectivas páginas web de cada una de
ellas.
74
Cuando el usuario presiona login, se envía una petición al mismo endpoint “/” utilizando el
método POST. Es entonces cuando la función de login verifica el usuario y la contraseña
ingresadas, haciendo uso de UserController. Si los datos ingresados se corresponden con un
usuario del sistema, se utiliza Flask Login para registrar el inicio de sesión del mismo, y luego se
lo redirecciona al interior del sistema.
Unauthorized
Flask Login permite utilizar la notación @login_required en cada uno de los endpoints que
requieran que el usuario esté logueado para poder acceder. Cuando cualquiera de ellos es
llamando con un usuario no logueado en el sistema, automáticamente ejecuta la función
unauthorized(), que debe ser implementada en la aplicación. En este caso, dicha función
redirecciona al usuario a la URL “/”, correspondiente a la vista de inicio.
Register
Cuando el usuario presiona el botón para registrarse, es redireccionado a la URL /register,
correspondiente a la función register() en el archivo app.py. Dicha función renderiza el
correspondiente archivo HTML, donde se le solicita al usuario el nombre completo, el email y
una contraseña.
Fig. 36: Registrar un nuevo usuario en la aplicación web
75
Una vez ingresados los datos y presionado el botón Register, se hace una petición HTTP con el
método POST al mismo endpoint, el cual hace uso de UserController para agregar el usuario. Al
agregarlo a la base de datos, el modelo cifra la contraseña ingresada utilizando la librería
Werkzeug. Una vez procesada la petición, se le indica al usuario si la registración fue exitosa o
no por medio de un mensaje.
Compare
Una vez que el usuario accede, se envía una petición HTTP utilizando el método GET a la
dirección “/compare/<id>”, donde <id> es el email ingresado en el paso previo. La función
compare obtiene el usuario con el id recibido como parámetro, utilizando la instancia de
UserController, y la lista de bases de datos del mismo, mediante DbAdminController. Con
dichos datos, se renderiza la vista correspondiente que se muestra a continuación.
Fig. 37: Comparación de una secuencia con una base de datos en la aplicación web
La página permite al usuario seleccionar un número de secuencias de salida y una base de datos,
como así también ingresar una secuencia de ADN con el formato FASTA, tal como indica la
secuencia de ejemplo. Al presionar Search se envía una petición al mismo endpoint pero de tipo
POST, con la cual se obtienen los datos del formulario y se llama a la función compare de
76
CompareController con la secuencia de entrada, la cantidad de resultados deseados, la base de
datos seleccionada, el id del usuario y el booleano ambiguos en True, dado que se va a contrastar
la secuencia de entrada con una base de datos ambigua. Cuando se obtienen los resultados se
renderiza nuevamente la vista, utilizando una función JavaScript para construir la tabla de
resultados.
Por otro lado, la página contiene una barra lateral con el menú de opciones y un header con un
icono de usuario, desde el cual se despliega otro menú que permite editar el usuario y
desloguearse del sistema. La misma estructura se mantiene en todas las páginas internas de la
aplicación.
Align
Al seleccionar la opción align del menú lateral, se redirecciona a la URL /align/<id>, donde
<id> es el email del usuario logueado en el sistema. La función vinculada a dicha URL renderiza
la vista correspondiente, donde se solicita el contenido de dos secuencias de ADN, ambiguas o
no, en formato FASTA, mostrando dos secuencias de ejemplo.
Al presionar el botón Align se realiza una petición HTTP con el método POST al mismo
endpoint. Allí se obtienen las dos secuencias de entrada, y se utiliza la instancia de
DbAdminController para crear una base de datos FASTA temporal con la primera secuencia.
Luego se utiliza a CompareController para obtener los resultados de la comparación de la
segunda secuencia con la base de datos previamente creada. Al obtener el resultado, se utiliza
nuevamente DbAdminController para eliminar la base de datos temporal y luego se renderiza la
vista con la alineación resultante, en la cual se ejecuta la función JavaScript showResults(),
encargada de generar dinámicamente el reporte de la alineación, dando la posibilidad de
descargarlo como PDF.
77
Fig. 38: Alineación de dos secuencias en la aplicación web
En el reporte se puede observar una primera línea, donde se indica el score y el E-value
obtenidos del programa BLASTN, y el valor de similitud, calculado en base a la cantidad de
residuos usados en cada secuencia y la cantidad de coincidencias.
A continuación, se muestra el detalle del alineamiento en distintos renglones. A la izquierda se
incluyen los nombres de las secuencias de entrada, luego la posición inicial del renglón para cada
una de ellas, seguido por el contenido del alineamiento y por último la posición final del renglón
para cada secuencia. Las similitudes se marcan con el caracter “|”, mientras que en las
diferencias se muestra un punto. De la misma manera, la información es mostrada en el archivo
PDF que se puede descargar.
78
Inspect
Al seleccionar la opción Admin del menú lateral, se redirecciona a la URL /admin/<id>, la cual
se vincula con la función inspect en el archivo app.py. Dicha función obtiene las bases de datos
del usuario cuyo id es obtenido como parámetro y renderiza el archivo HTML correspondiente.
La vista da la posibilidad de crear una nueva base de datos seleccionando un conjunto de
archivos de texto en formato FASTA y otorgándole un nombre, como así también inspeccionar,
agregar y eliminar secuencias de una base de datos ya existente.
Fig. 39: Administración de las bases de datos de un usuario en la aplicación web
Add Database
Al ingresar un nombre y seleccionar un conjunto de archivos en formato FASTA, se habilita el
botón Create database, desde el cual se envía una petición HTTP con el método POST al
servidor. Allí se obtienen los datos ingresados y se verifica que el contenido de cada uno de los
archivos sea válido para generar una base de datos. Luego, son guardados en el directorio
Databases/<id>/<dbName> y se utiliza la instancia de DbAdminController para crear una base
de datos ambigua, indicando la ruta del nuevo directorio. La base de datos ambigua resultante se
guarda en el directorio DbAmbigua/<id>/<DbName>, de esta manera se diferencian las bases de
79
datos de los distintos usuarios. Al finalizar el proceso, se renderiza la vista con la nueva base de
datos.
Delete Database
Al presionar el icono de eliminar en alguna base de datos listada en la sección Your Databases
en la página Admin, se llama a una función JavaScript que muestra un mensaje de alerta para
confirmar o cancelar la eliminación. Al confirmar, se ejecuta una llamada AJAX a la URL
/deletedatabase con el método POST y con el id del usuario y el nombre de la base de datos
seleccionada como cuerpo de la petición. De esta manera, se llama a la función deleteDatabase()
del servidor, la cual utiliza la instancia de DbAdminController para eliminar todos los archivos
del directorio DbAmbigua/<id>/<DbName>. La llamada AJAX contiene dos caminos posibles,
uno para cuando la petición finaliza de manera exitosa y otro para casos de errores. De esta
manera, si la llamada termina correctamente retorna la lista de bases de datos del usuario y se
re-dibuja la tabla de la sección Your Databases, y en caso contrario se muestra un mensaje de
error.
Add Sequence
De forma similar a la funcionalidad anterior, cuando se presiona la opción para agregar una
secuencia en una base de datos, se permite seleccionar un archivo con formato FASTA. A
continuación, se consulta al usuario si confirma que desea agregar la nueva secuencia a la base
de datos seleccionada. Al confirmar, se realiza una llamada AJAX a la URL /addsequence
utilizando el método POST, y enviando la información del archivo seleccionado. Dicha petición
se corresponde con la función addSequence() del servidor, encargada de obtener los datos
enviados, corroborar el formato y contenido de la nueva secuencia y agregarla al directorio
Databases/<id>/<dbName>. Por último, se llama a la función restartDb de
DbAdminController, la cual elimina la base de datos ambigua y la genera nuevamente a partir de
los archivos originales guardados en el directorio Databases. Al terminar el proceso, se retorna la
lista de bases de datos ambigua a la llamada AJAX, y a continuación se re-dibuja la tabla
mostrando los cambios realizados.
80
Delete Sequence
Al expandir una base de datos, se despliega la lista de secuencias en forma de acordeón. Para
cada secuencia se muestra su nombre, su tamaño en Kilobytes, un ícono de lupa para
inspeccionar su contenido, y un icono de un cesto de basura para eliminarla de la base de datos.
Fig. 40: Secuencias de una base de datos ambigua en la aplicación web
Al seleccionar el icono de eliminar secuencia, se pide la confirmación del usuario. Al confirmar
se realiza una llamada AJAX con la URL /deletesequence con el método POST, agregando los
datos del id del usuario, el nombre de la base de datos y de la secuencia en el cuerpo de la
petición HTTP. Dicha petición es asociada, por medio de Flask, a la función deleteSequence()
del servidor, donde se obtienen los datos enviados desde el lado cliente, y se utiliza la función
deleteSequence de la instancia de la clase DbAdminController. Una vez que la secuencia es
eliminada del directorio correspondiente, se reinicia la base de datos y finaliza el proceso
retornando la lista de bases de datos del usuario. De esta manera, al finalizar la llamada AJAX, se
re-dibuja la tabla.
81
Logout
Cuando un usuario se desloguea, se realiza una petición HTTP al endpoint /logout/<id>, donde
<id> es el email del usuario. Flask vincula dicha URL a la función logout, encargada de llamar a
logout_user de la librería Flask Login, terminando la sesión del usuario, redireccionando luego al
login del sistema.
Edit
El usuario puede editar su información al seleccionar la opción correspondiente en el menú
superior derecho, el cual es desplegado al presionar el ícono de usuario. De esa manera, es
redireccionado a la URL /edit/<id>. El endpoint renderiza el respectivo archivo HTML, donde
se muestra un formulario que permite modificar el nombre completo y la contraseña del usuario,
impidiendo el cambio de su id, que en este caso es el email.
Fig. 41: Actualización de los datos de un usuario en la aplicación web
Al guardar los cambios, se envía una petición al endpoint con el método POST, en la cual se
incluyen los datos agregados. El servidor utiliza la instancia de UserController para guardar los
cambios realizados y renderiza la vista con un mensaje de éxito o error, de acuerdo al resultado
obtenido en el proceso.
82
4.3.4. Almacenamiento de datos
El almacenamiento de los datos, tanto de las secuencias como de los usuarios, se llevó a cabo
utilizando el sistema de archivos propio del servidor. Esto se debe a que el programa BLASTN
requiere un directorio con los archivos correspondientes a una base de datos para poder obtener
los resultados, los cuales a su vez son guardados en un archivo de salida.
Por otro lado, la base de datos que se genera contiene un archivo en formato FASTA y otros en
diversos formatos y codificaciones, como .nhr, .nin, .nog, .nsd, .nsi y .nsq. Esto implica que no se
trata de una base de datos relacional, donde sólo se guardan tipos de datos simples como cadenas
de caracteres, números o booleanos, sino que requeriría utilizar un sistema en la nube que
permita al usuario el almacenamiento de archivos, utilizando una tecnología de Object Storage.
Sin embargo, también debe tenerse en cuenta que el sistema genera bases de datos ambiguas a
partir de archivos no ambiguos mediante la combinación de todas ellas, generando una salida de
N x N. Los archivos que modelan los alelos del gen BoLa, un gen altamente polimórfico, suman
un total de 133, y generan una base de datos ambigua con 931 elementos y un tamaño de 10MB.
Guardar esa cantidad de archivos en otro sistema de almacenamiento y obtenerlos nuevamente,
guardandolos temporalmente en el servidor cada vez que se quiera realizar una comparación
complejizaría el sistema haciéndolo más lento.
Por este motivo, se decidió organizar los archivos de secuencias en dos carpetas: Databases y
DbAmbigua. En la primera se guardan los archivos seleccionados por los usuarios, y la segunda
las bases de datos ambiguas generadas por el sistema. A su vez, cada una de ellas tiene una
carpeta por usuario (cuyo nombre es el email correspondiente), en donde se guardan los archivos
propios, sin interferir con el contenido de otros usuarios.
Por otra parte, los usuarios son guardados en un archivo JSON, también en el sistema de
almacenamiento del servidor. Sin embargo, esto puede mejorarse utilizando una base de datos
relacional, dado que sólo se acceden a los datos de los usuarios durante el login y la edición de
los datos personales.
83
4.3.5. Deploy de la aplicación y el uso de contenedores
La aplicación fue deployada en Kubernetes, una plataforma que permite deployar y administrar
aplicaciones, utilizando contenedores. Los contenedores son un mecanismo para empaquetar
lógicamente todo lo que una aplicación necesita para ejecutarse, permitiendo el versionado y la
reutilización de sistemas [38]. Un contenedor es descrito en un archivo donde se configura el
entorno de ejecución y el servidor donde se va a deployar la aplicación. A partir de ese archivo
se puede obtener una imagen docker, la cual es básicamente una instancia de contenedor.
Los contenedores, a diferencia de las máquinas virtuales, utilizan el sistema operativo
proporcionado por la máquina en la que se ejecutan, es decir la máquina host, sin necesidad de
un sistema operativo propio. Esta diferencia hace que los contenedores requieran recursos
mínimos, y que además sean más pequeños, rápidos y fáciles de instalar. En la actualidad,
Kubernetes es la herramienta estándar para implementar y deployar aplicaciones utilizando
contenedores [38].
Fig. 42: Comparación entre máquina virtual y contenedor
En este caso, el instituto de investigación Pladema, dependiente de la Universidad Nacional del
Centro de la Provincia de Buenos Aires, cuenta con un servidor web en el cual se utiliza
Kubernetes. Por este motivo, fue la tecnología utilizada para deployar la aplicación y exponerla
en la web.
84
Capítulo 5
Resultados
En este capítulo se hará un análisis de los resultados obtenidos por la aplicación desarrollada, en
base a diversos aspectos, con el objetivo de evaluar el rendimiento general del sistema.
En primer lugar, se evaluará la confiabilidad de los resultados obtenidos en las comparaciones
realizando distintas pruebas, tales como:
- Comparar una secuencia no ambigua contra una base de datos en la cual se encuentra
presente.
- Comparar una secuencia ambigua, resultado de la combinación de dos secuencias, contra
una base de datos en la cual ambas secuencias se encuentran presentes.
- Comparar una secuencia ambigua modificada en ciertos puntos polimórficos,
convirtiéndolos a bases nitrogenadas reales (A, C, T o G).
- Eliminar una secuencia de una base de datos y compararla contra la misma base de datos.
- Agregar la secuencia eliminada y compararla contra la base de datos nuevamente.
- Alinear una secuencia contra ella misma.
- Alinear una secuencia con una versión modificada de ella misma.
- Alinear dos secuencias diferentes.
Por otra parte, se evaluará la performance de la aplicación. Dado que el tiempo de cada
funcionalidad depende en gran medida de la cantidad de secuencias utilizadas, se utilizarán
conjuntos de 150, 100, 50 y 25 secuencias para realizar cada una de las pruebas. Las
funcionalidades a evaluar serán:
- Creación de una base de datos ambigua.
- Eliminar una base de datos ambigua.
85
- Eliminar una secuencia de una base de datos ambigua.
- Agregar una secuencia a una base de datos ambigua.
- Comparar una secuencia contra una base de datos ambigua.
- Alinear dos secuencias entre sí.
5.1 Confiabilidad de los resultados obtenidos La confiabilidad de los resultados obtenidos mediante el sistema puede evaluarse ejecutando
distintas pruebas, sabiendo previamente cuál es el resultado esperado. Se debe tener en cuenta
que, dado que el programa utilizado en la versión web y en la versión de escritorio es el mismo,
los resultados en ambas versiones del sistema son iguales. Por este motivo, sólo se incluirán los
resultados obtenidos mediante la versión web.
Las primeras cinco pruebas tienen como objetivo evaluar la funcionalidad de comparar una
secuencia contra una base de datos, mientras que las últimas tres se enfocan en corroborar los
resultados obtenidos en el alineamiento de dos secuencias entre sí.
A continuación se enuncian cada una de las pruebas llevadas a cabo.
Prueba 1: Comparar una secuencia no ambigua contra una base de datos en la cual se
encuentra presente.
En esta prueba se espera que el resultado con mayor puntuación sea la combinación de la
secuencia de entrada con ella misma, con un puntaje de similitud igual a 1, equivalente al 100%.
Secuencia de entrada:
>DRB3*0101
CACATTTCCTGGAGTATTCTAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGATACTA
CACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCAGGAC
GCCGAGTACTGGAACAGCCAGAAGGACTTCCTGGAGGAGAAGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACG
GGGGTATGGAGAGTTTCACTGTGCAGCGGCGAGTGGAGCCTACAGTGACTGTGTATCCTGCAA
86
Resultados obtenidos:
Fig. 43: Resultados de la prueba 1
Tal como se esperaba, la combinación más similar a la secuencia de entrada es ella misma con un
valor de similitud igual a 1, por lo que la prueba concluye satisfactoriamente.
Prueba 2: Comparar una secuencia ambigua, resultado de la combinación de dos secuencias,
contra una base de datos en la cual ambas secuencias se encuentran presentes.
En esta prueba se espera que el resultado con mayor puntuación sea la combinación de las dos
secuencias utilizadas para generar la secuencia ambigua de entrada, con un puntaje de similitud
igual a 1.
Secuencia de entrada: Combinación de la secuencia DERB3*4501 y DRB3*2703.
>DERB3*4501-DRB3*2703
GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAG
AAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTRGGGCGGCCGGACGCCRAGTACTG
GAACAGCCAGAAGGACTTCCTGGAGSAGRSGCGGGCCGMGGTGGACASGKWSTGCAGACACAACTACGGGGTCGGTGAG
AGTTTCACTGTG
87
Resultados obtenidos:
Fig. 44: Resultados de la prueba 2
El resultado de la comparación es satisfactorio, al retornar como combinación más similar las
dos secuencias utilizadas para crear la secuencia ambigua de entrada, con un valor igual a 1.
Prueba 3: Comparar una secuencia ambigua modificada en ciertos puntos polimórficos,
convirtiéndolos a bases nitrogenadas reales (A, C, T o G)
En esta prueba se espera que a pesar de los cambios, el resultado con mayor puntuación sea la
combinación de secuencias que generaron la secuencia ambigua, con un puntaje de similitud
menor a 1. En la secuencia ambigua elegida se encuentran 10 puntos polimórficos, de los cuales
cuatro fueron reemplazados por las bases nitrogenadas de una de las secuencias originales antes
de combinarse.
88
Secuencia de entrada: Combinación de la secuencia DERB3*4501 y DRB3*2703 con
modificaciones.
>DERB3*4501_DRB3*2703_original
GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAG
AAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTRGGGCGGCCGGACGCCRAGTACTGGAACAGCCAGAAGGACTTCCTGGAGSAGRSGCGGGCCGMGGTGGACASGNWSTGCAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTG
>DERB3*4501_DRB3*2703_modificada
GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAG
AAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTRGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTGGAGSAGGSGCGGGCCGAGGTGGACASGNTSTGCAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTG
Resultados obtenidos:
Fig. 45: Resultados de la prueba 3
El resultado demuestra que, a pesar de los cambios realizados en los puntos polimórficos
aleatoriamente seleccionados, la combinación de secuencias más similar sigue siendo la correcta,
aunque con una similitud menor a 1, dado que no todos los puntos a lo largo de ambas
secuencias son iguales.
89
Prueba 4: Eliminar una secuencia de una base de datos y compararla contra la misma base de
datos.
En esta prueba se espera que la secuencia eliminada no se encuentre entre en los resultados
brindados por el sistema como parte de ninguna combinación de secuencias, dado que al haber
sido eliminada también lo fueron todas las combinaciones de la que era parte.
Secuencia de ejemplo a eliminar y comparar:
>DRB3*0103
CACATTTCCTGGAGTATTCTAAGAGCGAGTGTCATTTCTTCAACGGGACAGAGCGGGTGCGGTTCCTGGACAGATACTA
CACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCAGGAC
GCCGAGTACTGGAACAGCCAGAAGGACATCCTGGAGGAGAAGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACG
GGGGTATGGAGAGTTTCACTGTGCAGCGGCGAG
Resultados obtenidos:
Fig. 46: Resultados de la prueba 4
Como se puede observar, la secuencia DRB3*0103 no se encuentra formando parte de ninguna
de las combinaciones más similares resultantes. Además, todas las combinaciones resultantes
90
tienen un puntaje de similitud menor a 1, lo cual tiene sentido, ya que la secuencia de entrada no
deriva completamente de ninguna de las combinaciones presentes en la base de datos. Por lo
tanto, se puede afirmar que la prueba concluye satisfactoriamente.
Prueba 5: Agregar la secuencia eliminada y compararla contra la base de datos nuevamente.
En esta prueba se espera que la secuencia agregada se encuentre entre los resultados, siendo esta
misma la combinación más similar.
Secuencia de ejemplo agregar y comparar:
>DRB3*0103
CACATTTCCTGGAGTATTCTAAGAGCGAGTGTCATTTCTTCAACGGGACAGAGCGGGTGCGGTTCCTGGACAGATACTA
CACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCAGGAC
GCCGAGTACTGGAACAGCCAGAAGGACATCCTGGAGGAGAAGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACG
GGGGTATGGAGAGTTTCACTGTGCAGCGGCGAG
Resultados obtenidos:
Fig. 47: Resultados de la prueba 5
91
Luego de agregar la secuencia previamente eliminada, la comparación de dicha secuencia con la
base de datos da como resultado a la misma secuencia con una similitud igual a 1, la cual además
se encuentra dentro de las otras combinaciones más similares. Por lo tanto, los resultados
obtenidos son los esperados.
Prueba 6: Alinear una secuencia contra ella misma
En esta prueba se espera que el puntaje de similitud del alineamiento sea 1, y que no haya
diferencias ni huecos entre las secuencias alineadas.
Secuencia de ejemplo a alinear con ella misma:
>DRB3*3102
TGGAGTATTCTAAGGGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGACACTTCTATAATGG
AGAAGAGTTCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGCCGCCAAGTAC
TGGAACAGCCAGAAGGACTTCCTGGAGCAGAAGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGGTGTG
Resultados obtenidos:
Fig. 48: Resultados de la prueba 6
La primera línea del resultado del alineamiento indica el score y el E-value, ambos obtenidos del
programa BLASTN, como así también el valor de similitud, calculado en base a la cantidad de
92
residuos implicados en el alineamiento y el número de coincidencias. En este caso, se utilizó la
totalidad de ambas cadenas de entrada y no hubo ninguna diferencia entre ellas ni se tuvieron que
introducir huecos en el proceso, por lo que la similitud resultante, tal como se esperaba, es 1. En
este caso, en el detalle del alineamiento tampoco se observa ninguna diferencia entre ellas, por lo
que el resultado es satisfactorio.
Prueba 7: Alinear una secuencia con una versión modificada de ella misma.
En esta prueba se espera que el puntaje de similitud del alineamiento sea menor a 1, y que se
encuentren diferencias entre las dos secuencias de entrada.
Secuencia de ejemplo original y modificada a alinear:
>DRB3*3102_original
TGGAGTATTCTAAGGGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGACACTTCTATAATGG
AGAAGAGTTCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGCCGCCAAGTAC
TGGAACAGCCAGAAGGACTTCCTGGAGCAGAAGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGGTGTG
>DRB3*3102_modificada
TGGAGTATTCTAAGGGCGATTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGACACTTCTATAATGG
AGAAGAGTTCGTGCGCTTCGACAGCGACTGGGGCGGGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGCCGCCGAGTAC
TGGAACAGCCAGAAGGACTTCCTGGAGCAGAAGAGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGGTGTG
93
Resultados obtenidos:
Fig. 49: Resultados de la prueba 7
Los resultados obtenidos en el alineamiento muestran que las secuencias no tienen una similitud
de 1, y en el detalle del mismo se pueden ver marcados con puntos las diferencias encontradas.
Por otro lado, no se observan huecos ni corrimientos, lo cual es correcto, ya que no se
introdujeron bases nitrogenadas adicionales, sino que sólo se modificaron algunas de las
presentes. Por lo tanto, el resultado obtenido es el esperado.
Prueba 8: Alinear dos secuencias totalmente diferentes.
En esta prueba se espera que el puntaje de similitud del alineamiento sea menor a 1, y que se
encuentren diferencias entre las dos secuencias de entrada. También podrían encontrarse huecos.
Secuencias de ejemplo a alinear:
>DRB3*3102
TGGAGTATTCTAAGGGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGACACTTCTATAATGG
AGAAGAGTTCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGCCGCCAAGTAC
TGGAACAGCCAGAAGGACTTCCTGGAGCAGAAGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGGTGTG
94
>DRB3*7001
CATTTCCTGGAGTATTCTAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGATACTTCC
ATAATGGAGAAGAGAACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGCCGC
CGAGTACTGGAACAGCCAGAAGGACATCCTGGAGCGGGAGCGGGCCTATGTGGACACGTACTGCAGACACAACTACGGG
GTCGTTGAGAGTTTCACTGTGCAGCGGCGA
Resultados obtenidos:
Fig. 50: Resultados de la prueba 8
Tal como se esperaba, los resultados obtenidos en el alineamiento demuestran que las secuencias
tienen una similitud menor a 1. Además el E-value obtenido es mucho mayor que el del
alineamiento llevado a cabo en la prueba 7, lo que demuestra que la relación entre las últimas dos
secuencias es significativamente menor. Por otro lado, no se observan huecos en el medio del
alineamiento, pero sí se observa que la secuencia DRB3*7001 comienza en el octavo nucleótido,
por lo que se puede afirmar que para alinear ambas secuencias fue necesario realizar un
corrimiento.
Las pruebas previamente realizadas permiten confirmar que los resultados brindados por el
programa son los esperados. En los casos de ejemplo utilizados en las pruebas, las secuencias
provienen de un origen conocido, lo cual permite reconocer si los resultados son correctos o no.
95
Sin embargo, se debe tener en cuenta que uno de los principales objetivos del proyecto, además
de alinear dos secuencias entre sí, es asignar alelos a una secuencia ambigua, es decir, obtener las
dos secuencias no ambiguas de las cuales proviene. Por ese motivo, resulta de importancia saber
que las pruebas realizadas coinciden con lo esperado.
5.2 Performance del sistema La performance del sistema puede evaluarse en términos del tiempo que tarda en realizar las
distintas operaciones, lo cual depende de diversos factores, tales como los recursos físicos de la
máquina donde se ejecute la aplicación, la cantidad de secuencias de la base de datos que se
utilice, la complejidad de los algoritmos utilizados, entre otros.
En este caso, se realizó una comparación de los tiempos de las distintas funcionalidades en la
versión web y en la versión de escritorio, utilizando bases de datos de distintas dimensiones. El
objetivo de dichas pruebas era determinar si la utilización de la aplicación logra optimizar los
tiempos de comparación respecto a la forma en la que se hacían anteriormente. Para llevarlas a
cabo se utilizaron bases de datos de 150, 100, 50 y 25 secuencias de ejemplo y se cronometró el
tiempo de cada funcionalidad.
Creación de una base de datos
96
Aplicación de escritorio Aplicación web
150 secuencias 2’ 11’’ 1’ 94’’
100 secuencias 1’ 09’’ 0’ 30’’
50 secuencias 0’ 27’’ 0’ 10’’
25 secuencias 0’ 12’’ 0’ 04’’
Eliminar una base de datos
Eliminar una secuencia de una base de datos
Agregar una secuencia a una base de datos
Comparar una secuencia con una base de datos
97
Aplicación de escritorio Aplicación web
150 secuencias 0’ 02’’ 0’ 02’’
100 secuencias 0’ 02’’ 0’ 02’’
50 secuencias 0’ 01’’ 0’ 02’’
25 secuencias 0’ 01’’ 0’ 02’’
Aplicación de escritorio Aplicación web
150 secuencias 3’ 18’’ 1’ 56’’
100 secuencias 1’ 37’’ 0’ 55’’
50 secuencias 0’ 35’’ 0’ 17’’
25 secuencias 0’ 15’’ 0’ 07’’
Aplicación de escritorio Aplicación web
150 secuencias 2’ 28’’ 1’ 01’’
100 secuencias 1’ 15’’ 0’ 30’’
50 secuencias 0’ 24’’ 0’ 10’’
25 secuencias 0’ 11’’ 0’ 05’’
Aplicación de escritorio Aplicación web
150 secuencias 0’ 25’’ 0’ 23’’
100 secuencias 0’ 09’’ 0’ 10’’
50 secuencias 0’ 05’’ 0’ 04’’
25 secuencias 0’ 02’’ 0’ 02’’
Alinear dos secuencias entre sí
Para comprobar el tiempo de alineamiento de dos secuencias, se utilizaron los siguientes
ejemplos, con las cuales se obtuvo el resultado en 2 segundos.
>DRB3*3102
TGGAGTATTCTAAGGGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGACACTTCTATAATGG
AGAAGAGTTCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGCCGCCAAGTAC
TGGAACAGCCAGAAGGACTTCCTGGAGCAGAAGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGGTGTG
>DRB3*3103
CACATTTCCTGGAGTATTATAAGGGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGACACTT
CTATAATGGAGAAGAGTTCGTGCGCTTCGACAGCGACTGGGACGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGCC
GCCGAGCACTGGAACAGCCAGAAGGACTTCCTGGAGCAGAAGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACG
GGGGTGTGGAGAGTTTCACTGTGCAGCGGCGAG
En base a las pruebas llevadas a cabo, se puede afirmar que la tarea de comparación de una
secuencia contra una base de datos se reduce a términos de segundos, mientras que antes podía
llevar minutos u horas, dependiendo de la experiencia del investigador que llevaba a cabo la
tarea de forma manual. Además, el alineamiento de dos secuencias entre sí se lleva a cabo a una
gran velocidad, dando resultados de manera instantánea.
Por otra parte, las funcionalidades que más tiempo llevan son las relacionadas con la
configuración de una base de datos, es decir el proceso de creación, eliminación o adición de
secuencias. Sin embargo, la configuración o creación de una base de datos no sería una tarea tan
frecuente como la comparación de una secuencia ambigua para encontrar sus alelos, o el
alineamiento de dos secuencias entre sí.
98
Capítulo 6
Conclusiones y trabajos futuros
En este capítulo se realizarán diversas conclusiones, a las cuales se arribaron durante el
desarrollo de la aplicación, como así también durante la etapa de análisis de la confiabilidad y la
performance del sistema.
Dichas conclusiones abarcan distintas dimensiones, tales como la aplicación e influencia de los
conceptos aprendidos a lo largo de la carrera de Ingeniería de Sistemas, las contribuciones
realizadas con el proyecto, las limitaciones encontradas en el diseño y desarrollo actual, y los
trabajos futuros que pueden realizarse en base a todo lo que se llevó a cabo.
6.1 Aplicación de conceptos adquiridos durante la carrera El desarrollo de este proyecto permitió integrar y aplicar una gran cantidad de conceptos
adquiridos en cátedras de distintas áreas que conforman la carrera de Ingeniería de Sistemas. En
primer lugar, se pueden mencionar Introducción a la Programación I y II, las cuales sentaron las
bases de conceptos fundamentales tales como variables, constantes, arreglos, matrices,
estructuras de control, divide y conquista, recursión e iteración. Luego, en Análisis y Diseño de
Algoritmos I y II se estudiaron algunos conceptos mencionados en este trabajo, tales como
complejidad temporal, y programación dinámica. Además, a partir de la noción de los Tipos de
Datos Abstractos introdujeron lo que luego se profundizó en Programación Orientada a Objetos,
una cátedra que brindó la capacidad de pensamiento abstracto y presentó los conceptos de objeto,
clases y patrones, permitiendo afrontar problemas de distintos grados de complejidad, pensando
en las sub-partes que componen el todo y la forma en la que interactúan entre sí.
99
Posteriormente, los conceptos de binding dinámico, polimorfismo, herencia y encapsulamiento
presentados en Programación Orientada a Objetos fueron profundizados en la cátedra de
Lenguajes de Programación, en la cual se estudió el alcance y el almacenamiento en memoria de
los atributos de un objeto, como así también el mecanismo para lograr la herencia de propiedades
y métodos. Además, se introdujeron distintos aspectos de los lenguajes que permiten clasificarlos
en distintos tipos y analizar sus funcionalidades en base a sus particularidades. Esto resultó
fundamental para comprender la variedad de lenguajes existentes e identificar sus características
sintácticas y semánticas, principalmente porque hasta esa cátedra sólo se había trabajado con
lenguajes estáticos, tales como Pascal, C++ y Java. De esta manera, permitió comprender
distintos mecanismos de ejecución y disminuir la curva de aprendizaje de nuevos lenguajes. En
particular, este proyecto se implementó principalmente en Python, un lenguaje orientado a
objetos, utilizando clases que modelan a los objetos mediante atributos y métodos, aplicando los
conceptos de encapsulamiento, herencia, polimorfismo y binding dinámico, propios de dicho
paradigma de programación. Además, tanto Python como Javascript fueron introducidos en la
cátedra de Lenguajes de Programación, como ejemplos de lenguajes dinámicos e interpretados.
Por otra parte, como mencionó previamente, la cátedra de Programación Orientada a Objetos
presentó patrones de diseño, tales como Strategy, Composite, Iterator, y Observer, que permiten
resolver problemas similares mediante técnicas efectivas y reutilizables. Sin embargo, no fue
hasta la cátedra de Diseño de Sistema de Software que se introdujeron los patrones de
arquitecturas como Modelo-Vista-Controlador y Cliente-Servidor, utilizados en el desarrollo del
proyecto. Además, se estudiaron los atributos de calidad de un sistema, los cuales fueron tenidos
en cuenta a la hora del diseño e implementación del sistema, haciendo foco en la simplicidad,
usabilidad, robustez, correctitud, extensibilidad y seguridad. Adicionalmente, el modelo
Cliente-Servidor fue estudiado con mayor profundidad en la materia optativa Taller de
Desarrollo Web, en la cual se introdujeron conceptos como HyperText Transfer Protocol (más
conocido como HTTP), Uniform Resource Identifier (URI), Common Gateway Interface (CGI) y
REST, implementando por primera vez una página web con frontend y backend utilizando el
stack MEAN. Si bien en este proyecto no se utilizaron las mismas tecnologías, ya que se optó
100
por usar Python con el framework Flask, dicho taller sentó las bases para comprender el
funcionamiento y la implementación de aplicaciones web.
Por otro lado, en el trabajo se pueden encontrar aportes de cátedras como Metodología de
Desarrollo de Software y Sistemas Operativos. Con respecto a la primera se puede afirmar que
en el desarrollo del proyecto se aplicaron las distintas etapas del ciclo de vida en cascada. De tal
manera, en primer lugar se llevó a cabo la captura de requerimientos con los usuarios finales del
sistema, para conocer las necesidades y comprender el problema a resolver. A continuación
diseñó el sistema, planteando los diagramas de clases correspondientes para definir la estructura
de la solución. Luego, se procedió con la implementación utilizando las tecnologías elegidas y el
testeo mediante una serie de pruebas para verificar la confiabilidad de los resultados. Por último,
la aplicación de escritorio fue empaquetada con los archivos necesarios, generando un ejecutable,
y la versión web fue deployada en un servidor. Adicionalmente, en el presente informe se
adjuntaron los diagramas de clase UML correspondientes, según lo estudiado en dicha materia.
En cuanto a Sistemas Operativos, se aplicaron los conceptos de thread y concurrencia, como así
también resultó de interés conocer el concepto de máquina virtual para comparar sus diferencias
y similitudes con la tecnología de contenedores utilizadas para deployar el sistema web.
En último lugar, se puede mencionar el aporte de materias como Análisis Matemático I y II, las
cuales sentaron sólidas bases que permiten interpretar ecuaciones matemáticas complejas y
fueron necesarias para comprender los conceptos de Probabilidades y Estadística, tales como
distribuciones de muestreo, p-valor y test de hipótesis, utilizados en este caso para comprender la
significancia estadística de una alineación.
6.2 Contribuciones realizadas con el proyecto El proyecto llevado a cabo permitió reducir los tiempos de comparación de secuencias ambiguas
con todos posibles alelos para obtener la combinación adecuada. Anteriormente el proceso era
llevado a cabo manualmente, por lo que el tiempo de comparación y la posibilidad de introducir
errores dependía del nivel de experiencia y entrenamiento de quien analiza las secuencias,
pudiendo llevar varios minutos u horas. En cambio, el sistema desarrollado permite obtener en
101
cuestión de segundos una determinada cantidad de combinaciones más similares. En caso de que
haya más de una combinación resultante con los mismos valores y el sistema no pueda
determinar una combinación como la mejor posibilidad, permite que el investigador se enfoque
en el análisis de unas pocas secuencias, acotando el espacio de búsqueda. De esta manera, el
experto podrá desambiguar teniendo en cuenta aspectos genéticos que el sistema desconoce.
Por otra parte, si bien en una primera instancia el programa iba a ser aplicado a un gen en
particular, durante el desarrollo del proyecto se agregaron las funcionalidades necesarias para
poder operar con cualquier gen que presente el mismo tipo de polimorfismo. De esta manera, el
sistema otorga más escalabilidad y usabilidad.
Por último, el sistema también permite llevar a cabo alineaciones de dos secuencia de manera
automática, unificando dos funcionalidades que comúnmente pueden encontrarse distribuidas en
distintos programas.
6.3 Limitaciones actuales y trabajos futuros Si bien el proyecto realizado tiene una serie de ventajas y contribuciones respecto a la manera
anterior de llevar a cabo la tarea de análisis de secuencias de ADN para la asignación de alelos,
existen una serie de limitaciones que valen la pena mencionar para dar lugar a posibles trabajos
futuros.
En primer lugar, un aspecto a mejorar es la persistencia de los datos. Las bases de datos BLAST
del sistema desktop y web fueron guardadas en archivos de manera local, ya sea en la máquina
del usuario como en el servidor, respectivamente. Esto es potencialmente problemático,
principalmente para la versión web, dado que si se piensa escalar el sistema para que lo utilicen
un gran número de usuarios, el almacenamiento de los datos sería inmanejable. En ese caso, el
servidor requeriría cada vez más espacio para no colapsar. Además, si el sistema se cae por algún
problema del servidor, las bases de datos guardadas allí se perderían al reiniciar el servicio
deployado. Ante estos posibles problemas debería pensarse en una estrategia para almacenar el
contenido de los archivos en una base de datos de documentos, optimizando la organización
actual de los datos, para evitar realizar un gran número de llamadas a la base de datos cada vez
102
que se quiera realizar una comparación, ya que eso aumentaría el tiempo necesario para llevar a
cabo cada consulta.
Por otra parte, utilizar BLASTN localmente para el programa de escritorio puede ser una solución
adecuada, ya que al tener todos los datos guardados localmente, no se requiere de conexión a
internet para poder utilizar cualquier funcionalidad del sistema. Sin embargo, para la versión web
podría pensarse en una arquitectura de micro servicios, utilizando la versión cloud de BLASTN,
simplificando el diseño y separando la funcionalidad propia del sistema con la correspondiente a
dicho programa. Adicionalmente, la versión cloud cuenta con bases de datos de secuencias pre
cargadas, lo que podría evitar tener que crear nuevas bases de datos.
Por otro lado, la versión web también puede mejorarse con respecto a las tecnologías utilizadas
para generar la vista del sistema. En este caso, se utilizó HTML, CSS y JavaScript con JQuery y
AJAX. Sin embargo, se podría pensar en utilizar frameworks que facilitan el desarrollo y que
permiten implementar componentes reutilizables, tales como React o Angular. Además, a la hora
de programar, dichos frameworks cuentan con herramientas para revisión de código, permitiendo
que muchos errores se detecten en tiempo de compilación y no haya que esperar hasta la
ejecución para encontrarlos, lo cual agiliza el desarrollo.
Por último, tanto en la versión web como en la de escritorio, podrían llevarse a cabo mejoras que
pueden ser útiles para los usuarios, tales como visualizar el alineamiento de cada combinación
resultante con la secuencia de entrada y brindar la posibilidad de alinear más de dos secuencias
entre sí.
103
6.4 Conclusiones finales Como cierre de este trabajo, se puede afirmar que el proyecto permitió aplicar una gran variedad
de conceptos estudiados durante la carrera, integrando la lógica funcional con la persistencia y la
visualización de los datos. Además, al comenzarlo desde cero, se pudieron llevar a la práctica
una serie de conocimientos ligados al proceso de desarrollo de software, desde la captura de
requerimientos hasta el deploy en un servidor. Por otro lado, durante el proceso se aprendieron
diversos lenguajes, conceptos y tecnologías con los cuales nunca se había trabajado, tales como
Python y el framework Flask. Adicionalmente, al ser la primera aplicación web con diversas
funcionalidades realizada durante la carrera, se utilizaron tecnologías como AJAX y JQuery, así
como también, se tuvo que aprender sobre containers y el uso de Kubernetes para poder
desplegar la aplicación en un servidor.
Por último, debe destacarse que se logró llevar a cabo un proyecto interdisciplinar, con docentes
e investigadores de distintas Facultades de la Universidad Nacional del Centro de la Provincia de
Buenos Aires, como son la Facultad de Ciencias Exactas y la Facultad de Ciencias Veterinarias,
lo que genera un intercambio de ideas y enriquecimiento mutuo, favoreciendo los vínculos y
dando la posibilidad de pensar en potenciales trabajos futuros.
104
Glosario
❏ ADN: El ADN es la biomolécula que contiene la información genética de los seres vivos
que determina las características biológicas y fisiológicas de un individuo a lo largo de
toda su vida. El modelo de Watson y Crick describe a esta biomolécula como “una doble
hélice, entrelazada y sumamente larga” [12], donde cada hélice es una cadena de
nucleótidos.
❏ Alelo: Son las distintas variantes o formas alternativas de un determinado gen [12]. Por
ejemplo, el gen que codifica el color de ojos de una persona presenta diversas formas
alternativas, dando lugar a una variedad de colores.
❏ Base nitrogenada: Es una de las moléculas que constituyen a los nucleótidos, y es la
responsable de portar la información genética. Las dos hebras que constituyen el ADN se
encuentran interconectadas entre sí por medio de las bases nitrogenadas presentes en cada
una de ellas. Las cuatro bases nitrogenadas presentes en el ADN son la Adenina, Timina,
Citosina, Guanina [35], las cuales se agrupan en dos tipos: purinas (Adenina y Guanina) y
pirimidinas (Timina y Citosina), y sólo pueden unirse entre sí mediante puentes de
Hidrógeno las combinaciones Adenina-Timina y Citosina-Guanina.
❏ Diploide: Una célula u organismo es diploide cuando contiene dos conjuntos de
cromosomas, heredados de cada progenitor. En el ser humano, todas las células excepto
las sexuales son diploides, y contienen 23 pares de cromosomas. En cambio, las células
sexuales se denominan haploides, ya que sólo contienen un juego de cromosomas [7].
❏ Fenotipo: Son los rasgos observables de un individuo, como el color de ojos o la altura.
Diferentes alelos pueden producir diferencias en el fenotipo.
105
❏ Gen: Es un fragmento de la cadena de ADN que contiene la información para sintetizar
una proteína ó una molécula de ARN. Es la organización de las bases nitrogenadas de un
gen lo que hace que cada uno de ellos sea diferente [42].
❏ Genotipo: Es el conjunto de genes que posee un individuo. También puede entenderse
como los dos alelos heredados de un gen en particular. El genotipo que se expresa,
utilizando su información para fabricar proteínas y moléculas de ARN, da lugar al
fenotipo de un individuo, determinando sus rasgos observables [32].
❏ Haplotipo: Es un conjunto de variaciones del ADN o polimorfismos que tienden a ser
heredados juntos. Puede referirse a una combinación de alelos o a un conjunto de
polimorfismos de nucleótido sencillo (SNP) que se encuentran en el mismo cromosoma
[32].
❏ Heterocigota: Se dice que un individuo diploide es heterocigota para determinado gen
cuando hereda dos formas distintas de dicho gen, una de cada progenitor [32]. Es decir,
un individuo es heterocigota para un gen si contiene dos alelos distintos que lo codifican.
❏ Homocigota: Cuando un individuo diploide hereda para un determinado gen dos alelos
idénticos, se dice que es homocigota para dicho gen [32].
❏ Mutación: Es un fenómeno molecular que genera un cambio permanente en la secuencias
de bases nitrogenadas que constituyen el ADN de un organismo. Es una variación
inesperada, que no está presente ni en los progenitores ni en ninguno de sus predecesores
[43]. Existen diversos tipos de mutaciones, entre las cuales se pueden mencionar:
❏ Deleciones: Son mutaciones que conllevan la eliminación de una hasta miles de
bases nitrogenadas de la secuencia de ADN, lo que puede producir inconvenientes
como la falta de producción de una determinada proteína.
106
❏ Inserciones: Consta de la inserción de bases nitrogenadas en una secuencia de
ADN. Esto puede ocurrir debido a virus capaces de intercalarse en un gen
agregando su propio ADN a la secuencia del individuo invadido.
❏ Sustituciones: Consta de la sustitución de un nucleótido por otro. Este tipo de
mutaciones son muy frecuentes y tienen como consecuencia el fenómeno llamado
polimorfismo bioquímico [12]. Es muy común encontrar este tipo de mutaciones
en las poblaciones naturales y gran parte de ellas están asociadas a patologías
hereditarias.
❏ Nucleótido: Es la unidad monomérica que constituye la molécula de ADN. Cada
nucleótido está compuesto por un grupo fosfato, un azúcar de cinco carbonos llamada
pentosa y una base nitrogenada. De esta manera, una molécula de ADN consta de un gran
conjunto de nucleótidos que portan la información genética de un organismo. Por
ejemplo, el genoma del E. Coli es una molécula de ADN con 4.6 millones de nucleótidos
[5].
❏ Transiciones: Es el cambio de un nucleótido de una base púrica (Adenina (A), Guanina
(G)) por otra púrica o de una pirimidínica (Citosina (C), Timina (T), Uracilo (U)) por otra
pirimidínica. (ej: cambio de A por G ó viceversa, etc.)
❏ Transversiones: Es el cambio de una base púrica por una pirimidínica o viceversa (ej:
cambio de A por C ó viceversa, etc.)
107
Anexos
Resultados del programa BLAST por la interfaz web de EMBL-EB
BLASTN 2.9.0+
Reference: Stephen F. Altschul, Thomas L. Madden, Alejandro A.
Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J.
Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of
protein database search programs", Nucleic Acids Res. 25:3389-3402.
Database: em_rel 218,240,662 sequences; 408,005,271,872 total letters
Query= DERB3*4501
Length=249
Score E
Sequences producing significant alignments: (Bits) Value
EM_OM:AF144545 AF144545.1 Bos taurus clone EFC18.3 MHC class II an... 494 2e-135
EM_OM:AB048735 AB048735.1 Bos taurus BoLA-DRB3*4501 gene for leuko... 450 2e-122
EM_OM:LC455525 LC455525.1 Bos indicus Nyalawi36 BoLA-DRB3 gene for... 438 8e-119
EM_OM:AF144544 AF144544.1 Bos taurus clone EFCK4 MHC class II anti... 438 8e-119
EM_OM:FJ381733 FJ381733.1 Bos taurus MHC class II antigen beta cha... 430 2e-116
EM_OM:AY374126 AY374126.1 Bos grunniens MHC class II antigen gene,... 430 2e-116
EM_OM:AJ277156 AJ277156.1 Bos indicus gudali partial BLA-DRB3 gene... 430 2e-116
EM_OM:AB610140 AB610140.1 Bos taurus BoLA-DRB3 gene for major hist... 430 2e-116
EM_OM:LC455469 LC455469.1 Bos indicus Daeinawi29 BoLA-DRB3 gene fo... 422 5e-114
EM_OM:KY682173 KY682173.1 Bos grunniens MHC class II antigen (MHC-... 422 5e-114
EM_OM:AJ277153 AJ277153.1 Bos indicus gudali partial BLA-DRB3 gene... 422 5e-114
EM_OM:AF144543 AF144543.1 Bos taurus clone EFC13.1 MHC class II an... 422 5e-114
EM_OM:AB610139 AB610139.1 Bos taurus BoLA-DRB3 gene for major hist... 422 5e-114
EM_OM:AB558437 AB558437.1 Bos taurus BoLA-DRB3 gene for MHC class ... 422 5e-114
EM_OM:Z48224 Z48224.1 B.indicus BoLA DRB3 gene for first domain of... 414 1e-111
EM_OM:MF960855 MF960855.1 Saiga tatarica isolate saigak5_4 MHC cla... 414 1e-111
EM_OM:LC455467 LC455467.1 Bos indicus Daeinawi27 BoLA-DRB3 gene fo... 414 1e-111
EM_OM:JN887489 JN887489.1 Bos taurus MHC class II antigen (BoLA-DR... 414 1e-111
EM_OM:JN887488 JN887488.1 Bos taurus MHC class II antigen (BoLA-DR... 414 1e-111
EM_OM:AY125892 AY125892.1 Bos taurus MHC class II antigen (BoLA-DR... 414 1e-111
EM_OM:AB558435 AB558435.1 Bos taurus BoLA-DRB3 gene for MHC class ... 414 1e-111
EM_OM:AB523828 AB523828.1 Bos taurus BoLA-DRB3 gene for MHC class ... 414 1e-111
EM_EST:CO882141 CO882141.1 BovGen_10466 normal cattle brain Bos ta... 414 1e-111
EM_OM:U00140 U00140.1 Bos taurus Swiss Simmental breed DR beta-cha... 412 5e-111
EM_OM:Z82031 Z82031.1 Bos indicus BoLA-DRB3 gene, exon 2, allele D... 406 3e-109
EM_OM:X87664 X87664.1 B.taurus class II DR-beta gene, exon 2, alle... 406 3e-109
EM_OM:MF960850 MF960850.1 Saiga tatarica isolate saigak1_11 MHC cl... 406 3e-109
EM_OM:M99052 M99052.1 Bovine MHC class II BoLA-DR-beta 3 gene, exon 2 406 3e-109
EM_OM:LC455502 LC455502.1 Bos indicus Nyalawi_6 BoLA-DRB3 gene for... 406 3e-109
EM_OM:KF929427 KF929427.1 Bos taurus MHC class II antigen (BoLA-DR... 406 3e-109
EM_OM:KF918674 KF918674.1 Bos taurus isolate gs4 MHC class II anti... 406 3e-109
EM_OM:DQ834889 DQ834889.1 Bos indicus genotype HaeIII-a MHC class ... 406 3e-109
EM_OM:AY805108 AY805108.1 Bison bison MHC class II beta chain (Bib... 406 3e-109
EM_OM:AJ487835 AJ487835.1 Bos taurus partial BoLA-DRB3 gene for MH... 406 3e-109
EM_OM:AJ302760 AJ302760.1 Damaliscus pygargus phillipsi DRB gene f... 406 3e-109
EM_OM:AB523830 AB523830.1 Bos taurus BoLA-DRB3 gene for MHC class ... 406 3e-109
EM_OM:AB523829 AB523829.1 Bos taurus BoLA-DRB3 gene for MHC class ... 406 3e-109
EM_EST:BE487505 BE487505.1 176287 BARC 5BOV Bos taurus cDNA 5', mR... 406 3e-109
EM_OM:AF010396 AF010396.1 Bos taurus MHC class II antigen (BoLA-DR... 404 1e-108
EM_OM:X98653 X98653.1 B.bison MHC class II DR-beta gene, exon 2 (i... 398 7e-107
EM_OM:LC455506 LC455506.1 Bos indicus Nyalawi12 BoLA-DRB3 gene for... 398 7e-107
EM_OM:LC455377 LC455377.1 Bos indicus BuQ_13 BoLA-DRB3 gene for MH... 398 7e-107
EM_OM:LC455374 LC455374.1 Bos indicus But_Q9 BoLA-DRB3 gene for MH... 398 7e-107
EM_OM:LC455364 LC455364.1 Bos indicus Bu_A33 BoLA-DRB3 gene for MH... 398 7e-107
EM_OM:LC455341 LC455341.2 Bos indicus Bu_A6 BoLA-DRB3 gene for MHC... 398 7e-107
EM_OM:AY847712 AY847712.1 Bos taurus MHC class II antigen (BoLA-DR... 398 7e-107
EM_OM:AY805104 AY805104.1 Bison bison MHC class II beta chain (Bib... 398 7e-107
EM_OM:AJ002002 AJ002002.1 Bos indicus BoLA-DRB3 gene, exon 2, alle... 398 7e-107
EM_OM:AF387317 AF387317.2 Ovibos moschatus MHC class II DR beta ch... 398 7e-107
EM_OM:AF162657 AF162657.2 Ovibos moschatus MHC class II antigen (D... 398 7e-107
>EM_OM:AF144545 AF144545.1 Bos taurus clone EFC18.3 MHC class II antigen BoLA-DRB3
108
gene, exon 2 and partial cds.
Length=249
Score = 494 bits (249), Expect = 2e-135
Identities = 249/249 (100%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
Query 241 TTCACTGTG 249
|||||||||
Sbjct 241 TTCACTGTG 249
>EM_OM:AB048735 AB048735.1 Bos taurus BoLA-DRB3*4501 gene for leukocyte antigen
DRB3, partial cds.
Length=227
Score = 450 bits (227), Expect = 2e-122
Identities = 227/227 (100%), Gaps = 0/227 (0%)
Strand=Plus/Plus
Query 10 AAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTAC 69
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 1 AAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTAC 60
Query 70 ACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACC 129
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 61 ACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACC 120
Query 130 GAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGCG 189
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 121 GAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGCG 180
Query 190 CGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGA 236
|||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 181 CGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGA 227
>EM_OM:LC455525 LC455525.1 Bos indicus Nyalawi36 BoLA-DRB3 gene for MHC class
II antigen, partial cds.
Length=280
Score = 438 bits (221), Expect = 8e-119
Identities = 242/249 (97%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 23 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 82
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 83 AGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||||||||||||||||||| || ||||||||||||||||||||||||||
Sbjct 143 GCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGCACTGGAACAGCCAGAAGGACTTCCTG 202
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||| | ||||||||||||||||||||||||||||||||||||||||||||| ||||||
Sbjct 203 GAGCGGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGGGAGAGT 262
Query 241 TTCACTGTG 249
|||||||||
Sbjct 263 TTCACTGTG 271
>EM_OM:AF144544 AF144544.1 Bos taurus clone EFCK4 MHC class II antigen BoLA-DRB3
gene, exon 2 and partial cds.
Length=249
109
Score = 438 bits (221), Expect = 8e-119
Identities = 242/249 (97%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 1 GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| || | ||||||||||||| ||||||||||||||||||||||||||||||||||
Sbjct 61 AGATACTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
Query 241 TTCACTGTG 249
|||||||||
Sbjct 241 TTCACTGTG 249
>EM_OM:FJ381733 FJ381733.1 Bos taurus MHC class II antigen beta chain (BoLA-DRB3)
gene, BoLA-DRB3-6-1 allele, exon 2 and partial cds.
Length=268
Score = 430 bits (217), Expect = 2e-116
Identities = 241/249 (97%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||| ||||||||||||||||||||||||||||||||||||||||||||| ||||||
Sbjct 14 GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTGCTGGAC 73
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 74 AGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 133
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 134 GCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 193
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||||| |||||||||||||||||||||||||||||||||||||||||||| ||||||
Sbjct 194 GAGCAGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGTGGAGAGT 253
Query 241 TTCACTGTG 249
|||||||||
Sbjct 254 TTCACTGTG 262
>EM_OM:AY374126 AY374126.1 Bos grunniens MHC class II antigen gene, exon 2 and
partial cds.
Length=268
Score = 430 bits (217), Expect = 2e-116
Identities = 241/249 (97%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
|||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||
Sbjct 10 GAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 69
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| ||||| |||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 70 AGATACTACAATAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 129
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
||||||||||||||||||| |||||||||| || |||| |||||||||||||||||||||
Sbjct 130 GCGGTGACCGAGCTGGGGCCGCCGGACGCCGAGCACTGCAACAGCCAGAAGGACTTCCTG 189
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 190 GAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 249
Query 241 TTCACTGTG 249
|||||||||
Sbjct 250 TTCACTGTG 258
>EM_OM:AJ277156 AJ277156.1 Bos indicus gudali partial BLA-DRB3 gene for MHC class
110
II antigen, exon 2, allele DRB3*2007
Length=249
Score = 430 bits (217), Expect = 2e-116
Identities = 241/249 (97%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||| ||||||||||||||||||||||||||||||||||||||||||||| ||||||
Sbjct 1 GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTGCTGGAC 60
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 61 AGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 180
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||||| |||||||||||||||||||||||||||||||||||||||||||| ||||||
Sbjct 181 GAGCAGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGTGGAGAGT 240
Query 241 TTCACTGTG 249
|||||||||
Sbjct 241 TTCACTGTG 249
>EM_OM:AB610140 AB610140.1 Bos taurus BoLA-DRB3 gene for major histocompatibility
complex class II DR-beta chain, partial cds, allele: BoLA-DRB3*4802.
Length=281
Score = 430 bits (217), Expect = 2e-116
Identities = 241/249 (97%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||| ||||||||||||||||||||||||||||||||||||||||||||| ||||||
Sbjct 23 GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTGCTGGAC 82
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 83 AGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 143 GCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 202
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||||| |||||||||||||||||||||||||||||||||||||||||||| ||||||
Sbjct 203 GAGCAGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGTGGAGAGT 262
Query 241 TTCACTGTG 249
|||||||||
Sbjct 263 TTCACTGTG 271
>EM_OM:LC455469 LC455469.1 Bos indicus Daeinawi29 BoLA-DRB3 gene for MHC class
II antigen, partial cds.
Length=280
Score = 422 bits (213), Expect = 5e-114
Identities = 240/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 23 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 82
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| || | ||||||||||||| |||||||||||||||||||||||||||||||||||
Sbjct 83 AGATACTTCTATAATGGAGAAGAGTCCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 143 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 202
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||||| |||||||| |||||||||||||||||||||||||||||||||||| ||||||
Sbjct 203 GAGCAGAAGCGGGCCGAGGTGGACACGTACTGCAGACACAACTACGGGGTCGGGGAGAGT 262
Query 241 TTCACTGTG 249
|||||||||
Sbjct 263 TTCACTGTG 271
111
>EM_OM:KY682173 KY682173.1 Bos grunniens MHC class II antigen (MHC-DRB) mRNA,
complete cds.
Length=973
Score = 422 bits (213), Expect = 5e-114
Identities = 240/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
|||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||
Sbjct 131 GAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 190
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 191 AGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 250
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
||| |||||||||||||||||| ||||||| || | ||||||||||||||||||||||||
Sbjct 251 GCGTTGACCGAGCTGGGGCGGCAGGACGCCGAGCAGTGGAACAGCCAGAAGGACTTCCTG 310
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||| ||||||||||||||||||||||||||||||| |||||||||||||||||||||||
Sbjct 311 GAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGATACAACTACGGGGTCGGTGAGAGT 370
Query 241 TTCACTGTG 249
|||||||||
Sbjct 371 TTCACTGTG 379
>EM_OM:AJ277153 AJ277153.1 Bos indicus gudali partial BLA-DRB3 gene for MHC class
II antigen, exon 2, allele DRB3*4401
Length=249
Score = 422 bits (213), Expect = 5e-114
Identities = 240/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
|||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||
Sbjct 1 GAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 61 AGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
||| |||||||||||||||||| ||||||| || | ||||||||||||||||||||||||
Sbjct 121 GCGTTGACCGAGCTGGGGCGGCAGGACGCCGAGCAGTGGAACAGCCAGAAGGACTTCCTG 180
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||| ||||||||||||||||||||||||||||||| |||||||||||||||||||||||
Sbjct 181 GAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGATACAACTACGGGGTCGGTGAGAGT 240
Query 241 TTCACTGTG 249
|||||||||
Sbjct 241 TTCACTGTG 249
>EM_OM:AF144543 AF144543.1 Bos taurus clone EFC13.1 MHC class II antigen BoLA-DRB3
gene, exon 2 and partial cds.
Length=249
Score = 422 bits (213), Expect = 5e-114
Identities = 240/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
|||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||
Sbjct 1 GAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 61 AGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
||| |||||||||||||||||| ||||||| || | ||||||||||||||||||||||||
Sbjct 121 GCGTTGACCGAGCTGGGGCGGCAGGACGCCGAGCAGTGGAACAGCCAGAAGGACTTCCTG 180
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||| ||||||||||||||||||||||||||||||| |||||||||||||||||||||||
Sbjct 181 GAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGATACAACTACGGGGTCGGTGAGAGT 240
Query 241 TTCACTGTG 249
|||||||||
112
Sbjct 241 TTCACTGTG 249
>EM_OM:AB610139 AB610139.1 Bos taurus BoLA-DRB3 gene for major histocompatibility
complex class II DR-beta chain, partial cds, allele: BoLA-DRB3*4401.
Length=281
Score = 422 bits (213), Expect = 5e-114
Identities = 240/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
|||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||
Sbjct 23 GAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 82
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 83 AGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
||| |||||||||||||||||| ||||||| || | ||||||||||||||||||||||||
Sbjct 143 GCGTTGACCGAGCTGGGGCGGCAGGACGCCGAGCAGTGGAACAGCCAGAAGGACTTCCTG 202
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||| ||||||||||||||||||||||||||||||| |||||||||||||||||||||||
Sbjct 203 GAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGATACAACTACGGGGTCGGTGAGAGT 262
Query 241 TTCACTGTG 249
|||||||||
Sbjct 263 TTCACTGTG 271
>EM_OM:AB558437 AB558437.1 Bos taurus BoLA-DRB3 gene for MHC class II DR beta
chain, partial cds, allele: BoLA-DRB3*4401.
Length=281
Score = 422 bits (213), Expect = 5e-114
Identities = 240/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
|||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||
Sbjct 23 GAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 82
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 83 AGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
||| |||||||||||||||||| ||||||| || | ||||||||||||||||||||||||
Sbjct 143 GCGTTGACCGAGCTGGGGCGGCAGGACGCCGAGCAGTGGAACAGCCAGAAGGACTTCCTG 202
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||| ||||||||||||||||||||||||||||||| |||||||||||||||||||||||
Sbjct 203 GAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGATACAACTACGGGGTCGGTGAGAGT 262
Query 241 TTCACTGTG 249
|||||||||
Sbjct 263 TTCACTGTG 271
>EM_OM:Z48224 Z48224.1 B.indicus BoLA DRB3 gene for first domain of the MHC
class 2 molecule, beta chain.
Length=250
Score = 414 bits (209), Expect = 1e-111
Identities = 239/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 2 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 61
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 62 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 121
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 122 GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 181
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||
Sbjct 182 GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGT 241
113
Query 241 TTCACTGTG 249
|||||||||
Sbjct 242 TTCACTGTG 250
>EM_OM:MF960855 MF960855.1 Saiga tatarica isolate saigak5_4 MHC class II antigen
(DRB3) gene, partial cds.
Length=250
Score = 414 bits (209), Expect = 1e-111
Identities = 239/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
|||||||||||||| ||||||||||||||||||||||||||||||||| |||||||| ||
Sbjct 2 GAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGTGGTTCCTGTAC 61
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 62 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 121
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
||| |||||||||||||||||||||||||||||||||||||| ||||||||||||||||
Sbjct 122 GCGTTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACGACCAGAAGGACTTCCTG 181
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||||| |||||||||||||||||||||||||||||||||||||||||||| ||| |||
Sbjct 182 GAGCAGAAGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGTTGACAGT 241
Query 241 TTCACTGTG 249
|||||||||
Sbjct 242 TTCACTGTG 250
>EM_OM:LC455467 LC455467.1 Bos indicus Daeinawi27 BoLA-DRB3 gene for MHC class
II antigen, partial cds.
Length=280
Score = 414 bits (209), Expect = 1e-111
Identities = 239/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
|||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 23 GAGTATCATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 82
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| || | ||||||||||||| |||||||||||||||||||||||||||||||||||
Sbjct 83 AGATACTTCTATAATGGAGAAGAGTCCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 143 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 202
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||| | ||||||||||||||||||||||||||||||||||||||||||||| ||||||
Sbjct 203 GAGCGGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGGGAGAGT 262
Query 241 TTCACTGTG 249
|||||||||
Sbjct 263 TTCACTGTG 271
>EM_OM:JN887489 JN887489.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene,
BoLA-DRB3-4 allele, exon 2 and partial cds.
Length=301
Score = 414 bits (209), Expect = 1e-111
Identities = 239/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 28 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 87
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 88 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 147
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 148 GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 207
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||
114
Sbjct 208 GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGT 267
Query 241 TTCACTGTG 249
|||||||||
Sbjct 268 TTCACTGTG 276
>EM_OM:JN887488 JN887488.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene,
BoLA-DRB3-3 allele, exon 2 and partial cds.
Length=303
Score = 414 bits (209), Expect = 1e-111
Identities = 239/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 29 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 88
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 89 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 148
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 149 GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 208
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||
Sbjct 209 GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGT 268
Query 241 TTCACTGTG 249
|||||||||
Sbjct 269 TTCACTGTG 277
>EM_OM:AY125892 AY125892.1 Bos taurus MHC class II antigen (BoLA-DRB3) mRNA,
BoLA-DRB3*2703 allele, complete cds.
Length=801
Score = 414 bits (209), Expect = 1e-111
Identities = 239/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 112 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 171
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 172 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 231
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 232 GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 291
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||
Sbjct 292 GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGT 351
Query 241 TTCACTGTG 249
|||||||||
Sbjct 352 TTCACTGTG 360
>EM_OM:AB558435 AB558435.1 Bos taurus BoLA-DRB3 gene for MHC class II DR beta
chain, partial cds, allele: BoLA-DRB3*2703.
Length=281
Score = 414 bits (209), Expect = 1e-111
Identities = 239/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 23 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 82
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 83 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 143 GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 202
115
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||
Sbjct 203 GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGT 262
Query 241 TTCACTGTG 249
|||||||||
Sbjct 263 TTCACTGTG 271
>EM_OM:AB523828 AB523828.1 Bos taurus BoLA-DRB3 gene for MHC class II antigen,
partial cds, allele: DRB3*2703.
Length=281
Score = 414 bits (209), Expect = 1e-111
Identities = 239/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 23 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 82
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 83 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 143 GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 202
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||
Sbjct 203 GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGT 262
Query 241 TTCACTGTG 249
|||||||||
Sbjct 263 TTCACTGTG 271
>EM_EST:CO882141 CO882141.1 BovGen_10466 normal cattle brain Bos taurus cDNA clone
RZPDp1056P1415Q 5', mRNA sequence.
Length=777
Score = 414 bits (209), Expect = 1e-111
Identities = 239/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 130 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 189
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 190 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 249
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 250 GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 309
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||
Sbjct 310 GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGT 369
Query 241 TTCACTGTG 249
|||||||||
Sbjct 370 TTCACTGTG 378
>EM_OM:U00140 U00140.1 Bos taurus Swiss Simmental breed DR beta-chain antigen
binding domain, MHC class II DRB (Bota-DRB06) gene, partial
CDS.
Length=359
Score = 412 bits (208), Expect = 5e-111
Identities = 238/248 (96%), Gaps = 0/248 (0%)
Strand=Plus/Plus
Query 2 AGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACA 61
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 1 AGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACA 60
Query 62 GATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGG 121
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 61 GATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGG 120
Query 122 CGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTGG 181
116
||||||||||||| ||||||||||||||| ||||||||||||||||||||||||||||||
Sbjct 121 CGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTGG 180
Query 182 AGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGTT 241
|| || |||||||| |||||||| | |||||||||||||||||||||||||||||||
Sbjct 181 AGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGTT 240
Query 242 TCACTGTG 249
||||||||
Sbjct 241 TCACTGTG 248
>EM_OM:Z82031 Z82031.1 Bos indicus BoLA-DRB3 gene, exon 2, allele DRB3*2705
Length=249
Score = 406 bits (205), Expect = 3e-109
Identities = 238/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 121 GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 180
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||| || ||||||||||||||||| | |||||||||||||||||||||| ||||||
Sbjct 181 GAGGAGAGGCGGGCCGCGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGTGGAGAGT 240
Query 241 TTCACTGTG 249
|||||||||
Sbjct 241 TTCACTGTG 249
>EM_OM:X87664 X87664.1 B.taurus class II DR-beta gene, exon 2, allele BoLADRB3*2002
Length=250
Score = 406 bits (205), Expect = 3e-109
Identities = 238/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||| ||||||||||||||||||||||||||||||||||||||||||||| ||||||
Sbjct 2 GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTGCTGGAC 61
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| || | ||||||||||||| ||||||||||||||||||||||||||||||||||
Sbjct 62 AGATACTTCTATAATGGAGAAGAGCGCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 121
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 122 GCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 181
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 182 GAGCAGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 241
Query 241 TTCACTGTG 249
|||||||||
Sbjct 242 TTCACTGTG 250
>EM_OM:MF960850 MF960850.1 Saiga tatarica isolate saigak1_11 MHC class II antigen
(DRB3) gene, partial cds.
Length=250
Score = 406 bits (205), Expect = 3e-109
Identities = 238/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
|||||||||||||| |||||||||||||||||||||||||||||||||||||||||| ||
Sbjct 2 GAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGCAC 61
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||
Sbjct 62 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTACCGG 121
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
117
||| |||||||||||||||||||||||||||||||||||||| |||||||||||| |||
Sbjct 122 GCGTTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACGACCAGAAGGACTTACTG 181
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||||| |||||||| ||||||||||||||||||||||||||||||||||||||| |||
Sbjct 182 GAGCAGAGGCGGGCCGAGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGACAGT 241
Query 241 TTCACTGTG 249
|||||||||
Sbjct 242 TTCACTGTG 250
>EM_OM:M99052 M99052.1 Bovine MHC class II BoLA-DR-beta 3 gene, exon 2.
Length=261
Score = 406 bits (205), Expect = 3e-109
Identities = 238/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||
Sbjct 10 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCAGTTCCTGGAC 69
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 70 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 129
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 130 GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 189
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||
Sbjct 190 GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGT 249
Query 241 TTCACTGTG 249
|||||||||
Sbjct 250 TTCACTGTG 258
>EM_OM:LC455502 LC455502.1 Bos indicus Nyalawi_6 BoLA-DRB3 gene for MHC class
II antigen, partial cds.
Length=280
Score = 406 bits (205), Expect = 3e-109
Identities = 238/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 23 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 82
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| || | ||||||||||||| ||||||||||||||||||||||||||||||||||
Sbjct 83 AGATACTTCCATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
||||||||||||||||||| ||||| |||| |||||||||||||||||||||||||||||
Sbjct 143 GCGGTGACCGAGCTGGGGCAGCCGGTCGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 202
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||| || ||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 203 GAGCGGGGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 262
Query 241 TTCACTGTG 249
|||||||||
Sbjct 263 TTCACTGTG 271
>EM_OM:KF929427 KF929427.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene,
partial cds.
Length=294
Score = 406 bits (205), Expect = 3e-109
Identities = 238/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Minus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 285 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 226
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 225 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 166
118
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 165 GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 106
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||| || |||||||| |||||||| | |||||||||||||||||||||| |||||||
Sbjct 105 GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGATGAGAGT 46
Query 241 TTCACTGTG 249
|||||||||
Sbjct 45 TTCACTGTG 37
>EM_OM:KF918674 KF918674.1 Bos taurus isolate gs4 MHC class II antigen (BoLA-DRB3)
gene, partial cds.
Length=294
Score = 406 bits (205), Expect = 3e-109
Identities = 238/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 10 GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 69
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 70 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 129
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 130 GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 189
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||
Sbjct 190 GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGT 249
Query 241 TTCACTGTG 249
|||||||||
Sbjct 250 TTCACTGTG 258
>EM_OM:DQ834889 DQ834889.1 Bos indicus genotype HaeIII-a MHC class II antigen
(BoLa-DRB3) gene, exon 2 and partial cds.
Length=284
Score = 406 bits (205), Expect = 3e-109
Identities = 238/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||| ||||||||||||||||||||||||||||||||||||||||||||| ||||||
Sbjct 27 GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTGCTGGAC 86
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| || | ||||||||||||| ||||||||||||||||||||||||||||||||||
Sbjct 87 AGATACTTCTATAATGGAGAAGAGCGCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 146
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 147 GCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 206
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 207 GAGCAGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 266
Query 241 TTCACTGTG 249
|||||||||
Sbjct 267 TTCACTGTG 275
>EM_OM:AY805108 AY805108.1 Bison bison MHC class II beta chain (Bibi-DRB3) gene,
Bibi-DRB3*1001 allele, exon 2 and partial cds.
Length=252
Score = 406 bits (205), Expect = 3e-109
Identities = 232/241 (96%), Gaps = 0/241 (0%)
Strand=Plus/Plus
Query 9 TAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTA 68
|||||||||||||||||||||||||||||||||||||||||||||||||||||||| |||
Sbjct 11 TAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACAGATACTA 70
Query 69 CACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGAC 128
||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
119
Sbjct 71 CACCAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGAC 130
Query 129 CGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGC 188
|||||||||||||| ||||||| |||||||||||||||||||||||||||||||| ||
Sbjct 131 CGAGCTGGGGCGGCAGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTGGAGGAGAG 190
Query 189 GCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGTTTCACTGT 248
|||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||
Sbjct 191 GCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGTGGAGAGTTTCACTGT 250
Query 249 G 249
|
Sbjct 251 G 251
>EM_OM:AJ487835 AJ487835.1 Bos taurus partial BoLA-DRB3 gene for MHC class II
antigen, BoLA-DRB3*2002 allele, exon 2
Length=486
Score = 406 bits (205), Expect = 3e-109
Identities = 238/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||| ||||||||||||||||||||||||||||||||||||||||||||| ||||||
Sbjct 57 GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTGCTGGAC 116
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| || | ||||||||||||| ||||||||||||||||||||||||||||||||||
Sbjct 117 AGATACTTCTATAATGGAGAAGAGCGCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 176
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 177 GCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 236
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 237 GAGCAGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 296
Query 241 TTCACTGTG 249
|||||||||
Sbjct 297 TTCACTGTG 305
>EM_OM:AJ302760 AJ302760.1 Damaliscus pygargus phillipsi DRB gene for MHC class
II antigen, exon 2
Length=249
Score = 406 bits (205), Expect = 3e-109
Identities = 238/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||| |||||| |||||||||||||||||||||||||||||||||||||||||||||
Sbjct 1 GAGTATTCTAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| ||||| |||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 61 AGATACTACAGTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||||||||||||||||||| || | ||||||||||||||||| |||||
Sbjct 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGCAATGGAACAGCCAGAAGGAGATCCTG 180
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||||||| |||||||||||||||||||||||||||| |||||||||||||||||||||||
Sbjct 181 GAGCAGGAGCGGGCCGCGGTGGACACGTACTGCAGATACAACTACGGGGTCGGTGAGAGT 240
Query 241 TTCACTGTG 249
|||||||||
Sbjct 241 TTCACTGTG 249
>EM_OM:AB523830 AB523830.1 Bos taurus BoLA-DRB3 gene for MHC class II antigen,
partial cds, allele: DRB3*2709.
Length=281
Score = 406 bits (205), Expect = 3e-109
Identities = 238/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 23 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 82
120
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 83 AGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 143 GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 202
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||| || |||||||| |||||||| | ||||||||||||||||||||||||||||||
Sbjct 203 GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGT 262
Query 241 TTCACTGTG 249
|||||||||
Sbjct 263 TTCACTGTG 271
>EM_OM:AB523829 AB523829.1 Bos taurus BoLA-DRB3 gene for MHC class II antigen,
partial cds, allele: DRB3*2705.
Length=281
Score = 406 bits (205), Expect = 3e-109
Identities = 238/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 23 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 82
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 83 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 143 GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 202
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||| || ||||||||||||||||| | |||||||||||||||||||||| ||||||
Sbjct 203 GAGGAGAGGCGGGCCGCGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGTGGAGAGT 262
Query 241 TTCACTGTG 249
|||||||||
Sbjct 263 TTCACTGTG 271
>EM_EST:BE487505 BE487505.1 176287 BARC 5BOV Bos taurus cDNA 5', mRNA sequence.
Length=439
Score = 406 bits (205), Expect = 3e-109
Identities = 238/249 (96%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 157 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 216
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 217 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 276
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 277 GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 336
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||| || |||||||| |||||||| | |||| |||||||||||||||||||||||||
Sbjct 337 GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCATACACAACTACGGGGTCGGTGAGAGT 396
Query 241 TTCACTGTG 249
|||||||||
Sbjct 397 TTCACTGTG 405
>EM_OM:AF010396 AF010396.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene,
partial cds.
Length=359
Score = 404 bits (204), Expect = 1e-108
Identities = 237/248 (96%), Gaps = 0/248 (0%)
Strand=Plus/Plus
Query 2 AGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACA 61
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 1 AGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGACA 60
121
Query 62 GATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGG 121
||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 61 GATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGGG 120
Query 122 CGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTGG 181
||||||||||||| ||||||||||||||| ||||||||||||||||||||||||||||||
Sbjct 121 CGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTGG 180
Query 182 AGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGTT 241
|| || |||||||| |||||||| | |||||||||||||||||||||||||||||||
Sbjct 181 AGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGTT 240
Query 242 TCACTGTG 249
||||||||
Sbjct 241 TCACTGTG 248
>EM_OM:X98653 X98653.1 B.bison MHC class II DR-beta gene, exon 2 (isolate CSP
239)
Length=250
Score = 398 bits (201), Expect = 7e-107
Identities = 237/249 (95%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||| |||||||||||||||||||||||||||||| |||||||||||||||||||||
Sbjct 2 GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACTGAGCGGGTGCGGTTCCTGGAC 61
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||| | ||||||||||||| ||||||||||||||||||||||||||||||||||
Sbjct 62 AGATGCTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 121
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||||||||||||| ||||||||||||||||||||||||||| |||||
Sbjct 122 GCGGTGACCGAGCTGGGGCGGCCGTCCGCCAAGTACTGGAACAGCCAGAAGGAGATCCTG 181
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 182 GAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 241
Query 241 TTCACTGTG 249
|||||||||
Sbjct 242 TTCACTGTG 250
>EM_OM:LC455506 LC455506.1 Bos indicus Nyalawi12 BoLA-DRB3 gene for MHC class
II antigen, partial cds.
Length=280
Score = 398 bits (201), Expect = 7e-107
Identities = 237/249 (95%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
|||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 23 GAGTATCATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 82
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| || | ||||||||||||| ||||||||||||||||||||||||||||||||||
Sbjct 83 AGATACTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 143 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 202
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||| | ||||||| |||||||||||||||||||||||||||||||||||||||||||
Sbjct 203 GAGCGGAAGCGGGCCAAGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 262
Query 241 TTCACTGTG 249
|||||||||
Sbjct 263 TTCACTGTG 271
>EM_OM:LC455377 LC455377.1 Bos indicus BuQ_13 BoLA-DRB3 gene for MHC class II
antigen, partial cds.
Length=280
Score = 398 bits (201), Expect = 7e-107
Identities = 237/249 (95%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
122
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 23 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 82
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||| | ||||||||||||| ||||||||||||||||||||||||||||||||||
Sbjct 83 AGATGCTTCCATAATGGAGAAGAGTTCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||||||||||||||||||| || ||||||||||||||||||||||||||
Sbjct 143 GCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGCACTGGAACAGCCAGAAGGACTTCCTG 202
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||| || |||||||| |||||||| ||||||||||||||||||||||||||||||||||
Sbjct 203 GAGGAGAGGCGGGCCGAGGTGGACAGGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 262
Query 241 TTCACTGTG 249
|||||||||
Sbjct 263 TTCACTGTG 271
>EM_OM:LC455374 LC455374.1 Bos indicus But_Q9 BoLA-DRB3 gene for MHC class II
antigen, partial cds.
Length=280
Score = 398 bits (201), Expect = 7e-107
Identities = 237/249 (95%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
|||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||
Sbjct 23 GAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 82
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| |||| |||||||||||||| ||||||||||||||||||||||||||||||||||
Sbjct 83 AGATACTACTATAATGGAGAAGAGATCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
||| |||||||||||||||||||||||||| || ||||||||||||||||||||||||||
Sbjct 143 GCGTTGACCGAGCTGGGGCGGCCGGACGCCGAGCACTGGAACAGCCAGAAGGACTTCCTG 202
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||| | ||||||||||||||||||||||||||||| |||||||||||||||| ||||||
Sbjct 203 GAGCGGACGCGGGCCGCGGTGGACACGTACTGCAGATACAACTACGGGGTCGGGGAGAGT 262
Query 241 TTCACTGTG 249
|||||||||
Sbjct 263 TTCACTGTG 271
>EM_OM:LC455364 LC455364.1 Bos indicus Bu_A33 BoLA-DRB3 gene for MHC class II
antigen, partial cds.
Length=280
Score = 398 bits (201), Expect = 7e-107
Identities = 237/249 (95%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 23 GAGTATTATAAGAAAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 82
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| || | ||||||||||||| |||||||||||||||||||||||||||||||||||
Sbjct 83 AGATACTTCTATAATGGAGAAGAGTCCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||
Sbjct 143 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGCACTGGAACAGCCAGAAGGACTTCCTG 202
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||| | |||||||| ||||||||||||||||||||||||||||||||||||||||||
Sbjct 203 GAGCGGAAGCGGGCCGATGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 262
Query 241 TTCACTGTG 249
|||||||||
Sbjct 263 TTCACTGTG 271
>EM_OM:LC455341 LC455341.2 Bos indicus Bu_A6 BoLA-DRB3 gene for MHC class II
antigen, partial cds.
Length=280
Score = 398 bits (201), Expect = 7e-107
Identities = 237/249 (95%), Gaps = 0/249 (0%)
Strand=Plus/Plus
123
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 23 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 82
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||| | ||||||||||||| |||||||||||||||||||||||||||||||||||
Sbjct 83 AGATGCTTCTATAATGGAGAAGAGTCCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 142
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 143 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 202
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||||| |||||||| ||||||| | | ||||||||||||||||||||||| ||||||
Sbjct 203 GAGCAGAGGCGGGCCGATGTGGACAGGGAGTGCAGACACAACTACGGGGTCGGGGAGAGT 262
Query 241 TTCACTGTG 249
|||||||||
Sbjct 263 TTCACTGTG 271
>EM_OM:AY847712 AY847712.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene,
BoLA-DRB3*R-142 allele, exon 2 and partial cds.
Length=302
Score = 398 bits (201), Expect = 7e-107
Identities = 237/249 (95%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||
Sbjct 27 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTGCTGGAC 86
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| || | ||||||||||||| ||||||||||||||||||||||||||||||||||
Sbjct 87 AGATACTTCTATAATGGAGAAGAGCGCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 146
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 147 GCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 206
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||||| |||||||||||||||||||||||||||||||||||||||||||| ||||||
Sbjct 207 GAGCAGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGTGGAGAGT 266
Query 241 TTCACTGTG 249
|||||||||
Sbjct 267 TTCACTGTG 275
>EM_OM:AY805104 AY805104.1 Bison bison MHC class II beta chain (Bibi-DRB3) gene,
Bibi-DRB3*0701 allele, exon 2 and partial cds.
Length=252
Score = 398 bits (201), Expect = 7e-107
Identities = 237/249 (95%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||| |||||||||||||||||||||||||||||| |||||||||||||||||||||
Sbjct 3 GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACTGAGCGGGTGCGGTTCCTGGAC 62
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||| | ||||||||||||| ||||||||||||||||||||||||||||||||||
Sbjct 63 AGATGCTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 122
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||||||||||||| ||||||||||||||||||||||||||| |||||
Sbjct 123 GCGGTGACCGAGCTGGGGCGGCCGTCCGCCAAGTACTGGAACAGCCAGAAGGAGATCCTG 182
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 183 GAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 242
Query 241 TTCACTGTG 249
|||||||||
Sbjct 243 TTCACTGTG 251
>EM_OM:AJ002002 AJ002002.1 Bos indicus BoLA-DRB3 gene, exon 2, allele DRB3*2707
Length=249
Score = 398 bits (201), Expect = 7e-107
Identities = 237/249 (95%), Gaps = 0/249 (0%)
124
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||| ||||||||||||||| |||||||||||||||||||||||||||||
Sbjct 121 GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG 180
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
||| || |||||||| |||||||| | |||||||||||||||||||||| ||||||
Sbjct 181 GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGTGGAGAGT 240
Query 241 TTCACTGTG 249
|||||||||
Sbjct 241 TTCACTGTG 249
>EM_OM:AF387317 AF387317.2 Ovibos moschatus MHC class II DR beta chain precursor
(DRB) mRNA, partial cds.
Length=765
Score = 398 bits (201), Expect = 7e-107
Identities = 237/249 (95%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
|||||| ||||||| |||||||||||||||||||||||||||||||||||||||||||||
Sbjct 73 GAGTATCATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 132
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| || | ||||||||||||| ||||||||||||||||||||||||||||||||||
Sbjct 133 AGATACTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 192
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||
Sbjct 193 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCTGAAGGACTTCCTG 252
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||||| ||||||||| ||||||||||||||||||||||||||||||||||||||||||
Sbjct 253 GAGCAGAGGCGGGCCGCCGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 312
Query 241 TTCACTGTG 249
|||||||||
Sbjct 313 TTCACTGTG 321
>EM_OM:AF162657 AF162657.2 Ovibos moschatus MHC class II antigen (DRB) gene,
partial cds.
Length=269
Score = 398 bits (201), Expect = 7e-107
Identities = 237/249 (95%), Gaps = 0/249 (0%)
Strand=Plus/Plus
Query 1 GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 60
|||||| ||||||| |||||||||||||||||||||||||||||||||||||||||||||
Sbjct 12 GAGTATCATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC 71
Query 61 AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 120
|||| || | ||||||||||||| ||||||||||||||||||||||||||||||||||
Sbjct 72 AGATACTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG 131
Query 121 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG 180
|||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||
Sbjct 132 GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCTGAAGGACTTCCTG 191
Query 181 GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 240
|||||| ||||||||| ||||||||||||||||||||||||||||||||||||||||||
Sbjct 192 GAGCAGAGGCGGGCCGCCGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT 251
Query 241 TTCACTGTG 249
|||||||||
Sbjct 252 TTCACTGTG 260
Lambda K H
1.37 0.711 1.31
125
Gapped
Lambda K H
1.37 0.711 1.31
Effective search space used: 90622686596400
Database: em_rel
Posted date: Apr 6, 2020 10:32 AM
Number of letters in database: 408,005,271,872
Number of sequences in database: 218,240,662
Matrix: blastn matrix 1 -3
Gap Penalties: Existence: 5, Extension: 2
126
Resultados del programa FASTA por la interfaz web de EMBL-EB
FASTA searches a protein or DNA sequence data bank
version 36.3.8h Aug, 2019
Please cite:
W.R. Pearson & D.J. Lipman PNAS (1988) 85:2444-2448
Query: @
1>>>DERB3_4501 - 249 nt
Library: ENA
408005271872 residues in 218240662 sequences
Statistics: Expectation_n fit: rho(ln(x))= 9.3500+/-7.1e-05; mu= 7.7814+/- 0.004
mean_var=69.9908+/-12.489, 0's: 35 Z-trim(109.4): 588 B-trim: 41 in 1/79
Lambda= 0.153304
statistics sampled from 60000 (93004) to 23220040 sequences
Algorithm: FASTA (3.8 Nov 2011) [optimized]
Parameters: DNA matrix (5:-4), open/ext: -14/-4
ktup: 6, E-join: 0.25 (0.171), E-opt: 0.05 (0.0602), width: 16
Scan time: 10327.800
The best scores are: opt bits E(219849525)
EM_OM: AF144545 AF144545.1 Bos taurus clone EFC ( 249) [f] 1245 283.0 6.4e-72 EM_OM: AF144544 AF144544.1 Bos taurus clone EFC ( 249) [f] 1182 269.1 1e-67 EM_OM: LC455525 LC455525.1 Bos indicus Nyalawi3 ( 280) [f] 1182 269.0 1.1e-67 EM_OM: AJ277156 AJ277156.1 Bos indicus gudali p ( 249) [f] 1173 267.1 4e-67 EM_OM: AY374126 AY374126.1 Bos grunniens MHC cl ( 268) [f] 1173 267.1 4.1e-67 EM_OM: FJ381733 FJ381733.1 Bos taurus MHC class ( 268) [f] 1173 267.1 4.1e-67 EM_OM: AB610140 AB610140.1 Bos taurus BoLA-DRB3 ( 281) [f] 1173 267.0 4.2e-67 EM_OM: AF144543 AF144543.1 Bos taurus clone EFC ( 249) [f] 1164 265.1 1.6e-66 EM_OM: AJ277153 AJ277153.1 Bos indicus gudali p ( 249) [f] 1164 265.1 1.6e-66 EM_OM: LC455469 LC455469.1 Bos indicus Daeinawi ( 280) [f] 1164 265.0 1.7e-66 EM_OM: AB558437 AB558437.1 Bos taurus BoLA-DRB3 ( 281) [f] 1164 265.0 1.7e-66 EM_OM: AB610139 AB610139.1 Bos taurus BoLA-DRB3 ( 281) [f] 1164 265.0 1.7e-66 EM_OM: KY682173 KY682173.1 Bos grunniens MHC cl ( 973) [f] 1164 264.3 2.8e-66 EM_OM: Z48224 Z48224.1 B.indicus BoLA DRB3 gene ( 250) [f] 1155 263.1 6.3e-66 EM_OM: MF960855 MF960855.1 Saiga tatarica isola ( 250) [f] 1155 263.1 6.3e-66 EM_OM: LC455467 LC455467.1 Bos indicus Daeinawi ( 280) [f] 1155 263.1 6.6e-66 EM_OM: AB558435 AB558435.1 Bos taurus BoLA-DRB3 ( 281) [f] 1155 263.1 6.6e-66 EM_OM: AB523828 AB523828.1 Bos taurus BoLA-DRB3 ( 281) [f] 1155 263.1 6.6e-66 EM_OM: JN887489 JN887489.1 Bos taurus MHC class ( 301) [f] 1155 263.0 6.8e-66 EM_OM: JN887488 JN887488.1 Bos taurus MHC class ( 303) [f] 1155 263.0 6.8e-66 EM_EST: CO882141 CO882141.1 BovGen_10466 normal ( 777) [f] 1155 262.4 1e-65 EM_OM: AY125892 AY125892.1 Bos taurus MHC class ( 801) [f] 1155 262.4 1e-65 EM_OM: U00140 U00140.1 Bos taurus Swiss Simment ( 359) [f] 1150 261.8 1.6e-65 EM_OM: AJ302760 AJ302760.1 Damaliscus pygargus ( 249) [f] 1146 261.1 2.5e-65 EM_OM: Z82031 Z82031.1 Bos indicus BoLA-DRB3 ge ( 249) [f] 1146 261.1 2.5e-65 EM_OM: MF960850 MF960850.1 Saiga tatarica isola ( 250) [f] 1146 261.1 2.5e-65 EM_OM: X87664 X87664.1 B.taurus class II DR-bet ( 250) [f] 1146 261.1 2.5e-65 EM_OM: AY805108 AY805108.1 Bison bison MHC clas ( 252) [f] 1146 261.1 2.5e-65 EM_OM: M99052 M99052.1 Bovine MHC class II BoLA ( 261) [f] 1146 261.1 2.5e-65 EM_OM: LC455502 LC455502.1 Bos indicus Nyalawi_ ( 280) [f] 1146 261.1 2.6e-65 EM_OM: AB523829 AB523829.1 Bos taurus BoLA-DRB3 ( 281) [f] 1146 261.1 2.6e-65 EM_OM: AB523830 AB523830.1 Bos taurus BoLA-DRB3 ( 281) [f] 1146 261.1 2.6e-65 EM_OM: DQ834889 DQ834889.1 Bos indicus genotype ( 284) [f] 1146 261.1 2.6e-65 EM_OM: KF918674 KF918674.1 Bos taurus isolate g ( 294) [f] 1146 261.0 2.7e-65 EM_OM: KF929427 KF929427.1 Bos taurus MHC class ( 294) [r] 1146 261.0 2.7e-65 EM_EST: BE487505 BE487505.1 176287 BARC 5BOV Bo ( 439) [f] 1146 260.8 3.2e-65 EM_OM: AJ487835 AJ487835.1 Bos taurus partial B ( 486) [f] 1146 260.7 3.3e-65 EM_OM: AF010396 AF010396.1 Bos taurus MHC class ( 359) [f] 1141 259.8 6.3e-65 EM_OM: AJ002002 AJ002002.1 Bos indicus BoLA-DRB ( 249) [f] 1137 259.1 9.9e-65 EM_OM: AF012715 AF012715.1 Ovibos moschatus MHC ( 249) [f] 1137 259.1 9.9e-65 EM_OM: X98653 X98653.1 B.bison MHC class II DR- ( 250) [f] 1137 259.1 9.9e-65 EM_OM: AY805104 AY805104.1 Bison bison MHC clas ( 252) [f] 1137 259.1 1e-64 EM_OM: AF162657 AF162657.2 Ovibos moschatus MHC ( 269) [f] 1137 259.1 1e-64
127
EM_OM: LC455374 LC455374.1 Bos indicus But_Q9 B ( 280) [f] 1137 259.1 1e-64 EM_OM: LC455506 LC455506.1 Bos indicus Nyalawi1 ( 280) [f] 1137 259.1 1e-64 EM_OM: LC455341 LC455341.2 Bos indicus Bu_A6 Bo ( 280) [f] 1137 259.1 1e-64 EM_OM: LC455364 LC455364.1 Bos indicus Bu_A33 B ( 280) [f] 1137 259.1 1e-64 EM_OM: LC455377 LC455377.1 Bos indicus BuQ_13 B ( 280) [f] 1137 259.1 1e-64 EM_OM: AY847712 AY847712.1 Bos taurus MHC class ( 302) [f] 1137 259.0 1.1e-64 EM_OM: AB048735 AB048735.1 Bos taurus BoLA-DRB3 ( 227) [f] 1135 258.8 1.3e-64
>>EM_OM: AF144545 AF144545.1 Bos taurus clone EFC18.3 MHC class II antigen BoLA-DRB3 gene, exon 2 and partial cds. (249 nt)
initn: 1245 init1: 1245 opt: 1245 Z-score: 1489.1 bits: 283.0 E(219849525): 6.4e-72
banded Smith-Waterman score: 1245; 100.0% identity (100.0% similar) in 249 nt overlap
(1-249:1-249)
10 20 30 40 50 60
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
10 20 30 40 50 60
70 80 90 100 110 120
DERB3_ AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
70 80 90 100 110 120
130 140 150 160 170 180
DERB3_ GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG
130 140 150 160 170 180
190 200 210 220 230 240
DERB3_ GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT
190 200 210 220 230 240
DERB3_ TTCACTGTG
:::::::::
EM_OM: TTCACTGTG
>>EM_OM: AF144544 AF144544.1 Bos taurus clone EFCK4 MHC class II antigen BoLA-DRB3 gene, exon 2 and partial cds. (249 nt)
initn: 1182 init1: 1182 opt: 1182 Z-score: 1413.8 bits: 269.1 E(219849525): 1e-67
banded Smith-Waterman score: 1182; 97.2% identity (97.2% similar) in 249 nt overlap
(1-249:1-249)
10 20 30 40 50 60
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
::::::: ::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
10 20 30 40 50 60
70 80 90 100 110 120
DERB3_ AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
:::: :: : ::::::::::::: ::::::::::::::::::::::::::::::::::
EM_OM: AGATACTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
70 80 90 100 110 120
130 140 150 160 170 180
DERB3_ GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG
130 140 150 160 170 180
190 200 210 220 230 240
DERB3_ GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT
190 200 210 220 230 240
DERB3_ TTCACTGTG
:::::::::
EM_OM: TTCACTGTG
>>EM_OM: LC455525 LC455525.1 Bos indicus Nyalawi36 BoLA-DRB3 gene for MHC class II antigen, partial cds. (280 nt)
128
initn: 1182 init1: 1182 opt: 1182 Z-score: 1412.5 bits: 269.0 E(219849525): 1.1e-67
banded Smith-Waterman score: 1182; 97.2% identity (97.2% similar) in 249 nt overlap
(1-249:23-271)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
::::::::::::::::::::::::::::::::::::::
EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
10 20 30 40 50 60
40 50 60 70 80 90
DERB3_ CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
:::::::::::::::::::::::::: :::::::::::::::::::::::::::::::::
EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGA
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
:::::::::::::::::::::::::::::::::::::::::::::::::::: :: ::::
EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGCACTG
130 140 150 160 170 180
160 170 180 190 200 210
DERB3_ GAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACA
:::::::::::::::::::::::::: : ::::::::::::::::::::::::::::::
EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCGGAGGCGGGCCGCGGTGGACACGTACTGCAGACA
190 200 210 220 230 240
220 230 240
DERB3_ CAACTACGGGGTCGGTGAGAGTTTCACTGTG
::::::::::::::: :::::::::::::::
EM_OM: CAACTACGGGGTCGGGGAGAGTTTCACTGTGCAGCGGCGA
250 260 270 280
>>EM_OM: AJ277156 AJ277156.1 Bos indicus gudali partial BLA-DRB3 gene for MHC class II antigen, exon 2, allele
DRB3*2007 (249 nt)
initn: 1173 init1: 1173 opt: 1173 Z-score: 1403.0 bits: 267.1 E(219849525): 4e-67
banded Smith-Waterman score: 1173; 96.8% identity (96.8% similar) in 249 nt overlap
(1-249:1-249)
10 20 30 40 50 60
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
::::::: ::::::::::::::::::::::::::::::::::::::::::::: ::::::
EM_OM: GAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTGCTGGAC
10 20 30 40 50 60
70 80 90 100 110 120
DERB3_ AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
:::: :::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: AGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
70 80 90 100 110 120
130 140 150 160 170 180
DERB3_ GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG
:::::::::::::::::::::::::::::: :::::::::::::::::::::::::::::
EM_OM: GCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG
130 140 150 160 170 180
190 200 210 220 230 240
DERB3_ GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT
:::::: :::::::::::::::::::::::::::::::::::::::::::: ::::::
EM_OM: GAGCAGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGTGGAGAGT
190 200 210 220 230 240
DERB3_ TTCACTGTG
:::::::::
EM_OM: TTCACTGTG
>>EM_OM: AY374126 AY374126.1 Bos grunniens MHC class II antigen gene, exon 2 and partial cds. (268 nt)
initn: 1173 init1: 1173 opt: 1173 Z-score: 1402.2 bits: 267.1 E(219849525): 4.1e-67
banded Smith-Waterman score: 1173; 96.8% identity (96.8% similar) in 249 nt overlap
(1-249:10-258)
10 20 30 40 50
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGG
:::::::::::::: ::::::::::::::::::::::::::::::::::::
EM_OM: CATTTCCTGGAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGG
10 20 30 40 50 60
60 70 80 90 100 110
DERB3_ TTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGC
129
::::::::::::: ::::: ::::::::::::::::::::::::::::::::::::::::
EM_OM: TTCCTGGACAGATACTACAATAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGC
70 80 90 100 110 120
120 130 140 150 160 170
DERB3_ GAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAG
:::::::::::::::::::::::::::: :::::::::: :: :::: ::::::::::::
EM_OM: GAGTTCCGGGCGGTGACCGAGCTGGGGCCGCCGGACGCCGAGCACTGCAACAGCCAGAAG
130 140 150 160 170 180
180 190 200 210 220 230
DERB3_ GACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTC
::::::::::::: ::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GACTTCCTGGAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTC
190 200 210 220 230 240
240
DERB3_ GGTGAGAGTTTCACTGTG
::::::::::::::::::
EM_OM: GGTGAGAGTTTCACTGTGCAGCGGCGAG
250 260
>>EM_OM: FJ381733 FJ381733.1 Bos taurus MHC class II antigen beta chain (BoLA-DRB3) gene, BoLA-DRB3-6-1 allele, exon 2
and partial cds. (268 nt)
initn: 1173 init1: 1173 opt: 1173 Z-score: 1402.2 bits: 267.1 E(219849525): 4.1e-67
banded Smith-Waterman score: 1173; 96.8% identity (96.8% similar) in 249 nt overlap
(1-249:14-262)
10 20 30 40
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGT
::::::: :::::::::::::::::::::::::::::::::::::::
EM_OM: AGCACATTTCCTGGAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGT
10 20 30 40 50 60
50 60 70 80 90 100
DERB3_ GCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTG
:::::: :::::::::: ::::::::::::::::::::::::::::::::::::::::::
EM_OM: GCGGTTGCTGGACAGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTG
70 80 90 100 110 120
110 120 130 140 150 160
DERB3_ GGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCA
::::::::::::::::::::::::::::::::::::::::::: ::::::::::::::::
EM_OM: GGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGTACTGGAACAGCCA
130 140 150 160 170 180
170 180 190 200 210 220
DERB3_ GAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGG
::::::::::::::::::: :::::::::::::::::::::::::::::::::::::::
EM_OM: GAAGGACTTCCTGGAGCAGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGG
190 200 210 220 230 240
230 240
DERB3_ GGTCGGTGAGAGTTTCACTGTG
::::: :::::::::::::::
EM_OM: GGTCGTGGAGAGTTTCACTGTGCAGCGG
250 260
>>EM_OM: AB610140 AB610140.1 Bos taurus BoLA-DRB3 gene for major histocompatibility complex class II DR-beta chain,
partial cds, allele: BoLA-DRB3*4802. (281 nt)
initn: 1173 init1: 1173 opt: 1173 Z-score: 1401.7 bits: 267.0 E(219849525): 4.2e-67
banded Smith-Waterman score: 1173; 96.8% identity (96.8% similar) in 249 nt overlap
(1-249:23-271)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
::::::: ::::::::::::::::::::::::::::::
EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGAC
10 20 30 40 50 60
40 50 60 70 80 90
DERB3_ CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
::::::::::::::: :::::::::: :::::::::::::::::::::::::::::::::
EM_OM: CGAGCGGGTGCGGTTGCTGGACAGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGA
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
:::::::::::::::::::::::::::::::::::::::::::::::::::: :::::::
EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGTACTG
130 140 150 160 170 180
160 170 180 190 200 210
130
DERB3_ GAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACA
:::::::::::::::::::::::::::: ::::::::::::::::::::::::::::::
EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCAGAGGCGGGCCGCGGTGGACACGTACTGCAGACA
190 200 210 220 230 240
220 230 240
DERB3_ CAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::::::::::::: :::::::::::::::
EM_OM: CAACTACGGGGTCGTGGAGAGTTTCACTGTGCAGCGGCGAG
250 260 270 280
>>EM_OM: AF144543 AF144543.1 Bos taurus clone EFC13.1 MHC class II antigen BoLA-DRB3 gene, exon 2 and partial cds. (249 nt)
initn: 1164 init1: 1164 opt: 1164 Z-score: 1392.3 bits: 265.1 E(219849525): 1.6e-66
banded Smith-Waterman score: 1164; 96.4% identity (96.4% similar) in 249 nt overlap
(1-249:1-249)
10 20 30 40 50 60
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
:::::::::::::: :::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
10 20 30 40 50 60
70 80 90 100 110 120
DERB3_ AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
:::: :::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: AGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
70 80 90 100 110 120
130 140 150 160 170 180
DERB3_ GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG
::: :::::::::::::::::: ::::::: :: : ::::::::::::::::::::::::
EM_OM: GCGTTGACCGAGCTGGGGCGGCAGGACGCCGAGCAGTGGAACAGCCAGAAGGACTTCCTG
130 140 150 160 170 180
190 200 210 220 230 240
DERB3_ GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT
:::: ::::::::::::::::::::::::::::::: :::::::::::::::::::::::
EM_OM: GAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGATACAACTACGGGGTCGGTGAGAGT
190 200 210 220 230 240
DERB3_ TTCACTGTG
:::::::::
EM_OM: TTCACTGTG
>>EM_OM: AJ277153 AJ277153.1 Bos indicus gudali partial BLA-DRB3 gene for MHC class II antigen, exon 2, allele
DRB3*4401 (249 nt)
initn: 1164 init1: 1164 opt: 1164 Z-score: 1392.3 bits: 265.1 E(219849525): 1.6e-66
banded Smith-Waterman score: 1164; 96.4% identity (96.4% similar) in 249 nt overlap
(1-249:1-249)
10 20 30 40 50 60
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
:::::::::::::: :::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
10 20 30 40 50 60
70 80 90 100 110 120
DERB3_ AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
:::: :::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: AGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
70 80 90 100 110 120
130 140 150 160 170 180
DERB3_ GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG
::: :::::::::::::::::: ::::::: :: : ::::::::::::::::::::::::
EM_OM: GCGTTGACCGAGCTGGGGCGGCAGGACGCCGAGCAGTGGAACAGCCAGAAGGACTTCCTG
130 140 150 160 170 180
190 200 210 220 230 240
DERB3_ GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT
:::: ::::::::::::::::::::::::::::::: :::::::::::::::::::::::
EM_OM: GAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGATACAACTACGGGGTCGGTGAGAGT
190 200 210 220 230 240
DERB3_ TTCACTGTG
:::::::::
EM_OM: TTCACTGTG
>>EM_OM: LC455469 LC455469.1 Bos indicus Daeinawi29 BoLA-DRB3
131
gene for MHC class II antigen, partial cds. (280 nt)
initn: 1164 init1: 1164 opt: 1164 Z-score: 1391.0 bits: 265.0 E(219849525): 1.7e-66
banded Smith-Waterman score: 1164; 96.4% identity (96.4% similar) in 249 nt overlap
(1-249:23-271)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
::::::::::::::::::::::::::::::::::::::
EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
10 20 30 40 50 60
40 50 60 70 80 90
DERB3_ CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
:::::::::::::::::::::::::: :: : ::::::::::::: :::::::::::::
EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATACTTCTATAATGGAGAAGAGTCCGTGCGCTTCGA
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
130 140 150 160 170 180
160 170 180 190 200 210
DERB3_ GAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACA
:::::::::::::::::::::::::::: :::::::: :::::::::::::::::::::
EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCAGAAGCGGGCCGAGGTGGACACGTACTGCAGACA
190 200 210 220 230 240
220 230 240
DERB3_ CAACTACGGGGTCGGTGAGAGTTTCACTGTG
::::::::::::::: :::::::::::::::
EM_OM: CAACTACGGGGTCGGGGAGAGTTTCACTGTGCAGCGGCGA
250 260 270 280
>>EM_OM: AB558437 AB558437.1 Bos taurus BoLA-DRB3 gene for MHC class II DR beta chain, partial cds, allele:
BoLA-DRB3*4401. (281 nt)
initn: 1164 init1: 1164 opt: 1164 Z-score: 1390.9 bits: 265.0 E(219849525): 1.7e-66
banded Smith-Waterman score: 1164; 96.4% identity (96.4% similar) in 249 nt overlap
(1-249:23-271)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
:::::::::::::: :::::::::::::::::::::::
EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGAC
10 20 30 40 50 60
40 50 60 70 80 90
DERB3_ CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
:::::::::::::::::::::::::: :::::::::::::::::::::::::::::::::
EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGA
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
::::::::::::::::::::::::: :::::::::::::::::: ::::::: :: : ::
EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGTTGACCGAGCTGGGGCGGCAGGACGCCGAGCAGTG
130 140 150 160 170 180
160 170 180 190 200 210
DERB3_ GAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACA
:::::::::::::::::::::::::: ::::::::::::::::::::::::::::::: :
EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGATA
190 200 210 220 230 240
220 230 240
DERB3_ CAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::::::::::::::::::::::::::::::
EM_OM: CAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGAG
250 260 270 280
>>EM_OM: AB610139 AB610139.1 Bos taurus BoLA-DRB3 gene for major histocompatibility complex class II DR-beta chain,
partial cds, allele: BoLA-DRB3*4401. (281 nt)
initn: 1164 init1: 1164 opt: 1164 Z-score: 1390.9 bits: 265.0 E(219849525): 1.7e-66
banded Smith-Waterman score: 1164; 96.4% identity (96.4% similar) in 249 nt overlap
(1-249:23-271)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
:::::::::::::: :::::::::::::::::::::::
EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGAC
10 20 30 40 50 60
132
40 50 60 70 80 90
DERB3_ CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
:::::::::::::::::::::::::: :::::::::::::::::::::::::::::::::
EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGA
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
::::::::::::::::::::::::: :::::::::::::::::: ::::::: :: : ::
EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGTTGACCGAGCTGGGGCGGCAGGACGCCGAGCAGTG
130 140 150 160 170 180
160 170 180 190 200 210
DERB3_ GAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACA
:::::::::::::::::::::::::: ::::::::::::::::::::::::::::::: :
EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGATA
190 200 210 220 230 240
220 230 240
DERB3_ CAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::::::::::::::::::::::::::::::
EM_OM: CAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGAG
250 260 270 280
>>EM_OM: KY682173 KY682173.1 Bos grunniens MHC class II antigen (MHC-DRB) mRNA, complete cds. (973 nt)
initn: 1164 init1: 1164 opt: 1164 Z-score: 1377.1 bits: 264.3 E(219849525): 2.8e-66
banded Smith-Waterman score: 1164; 96.4% identity (96.4% similar) in 249 nt overlap
(1-249:131-379)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTC
:::::::::::::: :::::::::::::::
EM_OM: TGGGCCAGGGAGATCCAACCACATTTCCTGGAGTATTATAAGAGCGAGTGTCATTTCTTC
110 120 130 140 150 160
40 50 60 70 80 90
DERB3_ AACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTG
:::::::::::::::::::::::::::::::::: :::::::::::::::::::::::::
EM_OM: AACGGGACCGAGCGGGTGCGGTTCCTGGACAGATACTACACTAATGGAGAAGAGACCGTG
170 180 190 200 210 220
100 110 120 130 140 150
DERB3_ CGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCC
::::::::::::::::::::::::::::::::: :::::::::::::::::: :::::::
EM_OM: CGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGTTGACCGAGCTGGGGCGGCAGGACGCC
230 240 250 260 270 280
160 170 180 190 200 210
DERB3_ AAGTACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTAC
:: : :::::::::::::::::::::::::::: :::::::::::::::::::::::::
EM_OM: GAGCAGTGGAACAGCCAGAAGGACTTCCTGGAGCGGGCGCGGGCCGCGGTGGACACGTAC
290 300 310 320 330 340
220 230 240
DERB3_ TGCAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::::: ::::::::::::::::::::::::::::::::
EM_OM: TGCAGATACAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGAGTGGAACCTATA
350 360 370 380 390 400
EM_OM: GTGACTGTGTATCCTGCAAAGACCCAGCCCCTGCAGCACCACAACCTCCTGGTCTGCTCT
410 420 430 440 450 460
>>EM_OM: Z48224 Z48224.1 B.indicus BoLA DRB3 gene for first domain of the MHC class 2 molecule, beta chain. (250 nt)
initn: 1155 init1: 1155 opt: 1155 Z-score: 1381.5 bits: 263.1 E(219849525): 6.3e-66
banded Smith-Waterman score: 1155; 96.0% identity (96.0% similar) in 249 nt overlap
(1-249:2-250)
10 20 30 40 50
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGA
:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GGAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGA
10 20 30 40 50 60
60 70 80 90 100 110
DERB3_ CAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCG
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: CAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCG
70 80 90 100 110 120
120 130 140 150 160 170
DERB3_ GGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCT
::::::::::::::: ::::::::::::::: ::::::::::::::::::::::::::::
EM_OM: GGCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCT
133
130 140 150 160 170 180
180 190 200 210 220 230
DERB3_ GGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAG
:::: :: :::::::: :::::::: : :::::::::::::::::::::::::::::
EM_OM: GGAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAG
190 200 210 220 230 240
240
DERB3_ TTTCACTGTG
::::::::::
EM_OM: TTTCACTGTG
250
>>EM_OM: MF960855 MF960855.1 Saiga tatarica isolate saigak5_4 MHC class II antigen (DRB3) gene, partial cds. (250 nt)
initn: 1155 init1: 1155 opt: 1155 Z-score: 1381.5 bits: 263.1 E(219849525): 6.3e-66
banded Smith-Waterman score: 1155; 96.0% identity (96.0% similar) in 249 nt overlap
(1-249:2-250)
10 20 30 40 50
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGA
:::::::::::::: ::::::::::::::::::::::::::::::::: :::::::: :
EM_OM: GGAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGTGGTTCCTGTA
10 20 30 40 50 60
60 70 80 90 100 110
DERB3_ CAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCG
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: CAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCG
70 80 90 100 110 120
120 130 140 150 160 170
DERB3_ GGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCT
:::: :::::::::::::::::::::::::::::::::::::: :::::::::::::::
EM_OM: GGCGTTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACGACCAGAAGGACTTCCT
130 140 150 160 170 180
180 190 200 210 220 230
DERB3_ GGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAG
::::::: :::::::::::::::::::::::::::::::::::::::::::: ::: ::
EM_OM: GGAGCAGAAGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGTTGACAG
190 200 210 220 230 240
240
DERB3_ TTTCACTGTG
::::::::::
EM_OM: TTTCACTGTG
250
>>EM_OM: LC455467 LC455467.1 Bos indicus Daeinawi27 BoLA-DRB3 gene for MHC class II antigen, partial cds. (280 nt)
initn: 1155 init1: 1155 opt: 1155 Z-score: 1380.2 bits: 263.1 E(219849525): 6.6e-66
banded Smith-Waterman score: 1155; 96.0% identity (96.0% similar) in 249 nt overlap
(1-249:23-271)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
:::::: :::::::::::::::::::::::::::::::
EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATCATAAGAGAGAGTGTCATTTCTTCAACGGGAC
10 20 30 40 50 60
40 50 60 70 80 90
DERB3_ CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
:::::::::::::::::::::::::: :: : ::::::::::::: :::::::::::::
EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATACTTCTATAATGGAGAAGAGTCCGTGCGCTTCGA
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
130 140 150 160 170 180
160 170 180 190 200 210
DERB3_ GAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACA
:::::::::::::::::::::::::: : ::::::::::::::::::::::::::::::
EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCGGAGGCGGGCCGCGGTGGACACGTACTGCAGACA
190 200 210 220 230 240
220 230 240
DERB3_ CAACTACGGGGTCGGTGAGAGTTTCACTGTG
::::::::::::::: :::::::::::::::
EM_OM: CAACTACGGGGTCGGGGAGAGTTTCACTGTGCAGCGGCGA
250 260 270 280
134
>>EM_OM: AB558435 AB558435.1 Bos taurus BoLA-DRB3 gene for MHC class II DR beta chain, partial cds, allele:
BoLA-DRB3*2703. (281 nt)
initn: 1155 init1: 1155 opt: 1155 Z-score: 1380.2 bits: 263.1 E(219849525): 6.6e-66
banded Smith-Waterman score: 1155; 96.0% identity (96.0% similar) in 249 nt overlap
(1-249:23-271)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
::::::::::::::::::::::::::::::::::::::
EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
10 20 30 40 50 60
40 50 60 70 80 90
DERB3_ CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
:::::::::::::::::::::::::::::::::::: ::::::::::::::: :::::::
EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTG
130 140 150 160 170 180
160 170 180 190 200 210
DERB3_ GAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACA
::::::::::::::::::::::::: :: :::::::: :::::::: : ::::::::
EM_OM: GAACAGCCAGAAGGACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACA
190 200 210 220 230 240
220 230 240
DERB3_ CAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::::::::::::::::::::::::::::::
EM_OM: CAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGAG
250 260 270 280
>>EM_OM: AB523828 AB523828.1 Bos taurus BoLA-DRB3 gene for MHC class II antigen, partial cds, allele: DRB3*2703. (281 nt)
initn: 1155 init1: 1155 opt: 1155 Z-score: 1380.2 bits: 263.1 E(219849525): 6.6e-66
banded Smith-Waterman score: 1155; 96.0% identity (96.0% similar) in 249 nt overlap
(1-249:23-271)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
::::::::::::::::::::::::::::::::::::::
EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
10 20 30 40 50 60
40 50 60 70 80 90
DERB3_ CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
:::::::::::::::::::::::::::::::::::: ::::::::::::::: :::::::
EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTG
130 140 150 160 170 180
160 170 180 190 200 210
DERB3_ GAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACA
::::::::::::::::::::::::: :: :::::::: :::::::: : ::::::::
EM_OM: GAACAGCCAGAAGGACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACA
190 200 210 220 230 240
220 230 240
DERB3_ CAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::::::::::::::::::::::::::::::
EM_OM: CAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGAG
250 260 270 280
>>EM_OM: JN887489 JN887489.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene, BoLA-DRB3-4 allele, exon 2 and partial
cds. (301 nt)
initn: 1155 init1: 1155 opt: 1155 Z-score: 1379.4 bits: 263.0 E(219849525): 6.8e-66
banded Smith-Waterman score: 1155; 96.0% identity (96.0% similar) in 249 nt overlap
(1-249:28-276)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAAC
:::::::::::::::::::::::::::::::::
EM_OM: TATCCTCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAAC
135
10 20 30 40 50 60
40 50 60 70 80 90
DERB3_ GGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGC
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGC
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ TTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAG
::::::::::::::::::::::::::::::::::::::::: ::::::::::::::: ::
EM_OM: TTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCCGAG
130 140 150 160 170 180
160 170 180 190 200 210
DERB3_ TACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGC
:::::::::::::::::::::::::::::: :: :::::::: :::::::: : :::
EM_OM: TACTGGAACAGCCAGAAGGACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGC
190 200 210 220 230 240
220 230 240
DERB3_ AGACACAACTACGGGGTCGGTGAGAGTTTCACTGTG
::::::::::::::::::::::::::::::::::::
EM_OM: AGACACAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGAGGTGAGCGCGAATTT
250 260 270 280 290 300
EM_OM: A
>>EM_OM: JN887488 JN887488.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene, BoLA-DRB3-3 allele, exon 2 and partial
cds. (303 nt)
initn: 1155 init1: 1155 opt: 1155 Z-score: 1379.3 bits: 263.0 E(219849525): 6.8e-66
banded Smith-Waterman score: 1155; 96.0% identity (96.0% similar) in 249 nt overlap
(1-249:29-277)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAA
::::::::::::::::::::::::::::::::
EM_OM: TTATCCTCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAA
10 20 30 40 50 60
40 50 60 70 80 90
DERB3_ CGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCG
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: CGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCG
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ CTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAA
:::::::::::::::::::::::::::::::::::::::::: ::::::::::::::: :
EM_OM: CTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCCGA
130 140 150 160 170 180
160 170 180 190 200 210
DERB3_ GTACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTG
::::::::::::::::::::::::::::::: :: :::::::: :::::::: : ::
EM_OM: GTACTGGAACAGCCAGAAGGACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGGTGTG
190 200 210 220 230 240
220 230 240
DERB3_ CAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::::::::::::::::::::::::::::::::::::
EM_OM: CAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGAGGTGAGCGCGAATT
250 260 270 280 290 300
EM_OM: TAA
>>EM_EST: CO882141 CO882141.1 BovGen_10466 normal cattle brain Bos taurus cDNA clone RZPDp1056P1415Q 5', mRNA sequence. (777 nt)
initn: 1155 init1: 1155 opt: 1155 Z-score: 1368.8 bits: 262.4 E(219849525): 1e-65
banded Smith-Waterman score: 1155; 96.0% identity (96.0% similar) in 249 nt overlap
(1-249:130-378)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTC
::::::::::::::::::::::::::::::
EM_EST TGGGCCAGGGAGATCCAACCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTC
100 110 120 130 140 150
40 50 60 70 80 90
DERB3_ AACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTG
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_EST AACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTG
136
160 170 180 190 200 210
100 110 120 130 140 150
DERB3_ CGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCC
:::::::::::::::::::::::::::::::::::::::::::: :::::::::::::::
EM_EST CGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCC
220 230 240 250 260 270
160 170 180 190 200 210
DERB3_ AAGTACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTAC
:::::::::::::::::::::::::::::::: :: :::::::: :::::::: :
EM_EST GAGTACTGGAACAGCCAGAAGGACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGGTG
280 290 300 310 320 330
220 230 240
DERB3_ TGCAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::::::::::::::::::::::::::::::::::::::
EM_EST TGCAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGAGTGGAGCCTACA
340 350 360 370 380 390
EM_EST GTGACTGTGTATCCTGCAAAGACTCAGCCCCTGCAGCACCACAACCTCCTGGTCTGCTCT
400 410 420 430 440 450
>>EM_OM: AY125892 AY125892.1 Bos taurus MHC class II antigen (BoLA-DRB3) mRNA, BoLA-DRB3*2703 allele, complete cds. (801 nt)
initn: 1155 init1: 1155 opt: 1155 Z-score: 1368.5 bits: 262.4 E(219849525): 1e-65
banded Smith-Waterman score: 1155; 96.0% identity (96.0% similar) in 249 nt overlap
(1-249:112-360)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTC
::::::::::::::::::::::::::::::
EM_OM: TGGGCCAGGGAGATCCAACCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTC
90 100 110 120 130 140
40 50 60 70 80 90
DERB3_ AACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTG
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: AACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTG
150 160 170 180 190 200
100 110 120 130 140 150
DERB3_ CGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCC
:::::::::::::::::::::::::::::::::::::::::::: :::::::::::::::
EM_OM: CGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCC
210 220 230 240 250 260
160 170 180 190 200 210
DERB3_ AAGTACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTAC
:::::::::::::::::::::::::::::::: :: :::::::: :::::::: :
EM_OM: GAGTACTGGAACAGCCAGAAGGACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGGTG
270 280 290 300 310 320
220 230 240
DERB3_ TGCAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::::::::::::::::::::::::::::::::::::::
EM_OM: TGCAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGAGTGGAGCCTACA
330 340 350 360 370 380
EM_OM: GTGACTGTGTATCCTGCAAAGACTCAGCCCCTGCAGCACCACAACCTCCTGGTCTGCTCT
390 400 410 420 430 440
>>EM_OM: U00140 U00140.1 Bos taurus Swiss Simmental breed DR beta-chain antigen binding domain, MHC class II DRB
(Bota-DRB06) gene, partial CDS. (359 nt)
initn: 1150 init1: 1150 opt: 1150 Z-score: 1371.5 bits: 261.8 E(219849525): 1.6e-65
banded Smith-Waterman score: 1150; 96.0% identity (96.0% similar) in 248 nt overlap
(2-249:1-248)
10 20 30 40 50 60
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: AGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
10 20 30 40 50
70 80 90 100 110 120
DERB3_ AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
60 70 80 90 100 110
130 140 150 160 170 180
DERB3_ GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG
:::::::::::::: ::::::::::::::: :::::::::::::::::::::::::::::
EM_OM: GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG
137
120 130 140 150 160 170
190 200 210 220 230 240
DERB3_ GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT
::: :: :::::::: :::::::: : ::::::::::::::::::::::::::::::
EM_OM: GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGT
180 190 200 210 220 230
DERB3_ TTCACTGTG
:::::::::
EM_OM: TTCACTGTGCAGCGGCGAGGTGAGTGCGGGGGTGGACGGCCAGAGTGGAGCAGTGTGTGT
240 250 260 270 280 290
>>EM_OM: AJ302760 AJ302760.1 Damaliscus pygargus phillipsi DRB gene for MHC class II antigen, exon 2 (249 nt)
initn: 1146 init1: 1146 opt: 1146 Z-score: 1370.8 bits: 261.1 E(219849525): 2.5e-65
banded Smith-Waterman score: 1146; 95.6% identity (95.6% similar) in 249 nt overlap
(1-249:1-249)
10 20 30 40 50 60
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
::::::: :::::: :::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GAGTATTCTAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
10 20 30 40 50 60
70 80 90 100 110 120
DERB3_ AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
:::: ::::: :::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: AGATACTACAGTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
70 80 90 100 110 120
130 140 150 160 170 180
DERB3_ GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG
:::::::::::::::::::::::::::::: :: : ::::::::::::::::: :::::
EM_OM: GCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGCAATGGAACAGCCAGAAGGAGATCCTG
130 140 150 160 170 180
190 200 210 220 230 240
DERB3_ GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT
::::::: :::::::::::::::::::::::::::: :::::::::::::::::::::::
EM_OM: GAGCAGGAGCGGGCCGCGGTGGACACGTACTGCAGATACAACTACGGGGTCGGTGAGAGT
190 200 210 220 230 240
DERB3_ TTCACTGTG
:::::::::
EM_OM: TTCACTGTG
>>EM_OM: Z82031 Z82031.1 Bos indicus BoLA-DRB3 gene, exon 2, allele DRB3*2705 (249 nt)
initn: 1146 init1: 1146 opt: 1146 Z-score: 1370.8 bits: 261.1 E(219849525): 2.5e-65
banded Smith-Waterman score: 1146; 95.6% identity (95.6% similar) in 249 nt overlap
(1-249:1-249)
10 20 30 40 50 60
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
10 20 30 40 50 60
70 80 90 100 110 120
DERB3_ AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
70 80 90 100 110 120
130 140 150 160 170 180
DERB3_ GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG
:::::::::::::: ::::::::::::::: :::::::::::::::::::::::::::::
EM_OM: GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG
130 140 150 160 170 180
190 200 210 220 230 240
DERB3_ GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT
::: :: ::::::::::::::::: : :::::::::::::::::::::: ::::::
EM_OM: GAGGAGAGGCGGGCCGCGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGTGGAGAGT
190 200 210 220 230 240
DERB3_ TTCACTGTG
:::::::::
EM_OM: TTCACTGTG
138
>>EM_OM: MF960850 MF960850.1 Saiga tatarica isolate saigak1_11 MHC class II antigen (DRB3) gene, partial cds. (250 nt)
initn: 1146 init1: 1146 opt: 1146 Z-score: 1370.7 bits: 261.1 E(219849525): 2.5e-65
banded Smith-Waterman score: 1146; 95.6% identity (95.6% similar) in 249 nt overlap
(1-249:2-250)
10 20 30 40 50
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGA
:::::::::::::: :::::::::::::::::::::::::::::::::::::::::: :
EM_OM: GGAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGCA
10 20 30 40 50 60
60 70 80 90 100 110
DERB3_ CAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCG
:::::::::::::::::::::::::::::::::::::::::::::::::::::::: :::
EM_OM: CAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTACCG
70 80 90 100 110 120
120 130 140 150 160 170
DERB3_ GGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCT
:::: :::::::::::::::::::::::::::::::::::::: :::::::::::: ::
EM_OM: GGCGTTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACGACCAGAAGGACTTACT
130 140 150 160 170 180
180 190 200 210 220 230
DERB3_ GGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAG
::::::: :::::::: ::::::::::::::::::::::::::::::::::::::: ::
EM_OM: GGAGCAGAGGCGGGCCGAGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGACAG
190 200 210 220 230 240
240
DERB3_ TTTCACTGTG
::::::::::
EM_OM: TTTCACTGTG
250
>>EM_OM: X87664 X87664.1 B.taurus class II DR-beta gene, exon 2, allele BoLADRB3*2002 (250 nt)
initn: 1146 init1: 1146 opt: 1146 Z-score: 1370.7 bits: 261.1 E(219849525): 2.5e-65
banded Smith-Waterman score: 1146; 95.6% identity (95.6% similar) in 249 nt overlap
(1-249:2-250)
10 20 30 40 50
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGA
::::::: ::::::::::::::::::::::::::::::::::::::::::::: :::::
EM_OM: GGAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTGCTGGA
10 20 30 40 50 60
60 70 80 90 100 110
DERB3_ CAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCG
::::: :: : ::::::::::::: :::::::::::::::::::::::::::::::::
EM_OM: CAGATACTTCTATAATGGAGAAGAGCGCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCG
70 80 90 100 110 120
120 130 140 150 160 170
DERB3_ GGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCT
::::::::::::::::::::::::::::::: ::::::::::::::::::::::::::::
EM_OM: GGCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCT
130 140 150 160 170 180
180 190 200 210 220 230
DERB3_ GGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAG
::::::: :::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GGAGCAGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAG
190 200 210 220 230 240
240
DERB3_ TTTCACTGTG
::::::::::
EM_OM: TTTCACTGTG
250
>>EM_OM: AY805108 AY805108.1 Bison bison MHC class II beta chain (Bibi-DRB3) gene, Bibi-DRB3*1001 allele, exon 2 and
partial cds. (252 nt)
initn: 1146 init1: 1146 opt: 1146 Z-score: 1370.6 bits: 261.1 E(219849525): 2.5e-65
banded Smith-Waterman score: 1146; 95.6% identity (95.6% similar) in 249 nt overlap
(1-249:3-251)
10 20 30 40 50
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGG
:::::: ::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: TGGAGTATCGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGG
10 20 30 40 50 60
139
60 70 80 90 100 110
DERB3_ ACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCC
:::::: :::::: ::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: ACAGATACTACACCAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCC
70 80 90 100 110 120
120 130 140 150 160 170
DERB3_ GGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCC
:::::::::::::::::::::::: ::::::: :::::::::::::::::::::::::::
EM_OM: GGGCGGTGACCGAGCTGGGGCGGCAGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCC
130 140 150 160 170 180
180 190 200 210 220 230
DERB3_ TGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGA
::::: :: :::::::::::::::::::::::::::::::::::::::::::: ::::
EM_OM: TGGAGGAGAGGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGTGGAGA
190 200 210 220 230 240
240
DERB3_ GTTTCACTGTG
:::::::::::
EM_OM: GTTTCACTGTGC
250
>>EM_OM: M99052 M99052.1 Bovine MHC class II BoLA-DR-beta 3 gene, exon 2. (261 nt)
initn: 1146 init1: 1146 opt: 1146 Z-score: 1370.2 bits: 261.1 E(219849525): 2.5e-65
banded Smith-Waterman score: 1146; 95.6% identity (95.6% similar) in 249 nt overlap
(1-249:10-258)
10 20 30 40 50
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGG
::::::::::::::::::::::::::::::::::::::::::::::::: :
EM_OM: CATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCAG
10 20 30 40 50 60
60 70 80 90 100 110
DERB3_ TTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGC
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: TTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGC
70 80 90 100 110 120
120 130 140 150 160 170
DERB3_ GAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAG
::::::::::::::::::::::: ::::::::::::::: ::::::::::::::::::::
EM_OM: GAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAG
130 140 150 160 170 180
180 190 200 210 220 230
DERB3_ GACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTC
:::::::::::: :: :::::::: :::::::: : :::::::::::::::::::::
EM_OM: GACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTC
190 200 210 220 230 240
240
DERB3_ GGTGAGAGTTTCACTGTG
::::::::::::::::::
EM_OM: GGTGAGAGTTTCACTGTGCAG
250 260
>>EM_OM: LC455502 LC455502.1 Bos indicus Nyalawi_6 BoLA-DRB3 gene for MHC class II antigen, partial cds. (280 nt)
initn: 1146 init1: 1146 opt: 1146 Z-score: 1369.5 bits: 261.1 E(219849525): 2.6e-65
banded Smith-Waterman score: 1146; 95.6% identity (95.6% similar) in 249 nt overlap
(1-249:23-271)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
::::::::::::::::::::::::::::::::::::::
EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
10 20 30 40 50 60
40 50 60 70 80 90
DERB3_ CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
:::::::::::::::::::::::::: :: : ::::::::::::: ::::::::::::
EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATACTTCCATAATGGAGAAGAGTACGTGCGCTTCGA
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
::::::::::::::::::::::::::::::::::::::::: ::::: :::: :::::::
EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCAGCCGGTCGCCGAGTACTG
130 140 150 160 170 180
140
160 170 180 190 200 210
DERB3_ GAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACA
:::::::::::::::::::::::::: :: ::::::::::::::::::::::::::::::
EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCGGGGGCGGGCCGCGGTGGACACGTACTGCAGACA
190 200 210 220 230 240
220 230 240
DERB3_ CAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::::::::::::::::::::::::::::::
EM_OM: CAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGA
250 260 270 280
>>EM_OM: AB523829 AB523829.1 Bos taurus BoLA-DRB3 gene for MHC class II antigen, partial cds, allele: DRB3*2705. (281 nt)
initn: 1146 init1: 1146 opt: 1146 Z-score: 1369.4 bits: 261.1 E(219849525): 2.6e-65
banded Smith-Waterman score: 1146; 95.6% identity (95.6% similar) in 249 nt overlap
(1-249:23-271)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
::::::::::::::::::::::::::::::::::::::
EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
10 20 30 40 50 60
40 50 60 70 80 90
DERB3_ CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
:::::::::::::::::::::::::::::::::::: ::::::::::::::: :::::::
EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTG
130 140 150 160 170 180
160 170 180 190 200 210
DERB3_ GAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACA
::::::::::::::::::::::::: :: ::::::::::::::::: : ::::::::
EM_OM: GAACAGCCAGAAGGACTTCCTGGAGGAGAGGCGGGCCGCGGTGGACAGGGTGTGCAGACA
190 200 210 220 230 240
220 230 240
DERB3_ CAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::::::::::::: :::::::::::::::
EM_OM: CAACTACGGGGTCGTGGAGAGTTTCACTGTGCAGCGGCGAG
250 260 270 280
>>EM_OM: AB523830 AB523830.1 Bos taurus BoLA-DRB3 gene for MHC class II antigen, partial cds, allele: DRB3*2709. (281 nt)
initn: 1146 init1: 1146 opt: 1146 Z-score: 1369.4 bits: 261.1 E(219849525): 2.6e-65
banded Smith-Waterman score: 1146; 95.6% identity (95.6% similar) in 249 nt overlap
(1-249:23-271)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
::::::::::::::::::::::::::::::::::::::
EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
10 20 30 40 50 60
40 50 60 70 80 90
DERB3_ CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
:::::::::::::::::::::::::: :::::::::::::::::::::::::::::::::
EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGA
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
:::::::::::::::::::::::::::::::::::: ::::::::::::::: :::::::
EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTG
130 140 150 160 170 180
160 170 180 190 200 210
DERB3_ GAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACA
::::::::::::::::::::::::: :: :::::::: :::::::: : ::::::::
EM_OM: GAACAGCCAGAAGGACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACA
190 200 210 220 230 240
220 230 240
DERB3_ CAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::::::::::::::::::::::::::::::
EM_OM: CAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGAG
250 260 270 280
>>EM_OM: DQ834889 DQ834889.1 Bos indicus genotype HaeIII-a MHC
141
class II antigen (BoLa-DRB3) gene, exon 2 and partial cds. (284 nt)
initn: 1146 init1: 1146 opt: 1146 Z-score: 1369.3 bits: 261.1 E(219849525): 2.6e-65
banded Smith-Waterman score: 1146; 95.6% identity (95.6% similar) in 249 nt overlap
(1-249:27-275)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACG
::::::: ::::::::::::::::::::::::::
EM_OM: ATCCTCTCTCTGCAGCACATTTCCTGGAGTATTGTAAGAGAGAGTGTCATTTCTTCAACG
10 20 30 40 50 60
40 50 60 70 80 90
DERB3_ GGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCT
::::::::::::::::::: :::::::::: :: : ::::::::::::: ::::::::
EM_OM: GGACCGAGCGGGTGCGGTTGCTGGACAGATACTTCTATAATGGAGAAGAGCGCGTGCGCT
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ TCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGT
:::::::::::::::::::::::::::::::::::::::::::::::::::::::: :::
EM_OM: TCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGT
130 140 150 160 170 180
160 170 180 190 200 210
DERB3_ ACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCA
:::::::::::::::::::::::::::::::: ::::::::::::::::::::::::::
EM_OM: ACTGGAACAGCCAGAAGGACTTCCTGGAGCAGAGGCGGGCCGCGGTGGACACGTACTGCA
190 200 210 220 230 240
220 230 240
DERB3_ GACACAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::::::::::::::::::::::::::::::::::
EM_OM: GACACAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGA
250 260 270 280
>>EM_OM: KF918674 KF918674.1 Bos taurus isolate gs4 MHC class II antigen (BoLA-DRB3) gene, partial cds. (294 nt)
initn: 1146 init1: 1146 opt: 1146 Z-score: 1368.9 bits: 261.0 E(219849525): 2.7e-65
banded Smith-Waterman score: 1146; 95.6% identity (95.6% similar) in 249 nt overlap
(1-249:10-258)
10 20 30 40 50
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGG
::::::: :::::::::::::::::::::::::::::::::::::::::::
EM_OM: CATTTCCTGGAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGG
10 20 30 40 50 60
60 70 80 90 100 110
DERB3_ TTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGC
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: TTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGC
70 80 90 100 110 120
120 130 140 150 160 170
DERB3_ GAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAG
::::::::::::::::::::::: ::::::::::::::: ::::::::::::::::::::
EM_OM: GAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAG
130 140 150 160 170 180
180 190 200 210 220 230
DERB3_ GACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTC
:::::::::::: :: :::::::: :::::::: : :::::::::::::::::::::
EM_OM: GACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTC
190 200 210 220 230 240
240
DERB3_ GGTGAGAGTTTCACTGTG
::::::::::::::::::
EM_OM: GGTGAGAGTTTCACTGTGCAGCGGCGAGGTGAGCGCGGGGGTGAAGGGCGAATT
250 260 270 280 290
>>EM_OM: KF929427 KF929427.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene, partial cds. (294 nt)
rev-comp initn: 1146 init1: 1146 opt: 1146 Z-score: 1368.9 bits: 261.0 E(219849525): 2.7e-65
banded Smith-Waterman score: 1146; 95.6% identity (95.6% similar) in 249 nt overlap
(249-1:37-285)
250 240 230
DERB3- CACAGTGAAACTCTCACCGACCCCGTAGTT
:::::::::::::::: :::::::::::::
EM_OM: CCCTTCACCCCCGCGCTCACCTCGCCGCTGCACAGTGAAACTCTCATCGACCCCGTAGTT
10 20 30 40 50 60
220 210 200 190 180 170
DERB3- GTGTCTGCAGTACGTGTCCACCGCGGCCCGCGCCTGCTCCAGGAAGTCCTTCTGGCTGTT
142
::::::::: : :::::::: :::::::: :: ::::::::::::::::::::::::
EM_OM: GTGTCTGCACACCCTGTCCACCTCGGCCCGCCTCTCCTCCAGGAAGTCCTTCTGGCTGTT
70 80 90 100 110 120
160 150 140 130 120 110
DERB3- CCAGTACTTGGCGTCCGGCCGCCCCAGCTCGGTCACCGCCCGGAACTCGCCCCAGTCGCT
:::::::: ::::::::::::::: :::::::::::::::::::::::::::::::::::
EM_OM: CCAGTACTCGGCGTCCGGCCGCCCTAGCTCGGTCACCGCCCGGAACTCGCCCCAGTCGCT
130 140 150 160 170 180
100 90 80 70 60 50
DERB3- GTCGAAGCGCACGGTCTCTTCTCCATTAGTGTAGCATCTGTCCAGGAACCGCACCCGCTC
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GTCGAAGCGCACGGTCTCTTCTCCATTAGTGTAGCATCTGTCCAGGAACCGCACCCGCTC
190 200 210 220 230 240
40 30 20 10
DERB3- GGTCCCGTTGAAGAAATGACACTCTCTCTTATAATACTC
:::::::::::::::::::::::::::::::::::::::
EM_OM: GGTCCCGTTGAAGAAATGACACTCTCTCTTATAATACTCCAGGAAATG
250 260 270 280 290
>>EM_EST: BE487505 BE487505.1 176287 BARC 5BOV Bos taurus cDNA 5', mRNA sequence. (439 nt)
initn: 1146 init1: 1146 opt: 1146 Z-score: 1364.4 bits: 260.8 E(219849525): 3.2e-65
banded Smith-Waterman score: 1146; 95.6% identity (95.6% similar) in 249 nt overlap
(1-249:157-405)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTC
::::::::::::::::::::::::::::::
EM_EST TGGGCCAGGGAGATCCAACCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTC
130 140 150 160 170 180
40 50 60 70 80 90
DERB3_ AACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTG
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_EST AACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTG
190 200 210 220 230 240
100 110 120 130 140 150
DERB3_ CGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCC
:::::::::::::::::::::::::::::::::::::::::::: :::::::::::::::
EM_EST CGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTAGGGCGGCCGGACGCC
250 260 270 280 290 300
160 170 180 190 200 210
DERB3_ AAGTACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTAC
:::::::::::::::::::::::::::::::: :: :::::::: :::::::: :
EM_EST GAGTACTGGAACAGCCAGAAGGACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGGTG
310 320 330 340 350 360
220 230 240
DERB3_ TGCAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::: ::::::::::::::::::::::::::::::::::
EM_EST TGCATACACAACTACGGGGTCGGTGAGAGTTTCACTGTGCAACGGCGAGTGGGAGCCTAC
370 380 390 400 410 420
EM_EST AGTGACTGTGTAT
430
>>EM_OM: AJ487835 AJ487835.1 Bos taurus partial BoLA-DRB3 gene for MHC class II antigen, BoLA-DRB3*2002 allele, exon 2 (486 nt)
initn: 1146 init1: 1146 opt: 1146 Z-score: 1363.3 bits: 260.7 E(219849525): 3.3e-65
banded Smith-Waterman score: 1146; 95.6% identity (95.6% similar) in 249 nt overlap
(1-249:57-305)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTC
::::::: ::::::::::::::::::::::
EM_OM: ATCTATCCTCTCTCTGCAGCACATTTCCTGGAGTATTGTAAGAGAGAGTGTCATTTCTTC
30 40 50 60 70 80
40 50 60 70 80 90
DERB3_ AACGGGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTG
::::::::::::::::::::::: :::::::::: :: : ::::::::::::: ::::
EM_OM: AACGGGACCGAGCGGGTGCGGTTGCTGGACAGATACTTCTATAATGGAGAAGAGCGCGTG
90 100 110 120 130 140
100 110 120 130 140 150
DERB3_ CGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCC
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: CGCTTCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCC
150 160 170 180 190 200
143
160 170 180 190 200 210
DERB3_ AAGTACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTAC
::::::::::::::::::::::::::::::::::: ::::::::::::::::::::::
EM_OM: GAGTACTGGAACAGCCAGAAGGACTTCCTGGAGCAGAGGCGGGCCGCGGTGGACACGTAC
210 220 230 240 250 260
220 230 240
DERB3_ TGCAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::::::::::::::::::::::::::::::::::::::
EM_OM: TGCAGACACAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGAGGTGAGCGCGGG
270 280 290 300 310 320
EM_OM: GGTGGACGGCCAGTGTGGAGCAGTGTGCGTGTGTGTGTGTGTGTGTGAGAGAGAGAGAGA
330 340 350 360 370 380
>>EM_OM: AF010396 AF010396.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene, partial cds. (359 nt)
initn: 1141 init1: 1141 opt: 1141 Z-score: 1360.7 bits: 259.8 E(219849525): 6.3e-65
banded Smith-Waterman score: 1141; 95.6% identity (95.6% similar) in 248 nt overlap
(2-249:1-248)
10 20 30 40 50 60
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: AGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
10 20 30 40 50
70 80 90 100 110 120
DERB3_ AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
:::: :::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: AGATACTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
60 70 80 90 100 110
130 140 150 160 170 180
DERB3_ GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG
:::::::::::::: ::::::::::::::: :::::::::::::::::::::::::::::
EM_OM: GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG
120 130 140 150 160 170
190 200 210 220 230 240
DERB3_ GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT
::: :: :::::::: :::::::: : ::::::::::::::::::::::::::::::
EM_OM: GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGGTGAGAGT
180 190 200 210 220 230
DERB3_ TTCACTGTG
:::::::::
EM_OM: TTCACTGTGCAGCGGCGAGGTGAGCGCGGGGGTGGACGGCCAATGTGGAGCAGTGTGTGT
240 250 260 270 280 290
>>EM_OM: AJ002002 AJ002002.1 Bos indicus BoLA-DRB3 gene, exon 2, allele DRB3*2707 (249 nt)
initn: 1137 init1: 1137 opt: 1137 Z-score: 1360.0 bits: 259.1 E(219849525): 9.9e-65
banded Smith-Waterman score: 1137; 95.2% identity (95.2% similar) in 249 nt overlap
(1-249:1-249)
10 20 30 40 50 60
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
10 20 30 40 50 60
70 80 90 100 110 120
DERB3_ AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
70 80 90 100 110 120
130 140 150 160 170 180
DERB3_ GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG
:::::::::::::: ::::::::::::::: :::::::::::::::::::::::::::::
EM_OM: GCGGTGACCGAGCTAGGGCGGCCGGACGCCGAGTACTGGAACAGCCAGAAGGACTTCCTG
130 140 150 160 170 180
190 200 210 220 230 240
DERB3_ GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT
::: :: :::::::: :::::::: : :::::::::::::::::::::: ::::::
EM_OM: GAGGAGAGGCGGGCCGAGGTGGACAGGGTGTGCAGACACAACTACGGGGTCGTGGAGAGT
190 200 210 220 230 240
DERB3_ TTCACTGTG
:::::::::
EM_OM: TTCACTGTG
144
>>EM_OM: AF012715 AF012715.1 Ovibos moschatus MHC class II DR beta-chain (DRB1) gene, partial cds. (249 nt)
initn: 1137 init1: 1137 opt: 1137 Z-score: 1360.0 bits: 259.1 E(219849525): 9.9e-65
banded Smith-Waterman score: 1137; 95.2% identity (95.2% similar) in 249 nt overlap
(1-249:1-249)
10 20 30 40 50 60
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
:::::: ::::::: :::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GAGTATCATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
10 20 30 40 50 60
70 80 90 100 110 120
DERB3_ AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
:::: :: : ::::::::::::: ::::::::::::::::::::::::::::::::::
EM_OM: AGATACTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
70 80 90 100 110 120
130 140 150 160 170 180
DERB3_ GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG
:::::::::::::::::::::::::::::::::::::::::::::: :::::::::::::
EM_OM: GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCTGAAGGACTTCCTG
130 140 150 160 170 180
190 200 210 220 230 240
DERB3_ GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT
:::::: ::::::::: ::::::::::::::::::::::::::::::::::::::::::
EM_OM: GAGCAGAGGCGGGCCGCCGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT
190 200 210 220 230 240
DERB3_ TTCACTGTG
:::::::::
EM_OM: TTCACTGTG
>>EM_OM: X98653 X98653.1 B.bison MHC class II DR-beta gene, exon 2 (isolate CSP 239) (250 nt)
initn: 1137 init1: 1137 opt: 1137 Z-score: 1360.0 bits: 259.1 E(219849525): 9.9e-65
banded Smith-Waterman score: 1137; 95.2% identity (95.2% similar) in 249 nt overlap
(1-249:2-250)
10 20 30 40 50
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGA
::::::: :::::::::::::::::::::::::::::: ::::::::::::::::::::
EM_OM: GGAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACTGAGCGGGTGCGGTTCCTGGA
10 20 30 40 50 60
60 70 80 90 100 110
DERB3_ CAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCG
:::::::: : ::::::::::::: :::::::::::::::::::::::::::::::::
EM_OM: CAGATGCTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCCG
70 80 90 100 110 120
120 130 140 150 160 170
DERB3_ GGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCT
::::::::::::::::::::::::: ::::::::::::::::::::::::::: ::::
EM_OM: GGCGGTGACCGAGCTGGGGCGGCCGTCCGCCAAGTACTGGAACAGCCAGAAGGAGATCCT
130 140 150 160 170 180
180 190 200 210 220 230
DERB3_ GGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAG
::::: ::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GGAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAG
190 200 210 220 230 240
240
DERB3_ TTTCACTGTG
::::::::::
EM_OM: TTTCACTGTG
250
>>EM_OM: AY805104 AY805104.1 Bison bison MHC class II beta chain (Bibi-DRB3) gene, Bibi-DRB3*0701 allele, exon 2 and
partial cds. (252 nt)
initn: 1137 init1: 1137 opt: 1137 Z-score: 1359.9 bits: 259.1 E(219849525): 1e-64
banded Smith-Waterman score: 1137; 95.2% identity (95.2% similar) in 249 nt overlap
(1-249:3-251)
10 20 30 40 50
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGG
::::::: :::::::::::::::::::::::::::::: :::::::::::::::::::
EM_OM: TGGAGTATTGTAAGAGAGAGTGTCATTTCTTCAACGGGACTGAGCGGGTGCGGTTCCTGG
145
10 20 30 40 50 60
60 70 80 90 100 110
DERB3_ ACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCC
::::::::: : ::::::::::::: ::::::::::::::::::::::::::::::::
EM_OM: ACAGATGCTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGGGCGAGTTCC
70 80 90 100 110 120
120 130 140 150 160 170
DERB3_ GGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCC
:::::::::::::::::::::::::: ::::::::::::::::::::::::::: :::
EM_OM: GGGCGGTGACCGAGCTGGGGCGGCCGTCCGCCAAGTACTGGAACAGCCAGAAGGAGATCC
130 140 150 160 170 180
180 190 200 210 220 230
DERB3_ TGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGA
:::::: :::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: TGGAGCGGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGA
190 200 210 220 230 240
240
DERB3_ GTTTCACTGTG
:::::::::::
EM_OM: GTTTCACTGTGC
250
>>EM_OM: AF162657 AF162657.2 Ovibos moschatus MHC class II antigen (DRB) gene, partial cds. (269 nt)
initn: 1137 init1: 1137 opt: 1137 Z-score: 1359.1 bits: 259.1 E(219849525): 1e-64
banded Smith-Waterman score: 1137; 95.2% identity (95.2% similar) in 249 nt overlap
(1-249:12-260)
10 20 30 40
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGC
:::::: ::::::: ::::::::::::::::::::::::::::::::::
EM_OM: CACATTTCTTGGAGTATCATAAGAGCGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGC
10 20 30 40 50 60
50 60 70 80 90 100
DERB3_ GGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGG
::::::::::::::: :: : ::::::::::::: :::::::::::::::::::::::
EM_OM: GGTTCCTGGACAGATACTTCTATAATGGAGAAGAGTACGTGCGCTTCGACAGCGACTGGG
70 80 90 100 110 120
110 120 130 140 150 160
DERB3_ GCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGA
::::::::::::::::::::::::::::::::::::::::::::::::::::::::: ::
EM_OM: GCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCTGA
130 140 150 160 170 180
170 180 190 200 210 220
DERB3_ AGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGG
::::::::::::::::: ::::::::: :::::::::::::::::::::::::::::::
EM_OM: AGGACTTCCTGGAGCAGAGGCGGGCCGCCGTGGACACGTACTGCAGACACAACTACGGGG
190 200 210 220 230 240
230 240
DERB3_ TCGGTGAGAGTTTCACTGTG
::::::::::::::::::::
EM_OM: TCGGTGAGAGTTTCACTGTGCAGCGGCGA
250 260
>>EM_OM: LC455374 LC455374.1 Bos indicus But_Q9 BoLA-DRB3 gene for MHC class II antigen, partial cds. (280 nt)
initn: 1137 init1: 1137 opt: 1137 Z-score: 1358.7 bits: 259.1 E(219849525): 1e-64
banded Smith-Waterman score: 1137; 95.2% identity (95.2% similar) in 249 nt overlap
(1-249:23-271)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
:::::::::::::: :::::::::::::::::::::::
EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGCGAGTGTCATTTCTTCAACGGGAC
10 20 30 40 50 60
40 50 60 70 80 90
DERB3_ CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
:::::::::::::::::::::::::: :::: :::::::::::::: ::::::::::::
EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATACTACTATAATGGAGAAGAGATCGTGCGCTTCGA
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
::::::::::::::::::::::::: :::::::::::::::::::::::::: :: ::::
EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGTTGACCGAGCTGGGGCGGCCGGACGCCGAGCACTG
130 140 150 160 170 180
146
160 170 180 190 200 210
DERB3_ GAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACA
:::::::::::::::::::::::::: : ::::::::::::::::::::::::::::: :
EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCGGACGCGGGCCGCGGTGGACACGTACTGCAGATA
190 200 210 220 230 240
220 230 240
DERB3_ CAACTACGGGGTCGGTGAGAGTTTCACTGTG
::::::::::::::: :::::::::::::::
EM_OM: CAACTACGGGGTCGGGGAGAGTTTCACTGTGCAGCGGCGA
250 260 270 280
>>EM_OM: LC455506 LC455506.1 Bos indicus Nyalawi12 BoLA-DRB3 gene for MHC class II antigen, partial cds. (280 nt)
initn: 1137 init1: 1137 opt: 1137 Z-score: 1358.7 bits: 259.1 E(219849525): 1e-64
banded Smith-Waterman score: 1137; 95.2% identity (95.2% similar) in 249 nt overlap
(1-249:23-271)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
:::::: :::::::::::::::::::::::::::::::
EM_OM: TGTCTCTGCAGCACATTTCCTGGAGTATCATAAGAGAGAGTGTCATTTCTTCAACGGGAC
10 20 30 40 50 60
40 50 60 70 80 90
DERB3_ CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
:::::::::::::::::::::::::: :: : ::::::::::::: ::::::::::::
EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATACTTCTATAATGGAGAAGAGTACGTGCGCTTCGA
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
130 140 150 160 170 180
160 170 180 190 200 210
DERB3_ GAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACA
:::::::::::::::::::::::::: : ::::::: :::::::::::::::::::::
EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCGGAAGCGGGCCAAGGTGGACACGTACTGCAGACA
190 200 210 220 230 240
220 230 240
DERB3_ CAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::::::::::::::::::::::::::::::
EM_OM: CAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGA
250 260 270 280
>>EM_OM: LC455341 LC455341.2 Bos indicus Bu_A6 BoLA-DRB3 gene for MHC class II antigen, partial cds. (280 nt)
initn: 1137 init1: 1137 opt: 1137 Z-score: 1358.7 bits: 259.1 E(219849525): 1e-64
banded Smith-Waterman score: 1137; 95.2% identity (95.2% similar) in 249 nt overlap
(1-249:23-271)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
::::::::::::::::::::::::::::::::::::::
EM_OM: TGTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
10 20 30 40 50 60
40 50 60 70 80 90
DERB3_ CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
::::::::::::::::::::::::::::: : ::::::::::::: :::::::::::::
EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATGCTTCTATAATGGAGAAGAGTCCGTGCGCTTCGA
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
130 140 150 160 170 180
160 170 180 190 200 210
DERB3_ GAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACA
:::::::::::::::::::::::::::: :::::::: ::::::: : : ::::::::
EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCAGAGGCGGGCCGATGTGGACAGGGAGTGCAGACA
190 200 210 220 230 240
220 230 240
DERB3_ CAACTACGGGGTCGGTGAGAGTTTCACTGTG
::::::::::::::: :::::::::::::::
EM_OM: CAACTACGGGGTCGGGGAGAGTTTCACTGTGCAGCGGCGA
250 260 270 280
147
>>EM_OM: LC455364 LC455364.1 Bos indicus Bu_A33 BoLA-DRB3 gene for MHC class II antigen, partial cds. (280 nt)
initn: 1137 init1: 1137 opt: 1137 Z-score: 1358.7 bits: 259.1 E(219849525): 1e-64
banded Smith-Waterman score: 1137; 95.2% identity (95.2% similar) in 249 nt overlap
(1-249:23-271)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
::::::::::::: ::::::::::::::::::::::::
EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAAAGAGTGTCATTTCTTCAACGGGAC
10 20 30 40 50 60
40 50 60 70 80 90
DERB3_ CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
:::::::::::::::::::::::::: :: : ::::::::::::: :::::::::::::
EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATACTTCTATAATGGAGAAGAGTCCGTGCGCTTCGA
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
::::::::::::::::::::::::::::::::::::::::::::::::::::::: ::::
EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGCACTG
130 140 150 160 170 180
160 170 180 190 200 210
DERB3_ GAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACA
:::::::::::::::::::::::::: : :::::::: ::::::::::::::::::::
EM_OM: GAACAGCCAGAAGGACTTCCTGGAGCGGAAGCGGGCCGATGTGGACACGTACTGCAGACA
190 200 210 220 230 240
220 230 240
DERB3_ CAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::::::::::::::::::::::::::::::
EM_OM: CAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGA
250 260 270 280
>>EM_OM: LC455377 LC455377.1 Bos indicus BuQ_13 BoLA-DRB3 gene for MHC class II antigen, partial cds. (280 nt)
initn: 1137 init1: 1137 opt: 1137 Z-score: 1358.7 bits: 259.1 E(219849525): 1e-64
banded Smith-Waterman score: 1137; 95.2% identity (95.2% similar) in 249 nt overlap
(1-249:23-271)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
::::::::::::::::::::::::::::::::::::::
EM_OM: TCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGAC
10 20 30 40 50 60
40 50 60 70 80 90
DERB3_ CGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGA
::::::::::::::::::::::::::::: : ::::::::::::: ::::::::::::
EM_OM: CGAGCGGGTGCGGTTCCTGGACAGATGCTTCCATAATGGAGAAGAGTTCGTGCGCTTCGA
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTG
:::::::::::::::::::::::::::::::::::::::::::::::::::: :: ::::
EM_OM: CAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGCACTG
130 140 150 160 170 180
160 170 180 190 200 210
DERB3_ GAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACA
::::::::::::::::::::::::: :: :::::::: :::::::: ::::::::::::
EM_OM: GAACAGCCAGAAGGACTTCCTGGAGGAGAGGCGGGCCGAGGTGGACAGGTACTGCAGACA
190 200 210 220 230 240
220 230 240
DERB3_ CAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::::::::::::::::::::::::::::::
EM_OM: CAACTACGGGGTCGGTGAGAGTTTCACTGTGCAGCGGCGA
250 260 270 280
>>EM_OM: AY847712 AY847712.1 Bos taurus MHC class II antigen (BoLA-DRB3) gene, BoLA-DRB3*R-142 allele, exon 2 and
partial cds. (302 nt)
initn: 1137 init1: 1137 opt: 1137 Z-score: 1357.9 bits: 259.0 E(219849525): 1.1e-64
banded Smith-Waterman score: 1137; 95.2% identity (95.2% similar) in 249 nt overlap
(1-249:27-275)
10 20 30
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACG
::::::::::::::::::::::::::::::::::
EM_OM: ATCCTCTCTCTGCAGCACATTTCCTGGAGTATTATAAGAGAGAGTGTCATTTCTTCAACG
10 20 30 40 50 60
148
40 50 60 70 80 90
DERB3_ GGACCGAGCGGGTGCGGTTCCTGGACAGATGCTACACTAATGGAGAAGAGACCGTGCGCT
::::::::::::::::::: :::::::::: :: : ::::::::::::: ::::::::
EM_OM: GGACCGAGCGGGTGCGGTTGCTGGACAGATACTTCTATAATGGAGAAGAGCGCGTGCGCT
70 80 90 100 110 120
100 110 120 130 140 150
DERB3_ TCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGT
:::::::::::::::::::::::::::::::::::::::::::::::::::::::: :::
EM_OM: TCGACAGCGACTGGGGCGAGTTCCGGGCGGTGACCGAGCTGGGGCGGCCGGACGCCGAGT
130 140 150 160 170 180
160 170 180 190 200 210
DERB3_ ACTGGAACAGCCAGAAGGACTTCCTGGAGCAGGCGCGGGCCGCGGTGGACACGTACTGCA
:::::::::::::::::::::::::::::::: ::::::::::::::::::::::::::
EM_OM: ACTGGAACAGCCAGAAGGACTTCCTGGAGCAGAGGCGGGCCGCGGTGGACACGTACTGCA
190 200 210 220 230 240
220 230 240
DERB3_ GACACAACTACGGGGTCGGTGAGAGTTTCACTGTG
:::::::::::::::::: :::::::::::::::
EM_OM: GACACAACTACGGGGTCGTGGAGAGTTTCACTGTGCAGCGGCGAGGTGAGCGCGAATTTA
250 260 270 280 290 300
EM_OM: AA
>>EM_OM: AB048735 AB048735.1 Bos taurus BoLA-DRB3*4501 gene for leukocyte antigen DRB3, partial cds. (227 nt)
initn: 1135 init1: 1135 opt: 1135 Z-score: 1358.7 bits: 258.8 E(219849525): 1.3e-64
banded Smith-Waterman score: 1135; 100.0% identity (100.0% similar) in 227 nt overlap
(10-236:1-227)
10 20 30 40 50 60
DERB3_ GAGTATTATAAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
:::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: AAGAGAGAGTGTCATTTCTTCAACGGGACCGAGCGGGTGCGGTTCCTGGAC
10 20 30 40 50
70 80 90 100 110 120
DERB3_ AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: AGATGCTACACTAATGGAGAAGAGACCGTGCGCTTCGACAGCGACTGGGGCGAGTTCCGG
60 70 80 90 100 110
130 140 150 160 170 180
DERB3_ GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GCGGTGACCGAGCTGGGGCGGCCGGACGCCAAGTACTGGAACAGCCAGAAGGACTTCCTG
120 130 140 150 160 170
190 200 210 220 230 240
DERB3_ GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGAGAGT
::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_OM: GAGCAGGCGCGGGCCGCGGTGGACACGTACTGCAGACACAACTACGGGGTCGGTGA
180 190 200 210 220
DERB3_ TTCACTGTG
249 residues in 1 query sequences
408005271872 residues in 218240662 library sequences
Tcomplib [36.3.8h Aug, 2019] (32 proc in memory [15G])
start: Tue Sep 22 23:08:18 2020 done: Tue Sep 22 23:31:08 2020
Total Scan time: 10327.800 Total Display time: 0.020
Function used was FASTA [36.3.8h Aug, 2019]
149
Referencias
[1] Altschul, S. F., Gish, W., Miller, W., Myers, E. W. y Lipman, D. J. (1990). Basic local alignment search tool. Journal of molecular biology, 215(3), 403–410. https://doi.org/10.1016/S0022-2836(05)80360-2
[2] Andaluza, P. (2011). Lenguajes de programación para la bioinformática. Encuentros en Biología, 4(134), 31–32.
[3] Arratia R. y Waterman M.S. (1989). The Erdös-Rényi strong law for pattern matching with a given proportion of mismatches. Ann. Probab. 17: 1152–1169.
[4] Arratia R., Gordon L. y Waterman M. (1986). An extreme value theory for sequence matching. Ann. Statist. 14, no. 3, 971--993. doi:10.1214/aos/1176350045. https://projecteuclid.org/euclid.aos/1176350045
[5] Berg, J.M., Timoczko, J.L. y Stryer, L. (2008). Bioquímica. 6ª Edición. Barcelona, España. Editorial Reverté.
[6] Bordoli, L. (2003). Similarity Searches on Sequence Databases: BLAST, FASTA. EMBnet Course. [Diapositiva de PowerPoint]. Swiss Institute of Bioinformatic. http://darwin.informatics.indiana.edu/col/courses/L519/Lab/Lab3/BLAST_FASTA.pdf
[7] Campbell, N.A. y Reece, J.B. (2005). Biología. 7ª Edición. Madrid, España. Editorial Panamericana.
[8] Canavos, G. (1988). Probabilidad y Estadística Aplicaciones y Métodos. México DF, México: McGraw-Hill.
[9] Chan, S.C., Wong, A.K.C. y Chiu, D.K.Y. A survey of multiple sequence comparison methods. Bltn Mathcal Biology 54, 563–598 (1992). https://doi.org/10.1007/BF02459635
[10] Chataraj, A., Williams, H.E., y Cannane, A. (1999). Fast Homology Search using
Categorization Profiles. RMIT University, Melbourne.
https://www.jsbi.org/pdfs/journal1/GIW04/GIW04P085.pdf accessed on 28/8/2020
150
[11] Checa Caratachea, M. A. (2007). Polimorfismos genéticos: Importancia y aplicaciones. Revista del Instituto Nacional de Enfermedades Respiratorias de México, 213-221.
[12] Curtis H., Barnes S., Schnek A. y Massarini A. (2008) Biología. 7ª Edición. Editorial Médica Panamericana.
[13] Dreyfus, S.E. (2002). Richard Bellman on the Birth of Dynamic Programming. Operations Research. 50. 48-51. 10.1287/opre.50.1.48.17791.
[14] Eric, S.D., Nicholas, T.K.D.D. y Theophilus, K.A. (2014). Bioinformatics with basic local alignment search tool (BLAST) and fast alignment (FASTA). Journal of Bioinformatics and Sequence Analysis, 6(1), 1–6. DOI: https://doi.org/10.5897/ijbc2013.0086
[15] Fourment, M. y Gillings, M.R. (2008). A comparison of common programming languages used in bioinformatics. BMC Bioinformatics. DOI: https://doi.org/10.1186/1471-2105-9-82
[16] Galison F. The Fasta and Blast programs. (2000). Extraido de: http://bioweb.pasteur.fr/seqanal/blast/.
[17] Gonzalez, G. (2007-2014). Bioinformáticos. Córdoba, Argentina: Algoritmo Smith-Waterman. Extraido de http://www.bioinformaticos.com.ar/algoritmo-smith-waterman/
[18] Haque,W., Aravind A., y Reddy B. 2009. Pairwise sequence alignment algorithms: a survey. In Proceedings of the 2009 conference on Information Science, Technology and Applications (ISTA ’09). Association for Computing Machinery, New York, United States of America, 96–103. DOI: https://doi.org/10.1145/1551950.1551980.
[19] Jones, N.C. y Pevzner, P.A. (2004) An Introduction to Bioinformatics Algorithms. Massachusetts Institute of Technology. United States of America.
[20] Karlin S. y Altschul S.F. (1990). Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proc. Natl. Acad. Sci. 87: 2264–2268.
[21] Karlin S. y Altschul S.F. (1993). Applications and statistics for multiple high-scoring segments in molecular sequences. Proc. Natl. Acad. Sci. 90: 5873–5877.
[22] Khan Academy. Introducción a la biotecnología: Secuenciación de ADN. Extraido de https://es.khanacademy.org/science/biology/biotech-dna-technology/dna-sequencing-pcr-electrophoresis/a/dna-sequencing.
151
[23] Lab tests online. (6 de Abril de 2020). Secuenciación del ADN. Recuperado de https://labtestsonline.es/articles/secuenciacion-del-adn.
[24] Librado, P. y Rozas, J. (2009). DnaSP v5: a software for comprehensive analysis of DNA polymorphism data. Bioinformatics, 1451–1452 .
[25] Lopez-Martinez, A., Chavez-Munoz, C. y Granados, J. (2005). Función biológica del complejo principal de histocompatibilidad. Rev. Investigación clínica, vol.57, n.2, pp.132-141. ISSN 0034-8376.
[26] Madeira F., Park Y. M. y Lee, J. (2019). The EMBL-EBI search and sequence analysis tools APIs. Nucleic Acids Research. 2019 Jul;47(W1):W636-W641. DOI: 10.1093/nar/gkz268.
[27] Mc.Clean, P. (2004). BLAST Basic Local Alignment Search Tool. Recuperado de https://www.ndsu.edu/pubweb/~mcclean/plsc411/Blast-explanation-lecture-and-overhead.pdf
[28] Meneses Escobar, C. A., Rozo Murillo, L. V. y Franco Soto, J. (2011). Tecnologías bioinformáticas para el análisis de secuencias de ADN. Scientia et Technica, 116 - 121.
[29] Miclet, L. (1986). Structural Methods in Pattern Recognition. Oxford, U.K.: North Oxford Academic.
[30] Mount, D.W. (2004), Bioinformatics: Sequence and Genome Analysis, New York, United States of America, Cold Spring Harbor Laboratory Press.
[31] National Human Genome Research Institute. (2019). Secuenciación del ADN. Recuperado de: https://www.genome.gov/es/about-genomics/fact-sheets/Secuenciacion-del-ADN.
[32] National Human Genome Research Institute. (2019). El Glosario Hablado de Términos Genéticos. Recuperado de https://www.genome.gov/es/genetics-glossary
[33] Notredame, C. y Higgins, D. (1996). SAGA: sequence alignment by genetic algorithm. Oxford University Press, 1515–1524.
[34] Pearson, W.R. y Lipman, D.J. (1988). Improved tools for biological sequence comparison. Proc. Natl. Acad. Sci. USA
[35] Peña Diaz, A., Arroyo Begovich, A., Gomez Puyou, A., Tapia Ibargüengoytia R. y Gomez Eichelman, C. (2002) Bioquímica. 2ª Edición. Editorial Limusa.
152
[36] Pevsnet, J. (2015). Bioinformatics and functional genomics. (3ª Edición). Singapore: Wiley Blackwell, 3.
[37] Ramirez-Bello, J., Vargas-Alarcón, G., Tovilla-Zárate, C. y Fragoso, J. M. (2013). Polimorfismos de un solo nucleótido (SNP): implicaciones funcionales de los SNP reguladores (rSNP) y de los SNP-ARN estructurales (srSNP) en enfermedades complejas. Gaceta Médica de México, 149-220.
[38] Rodriguez, T. (10 de Septiembre 2019). Xataka. De Docker a Kubernetes: entendiendo qué son los contenedores y por qué es una de las mayores revoluciones de la industria del desarrollo. Recuperado de: https://www.xataka.com/otros/docker-a-kubernetes-entendiendo-que-contenedores-que-mayores-revoluciones-industria-desarrollo.
[39] Sabater-Tobella, J. (8 de Noviembre de 2018). Polimorfismo genético (SNP). Obtenido de EuGenomic Genomic Personalized Medicine: https://www.eugenomic.com/es/home/genomica/glossary/p/Polimorfismo.html
[40] Santa María, C., Rebrij, R., Santa María, V., López, L. y Soria, M. (2018). Reconocimiento de Patrones Genéticos por Medio de Grafos. XX Workshop de Investigadores en Ciencias de la Computación. San Justo, Buenos Aires, Argentina.
[41] Smith, T. F, y Waterman, M. S. (1981). Identification of common molecular subsequence. Molecular Biology, vol. 147, 195-197.
[42] Soberón, X. y Bolivar Zapata, F. (1999). Gen y genoma. 1ª Edición. México DF, México. Universidad Autónoma de México.
[43] Solari, A. (2004). Genética humana. Fundamentos y aplicaciones en medicina. 3ª Edición. Buenos Aires, Argentina. Editorial Médica Panamericana.
[44] Xiong, J, (2006), Essential Bioinformatics, New York, United States of America, Cambridge University Press.
153
Top Related