Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в...

Post on 12-Aug-2020

3 views 0 download

Transcript of Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в...

Rule mining в эпигенетике

Олег Шпынов

JetBrains Biolabs

11 ноября 2015 г.

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 1 / 34

Эпигенетика

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 2 / 34

Все уже изучено!

ОписаниеСкрытые марковские модели

Genome-wide maps of chromatin state in pluripotent and lineage-committed cells - Mikkelsen, Nature, 2007

Mapping and analysis of chromatin state dynamics in nine human cells - Ernst, Nature, 2011

Integrative annotation of chromatin elements from ENCODE data - Hoffman, Nucleic acids research, 2012

Комбинаторные

Combinatorial epigenetic patterns as quantitative predictors of chromatin biology - Cieslik, BMC genomics,2014

Остальные

Tree Hidden Markov Models, Spectral learning, multiscale, etc.

ДифференцировкаComparative Epigenomic Annotation of Regulatory DNA - S Xiao, Elsevier, Cell, 2012

Transcriptional and Epigenetic Dynamics during Specification of Human Embryonic Stem Cells - Gifford,Cell, 2013

Epigenomic Analysis of Multilineage Differentiation of Human Embryonic Stem Cells - Xie, Cell, 2013

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 3 / 34

Задачи1

Поиск пиковСравнение двух сигналов

ПредикатыH3K4me3@tss[-5000..-2500]H3K4me3@intronsmeth@utr5transcription_cell1<>cell2

1ChIP-Seq: отрезки 200, BS-Seq: поточечно, DMR

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 4 / 34

Предикаты

Признаки генов (размер, кодирует ли протеин, принадлежностьpathway)Признаки последовательности (CpG контекст, частотныехарактеристики, консервативность)Наличие эпигенетической модификации в регуляторном локусе(TSS, Introns)Различие в регуляторном регионеитд

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 5 / 34

Модификации гистонов

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 6 / 34

Регуляторные области

Дистальный промоутер TSS[-5000, -2500] 2

Внутренний промоутер TSS[-200, 200] 3

Промоутер TSS[-2000, 2000] 4

5‘ нетранслируемый регион UTR53‘ нетранслируемый регион UTR3Кодирующая последовательнсть CDSИнтроны IntronsЭкзоны Exons 5

Место окончания транскрипции TES 6

2Transcriptional Regulatory Elements in the Human Genome, 20063Epigenomic Analysis of Multilineage Differentiation of Human Embryonic Stem Cells, 20134Mapping and analysis of chromatin state dynamics in nine human cell types, 20115Comparative Epigenomic Annotation of Regulatory DNA, 20126Epigenomic Analysis of Multilineage Differentiation of Human Embryonic Stem Cells, 2013

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 7 / 34

Допустим, предикаты мы научились считать, что дальше?Байесовские сетиМарковские сетиСмесиRule mining

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 8 / 34

Проблемы?

H3K4me3@tss[-2000..2000]

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 9 / 34

Решение

H3K4me3@tss[-2000..2000] посчитан с фиксированным FDR.Что мы можем сказать про ¬ H3K4me3@tss[-2000..2000]?Ответ: ничего!Rule mining подход позволяет это учесть.

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 10 / 34

Классическое определение

T - набор объектовТранзакция d - подмноженство T

База D - список транзакций di ⊆ T

Ассоциативное правило X → Y .X ⊆ T , Y ⊆ T , X ∩ Y = ∅supp(X ) = #{di |X⊆di}

#{D} = P(X )

conf (X → Y ) = supp(X→Y )supp(X ) = P(X∧Y )

P(X ) = P(Y |X )

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 11 / 34

Пример

H3K27me3@exons,H3K27me3@introns,¬LCP → H3K27me3@tss[−2000..2000]

T - множество предикатов

D = множество всех генов, ген определяет транзакцию di ⊆ T - истинные предикаты

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 12 / 34

Метрики

Определениеconviction(X → Y ) = 1−supp(Y )

1−conf (X→Y ) =P(¬Y )

P(¬Y |X )

BF (X → Y ) = P(X |Y )P(X |¬Y )

LOE (X → Y ) = nsup(X∧Y )−sup(X )sup(Y )sup(X )sup(¬Y )

ИнтерпретацияP(X |¬Y ) ≈ P(¬Y |X ) контрпримерыP(X |Y ) покрытие заключение условиемP(X ) применимость правила

Conviction показывает во сколько раз чаще случается событие ¬Y посравнению с ¬Y |X

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 13 / 34

На самом деле7

7Comparing Rule Measures for Predictive Association Rules http://www.di.uminho.pt/~pja/ps/conviction.pdfОлег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 14 / 34

Рассмотрим 2 сценария8:1 Эксперт толерантен к небольшому проценту ошибок 1 рода

X ∧ ¬Y в итоговом решении. В данном случае отверганиегипотезы откладывается до нахождения критического количестваконтрпримеров.

2 Эксперт отвергает появление слишком много ошибок 1 рода.Отвержение гипотезы должно производиться быстро с ростомколичества контрпримеров.

Метрики ведут себя по-разному:Baeysian Factor и Conviction лидируют во 2 случае.Loe неплохо работает в обоих случаях.Conviction не зависит от размера базы.

8Guillet Hamilton - Quality Measures in Data Mining (2007)

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 15 / 34

0

5

10

15

0.00 0.25 0.50 0.75 1.00

conv

ictio

nDatasize: 10000, max(condition, target): 3000

0

2500

5000

7500

10000

0.00 0.25 0.50 0.75 1.00

bf

0.0e+00

5.0e+06

1.0e+07

1.5e+07

2.0e+07

0.00 0.25 0.50 0.75 1.00

loe

Test cases

perfect_match

type1error

type2error

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 16 / 34

Predicates Rules mining

Обобщим на формулыD - набор геновP - набор атомарных предикатов над D

F - набор формул (без кванторов) над P

Правило X → Y , X ∈ F , Y ∈ F

supp(X ) = #{di |X (di )=true}#{D} = P(X )

conf (X → Y ) = supp(X→Y )supp(X ) = P(X∧Y )

P(X ) = P(Y |X )

ЗадачаДля формулы t ∈ F найти c | ∀c ′ ∈ F metrics(c → t) ≥ metrics(c ′ → t)

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 17 / 34

Пример

H3K27me3@exons ∧ H3K27me3@introns ∧ ¬LCP → H3K27me3@tss[−2000..2000]

Conviction: 12.4

Type1 error: 2

Type2 error: 753

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 18 / 34

Как искать "хорошие" правила?

Support-Confidence методПереборЖадные алгоритмыДинамические алгоритмыИспользовать регуляризациюМожно искать TOP N правил

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 19 / 34

Эксперименты

Поиск правилКак меняются правила в зависимости от условийПоиск правил вида ?→ DIFFERENCE

Поиск правил вида Cell1 ∧ CONDITION → Cell2 ∧ ¬CONDITION

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 20 / 34

ПримерыRule miningMachine learning

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 21 / 34

GSE26320

Mapping and analysis of chromatin state dynamics in nine human celltypes (ChIP-Seq)Genome binding/occupancy profiling by high throughput sequencing10 modifications: CTCF, H3K27ac, H3K27me3, H3K4me1, H3K4me2,H3K4me3, H3K9ac, H4K20me1, H3K36me3 and Whole Cell Extract(WCE)9 cell types: H1, GM12878, K562, HepG2, Huvec, HSMM, NHLF,NHEK, HMECGenome browserhttp://genomebrowser.labs.intellij.net/GSE26320_hg18/

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 22 / 34

Кластеризация

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 23 / 34

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 24 / 34

H3K27ac@tes[0..2000] ∧ H3K36me3@introns ∧ H4K20me1@tse[0..2000]→ H3K36me3@tes[0..2000]

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 25 / 34

Conviction = цвет

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 26 / 34

Rule mining классификаторы

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 27 / 34

Пример

CTCF@introns ∧ H3K4me2@exons ∧ HCP → H3K4me3@introns

Rule mining 0.977Rule mining precision 1AdaBoost 0.985AdaBoost precision 0.731Decision Tree 0.986Decision Tree precision 0.758Random Forest 0.988Random Forest precision 0.827

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 28 / 34

Дерево решений

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 29 / 34

В: Какие правила считать неинтересными?X → Y , X ,Y - сильно коррелированы. О: ввести отсечку покорреляцииX ∨ Y → Z , где X ,Y - сильно коррелированы. О: регуляризация

В: Проблемы?Маленький support итоговых правилНевозможно использовать технику Probes9

В: Почему мы получаем хорошие классификаторы?FP ≈ 0FN « TN

9On Causal and Anticausal Learning, 2012

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 30 / 34

Резюме

Rule mining это –Отличная интерпретируемостьГибкое управление предикатами (NOT)Предикаты для конкретного экспериментаВозможность качественного описания измененийНеплохой классификатор ML

ноГенерирует ОЧЕНЬ много правил, требуется пост обработкаЗависит от выбранной метрикиПочти не применяется10 11

Rule mining is dead. Causal Probabilistic Models!

10Deciphering histone code of transcriptional regulation in malaria parasites by large-scale data mining, 201411Analyzing Large Gene Expression and Methylation Data Profiles Using StatBicRM: Statistical

Biclustering-Based Rule Mining, 2015

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 31 / 34

Материалы

Guillet Hamilton - Quality Measures in Data Mining (2007)Comparing Rule Measures for Predictive Association Ruleshttp://www.di.uminho.pt/~pja/ps/conviction.pdf

Measures overview http://michael.hahsler.net/research/association_rules/measures.html

JetBrains BioLabshttp://beta-research.jetbrains.org/groups/biolabs

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 32 / 34

Спасибо за внимание!os@jetbrains.com

@oleg_s

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 33 / 34

RM vs ML

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 34 / 34