Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в...

34
Rule mining в эпигенетике Олег Шпынов JetBrains Biolabs 11 ноября 2015 г. Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 1 / 34

Transcript of Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в...

Page 1: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Rule mining в эпигенетике

Олег Шпынов

JetBrains Biolabs

11 ноября 2015 г.

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 1 / 34

Page 2: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Эпигенетика

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 2 / 34

Page 3: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Все уже изучено!

ОписаниеСкрытые марковские модели

Genome-wide maps of chromatin state in pluripotent and lineage-committed cells - Mikkelsen, Nature, 2007

Mapping and analysis of chromatin state dynamics in nine human cells - Ernst, Nature, 2011

Integrative annotation of chromatin elements from ENCODE data - Hoffman, Nucleic acids research, 2012

Комбинаторные

Combinatorial epigenetic patterns as quantitative predictors of chromatin biology - Cieslik, BMC genomics,2014

Остальные

Tree Hidden Markov Models, Spectral learning, multiscale, etc.

ДифференцировкаComparative Epigenomic Annotation of Regulatory DNA - S Xiao, Elsevier, Cell, 2012

Transcriptional and Epigenetic Dynamics during Specification of Human Embryonic Stem Cells - Gifford,Cell, 2013

Epigenomic Analysis of Multilineage Differentiation of Human Embryonic Stem Cells - Xie, Cell, 2013

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 3 / 34

Page 4: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Задачи1

Поиск пиковСравнение двух сигналов

ПредикатыH3K4me3@tss[-5000..-2500]H3K4me3@intronsmeth@utr5transcription_cell1<>cell2

1ChIP-Seq: отрезки 200, BS-Seq: поточечно, DMR

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 4 / 34

Page 5: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Предикаты

Признаки генов (размер, кодирует ли протеин, принадлежностьpathway)Признаки последовательности (CpG контекст, частотныехарактеристики, консервативность)Наличие эпигенетической модификации в регуляторном локусе(TSS, Introns)Различие в регуляторном регионеитд

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 5 / 34

Page 6: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Модификации гистонов

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 6 / 34

Page 7: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Регуляторные области

Дистальный промоутер TSS[-5000, -2500] 2

Внутренний промоутер TSS[-200, 200] 3

Промоутер TSS[-2000, 2000] 4

5‘ нетранслируемый регион UTR53‘ нетранслируемый регион UTR3Кодирующая последовательнсть CDSИнтроны IntronsЭкзоны Exons 5

Место окончания транскрипции TES 6

2Transcriptional Regulatory Elements in the Human Genome, 20063Epigenomic Analysis of Multilineage Differentiation of Human Embryonic Stem Cells, 20134Mapping and analysis of chromatin state dynamics in nine human cell types, 20115Comparative Epigenomic Annotation of Regulatory DNA, 20126Epigenomic Analysis of Multilineage Differentiation of Human Embryonic Stem Cells, 2013

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 7 / 34

Page 8: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Допустим, предикаты мы научились считать, что дальше?Байесовские сетиМарковские сетиСмесиRule mining

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 8 / 34

Page 9: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Проблемы?

H3K4me3@tss[-2000..2000]

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 9 / 34

Page 10: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Решение

H3K4me3@tss[-2000..2000] посчитан с фиксированным FDR.Что мы можем сказать про ¬ H3K4me3@tss[-2000..2000]?Ответ: ничего!Rule mining подход позволяет это учесть.

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 10 / 34

Page 11: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Классическое определение

T - набор объектовТранзакция d - подмноженство T

База D - список транзакций di ⊆ T

Ассоциативное правило X → Y .X ⊆ T , Y ⊆ T , X ∩ Y = ∅supp(X ) = #{di |X⊆di}

#{D} = P(X )

conf (X → Y ) = supp(X→Y )supp(X ) = P(X∧Y )

P(X ) = P(Y |X )

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 11 / 34

Page 12: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Пример

H3K27me3@exons,H3K27me3@introns,¬LCP → H3K27me3@tss[−2000..2000]

T - множество предикатов

D = множество всех генов, ген определяет транзакцию di ⊆ T - истинные предикаты

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 12 / 34

Page 13: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Метрики

Определениеconviction(X → Y ) = 1−supp(Y )

1−conf (X→Y ) =P(¬Y )

P(¬Y |X )

BF (X → Y ) = P(X |Y )P(X |¬Y )

LOE (X → Y ) = nsup(X∧Y )−sup(X )sup(Y )sup(X )sup(¬Y )

ИнтерпретацияP(X |¬Y ) ≈ P(¬Y |X ) контрпримерыP(X |Y ) покрытие заключение условиемP(X ) применимость правила

Conviction показывает во сколько раз чаще случается событие ¬Y посравнению с ¬Y |X

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 13 / 34

Page 14: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

На самом деле7

7Comparing Rule Measures for Predictive Association Rules http://www.di.uminho.pt/~pja/ps/conviction.pdfОлег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 14 / 34

Page 15: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Рассмотрим 2 сценария8:1 Эксперт толерантен к небольшому проценту ошибок 1 рода

X ∧ ¬Y в итоговом решении. В данном случае отверганиегипотезы откладывается до нахождения критического количестваконтрпримеров.

2 Эксперт отвергает появление слишком много ошибок 1 рода.Отвержение гипотезы должно производиться быстро с ростомколичества контрпримеров.

Метрики ведут себя по-разному:Baeysian Factor и Conviction лидируют во 2 случае.Loe неплохо работает в обоих случаях.Conviction не зависит от размера базы.

8Guillet Hamilton - Quality Measures in Data Mining (2007)

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 15 / 34

Page 16: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

0

5

10

15

0.00 0.25 0.50 0.75 1.00

conv

ictio

nDatasize: 10000, max(condition, target): 3000

0

2500

5000

7500

10000

0.00 0.25 0.50 0.75 1.00

bf

0.0e+00

5.0e+06

1.0e+07

1.5e+07

2.0e+07

0.00 0.25 0.50 0.75 1.00

loe

Test cases

perfect_match

type1error

type2error

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 16 / 34

Page 17: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Predicates Rules mining

Обобщим на формулыD - набор геновP - набор атомарных предикатов над D

F - набор формул (без кванторов) над P

Правило X → Y , X ∈ F , Y ∈ F

supp(X ) = #{di |X (di )=true}#{D} = P(X )

conf (X → Y ) = supp(X→Y )supp(X ) = P(X∧Y )

P(X ) = P(Y |X )

ЗадачаДля формулы t ∈ F найти c | ∀c ′ ∈ F metrics(c → t) ≥ metrics(c ′ → t)

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 17 / 34

Page 18: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Пример

H3K27me3@exons ∧ H3K27me3@introns ∧ ¬LCP → H3K27me3@tss[−2000..2000]

Conviction: 12.4

Type1 error: 2

Type2 error: 753

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 18 / 34

Page 19: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Как искать "хорошие" правила?

Support-Confidence методПереборЖадные алгоритмыДинамические алгоритмыИспользовать регуляризациюМожно искать TOP N правил

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 19 / 34

Page 20: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Эксперименты

Поиск правилКак меняются правила в зависимости от условийПоиск правил вида ?→ DIFFERENCE

Поиск правил вида Cell1 ∧ CONDITION → Cell2 ∧ ¬CONDITION

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 20 / 34

Page 21: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

ПримерыRule miningMachine learning

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 21 / 34

Page 22: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

GSE26320

Mapping and analysis of chromatin state dynamics in nine human celltypes (ChIP-Seq)Genome binding/occupancy profiling by high throughput sequencing10 modifications: CTCF, H3K27ac, H3K27me3, H3K4me1, H3K4me2,H3K4me3, H3K9ac, H4K20me1, H3K36me3 and Whole Cell Extract(WCE)9 cell types: H1, GM12878, K562, HepG2, Huvec, HSMM, NHLF,NHEK, HMECGenome browserhttp://genomebrowser.labs.intellij.net/GSE26320_hg18/

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 22 / 34

Page 23: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Кластеризация

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 23 / 34

Page 24: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 24 / 34

Page 25: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

H3K27ac@tes[0..2000] ∧ H3K36me3@introns ∧ H4K20me1@tse[0..2000]→ H3K36me3@tes[0..2000]

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 25 / 34

Page 26: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Conviction = цвет

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 26 / 34

Page 27: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Rule mining классификаторы

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 27 / 34

Page 28: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Пример

CTCF@introns ∧ H3K4me2@exons ∧ HCP → H3K4me3@introns

Rule mining 0.977Rule mining precision 1AdaBoost 0.985AdaBoost precision 0.731Decision Tree 0.986Decision Tree precision 0.758Random Forest 0.988Random Forest precision 0.827

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 28 / 34

Page 29: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Дерево решений

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 29 / 34

Page 30: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

В: Какие правила считать неинтересными?X → Y , X ,Y - сильно коррелированы. О: ввести отсечку покорреляцииX ∨ Y → Z , где X ,Y - сильно коррелированы. О: регуляризация

В: Проблемы?Маленький support итоговых правилНевозможно использовать технику Probes9

В: Почему мы получаем хорошие классификаторы?FP ≈ 0FN « TN

9On Causal and Anticausal Learning, 2012

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 30 / 34

Page 31: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Резюме

Rule mining это –Отличная интерпретируемостьГибкое управление предикатами (NOT)Предикаты для конкретного экспериментаВозможность качественного описания измененийНеплохой классификатор ML

ноГенерирует ОЧЕНЬ много правил, требуется пост обработкаЗависит от выбранной метрикиПочти не применяется10 11

Rule mining is dead. Causal Probabilistic Models!

10Deciphering histone code of transcriptional regulation in malaria parasites by large-scale data mining, 201411Analyzing Large Gene Expression and Methylation Data Profiles Using StatBicRM: Statistical

Biclustering-Based Rule Mining, 2015

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 31 / 34

Page 32: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Материалы

Guillet Hamilton - Quality Measures in Data Mining (2007)Comparing Rule Measures for Predictive Association Ruleshttp://www.di.uminho.pt/~pja/ps/conviction.pdf

Measures overview http://michael.hahsler.net/research/association_rules/measures.html

JetBrains BioLabshttp://beta-research.jetbrains.org/groups/biolabs

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 32 / 34

Page 33: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

Спасибо за внимание[email protected]

@oleg_s

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 33 / 34

Page 34: Rule mining в эпигенетике - JetBrains Research · 2016-03-16 · Rule mining в эпигенетике ОлегШпынов JetBrains Biolabs 11ноября2015г. ОлегШпынов

RM vs ML

Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 34 / 34