Хранилища данных на службе BI PDF · 1 машину ClickHouse. Hadoop to...

Александр Крашенинников · Алексей Еремихин

ХРАНИЛИЩА ДАННЫХ

НА СЛУЖБЕ BI

Александр Крашенинников

Алексей Еремихин

Руководим разработкой BI в Badoo

План доклада• Что такое BI • Хранилища данных • Задача ETL • Обработка потока событий • Cross-database bridge

Что такое BI• Люди делающие графики из данных • BI обеспечивает работу с данными • А данные в хранилищах

Хранилища данных: Embedded

Embedded

Хранилища данных: Single-node

Single-node

Хранилища данных: Clustered

Clustered

Размеры и сложность баз

Embedded

Single-node Clustered

Размеры и сложность баз

Embedded

Поговорим об этих базах

Классический ETL

Extract Transform Load

Что такое ETL

OLTP OLAPETL

Application Reporting

Непонятно!

OLTP OLAPETL

ReportingApplication

Непонятно!

MySQL ExasolETL

ReportingApplication

Что такое ETL?

MySQL ExasolETL

ETL большого проекта

ExasolETLHadoop

ETL => ELT

Exasol Hadoop

ELT / SQL

Какой формат?

Exasol Hadoop

ELT / SQL

Формат TSV

● Почти как CSV (comma-separated), только tab-separated

Формат TSV

● Нет проблем с экранированием запятых и кавычек

Формат TSV

● Нет проблем с экранированием запятых и кавычек ● В BI табы и переводы строк встречаются редко

Формат TSV

● Нет проблем с экранированием запятых и кавычек ● В BI табы и переводы строк встречаются редко ● Удобно работать в командной строке (cut, awk, sed,

sort,...)

Формат TSV

sort,...) ● Поддерживается везде (CSV с набором опций)

Формат TSV

sort,...) ● Поддерживается везде (CSV с набором опций) ● Удобен в реализации

Exasol Hadoop

ELT / SQL

Пример: Push уведомления

SendLog

Exasol

OpenLog

CREATE TABLE PushReport SELECT FROM SendLog LEFT JOIN OpenLog

Пример: Push уведомления

SendLog

Exasol

Передача MySQL -> Exasol• Через временный файл

mysql -nsq -e 'SELECT * FROM SendLog' > /tmp/file

30 минут, 100Gb, 500M строк

mysql -nsq -e 'SELECT * FROM SendLog' > /tmp/file

exajload -sql "IMPORT INTO staging FROM LOCAL CSV FILE '/tmp/file'"

20 минут

50 минут

Передача MySQL -> Exasol• Через временный файл • Через pipe

mysql -nsq -e 'SELECT * FROM SendLog'

mysql -nsq -e 'SELECT * FROM SendLog' | exajload -sql "IMPORT INTO staging FROM LOCAL CSV FILE '/dev/stdin'"

set -o pipefail; mysql -nsq -e 'SELECT * FROM SendLog' | exajload -sql "IMPORT INTO staging FROM LOCAL CSV FILE '/dev/stdin'"

Не забыть!!!

30 минут

Передача MySQL -> Exasol• Данные с одной машины • А что, если шардинг?

( mysql -nsq -h host1 'SELECT ….' && mysql -nsq -h host2 'SELECT ….' && mysql -nsq -h host3 'SELECT ….' ) | exajload -sql "IMPORT … '/dev/stdin'"

Последовательно 8(

MySQL => Exasol : multi pipe

fdlinecombine

Multiplex multiple input streams into stdout using \n as separators.

Does One Thing, But Does It Well.

https://github.com/vi/fdlinecombine

fdlinecombine < (mysql -nsq -h host1 'SELECT ….') < (mysql -nsq -h host2 'SELECT ….') < (mysql -nsq -h host3 'SELECT ….') |exajload -sql "IMPORT … '/dev/stdin'"

fdlinecombine < (mysql -nsq -h host1 'SELECT ….') < (mysql -nsq -h host2 'SELECT ….') < (mysql -nsq -h host3 'SELECT ….') |exajload -sql "IMPORT … '/dev/stdin'" Bash Pitfalls

Сделай сам! PHP: proc_open() Python: subprocess.Popen()

Сделай сам! Универсальные альтернативы: /dev/fd/%N mkfifo - создать named pipe /dev/stdin, /dev/stdout

А почему бы не использовать GNU parallel?

“GNU parallel makes sure output from the commands is the same output as you would get had you run the commands sequentially. This makes it possible to use output from GNU parallel as input for other programs.”

GNU parallel

● Может мержить потоки (опция --line-buffer)

GNU parallel

● При этом жрёт много ресурсов

GNU parallel

● При этом жрёт много ресурсов ● Сложен в отладке

GNU parallel

● При этом жрёт много ресурсов ● Сложен в отладке ● Мы находили баги (теряли данные)

MySQL => Exasol

ExasolMySQL

fdlinecombine

MySQL => Exasol

fdlinecombineExasol

Exasol

MySQL => Exasol

MySQL Exasol

Exasol

ExasolExasol

MySQL => Exasol

MySQL Exasol

Exasol

ExasolExasol

SELECT * FROM T1

В 5 раз быстрее

ETL граф

ETL большого проекта

Обработка потока событий

Продуктовая разработка• Вопросы про данные

– Собираем больше информации

– Собираем больше информации • Эксперименты и новые метрики

– Настраиваем ETL – ALTER TABLE …. – Генерируем отчёты

Доколе!?

Автоматизируй это!• Формальное, machine-readable

описание данных • Автоматизация доставки в хранилища

• Автоматизация репортинга

Формальное описание событий• Единый формат для всех платформ

• Строгая типизация атрибутов

• Понятно человеку и машине

Событие «Авторизация»

ENUM «Способы авторизации»

Доставка в хранилища• Сгенерировать события на backend

• Преобразовать

• Загрузить в хранилище

Схема в Hadoop (Hive)• Единая таблица для хранения всех

событий

• Хранение атрибутов в map<string,

string>

Схема в Hadoop (Hive)• Единая таблица для хранения всех

событий

• Хранение атрибутов в map<string,

string>

• Модный формат хранения ORC 77

Схема в Hive: преимущества• Поддержка любых атрибутов событий

• Top-level reporting по всему объему

данных

• Оперативное обновление

Схема в Hive: недостатки• Большое количество партиций

• Overhead на хранение атрибутов в

строках

Доставка в Hive• Накопить данные в HDFS

• Сделать временную таблицу (JSON)

• INSERT OVERWRITE TABLE table_name

SELECT …. FROM table_temporary

Схема хранения в Exasol• Таблица на каждый тип события

• Каждому атрибуту – отдельная колонка

• Общая информация о событиях в отдельной таблице

head_id method job_id

12345678901234 Email job_one

98765432109876 Facebook job_two

Событие SignIn

head_id profile_id job_id

12345678901234 1567854 job_one

98765432109876 4589783 job_one

Событие ViewProfile

head_id 12345678901234

user_id 100500

gender Male

country Russia

platform Android

Header

Схема в Exasol: преимущества• Оптимизация хранилища под типы

данных • Быстрый репортинг по отдельным

событиям

Схема в Exasol: недостатки• Надо поддерживать согласованность

конфига событий и схемы таблиц • Нет сквозного репортинга по всем

данным

Доставка в Exasol• Взять данные из Hadoop

• Сформировать открыть транзакцию в

Exasol

• Вставить данные

• COMMIT в Exasol 86

Hadoop -> Exasol• Объём исходных данных – до 150 Gb

• У каждого события – своя схема

Схема pipeline• Выбрать данные из Hive в Spark • Для каждого события получаем

колонки из Exasol • Формируем TSV-файлы в HDFS • Импортируем в Exasol

IMPORT INTO data.click_event

FROM CSV AT

‘http://hadoop:50070/etl_xxxx/signin/'

FILE '1.csv.gz', ...

FILE 'XXX.csv.gz';

Hadoop WebHDFS

IMPORT INTO data.click_event

FROM CSV AT

‘http://hadoop:50070/etl_xxxx/signin/'

FILE '1.csv.gz', ...

FILE 'XXX.csv.gz';

Параллельная обработка событий одного типа

Преимущества• Распределение дисковой нагрузки

– HDFS – Spark Workers

• Node-to-node взаимодействие при IMPORT • Идемпотентность - перезаливка части

событий из job_id

Cross-database bridges

Зачем строить мосты?

• Каждая база хороша по-своему • Не все задачи можно выполнить

внутри одного хранилища

Зачем строить мосты?

• Каждая база хороша по-своему • Не все задачи можно выполнить

внутри одного хранилища • Требуется обмен данными

между большими системами

• Сверхбыстрая выборка в пределах таблицы

• Real-time вставка данных • Можно делать мелкие вставки

• Слабый JOIN – не все аналитические задачи решаются

• Важно думать о data locality – иначе не сделать

JOIN больших таблиц

• Принимает данные в любых форматах • Лёгкое масштабирование • Удобное управление репликацией и

retention • Можно делать любые JOIN

– хоть и не всегда быстро

• Надо думать о партицировании данных • Плохо работает с маленькими вставками • Высокое значение latency

• Высокая скорость сканирования • Любые аналитические операции • Всё быстро

• Дорого хранить исторические данные • Вставка большими порциями и редко

Всё круто, и всё же – мосты?

• Ни одно хранилище не обладает 100% информации

• Будем брать лучшее, и доставлять недостающее

Hadoop to ClickHouse

• Запрос в ClickHouse на импорт данных • Используя Spark

SELECT * FROM

'hdfs://hdfs1:9000/file',

'id UInt64, number Float64'

SELECT * FROM

'hdfs://hdfs1:9000/file',

'id UInt64, number Float64'

--- URL файла

--- формат данных

--- схема данных

Hadoop to ClickHouse via SQL

• Нативно, внутри ClickHouse • Поддержка лишь одного файла за раз

– в разработке поддержка globbing

• Требуется согласованность форматов данных • Всё прокачивается через

1 машину ClickHouse

Hadoop to ClickHouse via Spark

• Читаем данные в Spark • Преобразуем • Каждую партицию данных пишем через

JDBC-коннектор + нестандартный метод sendRowBinaryStream

• Не только SQL для преобразований • Параллелизм обработки • Пишем в любые ноды ClickHouse

• Не только SQL для преобразований • Параллелизм обработки • Пишем в любые ноды ClickHouse • Надо программировать • Ограничено Spark + Java/Scala • Накладные расходы от Spark

ClickHouse to Hadoop

• Запрос в ClickHouse на экспорт данных • Через Spark

CREATE TABLE hdfs_table

(id Int32)

ENGINE = HDFS('hdfs://hdfs1:9000/file', 'TSV');

INSERT INTO hdfs_table

SELECT * FROM another_table;

ClickHouse to Hadoop via SQL

• Запись только в один файл • Обрабатывается через 1 машину

ClickHouse

ClickHouse to Hadoop via Spark

• JDBC + нестандартный метод executeQueryClickHouseRowBinaryStream

• Программное управление топологией данных

ClickHouse to Exasol и обратно

• Через IMPORT/EXPORT команды Exasol

IMPORT INTO exasol_table

FROM CSV AT

'http://clickhouse1:8123/'

FILE '?query=SELECT * FROM clickhouse_table'

EXPORT exasol_table

INTO CSV AT

'http://clickhouse1:8123/'

'?query=INSERT INTO clickhouse_table FORMAT CSV'

ClickHouse to Exasol и обратно

• Дёшево и просто • Ограничено взаимодействием двух

машин – исправить: через Spark – в связке с Exasol sub-connections

Hadoop to Exasol

• WebHDFS + TSV + Exasol IMPORT query • Через Spark + Exasol sub-connections

Exasol to Hadoop

• Exasol EXPORT query – более одного файла – только CSV

• Exasol UDF – высокая производительность – любые форматы – требует программирования

Выводы

• BI – это круто :) • Подбираем хранилище данных под задачу • Берём лучшее от разных систем • В экспериментах рождается прогресс

СПАСИБО! krash@corp.badoo.com

a.eremihin@corp.badoo.com

Хранилища данных на службе BI PDF · 1 машину ClickHouse. Hadoop to...

Documents

Transcript of Хранилища данных на службе BI PDF · 1 машину ClickHouse. Hadoop to...

管理员手册 - Remote Spark

ZORG DAT JE KLAAR BENT VOOR MORGEN - Tomorrow · Lumina Spark of Emotion workshop | € 3470 (Indicatie voor 8 personen) Leer eenzelfde taal spreken, elkaars voor-keursgedrag kennen

SPARK 1 COMPANION LEERWERKBOEK (isbn:9789028964006) Opgelet, enkel te bestellen indien je een nieuwe leerling bent. SPARK 1 LEERWERKBOEK INCL ONLINE OEFENMATERIAAL

028381 Chevrolet Spark v4Chevrolet Spark (M200/M250) 03/2005-08/2014 Chevrolet / Daewoo Matiz (M200/M250) 03/2005 – 02/2010 TYPE: 028381 Waarde EC 94/20 Érték e7 00-0021 Valer

某APP APM管理 - pic.huodongjia.com · 29.11.2017 · Prometheus + ClickHouse exporter + ... 官方Meetup PPT ⭐⭐⭐⭐⭐ 6. Altinity提供的rpm包 ⭐⭐⭐⭐⭐ 7. 官方运维建议

Web view064 Westerduijn Bob Spark 902 1:34:17 11eH50 13.363 4.29. 065 Nierop ... 088 Berg Leendert vd Spijkenisse 579 1:37:49 19eH45 12.881 4.39

Radio Aansluitkabels - Sinatec Radio Aansluit kabels Sinatec.pdfToyota GT86 SR3040 2012 Toyota 4Runner SR3041 2007 Toyota Avalon SR3041 2007 ... Chevrolet Spark SR1086 2010 Toyota

(Inter)nationale ketens voor elektronisch betalen...(Inter)nationale ketens voor elektronisch betalen 3 CNN BreakingNews, 4 november 2009 FED MOVES SPARK NEWBUBBLE FEARS FED risks

ClickHouse 如何玩转时序数据 › assets › uploads...SSH 密钥 Note: 即将推出 ... 兼容各类开源时序数据库协议(如 OpenTSDB、Druid) 填小问卷 免费领

Introducing Spark Campus

Knock Sensor KS4-P Datasheet - Bosch Motorsport€¦ · brations in spark ignition engines due to uncon-trolled combustion. This sensor is suitable for opera-tion in extreme conditions.

Spark design & innovation...vanuit China hier te krijgen, maar we hebben de deadline gehaald.' Van den Bergh: 'Voor de pro- jectbeheersing zijn de inspanningen vergroot gedurende de

Spark marathon Spijkenisse mannen nr Naam Geb jr · PDF file1 Ralf Preibisch 1962 Flakkee Nederland 2:32:27 2008 2 Robert Willemse 1968 Rotterdam Atletiek Nederland 2:33:29 2017 ...

The physics of photoconductive spark gap switching: Pushing the

VRIJDAG 7 JUNI · 2020. 11. 11. · Jimmy Haslip & Scott Kinsey (US) Michelle David & The Gospel Sessions Kika Sprangers Quintet Dominic J. Marshall Trio Spark Susanne Alt ft. Mavis

Bestellijst automatten alle merken-modellen Bedrijfsnaam ... · 0921 Chevrolet Cruze 2009 -> 0922 Chevrolet Equinox 0923 Chevrolet Spark 2010 -> 0924 Chevrolet Orlando 7 pers 4-delig

Uitslagen Spijkenisse-Spark Marathon

CleanTech Challenge Efficiënte logistiek in Oost-Vlaanderen...2018/06/01 · neuzen B Eankenberge De ken land Van Saeftinghe Beveren Bornem ermonde L ebb. e spark de Antwerpen strat

Technische informatie Philipszaal - Zulu · 2018. 11. 12. · Grand MA 2 onPC (op aanvraag) Grand MA 1 Ultra Light (op aanvraag) Compulite Spark Top (op aanvraag) Midi Nee Ethernet

REGNBUEN · 2018. 1. 9. · Deborah Baker Monday Deep Sea Fandango Richard Meyer Ninja Doug Spata Stefan BivandA Spark of Courage Pädagoge bei der Griegakademie in Bergen und - Pause

ClickHouse 如何玩转时序数据 › assets › uploads...SSH 密钥 Note: 即将推出 ... 兼容各类开源时序数据库协议(如 OpenTSDB、Druid) 填小问卷免费领