CONGRES BIG DATA PARIS · Corporama est un agrégateur web de données sociétés permettant une...

12
CONGRES BIG DATA PARIS 21 Mars 2012 Retour d’expérience CORPORAMA.COM Eric Barnet – Nicolas Thauvin

Transcript of CONGRES BIG DATA PARIS · Corporama est un agrégateur web de données sociétés permettant une...

Page 1: CONGRES BIG DATA PARIS · Corporama est un agrégateur web de données sociétés permettant une vision complète sur toutes les entreprises françaises pour : Qualifier en temps

CONGRES BIG DATA PARIS 21 Mars 2012

Retour d’expérience CORPORAMA.COM Eric Barnet – Nicolas Thauvin

Page 2: CONGRES BIG DATA PARIS · Corporama est un agrégateur web de données sociétés permettant une vision complète sur toutes les entreprises françaises pour : Qualifier en temps

Corporama est un agrégateur web de données sociétés permettant une vision complète sur toutes les entreprises françaises pour :

➥ Qualifier en temps réel une entreprise (infos légales et financières, activité, …) ➥ Identifier un interlocuteur et ses coordonnées via les réseaux sociaux ➥ Enrichir le dialogue commercial (actualités, documents, emploi, salons, web 2.0 …) ➥ Suivre l'actualité d'une société (alertes ciblées par sources et mots clés) ➥ Editer des listes d’entreprises par mots clés (export et enrichissement CRM)

L’information entreprise à 360 °

1/10

Page 3: CONGRES BIG DATA PARIS · Corporama est un agrégateur web de données sociétés permettant une vision complète sur toutes les entreprises françaises pour : Qualifier en temps

Exemple de fiche société

1/10

Page 4: CONGRES BIG DATA PARIS · Corporama est un agrégateur web de données sociétés permettant une vision complète sur toutes les entreprises françaises pour : Qualifier en temps

Chiffres clés et problématiques

Une problématique agrégation temps réel : ➥ 80 000 visites /mois ➥ 300 000 recherches sociétés ➥ 200 requêtes par recherche ➥ Crawling permanent sur la base sociétés

Une problématique « Big Data » ➥ 4 millions d’entreprise françaises ➥ Recueil et stockage de données ➥ Edition de listes de prospects par taille/activité/lieu et mots clés ➥ Enrichissement de l’agrégation

2/10

Page 5: CONGRES BIG DATA PARIS · Corporama est un agrégateur web de données sociétés permettant une vision complète sur toutes les entreprises françaises pour : Qualifier en temps

Chiffres clés et problématiques

Une problématique agrégation temps réel : ➥ 80 000 visites /mois ➥ 300 000 recherches sociétés ➥ 200 requêtes par recherche ➥ Crawling permanent sur la base sociétés

Une problématique de performance à court terme :

➥ 300 entreprises clientes (services commerciaux et marketing BtoB) ➥ 1 200 utilisateurs payants (via le site Corporama.com ou via un CRM) ➥ 12 000 abonnés gratuits utilisateurs ponctuels

Une problématique « Big Data » ➥ 4 millions d’entreprise françaises ➥ Recueil et stockage de données ➥ Edition de listes de prospects par taille/activité/lieu et mots clés ➥ Enrichissement de l’agrégation

3/10

Page 6: CONGRES BIG DATA PARIS · Corporama est un agrégateur web de données sociétés permettant une vision complète sur toutes les entreprises françaises pour : Qualifier en temps

Chiffres clés et problématiques

Une problématique agrégation temps réel : ➥ 80 000 visites /mois ➥ 300 000 recherches sociétés ➥ 200 requêtes par recherche ➥ Crawling permanent sur la base sociétés

Une problématique de performance à moyen/long terme :

➥ Maintenir le niveau de performance avec l’augmentation trafic/clients ➥ Travailler plus finement sur les notions de liens sémantiques activité/sociétés (cartographie concurrentielle, lien sémantique terme/société plus riche, …)

➥ Anticiper une forte hausse de data à gérer si couverture européenne

Une problématique « Big Data » ➥ 4 millions d’entreprise françaises ➥ Recueil et stockage de données ➥ Edition de listes de prospects par taille/activité/lieu et mots clés ➥ Enrichissement de l’agrégation

4/10

Page 7: CONGRES BIG DATA PARIS · Corporama est un agrégateur web de données sociétés permettant une vision complète sur toutes les entreprises françaises pour : Qualifier en temps

Le volume massif d'informations à interroger sur des sources multiples en quelques secondes impose un requêtage parallèle (« map reduce web »)

5 requêtes

8 requêtes

2 x 30 requêtes

➥ 1 page = environ 200 requêtes vers des sources externes pour un résultat < 3 sec. ➥ 5 recherches en cours à un instant T sur le site ➥ 2 serveurs de production hébergeant aussi la base sociétés (forte consommatrice de ressources)

L’agrégation temps réel

5/10

Page 8: CONGRES BIG DATA PARIS · Corporama est un agrégateur web de données sociétés permettant une vision complète sur toutes les entreprises françaises pour : Qualifier en temps

➥ Langage fonctionnel utilisé pour développer des applications temps réel et distribuées à haute disponibilité. ➥Venant du monde Telecom (Ericsson), il est de plus en plus utilisé dans le secteur bancaire et dans le monde du web (et dans les BD associées) ➥Création de process légers indépendant dans la VM : “tout est process” ➥Approche 'let it crash’ ➥Communication par passage de message entre process locaux et distants ➥ Faible consommation de mémoire

Process principal Process rendu du nuage

La technologie Erlang

Les spécificités de la technologie Erlang :

6/10

Page 9: CONGRES BIG DATA PARIS · Corporama est un agrégateur web de données sociétés permettant une vision complète sur toutes les entreprises françaises pour : Qualifier en temps

Une base société de 4 millions d’entrées avec des besoins spécifiques :

➥ Indexation Full Text en complément de critères NAF, statut, CA, ... ➥ Filtrage de type « Stop Words » et « Fuzzy Search » ➥ Redondance, simplicité et stabilité de la base ➥ Mise en place de l’environnement de développement

Ecosystème et maintenance complexes Distributed Lucene de HP semblait correct Grosse latence Enorme consommation de ressources Ne résiste pas aux partitions réseaux

Equipe d'experts Encore beta Manquait encore de finitions Innostore en backend aux performances limitées

Moteur Full text peu véloce Mais passe tous les tests

Rejetés d'après commentaires / état du projet

Nos « Big Data » 2010

7/10

Page 10: CONGRES BIG DATA PARIS · Corporama est un agrégateur web de données sociétés permettant une vision complète sur toutes les entreprises françaises pour : Qualifier en temps

De nouveaux besoins en termes de crawling et de recherche full-text :

➥ Pour chaque société, indexer les pages où apparaissent les coordonnées / les informations relatives pour extraction ultérieure → 50 / société ➥ Besoin de full-text industriel, notamment pour l'extraction d'entités nommées ➥ Tests de redondance, de simplicité et de stabilité sur un échantillon de données

Produit fini Excellente 'scalabilité' Full text pas assez performant Pertes possible avec peu de serveurs

Idéal dans les cas simples Approche 'Zero conf' Risque de corruption des index

Solution maison: Tokyo Tyrant (serveur TCP au dessus de Tokyo Cabinet = Stockage clef/valeur) : {SIREN, [Documents], Meta} {Mot, [{SIREN, Meta}]} {Entité, [SIREN], Meta}

Pas de partitionnement sur les réplicats Croisement avec MySQL

Nos « Big Data » 2011

8/10

Page 11: CONGRES BIG DATA PARIS · Corporama est un agrégateur web de données sociétés permettant une vision complète sur toutes les entreprises françaises pour : Qualifier en temps

Crash

Network partition

Les solutions NoSQL évoluent de façon rapide et nous conseillons de les tester en profondeur pour faire son choix :

➥ C'est chronophage et difficile à concilier avec le développement d'une startup ➥ Le théorème de CAP (Consistency / Availability / Partition Tolerance) paraît très optimiste pour beaucoup de solutions NoSQL gratuites du marché ➥ Après une série de tests, nous avons choisi Elasticsearch pour mise en œuvre en avril 2012

Ressource consumption

Maintenance

Unavailability

Overloads Loss of data

Inconsistency

Badly upgradable

Choix et conclusion

Source : http://guide.couchdb.org/draft/consistency.html

9/10

Page 12: CONGRES BIG DATA PARIS · Corporama est un agrégateur web de données sociétés permettant une vision complète sur toutes les entreprises françaises pour : Qualifier en temps

Pour enrichir mutuellement nos approches Big Data et partager notre expérience opérationnelle :

➥ Nicolas THAUVIN – Directeur technique [email protected] ➥ Eric BARNET – Directeur Général [email protected] ➥ CORPORAMA 148 rue des Pyrénées 75 020 PARIS http://corporama.com 01.55.25.24.60

Pour poursuivre ces échanges …

Merci de votre attention !

10/10