Burger Menu

Site built by UNOMENA

Site built by UNOMENA

< Back to Press Room

OpenIO franchit, en partenariat avec Criteo, la barre du térabit : 1,37 Tbps de débit en écriture !

Lille, le 17 octobre 2019


OpenIO franchit, en partenariat avec Criteo, la barre du térabit : 1,37 Tbps de débit en écriture !


Pour démontrer la performance et la scalabilité de sa solution d’Object Storage, la startup lilloise OpenIO a déployé sa technologie logicielle de stockage sur un cluster de plus de 350 serveurs physiques, mis à disposition par Criteo, la plateforme publicitaire pour l'Internet ouvert. Le benchmark a permis de franchir le cap symbolique du térabit, et même de le dépasser avec un débit utile constaté de 1,372 Tbps. S’il s’était agi de transférer numériquement l’intégralité de la plus grande bibliothèque du monde – celle du Congrès américain, riche de plus de 22 millions d’ouvrages imprimés – l’opération aurait été bouclée en moins d’une minute !

Cette performance, réalisée dans les conditions de la production, consacre le design du logiciel de stockage en mode objet développé par OpenIO, pensé pour les nouveaux usages des données, en particulier l’exploitation massive des données par des algorithmes d’IA sur des clusters Big Data / HPC. Inaugurant par ce record le #TbpsChallenge, OpenIO invite les autres acteurs du marché à mettre leur technologie à l’épreuve.



La performance des systèmes de stockage : un critère de choix déterminant à l’heure du data processing

Ces dernières années, en raison de la croissance exponentielle du volume de données collecté par les entreprises, leurs choix en matière de technologies de stockage ont souvent été guidés par deux critères : le prix au gigaoctet et la scalabilité – soit la possibilité d’augmenter facilement la capacité d’une plateforme de stockage pour créer son « data lake » sans créer des silos de données. Il est désormais possible d’extraire de la valeur de ces données, et cette extraction devient l’un des principaux leviers de croissance de beaucoup d’entreprises. Aussi, la préoccupation est aujourd’hui moins d’optimiser le coût de l’archivage des données que de rendre leur traitement possible par de gourmands algorithmes de Machine Learning et Deep Learning. Après l’ère du Data Archiving et celle du Data Sharing, nous entrons dans l’ère du Data Processing.

« Quand on évoque les performances d’un système de stockage, il y a 3 dimensions à prendre en compte, explique Laurent Denel, CEO et cofondateur d’OpenIO. La capacité de stockage, la bande passante atteignable en lecture/écriture et enfin le temps d’accès aux données, autrement appelé la latence2. » Pour les données non structurées, qui représentent aujourd’hui l’essentiel des données détenues par les entreprises, la question de la capacité et celle de la bande passante sont prépondérantes. Il faut non seulement pouvoir « scaler » sa plateforme, mais également écrire et consommer les données avec un débit optimal, sans quoi les calculs lancés sur les jeux de données sont ralentis ou interrompus, et le temps de chargement des données entre chaque tâche de calcul devient un frein à leur exploitation. Étant donné le coût, souvent facturé à la minute, d’un supercalculateur (ou plus couramment d’un cluster de calcul de type Hadoop) le débit offert par un système de stockage ne peut plus être une question secondaire.

« Depuis la création d’OpenIO, nous avons placé au centre la question de la performance. Une fois le premier défi résolu – le stockage à grande échelle – il apparaissait évident que les données seraient utilisées plus intensivement que par le passé. C’est pourquoi nous avons conçu une solution efficiente, capable d’être utilisée comme stockage primaire pour du streaming vidéo (c’est le cas de notre client Dailymotion), ou pour servir des jeux de données de plus en plus volumineux à des algorithmes d’IA par exemple. »


Un record établi grâce à l’excellence de l’infrastructure de Criteo

Pour fournir une publicité efficace sur tous les canaux, en appliquant une technologie de machine learning avancée, Criteo manipule des volumes de données considérables, et a bâti pour cela une plateforme Big Data unique au monde, composée de plusieurs milliers de noeuds. Ravie de soutenir une entreprise française développant une technologie open source, l’équipe d’ingénieurs de Criteo a mis gracieusement à disposition plus de 350 machines de son infrastructure, tout juste rackées dans l’un de leurs datacenters (Amsterdam), mais pas encore mises en production. Une opportunité inestimable pour OpenIO, car ce cluster constitué de serveurs de stockage standards (2 CPU Intel Xeon Gold 6140, 384 Go de RAM, 1 disque SSD pour le système, 15 disques SATA de 8 To) permet d’atteindre un ordre de grandeur à partir duquel on peut parler d’« hyperscale ».

« Concrètement, nous avons déployé OpenIO SDS sur 352 machines physiques, détaille Jean-François Smigielski, CTO d’OpenIO. Le déploiement à cette échelle est un premier défi en soi. Le challenge consistait à copier des données de l’un des datalakes de Criteo, composé de 2 500 serveurs, vers un cluster OpenIO hébergé sur la même infrastructure, les machines étant interconnectées par un réseau maillé. Criteo possède un coeur de réseau permettant d’aller jusqu’à la saturation de tous les liens réseau des machines (10 Gpbs), ce qui laissait penser que nous pouvions dépasser le térabit. Nous avons lancé un test unitaire (vers une seule machine) pour valider la configuration et confirmer la saturation du lien à 10 Gbps. Nous avons ensuite lancé le tir de charge et ajouté des machines par lot de 50, démontrant ainsi les performances parfaitement linéaires du cluster OpenIO, jusqu’à atteindre le débit de 1,372 Tbps. » Cela signifie qu’OpenIO SDS a été capable d’écrire 171 Go de données par seconde, cette performance incluant la protection des données au moyen d’un erasure coding de type 14 + 4 (une combinaison permettant de perdre jusqu’à 4 serveurs au sein du cluster, sans perte de données).


Pour Stuart Pook, Senior Site Reliability Engineer chez Criteo, ce test est un succès : « Criteo est heureux d’avoir contribué à la réalisation de ce  benchmark, qui a permis à OpenIO de démontrer la capacité de sa technologie à scaler massivement, sans perte de performance lors de l’ajout de nouveaux noeuds, tout en offrant un débit en écriture proche des limites théoriques du matériel mis à disposition. »

D’ores et déjà, des secteurs tels que la recherche médicale ou l’industrie automobile (pour le développement de voitures autonomes) ont la nécessité de tels débits pour entraîner leurs algorithmes à construire des modèles sur la base de datasets excédants les 100 pétaoctets, ainsi que le souligne Octave Klaba, CEO d’OVH, leader européen du cloud computing : 



#TbpsChallenge

La performance établie par OpenIO chez Criteo est un record au sens où aucune autre technologie de stockage en mode objet n’a, à ce jour, revendiqué et démontré avoir atteint un tel débit dans les conditions de la production et sur du matériel standard (commodity servers). Aussi, OpenIO met ses concurrents au défi de réaliser une telle performance ou de la surpasser, en lançant le #TbpsChallenge. Une façon de permettre aux entreprises de comparer les acteurs du marché sur des faits plutôt que sur des promesses marketing, dans un secteur où les comparatifs sont particulièrement difficiles à mettre en oeuvre au sein des entreprises, en raison des coûts prohibitifs d’une infrastructure de test assez puissante pour réaliser de tels tirs de performance.


(1) Pour le calcul, voir : https://blogs.loc.gov/thesignal/2011/07/transferring-libraries-of-congress-of-data/

(2) A propos des 3 aspects de la performance, lire : https://www.openio.io/blog/performances-systemes-stockage-3-criteres-a-prendre-en-compte



À propos

OpenIO représente la 2e vague des solutions de stockage objet, hyperscalable et hardware agnostic Outre la performance record en termes de bande passante atteignable, la technologie de softwaredefined storage développée par l’équipe d’OpenIO offre une scalabilité infinie, qui ne nécessite pas de rééquilibrer les données (mécanisme appelé « rebalancing ») entre les différents serveurs au moment de l’agrandissement de la plateforme. Une prouesse rendue possible par un placement dynamique et intelligent des données sur les différents noeuds du cluster, en fonction de leur état à l’instant T – tandis que la plupart des solutions d’Object Storage, par simplicité, distribuent les données de manière purement algorithmique, sans tenir compte ni de l’état de la plateforme ni des noeuds qui la composent. ConsciousGridTM, le nom de ce procédé, constitue une véritable rupture technologique, car l’opération de rebalancing des données sur une plateforme de stockage engendre une baisse significative des performances durant plusieurs jours ou semaines, voire des mois entiers quand les volumétries atteignent les dizaines de pétaoctets.

En outre, OpenIO SDS est une solution logicielle (software-defined) hardware agnostic, capable de tirer le meilleur parti de serveurs de type commodity hétérogènes, ce qui permet de faire évoluer facilement son cluster de stockage, qu’il soit dans les locaux de l’entreprise ou chez un hébergeur. La technologie d’OpenIO a d’ores et déjà séduit plus d’une quarantaine de clients dans le monde, parmi lesquels Dailymotion, le CEA ou encore le service provider IIJ (Internet Initiative Japan).

OpenIO, qui a bénéficié du soutien initial de Georges Lotigier (CEO de Vade Secure), a levé en octobre 2017, 5 millions de dollars auprès de Elaia, Partech Partners et Nord France Amorçage. Outre son siège près de Lille, au sein de l’Okto Campus qu’elle partage avec Vade Secure (leader de la sécurité des e-mails, qui vient de lever 70 millions d’euros), l’entreprise a également un bureau commercial à Paris, et une équipe à Tokyo. En juillet 2019, la startup a décroché le Pass French Tech 2018-2019, un programme national d’accompagnement d’entreprises en hypercroissance.

Pour plus d’information, rendez-vous sur www.openio.io


Contact presse:




À propos de Criteo

Criteo (NASDAQ: CRTO) est la plateforme publicitaire pour l'Internet ouvert, un écosystème qui favorise la neutralité, la transparence et l'inclusivité. Les 2 900 membres de l'équipe Criteo collaborent avec près de 20 000 clients et des milliers d'éditeurs dans le monde entier pour offrir une publicité efficace sur tous les canaux, en appliquant une technologie de machine learning avancée, liée à des ensembles de données de taille inégalée. Criteo donne aux entreprises de toutes tailles la technologie dont elles ont besoin pour mieux connaître et servir leurs clients. Pour plus d'information, rendez-vous sur www.criteo.com.
< Back to Press Room