juillet 1, 2024

BreaGeek News

Obtenez toutes les dernières nouvelles et rapports sur la FRANCE ici. Manchettes, politique et culture françaises sur une chaîne d'information

Le parcours d’Uber pour moderniser son infrastructure Big Data avec Google Cloud Platform

Le parcours d’Uber pour moderniser son infrastructure Big Data avec Google Cloud Platform

dans Dernier commentaire Sur son blog d’ingénierie officiel, Uber a révélé sa stratégie de migration de sa suite de formation d’analyse de données par lots et d’apprentissage automatique (ML) vers… Plateforme Google Cloud (GCP). Uber exploite l’une des plus grandes entreprises hadoop installations dans le monde entier, gérant plus d’exaoctets de données sur des dizaines de milliers de serveurs dans les deux régions. L’écosystème de données open source, en particulier Hadoop, constitue la pierre angulaire de la plateforme de données.

Le plan de migration stratégique comprend deux étapes : la migration initiale et l’exploitation des services Cloud-Native. La stratégie initiale d’Uber consiste à exploiter le magasin d’objets GCP pour stocker le lac de données tout en migrant le reste de son ensemble de données vers l’infrastructure en tant que service (IaaS) de GCP. Cette approche permet une migration rapide avec une perturbation minimale des fonctionnalités et des pipelines existants, car ils peuvent répliquer des versions exactes de la pile logicielle, des moteurs et du modèle de sécurité sur site sur IaaS. Après cette phase, l’équipe d’ingénierie d’Uber prévoit d’adopter progressivement les offres de plateforme en tant que service (PaaS) de GCP, par exemple procédure de données Et BigQueryPour exploiter pleinement les avantages en matière de flexibilité et de performances des services cloud natifs.

Portée de la migration (Source : Blog Uber)

Une fois la migration initiale terminée, l’équipe se concentrera sur l’intégration de services cloud natifs afin de maximiser les performances et l’évolutivité de l’infrastructure de données. Cette approche progressive garantit que les utilisateurs d’Uber, des propriétaires de tableaux de bord aux praticiens de l’apprentissage automatique, bénéficieront d’une transition transparente sans modifier les flux de travail ou les services existants.

READ  Disney + ajoute le son spatial Dolby Atmos à l'application Apple TV 4K

Pour assurer une transition fluide et efficace, l’équipe Uber a établi plusieurs principes directeurs :

  1. Minimisez les interruptions d’utilisation en déplaçant la majorité de l’ensemble de données collectées vers le cloud IaaS tel quel ; Ils visent à protéger leurs utilisateurs de toute modification de leurs produits ou services. En utilisant des abstractions bien connues et des standards ouverts, ils s’efforcent de rendre le processus de transition aussi transparent que possible.
  2. Ils s’appuieront sur un connecteur de stockage cloud qui applique l’interface Hadoop FileSystem à Google Cloud Storage, garantissant ainsi la compatibilité HDFS. En standardisant pour les clients Apache Hadoop HDFS, nous résumerons les détails de la mise en œuvre de HDFS sur site, permettant une intégration transparente avec la couche de stockage GCP.
  3. L’équipe Uber a développé des agents d’accès aux données pour Presto, étincelleEt Ruche d’abeille Ce qui résume les groupes de calcul physique de base. Ces agents prendront en charge le routage sélectif du trafic de test vers des clusters basés sur le cloud pendant la phase de test et achemineront complètement les requêtes et les tâches vers la pile cloud pendant la migration complète.
  4. Tirez parti de l’infrastructure cloud d’Uber. L’environnement de conteneurs, la plateforme de calcul et les outils de déploiement existants d’Uber sont conçus pour être séparés entre le cloud et sur site. Ces plateformes permettront d’étendre facilement les microservices de l’écosystème de données agrégées sur le cloud (IaaS).
  5. L’équipe créera et améliorera les services de gestion de données existants pour prendre en charge les services cloud sélectionnés et approuvés, garantissant ainsi une solide gouvernance des données. L’entreprise vise à maintenir les mêmes niveaux d’accès autorisé et de sécurité que sur site, tout en prenant en charge une authentification transparente des utilisateurs par rapport à l’entrepôt de données du magasin d’objets et à d’autres services cloud.

Ensemble de données de paiement Uber avant et après la migration (Source : Blog Uber)

L’équipe Uber se concentre sur l’attribution de compartiments et la planification des ressources cloud pour la migration. Le mappage des fichiers et répertoires HDFS avec des objets cloud dans un ou plusieurs compartiments est essentiel. Ils doivent appliquer des politiques IAM à différents niveaux de granularité, en tenant compte des contraintes sur les compartiments et les objets telles que le taux de lecture/écriture et la limitation des IOPS. L’équipe vise à développer un algorithme de cartographie qui satisfait à ces contraintes et organise les ressources de données de manière hiérarchique et axée sur l’entreprise, améliorant ainsi la gouvernance et la gestion des données.

L’intégration de la sécurité est une autre voie d’action ; L’adaptation des jetons basés sur Kerberos et des jetons de délégation Hadoop pour le PaaS cloud, en particulier Google Cloud Storage (GCS), est essentielle. Ce flux de travail est destiné à prendre en charge l’authentification et l’autorisation transparentes des utilisateurs, des groupes et des comptes de service, tout en maintenant des niveaux d’accès cohérents au niveau local.

L’équipe se concentre également sur la réplication des données. HiveSync, un service de réplication de données bidirectionnelle basé sur des autorisations, permet à Uber de fonctionner en mode actif-actif. Il étend les capacités de HiveSync pour répliquer les données du lac de données sur site vers un lac de données basé sur le cloud et le Hive Metastore correspondant. Cela implique une migration initiale en masse et des mises à jour incrémentielles continues jusqu’à ce que la suite basée sur le cloud devienne la norme.

La dernière ligne de conduite consiste à provisionner de nouveaux clusters YARN et Presto sur GCP Iaas. Les agents d’accès aux données d’Uber achemineront le trafic des requêtes et des tâches vers ces clusters basés sur le cloud pendant la migration, garantissant ainsi une transition en douceur.

Le processus de migration du Big Data d’Uber vers Google Cloud s’attend à des défis tels que des différences de performances en matière de stockage et des problèmes inattendus dus à son système existant. L’équipe prévoit de résoudre ces problèmes en tirant parti des outils open source, en utilisant la flexibilité du cloud pour gérer les coûts, en migrant les utilisations non essentielles vers un stockage dédié, en testant de manière proactive les intégrations et en abandonnant les pratiques héritées.