Description du livre
Tirez parti des modèles de machine et d'apprentissage approfondi pour créer des applications sur des données en temps réel à l'aide de PySpark. Ce livre est parfait pour ceux qui veulent apprendre à utiliser ce langage pour effectuer une analyse exploratoire des données et résoudre un éventail de défis commerciaux.
Vous commencerez par passer en revue les principes fondamentaux de PySpark, tels que l'architecture de base de Spark, et vous verrez comment utiliser PySpark pour de gros traitements de données comme l'ingestion de données, le nettoyage et les techniques de transformation. Ceci est suivi par la création de workflows pour l'analyse des données de streaming à l'aide de PySpark et une comparaison des différentes plates-formes de streaming.
Vous verrez ensuite comment programmer différentes tâches d'étincelles à l'aide de Airflow avec PySpark et examinerez la machine d'accordage et les modèles d'apprentissage en profondeur pour des prédictions en temps réel. Ce livre se termine par une discussion sur les trames graphiques et l'analyse des réseaux à l'aide d'algorithmes graphiques dans PySpark. Tout le code présenté dans le livre sera disponible en scripts Python sur Github.
Ce que vous apprendrez
Développer des pipelines pour le traitement des données en continu à l'aide de PySpark
Construisez des modèles d'apprentissage machine et d'apprentissage approfondi à l'aide des dernières offres de PySpark
Utiliser l'analyse graphique à l'aide de PySpark
Création d'incorporations de séquences à partir de données de texte
A qui s'adresse ce livre ?
Les scientifiques des données, les ingénieurs en apprentissage machine et en apprentissage approfondi qui veulent apprendre et utiliser PySpark pour l'analyse en temps réel des données en continu.