Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Apache Spark
Apache Spark
De manière native, Spark prend en charge les applications écrites en Scala, python ou Java. Il inclut également plusieurs bibliothèques étroitement intégrées pour SQL (Spark
Vous pouvez installer Spark sur un cluster Amazon EMR avec d’autres applications Hadoop. Cette solution peut également exploiter le système de fichiers Amazon EMR (EMRFS) pour accéder directement aux données dans Amazon S3. Hive est également intégré à Spark afin que vous puissiez utiliser un HiveContext objet pour exécuter des scripts Hive à l'aide de Spark. Un contexte Hive est inclus dans le shell de Spark en tant que sqlContext
.
Pour un exemple de tutoriel sur la configuration d'un cluster EMR avec Spark et l'analyse d'un exemple de jeu de données, consultez Tutorial : Getting started with Amazon EMR sur le blog News. AWS
Important
Apache Spark version 2.3.1, disponible à partir de la version 5.16.0 d'Amazon EMR, corrige CVE-2018-8024
Le tableau suivant répertorie la version de Spark incluse dans la dernière version d’Amazon EMR série 7.x, ainsi que les composants qu’Amazon EMR installe avec Spark.
Pour connaître la version des composants installés avec Spark dans cette version, consultez les versions des composants de la version 7.9.0.
Étiquette de version Amazon EMR | Version de Spark | Composants installés avec Spark |
---|---|---|
emr-7.9.0 |
Spark 3.5.5 |
delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
Le tableau suivant répertorie la version de Spark incluse dans la dernière version d'Amazon EMR série 6.x, ainsi que les composants qu'Amazon EMR installe avec Spark.
Pour connaître la version des composants installés avec Spark dans cette version, consultez la rubrique Versions des composants de la version 6.15.0.
Étiquette de version Amazon EMR | Version de Spark | Composants installés avec Spark |
---|---|---|
emr-6.15.0 |
Spark 3.4.1 |
aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
Note
La version 6.8.0 d'Amazon EMR est fournie avec la version 3.3.0 d'Apache Spark. Cette version de Spark utilise Apache Log4j 2 et le fichier log4j2.properties
pour configurer Log4j dans les processus Spark. Si vous utilisez Spark dans le cluster ou si vous créez des clusters EMR avec des paramètres de configuration personnalisés, et que vous voulez passer à la version 6.8.0 d'Amazon EMR, vous devez migrer vers la nouvelle classification de configuration spark-log4j2
et le nouveau format de clé pour Apache Log4j 2. Pour de plus amples informations, veuillez consulter Migration d'Apache Log4j 1.x vers Log4j 2.x.
Le tableau suivant répertorie la version de Spark incluse dans la dernière version d'Amazon EMR série 5.x, ainsi que les composants qu'Amazon EMR installe avec Spark.
Pour connaître la version des composants installés avec Spark dans cette version, consultez les versions des composants de la version 5.36.2.
Étiquette de version Amazon EMR | Version de Spark | Composants installés avec Spark |
---|---|---|
emr-5.36.2 |
Spark 2.4.8 |
aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
Rubriques
Exécution d’applications Spark avec Docker sur Amazon EMR 6.x
Utiliser le catalogue AWS Glue Data Catalog avec Spark sur Amazon EMR
Utilisation de l’accélérateur Nvidia RAPIDS pour Apache Spark
Utilisation d'Amazon SageMaker Spark pour le machine learning
Utilisation du connecteur Amazon Kinesis Data Streams pour le streaming structuré Spark
Utilisation de l'intégration d'Amazon Redshift pour Apache Spark avec Amazon EMR