Что такое RDD?
Resilient Distributed Dataset — это базовая абстракция данных в Spark, которая обеспечивает устойчивость и отказоустойчивость при распределённой обработке.
Можно ли использовать Spark без Hadoop?
Да, Spark работает независимо и не требует Hadoop, хотя его легко интегрировать с Hadoop для использования HDFS и других компонентов.
Какие языки программирования поддерживаются?
Spark поддерживает Scala, Java, Python и R.
Что такое DataFrame?
DataFrame — структурированное представление данных, напоминающее таблицу базы данных или Pandas DataFrame, с удобной поддержкой SQL-запросов и операций.
Подходит ли Spark для реального времени?
Да, благодаря Spark Streaming он подходит для реальных потоковых данных, хотя требует правильной настройки и ресурсов.