Download do Spark 2.7.5: um guia para usuários do Windows
Se você estiver procurando por uma ferramenta rápida e poderosa para análise de dados em larga escala, aprendizado de máquina e streaming, considere o uso do Apache Spark. Neste artigo, mostraremos como baixar e instalar o Spark 2.7.5 no Windows 10 e como usar seus recursos para processar seus dados.
spark 2.7 5 download
O que é Spark e por que você deve usá-lo
O Apache Spark é uma estrutura de código aberto que permite executar computação distribuída em máquinas ou clusters de nó único. Ele oferece suporte a várias linguagens, como Java, Scala, Python e R, e fornece APIs de alto nível para várias tarefas, como consultas SQL, algoritmos de aprendizado de máquina, processamento de gráficos e streaming.
Alguns dos benefícios de usar o Spark são:
É simples de usar e possui um rico conjunto de bibliotecas e ferramentas.
É rápido e pode processar grandes volumes de dados na memória ou no disco.
É escalável e pode lidar com cargas de trabalho de alguns gigabytes a petabytes.
Ele é unificado e pode se integrar a diferentes estruturas e fontes de dados.
Como baixar e instalar o Spark 2.7.5 no Windows 10
Para instalar o Spark 2.7.5 no Windows 10, você precisa ter o Java 8 e o Python 3 instalados em seu sistema. Você pode verificar se os possui executando os seguintes comandos no prompt de comando:
java -versão python --versão
Se você não os possui, pode baixá-los nos seguintes links:
[Baixar Java](^10^)
[Baixar Python](^11^)
Depois de instalar o Java 8 e o Python 3, você pode seguir estas etapas para baixar e instalar o Spark 2.7.5:
Abra uma janela do navegador e navegue até [Spark Downloads](^2^).
Selecione uma versão do Spark (por exemplo, 3.3.2) e um tipo de pacote (por exemplo, pré-construído para Apache Hadoop 2.7).
Clique no link em Download Spark para baixar o arquivo .tgz (por exemplo, spark-3.3.2-bin-hadoop2.tgz).
Extraia o arquivo .tgz usando uma ferramenta como [7-Zip] para um local de sua escolha (por exemplo, C:\spark).
Adicione a pasta bin do arquivo extraído (por exemplo, C:\spark\bin) à variável PATH do sistema.
Verifique a instalação executando o seguinte comando no prompt de comando:
spark-submit --version
Você deve ver algo assim:
Bem-vindo a ____ __ / __/__ ___/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ versão 3.3.2 /_/ Usando Scala versão 2.12.15 (Java HotSpot(TM) Client VM, Java 1.8.0_251) Branch HEAD Compilado pelo usuário centos em 2023-0 2-17T00 Como usar o Spark 2.7.5 no Windows 10
Agora que você instalou o Spark 2.7.5 em seu sistema Windows 10, pode começar a usá-lo para executar várias tarefas de análise de dados. Aqui estão algumas maneiras de usar o Spark 2.7.5 no Windows 10:
Como iniciar o shell Spark e executar comandos em Scala, Python ou R
Spark shell é um ambiente interativo que permite executar comandos e scripts em Scala, Python ou R. Você pode usar o Spark shell para explorar seus dados, testar seu código e depurar seus programas. Para iniciar o Spark shell, você pode executar os seguintes comandos no prompt de comando:
spark-shell # para Scala pyspark # para Python sparkR # para R
Você deve ver algo assim:
IU da Web do contexto do Spark disponível em Contexto do Spark disponível como 'sc' (mestre = local[*], id do aplicativo = local-1624294453921). Sessão Spark disponível como 'faísca'. Bem-vindo a ____ __ / __/__ ___/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ versão 3.3.2 /_/ Usando Scala versão 2.12.15 (Java HotSpot(TM) Client VM, Java 1.8.0_251) Digite expressões para que sejam avaliadas. Digite :help para mais informações. escala>
Você pode então executar comandos e scripts no idioma de sua escolha. Por exemplo, você pode criar um DataFrame a partir de um arquivo CSV e imprimir seu esquema e as 10 primeiras linhas usando os seguintes comandos no Scala:
val df = spark.read.option("header", "true").csv("data.csv") df.printSchema() df.show(10)
Como usar o Spark SQL para consultar dados estruturados e não estruturados
O Spark SQL é um módulo que permite consultar dados estruturados e não estruturados usando API SQL ou DataFrame. Você pode usar o Spark SQL para acessar dados de várias fontes, como Hive, Parquet, JSON, JDBC e muito mais. Você também pode usar o Spark SQL para realizar análises complexas, como funções de janela, agregações, junções e subconsultas.
Para usar o Spark SQL, você precisa criar um objeto SparkSession que atue como ponto de entrada para trabalhar com dados estruturados e não estruturados. Você pode usar o objeto SparkSession existente que é criado quando você inicia o shell Spark ou pode criar o seu próprio usando o seguinte código:
val spark = SparkSession.builder().appName("Spark SQL Example").getOrCreate()
Você pode usar o objeto Spark para criar DataFrames de várias fontes e registrá-los como exibições temporárias que podem ser consultadas usando SQL. Por exemplo, você pode criar um DataFrame a partir de um arquivo JSON e registrá-lo como uma visualização temporária usando o seguinte código:
val df = spark.read.json("pessoas.json") df.createOrReplaceTempView("pessoas")
Você pode consultar a exibição de pessoas usando a sintaxe SQL ou a API DataFrame. Por exemplo, você pode contar o número de pessoas por faixa etária usando a seguinte consulta SQL:
spark.sql("SELECT age, COUNT(*) AS count FROM people GROUP BY age").show()
Como usar MLlib para aprendizado de máquina e GraphX para processamento de gráficos
MLlib é uma biblioteca que fornece algoritmos e utilitários de aprendizado de máquina escaláveis e fáceis de usar para classificação, regressão, agrupamento, recomendação, redução de dimensionalidade, extração de recursos e muito mais. Você pode usar MLlib para treinar e avaliar vários modelos em seus dados e aplicá-los para fazer previsões.
GraphX é uma biblioteca que fornece APIs e algoritmos para processamento e análise de gráficos. Você pode usar o GraphX para criar e manipular gráficos de várias fontes e executar operações como travessia, filtragem, agregação, junção e muito mais.
Para usar MLlib e GraphX, você precisa importar os pacotes correspondentes em seu código. Por exemplo, você pode importar pacotes MLlib usando o seguinte código:
import org.apache.spark.ml._ import org.apache.spark.ml.feature._ import org.apache.spark.ml.classification._ import org.apache.spark.ml.evaluation._
Você pode usar as APIs MLlib para criar pipelines, transformadores, estimadores, avaliadores e muito mais. Por exemplo, você pode criar um pipeline que executa regressão logística em um conjunto de dados de flores de íris usando o seguinte código:
// Carregar e analisar o arquivo de dados val data = spark.read.format("libsvm").load("iris_libsvm.txt") // Dividir os dados em conjuntos de treinamento e teste val Array(training, test) = data.randomSplit(Array(0.8, 0.2)) // Definir os estágios do pipeline val indexer = new StringIndexer().setInputCol("label").setOutputCol("indexedLabel") val assembler = new VectorAssem bler().setInputCols(Array("features")).setOutputCol("assembledFeatures") val scaler = new StandardScaler().setInputCol("assembledFeatures").setOutputCol("scaledFeatures") val lr = new LogisticRegression().setLabelCol("indexedLabel").setFeaturesCol("scaledFeatures") val labelConverter = new IndexToString().setInputCol ("prediction").setOutputCol("predictedLabel").setLabels(indexer.labels) // Cria o pipeline val pipeline = new Pipeline().setStages(Array(indexer, assembler, scaler, lr, labelConverter)) // Treina o modelo val model = pipeline.fit(training) // Faz previsões val predicts = model.transform(test) // Avalia o modelo val evaluator = new MulticlassClassificationEvaluator().setLabelCol( "indexedLabel").setPredictionCol("previsão").setMetricName("precisão") val precisão = evaluator.evaluate(previsões) println(s"Precisão do teste = $precisão")
Você pode importar pacotes GraphX usando o seguinte código:
import org.apache.spark.graphx._ import org.apache.spark.rdd.RDD
Você pode usar as APIs do GraphX para criar e manipular gráficos de várias fontes e realizar operações como travessia, filtragem, agregação, junção e muito mais. Por exemplo, você pode criar um gráfico a partir de um arquivo de texto de arestas usando o seguinte código:
// Carrega os dados de borda de um arquivo de texto val edge: RDD[Edge[Int]] = spark.sparkContext.textFile("edges.txt").map line =>
val fields = line.split(" ") Edge(fields(0).toLong, fields(1).toLong, fields(2).toInt) // Cria um grafo a partir dos dados de aresta val grafo: Graph[Int, Int] = Graph.fromEdges(edges, defaultValue = 1) // Imprime o número de vértices e arestas no grafo println(s"Número de vértices: $graph.numVertices") println(s "Número de arestas: $graph.numEdges")
Conclusão
Neste artigo, mostramos como baixar e instalar o Spark 2.7.5 no Windows 10 e como usar seus recursos para processar seus dados. Esperamos que você tenha achado este guia útil e informativo. Se quiser saber mais sobre o Spark e seus aplicativos, você pode visitar a [Documentação do Spark] ou conferir alguns dos [Tutoriais do Spark] disponíveis online.
O Spark é uma ferramenta poderosa e versátil que pode ajudá-lo com suas necessidades de análise de dados. Se você deseja consultar dados estruturados e não estruturados, realizar aprendizado de máquina e processamento de gráficos ou transmitir dados em tempo real, o Spark pode lidar com tudo. Então, o que você está esperando? Baixe o Spark 2.7.5 hoje e comece a explorar seus dados!
perguntas frequentes
P: Quais são os requisitos do sistema para executar o Spark 2.7.5 no Windows 10?
R: Você precisa ter Java 8 e Python 3 instalados em seu sistema. Você também precisa ter pelo menos 4 GB de RAM e 10 GB de espaço livre em disco.
P: Como posso atualizar o Spark para uma versão mais recente?
R: Você pode baixar a versão mais recente do Spark na página [Downloads do Spark] e seguir as mesmas etapas descritas acima para instalá-lo. Pode ser necessário atualizar a variável PATH do sistema de acordo.
P: Como posso executar programas Spark em um IDE ou editor de texto?
R: Você pode usar qualquer IDE ou editor de texto compatível com Scala, Python ou R para escrever e executar programas Spark. Pode ser necessário definir algumas configurações ou dependências para fazê-lo funcionar. Por exemplo, você pode usar [Eclipse] ou [IntelliJ IDEA] para Scala, [PyCharm] ou [VS Code] para Python ou [RStudio] ou [R Tools for Visual Studio] para R.
P: Como posso monitorar e depurar meus aplicativos Spark?
R: Você pode usar a interface do usuário da Web do Spark para monitorar e depurar seus aplicativos Spark. A Spark Web UI é uma interface baseada na web que mostra informações sobre seus trabalhos ativos e concluídos, estágios, tarefas, executores, armazenamento, ambiente e muito mais. Você pode acessar a interface do usuário da Web do Spark abrindo em seu navegador ao executar um aplicativo Spark.
P: Como posso saber mais sobre o Spark e seus recursos?
R: Você pode aprender mais sobre o Spark e seus recursos lendo a [Documentação do Spark], que abrange o básico, as APIs, as bibliotecas, a implantação e muito mais. Você também pode conferir alguns dos [Tutoriais do Spark] que fornecem exemplos práticos e exercícios para vários tópicos, como Spark SQL, MLlib, GraphX e Spark Streaming. 0517a86e26
Comments