本文介绍一下如何在 Ubuntu 20.04 Linux 操作系统上安装 Apache Spark 教程,包括安装 Java、安装 Apache Spark、以及通过 Apache Spark Web 界面访问的教程。Apache Spark 是一个用于大规模数据处理的开源、通用、多语言分析引擎。通过利用集群中的 RAM 对大量数据执行快速数据查询,它可以在单个和多个节点上工作。它提供批处理数据处理和实时流式传输,并支持 Python、SQL、Scala、Java 或 R 等语言的高级 API。该框架提供内存技术,使其能够将查询和数据直接存储在集群节点的主存储器。
Apache Spark 前几年在学术界是非常火的,最近几年可能不是那么火了,因为能研究的问题似乎都已经被研究的差不多了,最近都开始研究新的分布式框架了。
一、安装 Java
更新系统包:
$ sudo apt update
安装 Java:
$ sudo apt install default-jdk -y
确认 Java 安装:
$ java -version
二、安装 Apache Spark
安装必要的包:
$ sudo apt install curl mlocate git scala -y
下载 Apache Spark,最新版可以在这里下载:https://spark.apache.org/downloads.html
$ curl -O https://archive.apache.org/dist/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz
解压 Spark 安装包:
$ sudo tar xvf spark-3.2.0-bin-hadoop3.2.tgz
创建安装目录:
$ sudo mkdir /opt/spark
移动文件到安装目录:
$ sudo mv spark-3.2.0-bin-hadoop3.2/* /opt/spark
修改目录权限:
$ sudo chmod -R 777 /opt/spark
编辑 bashrc
配置文件,将 Apache Spark 安装目录添加到系统路径:
$ sudo nano ~/.bashrc
将下面两行代码添加到文件最后:
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
保存文件并使之生效:
$ source ~/.bashrc
启动独立主服务器:
$ start-master.sh
通过访问 http://ServerIPaddress:8080
从仪表板中查找您的服务器主机名。它可能看起来像这样:
URL: spark://my-server-development:7077
启动 Apache Spark 工作进程。使用您的服务器主机名更改 spark://ubuntu:7077
。
$ start-slave.sh spark://ubuntu:7077
三、访问 Apache Spark Web 界面
转到浏览器地址栏以访问 Web 界面并输入 http://ServerIPaddress:8080
以访问 Web 安装向导。例如:
http://192.0.2.10:8080
至此,您已在服务器上安装了 Apache Spark。您现在可以访问主仪表板,开始管理您的集群。
四、搬瓦工新手教程和优惠套餐
搬瓦工推荐方案
搬瓦工实时库存:https://stock.bwg.net
方案 | 内存 | CPU | 硬盘 | 流量/月 | 带宽 | 推荐机房 | 价格 | 购买 |
---|---|---|---|---|---|---|---|---|
KVM (最便宜) | 1GB | 2核 | 20GB | 1TB | 1Gbps | DC3 CN2 DC8 ZNET (购买后在后台迁移) | $49.99/年 | 购买 |
KVM | 2GB | 3核 | 40GB | 2TB | 1Gbps | $52.99/半年 $99.99/年 | 购买 | |
CN2 GIA-E (最推荐) | 1GB | 2核 | 20GB | 1TB | 2.5Gbps | 美国 DC6 CN2 GIA-E 美国 DC9 CN2 GIA 日本软银 JPOS_1 荷兰 EUNL_9 美国圣何塞 CN2 GIA 加拿大 CN2 GIA | $49.99/季度 $169.99/年 | 购买 |
CN2 GIA-E | 2GB | 3核 | 40GB | 2TB | 2.5Gbps | $89.99/季度 $299.99/年 | 购买 | |
HK (高端首选) | 2GB | 2核 | 40GB | 0.5TB | 1Gbps | 中国香港 CN2 GIA 日本东京 CN2 GIA 日本大阪 CN2 GIA 新加坡 CN2 GIA | $89.99/月 $899.99/年 | 购买 |
HK | 4GB | 4核 | 80GB | 1TB | 1Gbps | $155.99/月 $1559.99/年 | 购买 | |
OSAKA | 2GB | 2核 | 40GB | 0.5TB | 1.5Gbps | 日本大阪 CN2 GIA | $49.99/月 $499.99/年 | 购买 |
OSAKA | 4GB | 4核 | 80GB | 1TB | 1.5Gbps | $86.99/月 $869.99/年 | 购买 | |
搬瓦工优惠码:BWHCGLUKKB | 搬瓦工购买教程:《2024 年最新搬瓦工购买教程和支付宝支付教程》 |
选择建议:
- 入门:洛杉矶 CN2 套餐,目前最便宜,可选 CN2 GT 机房,入门之选。
- 推荐:洛杉矶 CN2 GIA-E 套餐,速度超快,可选机房多(DC6、DC9、日本软银、荷兰联通等),性价比最高。
- 高端:香港 CN2 GIA 套餐,价格较高,但是无可挑剔。东京 CN2 GIA 套餐也是非常不错的高端选择。
搬瓦工新手教程
- 搬瓦工新手入门:《搬瓦工新手入门完全指南:方案推荐、机房选择、优惠码和购买教程》(推荐阅读)
- 搬瓦工购买教程:《2022 年最新搬瓦工购买教程和支付宝支付教程》
- 搬瓦工优惠码:BWHCGLUKKB
- 搬瓦工补货通知:《欢迎订阅搬瓦工补货通知(补货提醒)/ 加入搬瓦工交流群》
- 搬瓦工方案推荐:《搬瓦工高性价比 VPS 推荐:目前哪款方案最值得买?》
搬瓦工优惠通知
目前搬瓦工一共有两个限量版套餐,分别是 DC9 CN2 GIA 限量版和 DC6 CN2 GIA-E 限量版,这两个套餐价格分别为 79.99 和 89.99 美元/年,目前都是处于缺货状态,所以如果需要购买的话可以关注下面的补货通知,有货了会第一时间通知的。
- 搬瓦工补货通知 QQ 群 8(全员禁言,仅发送通知):697178487
- 搬瓦工补货通知 QQ 群 10(全员禁言,仅发送通知):451796455
- 搬瓦工补货通知 TG 群:@BandwagonHostNews
- 搬瓦工补货通知邮件订阅 1:点击订阅(Google Groups)
- 搬瓦工补货通知邮件订阅 2:点击此处提交邮箱地址
未经允许不得转载:Bandwagonhost中文网 » 在 Ubuntu 20.04 上安装 Apache Spark 教程