Google 宣布 Kubernetes Operator for Spark

Fri, 01 Feb 2019 18:29:25 +0800

原文：Google announces Kubernetes Operator for Apache Spark

“Spark Operator” 的 Beta 版本，可以用来在 Kubernetes 上执行原生 Spark 应用，无需 Hadoop 或 Mesos。

Apache Spark是一个流行的执行框架，用于执行数据工程和机器学习方面的工作负载。他提供 Databricks 平台的支持，可用于内部部署的或者公有云的 Hadoop 服务，例如 Azure HDInsight、Amazon EMR、以及 Google Cloud Dataproc，也可以在 Mesos 集群上运行。

但是如果只是想在 Kubernetes(k8s) 而非 Mesos 上运行 Spark 工作负载，也不想使用 YARN，这可行么？Spark 在 2.3 版本中首次加入了针对 Kubernetes 的功能，并在 2.4 中进行了进一步增强，然而让 Spark 用全集成的方式原生运行在 Kubernetes 上，仍然是非常有挑战的。

Kube Operator

Kubernetes 的始作俑者 Google，宣布了 Kubernetes Operator for Apache Spark 的 Beta 版本，简称 Spark Operator。Spark Operator 让 Spark 可以原生运行在 Kubernetes 集群上。 Spark 应用（这些应用用于分析、数据工程或者机器学习）可以部署在这些集群上运行，像在其它集群上一样。

Google 声明，Spark Operator 是一个 Kubernetes 自定义控制器，其中使用自定义资源来声明 Spark 应用的元数据；它还支持自动重启动以及基于 cron 的计划任务。今后，开发者、数据工程师以及数据科学家可以创建声明式的规范，来描述他们的 Spark 应用，并使用原生的 Kubernetes 工具（例如 Kubectl）来管理他们的应用。

现在就试试

Spark Operator 目前在 GCP 的 Kubernetes 市场中已经可用，可以方便的部署到 Google Kubernetes Engine(GKE)。另外 Spark Operator 是一个开源项目，能够部署在任何 Kubernetes 环境中，项目的 Github 页面提供了基于 Helm Chart 的安装指南。

如果 Amazon 和微软这样的厂商任何并在自家的 Kubernetes 服务上（微软的 AKS 以及 Amazon 的 ECS）提供 Spark Operator 的部署方式，会是个有意思的局面。这对他们的客户来说会是一个很棒的服务，客户并不想要在 EMR、HDInsight 或者 Daabricks 的工作空间和集群上付出开销。

Hadoop 怎么办

很多非 Databricks 的 Spark 集群是运行在 Hadoop 上的。Spark Operators 的出现，是否意味着 Hadoop 的影响被削弱了？Hadoop 团队也并非游手好闲之辈，例如开放混合架构草案就聚焦于 Hadoop 的容器化。另外上周发布的 Hadoop 3.2，其功能就包括了对 Tensorflow 的支持，Azure Data Lake Storage Gen2 的链接支持以及增强的Amazon S3 的增强支持。

消费者和往常一样，将在激烈的竞争中获益。

在 Kubernetes 1.2 中使用 Spark 和 Zeppelin 处理大数据

Thu, 07 Apr 2016 05:41:13 +0800

原文：Using Spark and Zeppelin to process big data on Kubernetes 1.2

大数据应用与日俱增，很多 Kubernetes 用户希望利用 Kubernetes 集群来运行 Apache Spark，借助容器的能力来获得弹性和移植性。在 Kubernetes 1.2 中，为 Spark、Zeppelin 以及其他应用提供了协同工作的平台。

Zeppelin 是什么？

Apache Zeppelin 是一个基于 Web 的交互式数据分析工具。Spark 也是 Zeppelin 所支持的后台之一。在命令行交互以及 Scala 之外，Zeppelin 为用户提供了一种较为简易的和 Spark 集群交互的能力。

为什么用 Kubernetes？

有很多无需 Kubernetes 运行 Spark 的方式：

独立服务器来运行
可以在 YARN 集群上，和 Hadoop 以及 HDFS 协同工作
可以在 Mesos 集群上跟其他 Mesos 应用一起运行。

那么为什么在 Kubernetes 上运行 Spark ？

一个单纯的、统一的集群接口：Kubernetes 能够支撑多种负载；无需为 YARN/HDFS 和其他应用进行不同的编排。
提高服务器的利用率：在 Spark 和其他应用之间共享节点。你可以用一个串流应用来为 Spark 管线提供数据，也可以运行一个 Nginx Pod 来提供 Web 服务，无需对节点进行静态分区。
不同负载之间的隔离：Kubernetes 的服务质量 (Quality of Service) 机制让用户能够安全的同时调度批处理应用（类似 Spark）以及延迟敏感的其他应用。

Spark 加载

这里使用 Google 容器引擎（GKE）来进行演示，不过这些过程也适用于其他的 Kubernetes 集群。首先创建一个容器引擎的集群，并指定其 scope 为 storage-full。这样的设置允许该集群写入到私有的 Google 云存储中（我们会在后面解释这一选择的理由）：

gcloud container clusters create spark --scopes storage-full --machine-type n1-standard-4

注意我们使用的类型是 n1-standard-4（比缺省的节点类型稍大），用来演示 Pod 的纵向扩展能力。然而 Spark 在缺省的 n1-standard-1 上也能够运行。

集群建立之后，就可以利用 Kubernetes Github 仓库中的配置文件来在集群中启动 Spark 了：

git clone https://github.com/kubernetes/kubernetes.git kubectl create -f kubernetes/examples/spark

kubernetes/examples/spark 是一个目录，这一命令告诉 kubectl 创建这一目录下所有的 YAML 文件所定义的 Kubernetes 对象。

Pod（尤其是 Apache Zeppelin）很大，所以需要一些时间让 Docker 来拉取镜像，一旦运行成功，你会看到类似以下的输出：

$ kubectl get pods
NAME                            READY     STATUS    RESTARTS   AGE
spark-master-controller-v4v4y   1/1       Running   0          21h
spark-worker-controller-7phix   1/1       Running   0          21h
spark-worker-controller-hq9l9   1/1       Running   0          21h
spark-worker-controller-vwei5   1/1       Running   0          21h
zeppelin-controller-t1njl       1/1       Running   0          21h

可以看出 Kubernetes 正在运行一个 Zeppelin 实例，一个 Spark Master 以及三个 Spark worker。

设置 Zeppelin 的安全代理

接下来要设置一个从本机到 Zeppelin 的安全代理，以便从你的机器访问 Zeppelin 实例。（注意这里需要根据你集群中的 Zeppelin Pod 的实际名称修改这个命令）

$ kubectl port-forward zeppelin-controller-t1njl 8080:8080

这就建立了一个从 Kubernetes 集群到 Pod ( zeppelin-controller-t1njl ) 的安全连接，并把这个端口映射到本地的 8080 端口，让你可以安全的使用 Zeppelin。

对正在运行的 Zeppelin 做点什么？

例如我们将要演示如何创建一个简单的电影推荐模型。这一演示基于 Spark 网站提供的代码，为了演示 Kubernetes 的特性，做了一点修改。

现在安全代理启动了，浏览 http://localhost:8080/ 应该会看到下面的页面：

点击 “Import note”，设置一个随便什么名字（比如 “Movies”），点击 “Add from URL”，网址输入：

https://gist.githubusercontent.com/zmerlynn/875fed0f587d12b08ec9/raw/6 eac83e99caf712482a4937800b17bbd2e7b33c4/movies.json

然后点击 “Import Note”，就会获取到这个 Demo 所需的 Zeppelin note。现在我们就有了一个 Notebook，如果点击这个 Note，会看到下面的内容：

接下来可以点击右上角的 Play 按钮，就会创建一个新的电影推荐模型。在 Spark 应用模型中，Zeppelin 扮演 Spark Driver Program，他负责同 Spark 集群交互，并令集群完成任务。在这里 Zeppelin Pod 中的应用获取数据，并发送给 Spark Master，Master 将其分发给 Worker，这些 Worker 会利用 Zeppelin 提供的代码来生成一个电影推荐模型。在下一节中，我们将会讲讲向 GCS 存储数据的问题。

使用 Google 云存储（可选）

在这个演示中，我们将使用 Google 云存储来保存我们的模型数据，这样就可以避免 Pod 生命周期的限制了。Kubernetes 版本的 Spark 内置了 Google 云存储的连接器。只要能够从运行着这个 Kubernetes 节点的 Google 容器引擎项目中能够访问到数据，那么同样的，你的 Spark 镜像也能利用 GCS 连接器访问数据。

还可以在 Note 中修改例子中的变量，就可以保存和恢复电影推荐引擎的模型了，只要把这些变量指向你有权访问的 GCS Bucket 就可以了。如果要创建一个 GCS Bucket，需要执行下面类似的命令：

gsutil mb gs://my-spark-models

URL 部分可以按照用户自己的需要来指定，执行后会生成相应的 Bucket 供应用来使用。

注意：运行这一模型，然后保存，这一过程远比运行后丢弃要慢。这很正常，但是如果要复用一个模型，那么计算后保存，复用时恢复就要比每次重新运算要快了。

使用 Pod 的纵向扩展（可选）

Spark 的 Works 有一些弹性功能，这让我们有机会：用 Kubernetes Pod 纵向扩展能力来对 Spark worker 池自动扩展，为 Work 设置一个目标 CPU 阈值以及最大最小规模即可。这样就不需手工配置 Worker 集群了。

下面就是创建自动伸缩的指令

注意：如果没有改变这一集群的机器类型，你可能需要把 –max 参数设置的小一点。

kubectl autoscale --min=1 --cpu-percent=80 --max=10 rc/spark-worker-controller

可以看到 Replication Controller 把实例数降低到 1，证明了自动伸缩的效果。使用 bubectl get rc，会看到 spark-worker-controller 的 “replicas” 这一列会落回到 1。

之前我们运行的负载太低。为了让任务运行更久一点，我们把 “rank = 100” 改成 “rank = 200”。这样在点击 “Play” 按钮后，Spark worker 会迅速增加到 20 pod，在工作完成后，最多需要五分钟，Work 池开始回落到单一实例。

结论

本文中我们展示了如何在 Kubernetes 中运行 Spark 和 Zeppelin，以及如何使用 Google 云存储来保存 Spark Model，还介绍了利用 Kubernetes 自动伸缩特性来动态设置 Spark worker 池。

spark | 伪架构师