为何使用 spark on kubernetes

pull/54/head
Jimmy Song 2017-09-27 21:03:09 +08:00
parent 7034dcac40
commit 8838c24802
1 changed files with 12 additions and 0 deletions

View File

@ -17,6 +17,18 @@ TL;DR 这个主题比较大,该开源项目也还在不断进行中,我单
- Pepperdata
- Red Hat
## 为何使用 spark on kubernetes
使用kubernetes原生调度的spark on kubernetes是对现有的spark on yarn/mesos的资源使用方式的革命性的改进主要表现在以下几点
1. Kubernetes原生调度不再需要二层调度直接使用kubernetes的资源调度功能跟其他应用共用整个kubernetes管理的资源池
2. 资源隔离粒度更细原先yarn中的queue在spark on kubernetes中已不存在取而代之的是kubernetes中原生的namespace可以为每个用户分别指定一个namespace限制用户的资源quota
3. 细粒度的资源分配可以给每个spark任务指定资源限制实际指定多少资源就使用多少资源因为没有了像yarn那样的二层调度圈地式的所以可以更高效和细粒度的使用资源
4. 监控的变革因为做到了细粒度的资源分配所以可以对用户提交的每一个任务做到资源使用的监控从而判断用户的资源使用情况所有的metric都记录在数据库中甚至可以为每个用户的每次任务提交计量
5. 日志的变革用户不再通过yarn的web页面来查看任务状态而是通过pod的log来查看可将所有的kuberentes中的应用的日志等同看待收集起来然后可以根据标签查看对应应用的日志
所有这些变革都可以让我们更高效的获取资源、更有效率的获取资源!
## Spark 概念说明
[Apache Spark](http://spark.apache.org) 是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发并于2010年成为Apache的开源项目之一。