Spark 可以运行纯 python 脚本么？ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

Recommended Services

› Amazon Web Services

› ClearDB

这是一个创建于 3367 天前的主题，其中的信息可能已经有所发展或是发生改变。

需求是这样的，目前在处理一个 100G 的数据库。出于简单考虑，我是一次性把数据载入内存做计算，处理本是 python 写的。手头有一台 windows 服务器，内存 128G ，运行起来内存爆了。另外还有一个 spark 集群，由 4 台 128G 内存的服务器组成。由于对 spark 不是很了解，想请教一下大家：

我可以用这台 spark 集群运行我的纯 python 脚本么？还是必须改用 spark 的 API?
如果可以，可以利用到集群的全部内存，从而解决内存爆表的问题么？

9 条回复 • 2016-08-29 22:03:23 +08:00

1

Garantion

2016-08-28 16:47:10 +08:00

https://github.com/douban/dpark

2

chuan

2016-08-28 17:20:11 +08:00

pyspark 里不用 spark 相关的东西完全可以

3

BUPTGuo

2016-08-28 19:38:49 +08:00

可以直接用。但是感觉并不能解决内存爆了的问题吧？？
没有用 spark 或者其他并行计算框架，它就只能把你当成一个计算程序来算，没有办法拆分开分布式运行。计算的时候还是需要那么多的内存啊

4

ooonme

2016-08-28 20:28:27 +08:00 via iPhone

必须用 spark api ，建议楼主先看下 spark 相关的内容吧

5

iEverX

2016-08-28 21:09:48 +08:00

不用 spark 的 api ，怎么分布式用集群？和自己运行一个脚本没区别啊

6

mengzhuo

2016-08-29 13:37:07 +08:00 via iPhone

必须是 pyspark 的接口不过可以各种上传依赖库啊

7

ligyxy

2016-08-29 21:29:46 +08:00 via Android

默认设置下 Spark 会使用资源 70% 的内存

8

ligyxy

2016-08-29 21:33:07 +08:00 via Android

* 最多

9

jyf

2016-08-29 22:03:23 +08:00

可以啊 pyspark 么就是许多 api 一看支持都有再仔细一看都是 java 才支持
你还是看看 spark streaming 吧按你这玩法内存再大也不够

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 940 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 26ms · UTC 18:46 · PVG 02:46 · LAX 10:46 · JFK 13:46
♥ Do have faith in what you're doing.