python爬虫问题, 可视化采集任务进度条问题, win10系统如何调用如图所示的用于采集的任务进度信息窗口

因为个人需要,想要学习大数据的处理知识,在学习之前首先要搭建基本软件环境。

目前用的比较广泛的大数据平台基本都是基于hadoop生态圈的一系列软件,不过这两年spark异军突起,比hadoop生态中的MR的处理方式要快非常多,而且spark中的SQL、streaming、MLlib、GraphX等组件功能十分强大,所以选择搭建以spark为基础的大数据处理环境。

理论上说,无论是hadoop,spark还是其他的分布式架构的大数据处理平台,最佳系统环境都是linux。不过我自己只是需要一个初步的仿真环境,能够便于学习spark的入门知识,并且基于小批量的数据实现简单的业务逻辑,之后才是考虑如何真正把spark部署到生产环境中。加上spark支持的java、python、scala这些开发语言都是跨平台的,代码迁移起来比较简单。

考虑上述需求,加上大多数人都是以windows作为自己最常用的系统,仿真环境也打算部署在我自己的pc上。

最终系统环境为:win10 64位系统。

二、部署spark环境

下载完成后,双击exe文件安装,安装过程不再赘述。

安装结束后,需要配置对应的java环境变量,配置方式如下:

python环境安装好以后,需要配置系统环境变量。

至此,spark在win10系统下的环境配置完成。可以新打开命令行窗口,输入指令pyspark,看到如下结果后说明配置成功。

如果要使用pycharm进行spark的python接口开发,那只有上面的这些配置还不够,还需要针对pycharm进行配置。

1、首先,安装pycharm,这里也不再赘述。

2、新建一个工程,并在工程中新建一个py文件。

3、设置工程参数,如图所示:

在黑框处,增加一个变量为SPARK_HOME,值和系统变量中同名变量一致。

至此,pycharm的设置完毕,运行测试代码,检验结果:

至此,整个配置工作结果,接下来就可以愉快的进行spark的学习和开发测试了。

版权声明:本文为博主原创文章,遵循 版权协议,转载请附上原文出处链接和本声明。

这篇博客讲的是Ubuntu下的解决思路

最后多说一句,小编是一名python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编,并在后台私信小编:“01”即可领取。

我要回帖

更多关于 基于python的数据可视化研究 的文章

 

随机推荐