怎样进行大数据的入门级学习

查看: 848485|回复: 139
零基础学习hadoop到上手工作线路指导(初级篇)
主题帖子积分
零基础学习hadoop,没有想象的那么困难,也没有想象的那么容易。在刚接触云计算,曾经想过培训,但是培训机构的选择就让我很纠结。所以索性就自己学习了。整个过程整理一下,给大家参考,欢迎讨论,共同学习。
从一开始什么都不懂,到能够搭建集群,开发。整个过程,只要有Linux基础,虚拟机化和java基础,其实hadoop,没有太大的困难。
hadoop.jpg (11.87 KB, 下载次数: 278)
20:47 上传
首先整体说一下学习过程给大家借鉴:
首先查阅了资料,什么是hadoop,至于这方面,你可以参考这个帖子。对这个有了整体的认识之后开始下面内容。(新手请务必参考,否则后面可能看不懂)
我们知道hadoop,有单机安装,伪分布安装和分布安装。
同时hadoop的环境是Linux,所以我们还需要安装Linux系统。因为我们的习惯是使用windows,所以对于Linux上来就安装软件之类的,困难度很大。并且我们要搭建集群,需要多台硬件的,不可能为了搭建集群,去买三台电脑。
从成本和使用我们需要懂虚拟化方面的知识。这里的虚拟化其实就是我们需要懂得虚拟机的使用。因为hadoop安装在Linux中,才能真正发挥作用。所以我们也不会使用windows。
(这里补充硬件的选择:最关键的是内存,2G内存是有点卡的,4G有点勉强的,8G用起来顺畅)
基于以上内容。所以我们需要懂得
3.java基础
下面来详细介绍
刚开始学习,上来就安装了虚拟机wmware station,然后创建虚拟机,安装Linux。但是问题来了。虚拟机的网络难住,因为缺乏这方面的知识,所以不得不停下来,学习虚拟机的网络,该怎么搞。虚拟机网络分为三种:
2.host-only
这不是很简单的吗?网上资料也不少。可是事情并没有想象的那么简单,因为nat虽然能上网,但是虚拟系统无法和本局域网中的其他真实主机进行通讯。桥接模式全都需要手工配置,而且这里还需要明白自己是本机拨号上网,还是路由拨号上网。host-only创建一个与网内其他机器相隔离的虚拟系统,这个更不行。这些都不适合我们的hadoop集群。hadoop要求主机与虚拟机与外部网络(能上网),这三者都是通的,在安装的过程中,才不会遇到麻烦。
所以这就是虚拟化方面的困难。
下面总结了在虚拟化方面需要做的:
此文章让你明白为什么虚拟化,虚拟化的价值
详细介绍了虚拟化三种网络模式
上面了解三种网络模式,这三种网络模式该如何才能上网。
对于上面你可能了解的还不够,下面咱们论坛会员具体实践指导,可以与他们相互交流:
上面是三种不同网络模式下,如何达到,虚拟机,主机,网络三者互通。
上面的知识具备了我们开始动手:
第一步:下载软件
ubuntu-desktop 版:是图形界面
ubuntu-12.04-desktop-amd64
密码: nnkv
上面的帖子很齐全,包括wmware下载Linux桌面版下载。还有安装指导,包括下面需要讲解的Linux安装指导
下载我们就需要安装和使用
在这里我们安装完毕虚拟机,安装完毕Linux,我们需要返回第一步,进行网络设置。但是在网络设置中,我们会遇到各种各样的困难,因为缺乏Linux知识。
同时这里补充一些虚拟化的基础知识:
虚拟机安装Linux视频
2.1、Linux基础知识
对于Linux的学习也是一个过程,因为可能你连最简单的开机和关机命令都不会,更不要谈配置网络。这里面给大家提供刚开始学习所查阅的资料和经验总结。
首先我们需要使用一些命令,进行网络配置,但是在网络配置中,这里面又必须懂得虚拟机的一些知识,所以前面的虚拟机知识需要掌握扎实一些。
对于网络配置:
其实还是上面三个,但是我们会遇到各种不会的命令,即使能查到命令,我们也不能使用。为什么会这样,因为各种有的命令,是需要使用安装包的。我们在配置网络过程中,同样会遇到各种各样的奇怪的配置。在我们的Linux的系统,不能找到文件。这里只举ubuntu。网络配置文件/etc/network/interfaces。我们配置完毕之后,有各种网络重启方式:/etc/init.d/networking&&restart复制代码这是一种网络重启方式,但是有时候并不管用。
那么这时候我们遇到困难了,刚接触命令不起作用,该怎么办?ifconfig eth0 down
复制代码ifconfig eth0 up复制代码(这里同样需要明白,我这里使用的是eth0上网的,如果你使用的是eth1,就需要替换成eth1)
上面的两个命令能达到同样的效果。
在举一例:
我们需要配置网络文件,在很多网络配置是使用下面的命令的vim /etc/network/interfaces复制代码但是我们看到下面错误The program vim can be found in the following package:
vim
vim -gnome
vim-tiny
vim-gtk
vim-nox
Try:sudo apt-get install &select package&复制代码这和我们看到的配置完全不一样。这是因为我们安装Linux之后,并没有安装vim包。所以我们又遇到了困难。如果你熟悉Linux的话,这个根本不是问题。vi /etc/network/interfaces复制代码上面命令迎刃而解。一个vim,一个vi。在我们刚接触这些肯定云里雾里,所以你需要首先有成就感,然后在慢慢接触。下面都是经过实践的内容,也算是经验,大家可以参考。
(大体了解即可)
此篇文章帮助认识网卡,判断网卡是否启动,对于网络的也算是常识。
--------------------------------------------------------------------------------------------------------------------------------------------
这是了解你所处路径的,起到辅助的作用。
此篇文章较为关键,因为经常用到,而且需要熟悉
如何保存,如何退出等各种操作
熟悉他的作用就是能够查看软件安装是否成功
2.1、Linux安装hadoop
上面切记浮躁,因为这也是上面一到两个月的总结。我们不可能一天两天就能完成。所以上面需要我们经过最起码完全一周的时间。我们熟悉了Linux命令,熟悉了网络知识。后面我们进行的快多了。
部署集群,首先需要安装java,然后安装hadoop。
首先我们还是从零基础开始。
我们需要下载和本地电脑相匹配的jdk,是32位的下载32位,是64位的下载64位。这里我们从最简单的入手。在这过程中,可能遇到问题的是环境变量的配置,造成命令不能识别。而这里你需要学习新的Linux知识。不过如果前面你已经配置完网络,有了这个基础,在学习新的知识,压力明显变小了。
下面给大家分享一下,在Linux中如何安装Java和hadoop。
(hadoop2搭建参考
安装完毕,我们该怎么用,该怎么测试安装成功。
通过上面帖子,我们很容易安装完成,如果是刚熟悉Linux,需要补充下面知识,才能顺利完成。
今天在写点内容,以上咱们已经会安装集群了,那么我们就需要进入开发了。开发零基础,该如何,咱们提供了相关的内容分别介绍下面文章
这一篇我们使用什么开发工具,甚至考虑使用什么操作系统。然后就是Java基础知识篇,包括变量、函数等。
第一篇是属于思想篇,那么这一篇属于实战篇,通过不同的方式,交给你怎么编写第一个小程序。
由于上面没有真正抽象出eclipse的使用,所以这里专门介绍了使用eclipse如何创建项目,及如何编写小程序实例
eclipse基本知识会了之后,我们在项目,这些技巧相当有用,而且经常用到
这是第三篇,我们上面熟悉之后,就可以开发hadoop。但是因为hadoop是属于分布式,所以如果对Java越是熟悉,可能产生的问题就会越多。这里总结了hadoop的开发方式。
本帖被以下淘专辑推荐:
& |主题: 42, 订阅: 18
& |主题: 9, 订阅: 13
& |主题: 35, 订阅: 1
欢迎加入about云群 、 ,云计算爱好者群,关注
主题帖子积分
注册会员, 积分 56, 距离下一级还需 144 积分
注册会员, 积分 56, 距离下一级还需 144 积分
不错,我感觉这个挺好的额,顺便下来看那看~!
主题帖子积分
新手上路, 积分 44, 距离下一级还需 6 积分
新手上路, 积分 44, 距离下一级还需 6 积分
thanksssssss
主题帖子积分
注册会员, 积分 67, 距离下一级还需 133 积分
注册会员, 积分 67, 距离下一级还需 133 积分
这个比另一个贴子的介绍详细一点。哪个才是原创啊?
主题帖子积分
注册会员, 积分 56, 距离下一级还需 144 积分
注册会员, 积分 56, 距离下一级还需 144 积分
总结的很好,谢谢楼主,辛苦
主题帖子积分
新手上路, 积分 15, 距离下一级还需 35 积分
新手上路, 积分 15, 距离下一级还需 35 积分
楼主辛苦,求上手工作讲解
主题帖子积分
中级会员, 积分 442, 距离下一级还需 558 积分
中级会员, 积分 442, 距离下一级还需 558 积分
学习中,谢谢分享。
主题帖子积分
中级会员, 积分 532, 距离下一级还需 468 积分
中级会员, 积分 532, 距离下一级还需 468 积分
谢谢楼主。。。
主题帖子积分
中级会员, 积分 214, 距离下一级还需 786 积分
中级会员, 积分 214, 距离下一级还需 786 积分
总结的很好,谢谢楼主,辛苦
主题帖子积分
新手上路, 积分 41, 距离下一级还需 9 积分
新手上路, 积分 41, 距离下一级还需 9 积分
顶一下,楼主辛苦了
站长推荐 /4
云计算hadoop视频大全(新增 yarn、flume|storm、hadoop一套视频
等待验证会员请验证邮箱
新手获取积分方法
技术类问答,解决学习openstack,hadoop生态系统中遇到的问题
Powered by7732被浏览492067分享邀请回答113 条评论分享收藏感谢收起注册 | 登录
专注互联网电商、金融、大数据领域底层技术及核心干货分享。
零基础学产品,BAT产品总监带,2天线下集训+1年在线课程,全面掌握优秀产品经理必备技能。
文章梳理了学习大数据挖掘分析的思路与步骤,给大家提供一些参考,希望能够对你有所帮助。
最近有很多人咨询,想学习大数据,但不知道怎么入手,从哪里开始学习,需要学习哪些东西?对于一个初学者,学习大数据挖掘分析的思路逻辑是什么?本文就梳理了如何从0开始学习大数据挖掘分析,学习的步骤思路,可以给大家一个学习的建议。
很多人认为数据挖掘需要掌握复杂高深的算法,需要掌握技术开发,才能把数据挖掘分析做好,实际上并非这样。如果钻入复杂算法和技术开发,只能让你走火入魔,越走越费劲,并且效果不大。在公司实际工作中,最好的大数据挖掘工程师一定是最熟悉和理解业务的人。对于大数据挖掘的学习心得,作者认为学习数据挖掘一定要结合实际业务背景、案例背景来学习,这样才是以解决问题为导向的学习方法。那么,大体上,大数据挖掘分析经典案例有以下几种:
预测产品未来一段时间用户是否会流失,流失情况怎么样;
公司做了某个促销活动,预估活动效果怎么样,用户接受度如何;
评估用户信用度好坏;
对现有客户市场进行细分,到底哪些客户才是目标客群;
产品上线投放市场后,用户转化率如何,到底哪些运营策略最有效;
运营做了很多工作,公司资源也投了很多,怎么提升产品投入产出比;
一些用户购买了很多商品后,哪些商品同时被购买的几率高;
预测产品未来一年的销量及收益。。。。
大数据挖掘要做的就是把上述类似的商业运营问题转化为数据挖掘问题。
一、如何将商业运营问题转化为大数据挖掘问题
那么,问题来了,我们该如何把上述的商业运营问题转化为数据挖掘问题?可以对数据挖掘问题进行细分,分为四类问题:分类问题、聚类问题、关联问题、预测问题。
1、分类问题
用户流失率、促销活动响应、评估用户度都属于数据挖掘的分类问题,我们需要掌握分类的特点,知道什么是有监督学习,掌握常见的分类方法:决策树、贝叶斯、KNN、支持向量机、神经网络和逻辑回归等。
2、聚类问题
细分市场、细分客户群体都属于数据挖掘的聚类问题,我们要掌握聚类特点,知道无监督学习,了解常见的聚类算法,例如划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类等。
3、关联问题
交叉销售问题等属于关联问题,关联分析也叫购物篮分析,我们要掌握常见的关联分析算法:Aprior算法、Carma算法,序列算法等。
4、预测问题
我们要掌握简单线性回归分析、多重线性回归分析、时间序列等。
二、用何种工具实操大数据挖掘
能实现数据挖掘的工具和途径实在太多,SPSS、SAS、Python、R等等都可以,但是我们需要掌握哪个或者说要掌握哪几个,才算学会了数据挖掘?这需要看你所处的层次和想要进阶的路径是怎样的。
第一层级:达到理解入门层次
了解统计学和数据库即可。
第二层级:达到初级职场应用层次
数据库+统计学+SPSS(也可以是SPSS代替软件)
第三层级:达到中级职场应用层次
第四层级:达到数据挖掘师层次
SAS或R+Python(或其他编程语言)
三、如何利用Python学习大数据挖掘
只要能解决实际问题,用什么工具来学习数据挖掘都是无所谓,这里首推Python。那该如何利用Python来学习数据挖掘?需要掌握Python中的哪些知识?
1、Pandas库的操作
Panda是数据分析特别重要的一个库,我们要掌握以下三点:
pandas 分组计算;
pandas 索引与多重索引;
索引比较难,但是却是非常重要的
pandas 多表操作与数据透视表
2、numpy数值计算
numpy数据计算主要应用是在数据挖掘,对于以后的机器学习,深度学习,这也是一个必须掌握的库,我们要掌握以下内容:
Numpy array理解;
数组索引操作;
数组计算;
Broadcasting(线性代数里面的知识)
3、数据可视化-matplotlib与seaborn
Matplotib语法
python最基本的可视化工具就是matplotlib。咋一看Matplotlib与matlib有点像,要搞清楚二者的关系是什么,这样学习起来才会比较轻松。
seaborn的使用
seaborn是一个非常漂亮的可视化工具。
pandas绘图功能
前面说过pandas是做数据分析的,但它也提供了一些绘图的API。
4、数据挖掘入门
这部分是最难也是最有意思的一部分,要掌握以下几个部分:
机器学习的定义
在这里跟数据挖掘先不做区别
代价函数的定义
Train/Test/Validate
Overfitting的定义与避免方法
5、数据挖掘算法
数据挖掘发展到现在,算法已经非常多,下面只需掌握最简单的,最核心的,最常用的算法:
最小二乘算法;
梯度下降;
极大似然估计;
Logistic Regression;
Decision Tree;
RandomForesr;
6、数据挖掘实战
通过机器学习里面最著名的库scikit-learn来进行模型的理解。
以上,就是为大家理清的大数据挖掘学习思路逻辑。可是,这还仅仅是开始,在通往数据挖掘师与数据科学家路上,还要学习文本处理与自然语言知识、Linux与Spark的知识、深度学习知识等等,我们要保持持续的兴趣来学习数据挖掘。
作者:刘永平 ,11年以上互联网电商、互联网金融、大数据项目实操经验,任职高级产品总监,产品运营专家,曾亲自主导参与项目超过15个,10个以上从0到1成功项目实操经验。微信公众号:互联网金融干货。
本文由 @刘永平 原创发布于人人都是产品经理。未经许可,禁止转载。
免责声明:本文是作者通过多年项目实操,积累分享的干货,全部属于原创,如需转载分享,必须注明作者和出处,如没有注明作者和出处,会追究法律责任。
题图来自PEXELS,基于CC0协议
如果觉得写的不错,欢迎打赏支持
赞赏6人打赏
收藏已收藏 | 70赞已赞 | 8
专注互联网电商、金融、大数据领域底层技术及核心干货分享。
产品经理群运营交流群求职招聘群
Axure交流群
PM要学点技术
关注微信公众号
11个回答18人关注
0个回答1人关注
9个回答35人关注
11个回答10人关注
9个回答89人关注
17个回答26人关注 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
大数据经典学习路线
下载积分:2088
内容提示:大数据经典学习路线
文档格式:DOCX|
浏览次数:17|
上传日期: 22:00:42|
文档星级:
全文阅读已结束,如果下载本文需要使用
 2088 积分
下载此文档
该用户还上传了这些文档
大数据经典学习路线
关注微信公众号&>&大数据学习——入门资料
大数据学习——入门资料
上传大小:3.34MB
资料是英文版的关于大数据的资料,挺实用的
综合评分:4.6(5位用户评分)
所需积分/C币:
下载个数:70
{%username%}回复{%com_username%}{%time%}\
/*点击出现回复框*/
$(".respond_btn").on("click", function (e) {
$(this).parents(".rightLi").children(".respond_box").show();
e.stopPropagation();
$(".cancel_res").on("click", function (e) {
$(this).parents(".res_b").siblings(".res_area").val("");
$(this).parents(".respond_box").hide();
e.stopPropagation();
/*删除评论*/
$(".del_comment_c").on("click", function (e) {
var id = $(e.target).attr("id");
$.getJSON('/index.php/comment/do_invalid/' + id,
function (data) {
if (data.succ == 1) {
$(e.target).parents(".conLi").remove();
alert(data.msg);
$(".res_btn").click(function (e) {
var q = $("#form1").serializeArray();
console.log(q);
var res_area_r = $.trim($(".res_area_r").val());
if (res_area_r == '') {
$(".res_text").css({color: "red"});
$.post("/index.php/comment/do_comment_reply/", q,
function (data) {
if (data.succ == 1) {
var $target,
evt = e || window.
$target = $(evt.target || evt.srcElement);
var $dd = $target.parents('dd');
var $wrapReply = $dd.find('.respond_box');
console.log($wrapReply);
var mess = $(".res_area_r").val();
var str = str.replace(/{%header%}/g, data.header)
.replace(/{%href%}/g, 'http://' + window.location.host + '/user/' + data.username)
.replace(/{%username%}/g, data.username)
.replace(/{%com_username%}/g, _username)
.replace(/{%time%}/g, data.time)
.replace(/{%id%}/g, data.id)
.replace(/{%mess%}/g, mess);
$dd.after(str);
$(".respond_box").hide();
$(".res_area_r").val("");
$(".res_area").val("");
$wrapReply.hide();
alert(data.msg);
}, "json");
/*删除回复*/
$(".rightLi").on("click",'.del_comment_r', function (e) {
var id = $(e.target).attr("id");
$.getJSON('/index.php/comment/do_comment_del/' + id,
function (data) {
if (data.succ == 1) {
$(e.target).parent().parent().parent().parent().parent().remove();
$(e.target).parents('.res_list').remove()
alert(data.msg);
//填充回复
function KeyP(v) {
$(".res_area_r").val($.trim($(".res_area").val()));
评论共有4条
很有帮助,感谢分享。。。。
看着学习,希望 能好好学习
牛,就是英文读的累
果然很牛啊
审核通过送C币
Eclipse 支持jdk1.6、1.7、1.8 windows32位
创建者:qq_
Eclipse 支持jdk1.5 windows 64位 支持java1.5
创建者:qq_
Eclipse 支持jdk1.6、1.7、1.8 windows64位
创建者:qq_
上传者其他资源上传者专辑
行业热门标签
VIP会员动态
下载频道用户反馈专区
下载频道积分规则调整V1710.18
开通VIP,海量IT资源任性下载
spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip
CSDN&VIP年卡&4000万程序员的必选
为了良好体验,不建议使用迅雷下载
大数据学习——入门资料
会员到期时间:
剩余下载个数:
剩余C币:593
剩余积分:0
为了良好体验,不建议使用迅雷下载
积分不足!
资源所需积分/C币
当前拥有积分
您可以选择
程序员的必选
绿色安全资源
资源所需积分/C币
当前拥有积分
当前拥有C币
(仅够下载10个资源)
全站1200个资源免积分下载
为了良好体验,不建议使用迅雷下载
资源所需积分/C币
当前拥有积分
当前拥有C币
全站600个资源免积分下载
资源所需积分/C币
当前拥有积分
当前拥有C币
您的积分不足,将扣除 10 C币
全站1200个资源免积分下载
为了良好体验,不建议使用迅雷下载
你当前的下载分为234。
你还不是VIP会员
开通VIP会员权限,免积分下载
你下载资源过于频繁,请输入验证码
你下载资源过于频繁,请输入验证码
您因违反CSDN下载频道规则而被锁定帐户,如有疑问,请联络:!
若举报审核通过,可奖励20下载分
被举报人:
举报的资源分:
请选择类型
资源无法下载
资源无法使用
标题与实际内容不符
含有危害国家安全内容
含有反动色情等内容
含广告内容
版权问题,侵犯个人或公司的版权
*详细原因:
大数据学习——入门资料

我要回帖

 

随机推荐