[新手必读] 怎么才能学好大数据

2023-04-19 00:00:00 数据 技术 学习 镜像 组件

大数据做为一门深后端的技术学习起来相比其它IT技术,比如前端、后端开发会更有难度的,也更抽象一些。

那大家怎么才能学好这门技术呢?

其实不管什么技术学好无非两点:理论与实操。理论是内功,实操是外功。有的人满脑子理论,但是一上手就麻爪,所以好多公司在面试人才的时候都增加了机试,现场修BUG,对着你项目的实施环节往死里问。怕的就是招来的人全是内功心法,完全不会输出,战斗力基本为零。

从这一点可以看出来,企业看的是你的手上功夫,解决问题的思路和trouble shooting的能力。但是并不是说理论一点也不重要。其实只要你能做出来东西就说明基本的理论你已经掌握了。

因为大多数公司要的是产出,在产出中一步步完善自己的产品,同时开发产品的人在这个过程中也能一步步深化自己的理论,只要产品做出来你就全懂了,所以边干边学是企业里大小程序员门常有的事。谁的项目经验多谁的动手能力就强相应的理论基础也扎实。所以程序员们按工作年限划定工资范围这事也就好理解了。

那再说说咱们的大数据初学者一穷二白,比如大学生、想转行入坑赚更多钱的人,面对又难又抽象的技术怎么才能把它学好呢?我觉得吧这事也好弄,你就照着企业做事的思维,把它变成你学习的思维,就是你不管学什么知识点你都要想着能给它复现出来。

我专门为零基础的小白学习大数据技术提供一个分享创造、结识伙伴、协同互助的平台,大家可以进入我们的海汼部落,带你们了解大数据岗位的核心技术、学习路径、晋升通道等内容。


能复现出来就能从软件的运行流程中去想它每一步有什么作用,做事要洞察根本吗,就是这个道理。当然你得先把前置的理论先铺一铺,这个铺一铺并不是让你把所有理论都学完了再动手,而是把大的整个理论体系拆出来分开学,比如你要学习大数据中基本的一个组件技术hadoop,你就先把hadoop是干什么的,它由什么功能组成的,每个功能都有那些基本的模块组成,然后再给它搭建一遍让它跑起来,这基本上你就入门了。

过了这一关之后你再仔细的研究每个功能,慢慢的你就越用越熟练了。这也是我平时学习新技术的小窍门。当然这里面有难点,也有容易点。有的同学就因为过不了难点就放弃了。

先说容易的吧:“hadoop干什么的,它由什么功能组成的,每个功能都有那些基本的模块组成”,这个简单上网上找几个视频一看就明白了。

难的是那里?“给它搭建一遍让它跑起来”。也就是说你没入门就可能放弃了。更别说后面的详细的研究每一个功能了。也到不了能越用越熟练的地步了。

那为什么搭建一个大数据软件系统这么难呢?

大数据技术这个东西吧,不像你搞前端或UI,准备开发环境简单,一台电脑就够用了,而大数据学习你还要额外准备多台电脑,因为大多数大数据的技术组件都是集群模式的,当然你可以用虚拟技术比如vmWare来搞定这事,但是这个东西吧又是别一个坑,一会再说它为啥这么坑。还有就是前端或UI这些技术的特点就是都所见既所得,你可以马上就知道自己错在那里,就是你改不对你还改不错吗,改了一块发现不是这里你再换个地改呗,慢慢就试出来了,而大数据这个有的时候你改完了都不知道自己弄的对不对,但是它又能跑起来,只不过隐患在后面,所以坊间有句话:学习大数据止步于集群搭建。好吧我认怂,我放弃,躺平还不行吗?该怎么办不学了吗?那怎么行,我都管妈妈要钱买电脑了,显卡都得跟着老黄走,没有好的显卡我怎么能上分。哈扯远了。不过也是一部分想学习人的心态,行了就说你呢,别装了。哈哈。

那学大数据为啥好的电脑是标配呢?

比如16G内存起步,硬盘必须是SSD,CPU必须8核的,不行再氪个raid。

因为你需要装个vmWare这类虚拟化软件,然后再虚拟出来多个linux操作系统,再在那上面把大数据的组件装起来,比如你虚拟5个虚拟机每个给2G内存、1个CPU核。此时你电脑的剩余内存是6G和3个CPU核。这剩下的资源需要把你的windows系统还有上面带的各种软件跑起来,这不卡死你才怪。

有的同学说我再加点内存,确实能让你的电脑快一些,但是硬盘的问题又出来了,由于大数据的组件都频繁读写硬盘,你的5个虚拟机加上你的windows系统都对你的硬盘一顿操作,很快就会到达IO瓶颈,然后你又卡起来了。然后你再继续增加投资加硬盘,假设你有足够的盘位允许你这么做,你是不是还得把虚拟机再迁移到新的盘上去。

如此倒腾下来,你确实证明了你是个电脑高手,但是此时你的硬件也只是有把部分大数据组件跑起来的能力,比出CDH这种平台级别的你还得继续升级。

如果要在CDH上运行个完整的项目,你还得再再升级,完了家里的米不够了,要逼上梁山吗,老天我只要学个技术而已,为何如此之难?

哈哈别愁下面教大家一些拯救之法,利用一些公有资源,就是你要干的事在别人家的电脑上,确切的说是服务器上跑起来了,聪明点的就想到不这就是云吗?对就是云主机,接下来我给大家说说市面上云主机的特点,然后大家怎么选择。

也可直接进入我们的海汼部落,是我为想学习大数据技术的小伙伴提供一个分享创造、结识伙伴、协同互助的平台如果你只是以学习为目的想把大数据系的软件都跑通,需要的低要求是CPU少2核,内存少8G,硬盘少100G。而这样的机器少需要5台。

这样的配置在阿里云一台主机的价格是236一个月

这样的配置在腾讯云一台主机的价格是231一个月

所以说不管什么样的云平台你每个月都要花1000多。当然这也只是能满足你大数据组件的学习要求,如果想在上面流畅的运行你的大数据项目你的花费可不止这些,并且有时候你需要做好多个镜像来保存你不同学习阶段的虚拟机环境,你还得再额外花费镜像存储的钱。

所以大家看到了这些云主机其实并不便宜,相比于用自己的电脑就是为了让你省点心,毕竟你都花钱了怎么也得给你伺候明白。那有没有不花钱还省心的办法呢,毕竟你只是为了学习吗,所有利于你学习,利于你节省时间的办法都是好办法。还真有这样的产品,这个产品是我结合6年的大数据教学经验根据学生学习大数据的3大痛点而研发的:
  • 痛点一:电脑跑不动。
  • 痛点二:环境太难搭。
  • 痛点三:环境总出错,有时甚至遇到一个坑就能当误好几天。

针对痛点一,我们的解决办法是每个用户免费赠送16核 30G的集群资源。

针对痛点二,我们的解决办法是给准备好很多现成的大数据组件环境,几乎包含你学习阶段的所有大数据组件,你可以直接学习去使用,也可以做为你以后工作中的参考。

针对痛点三,我们的解决办法是提供了镜像功能,你可以随时恢复你自己以前正确的环境,或者拿别人的正确的环境直接变成你的跑起来。

当然还有好多利于学习者的功能,比如虚拟机秒启、快速镜像、组件配合、镜像分享、镜像笔记、操作回放、远程桌面、远程联调、一键配置等功能。

后做为一个新产品、以前大家没见过的新生事物,所以我也录制了详细的教程教大家怎么用。我在评论区里放下链接了如果你觉得这个东西对你学习大数据有帮助你就详细看看。

后祝你学习愉快。

相关文章