如何从一窍不通入门大数据?

2022-08-19 00:00:00 数据 学习 框架 基础 课程
大数据,一个当下非常重要的计划决策的分析依托。

很多人依然不了解大数据,但是又对大数据很憧憬,想从事这个专业,通过大数据技术为祖国和人民贡献自己的力量。

本文针对【完全零基础】的人们推荐一份学习大数据的历程。

由于每个人的学习能力稍有不同,故而学习时间上会有些出入,不要妄自菲薄,只要认真学习,都可以学有所成。

我会从三个方向说明学习过程,可以进行快速入门,当然个人建议大学生们夯实基础,逐一进行,已经工作的可以跳过基础,直接进入第三部分。

1、大数据发展趋势(目的:帮助您坚定思想)

2、大数据基础铺垫(目的:帮助您打牢基础)

3、大数据正式学习(目的:帮助您项目实操)

一、大数据发展趋势

我国大数据当前发展可总结为:“进步长足,基础渐厚;喧嚣已逝,理性回归;成果丰硕,短板仍在;势头强劲,前景光明”。

现阶段各大厂商的云计算平台基本搭建完成,在各种数据的依托下,大数据发展迎来了一个前所未有的井喷期,势头是明显的强劲。

作为人口大国和制造大国,我国数据产生能力巨大,大数据资源极为丰富。随着数字中国建设的推进,各行业的数据资源采集、应用能力不断提升,将会导致更快更多的数据积累。仅仅到2020年,我国数据总量达到8000EB(1018),占全球数据总量的21%,将成为名列前茅的数据资源大国和全球数据中心。

“十三五”期间在国家重点研发计划中实施了“云计算和大数据”重点专项。当前科技创新2030大数据重大项目正在紧锣密鼓地筹划、部署中。我国在大数据内存计算、协处理芯片、分析方法等方面突破了一些关键技术,特别是打破“信息孤岛”的数据互操作技术和互联网大数据应用技术已处于国际领先水平;在大数据存储、处理方面,研发了一些重要产品,有效地支撑了大数据应用;国内互联网公司推出的大数据平台和服务,处理能力跻身世界前列。

二、大数据基础铺垫

说到大数据很多人反应是【Hadoop】,但是作为基础来说,不建议没有基础就进行Hadoop学习。只有打好了自身的基础,才能更好的在大数据的世界遨游。

大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术,所以相对的基础内容也是较多的,咱们这行是基础决定上层建筑,那么我逐一说一下基础的学习顺序。

大数据基础一、Java

Java涉及到的知识面较广,从零基础开始掌握需要的时间也会是所有技术中消耗时间长的。

Java学习的资源非常多,但是个人推荐【马士兵的Java教学课程】,业界里好像没有哪个大佬录制的比这个细致,虽然是很老的版本,可能你的大学老师当年学习的时候就是学的这个,非常清晰的讲解了整个JavaSE的内容,让你打好一个非常坚实的基础,个人建议通过这套视频学习到【Java_JDBC】。

Java后续的框架内容【SSH】【SSM】【sprintMVC】【springboot】【springcloud】这些内容就得看当前版本的了,这些框架在咱们【华为云社区】就可以找到,且都是比较前卫的,只要基础打好了,框架都是很容易理解的,我们暂时不是架构师,所以要掌握这些框架的使用基本上就是几个小时就可以掌握一个了。

大数据基础二、Scala

为什么第二就推荐Scala呢,因为这个Scala是一门多范式的编程语言,使用语法与Java很相似,也可以直接使用java的编译器【idea】,并且是大数据开发重要框架Spark是采用Scala语言设计的,想要学好Spark框架,拥有Scala基础是必不可少的,因此,大数据开发需掌握Scala编程基础知识。

由于Scala当前掌握基础就可以,那么,【菜鸟教程】的内容就够了,可以让你对Scala基础操作一直到类操作都有个比较详细的了解,但是Scala对于数组的操作是比较麻烦的,相较于Java来说你要修改一下自己的使用逻辑,这块要注意。

细致的加深一下就可以在【华为云社区】的搜索框里面搜索一下,内容也是比较多的。

大数据基础三、Linux命令

第三个基础是Linux,这个操作系统可以说是咱们程序员必会的,好处经典的说法就是保证没广告,跑服务器非常稳定,不必要使用图形化的,命令行是有效率的。个人建议学习Linux命令在【华为开发者学堂】,课程内容很多,而且还免费,多划算。推荐的课程一共学习时间5个小时,也不多,一天肯定也就都掌握了,也要熟悉Shell脚本,方便后面的工作。

大数据基础四、Python

基础里面后是Python,因为这个真的很容易,也是用时短的。在掌握Java之后,你会发现学任何知识都很快,就跟张无忌学了九阳神功一样。

Python课程中,个人建议将【pandas】这块一定要好好搞定,因为这块主要是对【excel】和【cvs】文件操作,很多企业收集文件都是这类表格,后续操作是特别的多,仅仅这块弄通了,基本上你在大数据领域面试一个工作很简单的。

Python学习我推荐【华为开发者学堂】的前三个推荐课程,顺序是【Python入门篇】【Python进阶篇】【Python应用篇】,会让你在一周内掌握的,效率较高。

三、大数据正式学习

到这里,说明您已经拥有了一定的基础了,那么接下来就可以进入到具体的方向上了。

可以在【华为开发者学堂】进行学习,咱们主要看【数据集计算】方向。

现在开始就算正式的进入大数据了:

正式课程一、Python与数据分析

Python是面向对象的编程语言,拥有丰富的库,使用简单,应用广泛,在大数据领域也有所应用,主要可用于数据采集、数据分析以及数据可视化等,因此,大数据开发需学习一定的Python知识。特别是【pyecharts】现在作图的时候用到的比较多。而且效果也是不错的。这类的图表做的都挺漂亮的。

这是小编通过【pyecharts】生成的一些html页面,页面美观度较高,并且可以进行综合应用。学习起来也较为简单。

当然也有很多喜欢用【Matplotlib】的,其实都类似,看个人喜好,或者说是当前的工作需要通过那个技术完成合适。

正式课程二、Hadoop

Hadoop是大数据开发的重要框架,其核心是HDFS和MapReduce,HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算,因此,需要重点掌握,除此之外,还需要掌握Hadoop集群、Hadoop集群管理、YARN以及Hadoop管理等相关技术与操作!

Hadoop的学习可以根据【华为开发者学堂】的【MapReduce服务】进行练习。

Hadoop附加课程Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统,其在大数据开发应用上的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。大数据开发需掌握Kafka架构原理及各组件的作用和使用方法及相关功能的实现。

可以亲自测试一下,并且是有免费使用的,很合适。

省两千多测试。

购买完成后需要授权使用。

正式课程三、Spark

Spark是专为大规模数据处理而设计的快速通用的计算引擎,其提供了一个全面、统一的框架用于管理各种不同性质的数据集和数据源的大数据处理的需求,大数据开发需掌握Spark基础、SparkJob、Spark RDD、spark job部署与资源分配、Spark shuffle、Spark内存管理、Spark广播变量、Spark SQL、Spark Streaming以及Spark ML等相关知识。

这个Spark可以根据【https://education.huaweicloud.com/courses/course-v1:HuaweiX+CBUCNXE191+Self-paced/about】

进行学习,虽然课程内容并不是很多,但是在使用的过程中可以掌握Spark的整体使用可以更快速的掌握Spark的应用。

都可以使用【MRS】进行测试,可以在华为云的帮助下彻底掌握大数据的应用内容。

总结

总计学习内容:

Java、Scalc、Linux、Python、Hadoop、Spark大致六块内容,其中学习Hadoop的时候穿插学习了【Kafka】。

快速入门大概2周时间,需要学习Python数据分析,就是快的入门方法。

整体学习总计时间是四个月的时间,大三下学期开始学也是可以的,7月份大三课程结束才能去面试,如果初上大一,可以更加细致化的学习一下,特别是生成终的图表样式,如果您只做了一个项目,也建议尝试多做几个版本样式,例如下面的就是比较简单的学生案例,刚开始对表达方式理解的较弱,当做过十几二十个,就会发现越来越多的更好的大数据可视化表达方式。

案例多做一些,可以都写在简历里面,在面试的过程中用得到。

那么到这里,【完全零基础,怎样入门大数据?】就全部讲述完毕了,希望在学习过程中能帮助到您。

本文分享自华为云社区《完全零基础,怎样入门大数据?》,作者:红目香薰 。

相关文章