Python学习记录
文章目录
- (1)学习Python基础
- (2)初识python数据分析
- (3)初学Python网络爬虫
- (4)研读《从零开始学Python网络爬虫》,系统学习爬虫
- (5)初识机器学习,研读《机器学习Python实践》
- (6)研读《利用Python进行数据分析》
- (7)研读《深入浅出数据分析》
- (9)工作&项目&比赛实战
我在学习python爬虫之前,只有一点点c++基础。所谓“一点点”,指的是看过谭浩强的《C++程序设计》、砖头一样的《C++Primer》(当然,后者没看完),有接触实验室的MFC大型项目经验,但是对于数据结构、类、封装等概念,理解得都不到位。
在这样的基础上,由于种种原因,开始学习Python。下面记录自己学习Python的经历,持续更新。。。
(1)学习Python基础
2017年11月11日-11月30日
开始阅读*《零基础入门学习Python》*,看了三天,初始Python的基本语法、列表和字典、包和模块等概念。推荐小甲鱼的这本书作为入门,书籍是基于python3作为开发语言,具有时效性;语言轻松易懂;一边抄代码一边学语法,3天即可以稍微上手Python。
在这三天间,还参考百度教程,配置好Python的运行环境。在win7环境下,安装了Python3.6,Anaconda3,PcCharm,后来才发现,只需要下载一个Anaconda3就可以了0-0熟悉了Python的运行环境,熟悉了pip、conda等命令的用法、第三方包的安装。
此外,还配置了Mysql、Navicat、PowerBI等相关软件。现在想想,有点多余了,其实暂时是用不到的。但在做项目的时候,终会用到。详细的Python环境配置可以参考我这篇博客。
以上的过程大概持续了5天。努力的话,2-3天就够了,熟悉语法和基础,就要直接写代码开干。
这一节很好的的教程:
《零基础入门学习Python》;
配套视频:小甲鱼的B站视频;
廖雪峰个人博客的Python板块;
crossin的编程教室;
(2)初识Python数据分析
2017年11月18日-11月30日
由于刚开始的时候,把自己的求职目标定位为“基于Python的数据分析师”,因此还检索了很多数据分析的岗位JD。包括数据分析的岗位要求、学习规划、职业分类等等。自己也很懈怠。
11月27-12月4日去厦门大学出差,期间只能看看书。看的是《利用Python进行数据分析》,草草浏览了一遍,只记得NumPy、Matplotlib、pandas这几个包的名字而已=-=京东双11的时候,买了《利用Python进行数据分析》、《Python金融大数据分析》、《Python零基础入门学习》、《谁说菜鸟不会数据分析》、《深入浅出数据分析》这几本书,一共大概200元,但是过了一个月,目前只看了《Python零基础入门学习》这一本而已。。。
这一节很好的的教程:
知乎:如何快速成为数据分析师;
(3)初学Python网络爬虫
2017年12月8日-12月25日
出差返校之后,重新定位了一下:把“爬虫工程师”作为学习Python的阶段性目标。大概花了一周时间去攻克,学习到的知识有:
1、网页的基本知识:get和post的含义、html的含义及基本格式;
2、爬虫的基本原理:分析网页-请求网页-返回网页信息-解析网页-下载文件-保存文件;
3、爬虫相关的第三方包:请求网页用的是requests,解析网页有三种方法(re、lxml、BeautifulSoup),这三个包是爬虫的重中之重;
4、Python环境下对本地文件的读写:下载文件则需要自己写一个download函数,os包的使用;
5、网页URL的分析方法,需要用for循环获取某些嵌套网页的url;
6、使用浏览器调试url的方法,F12和寻找scr、href等;
学习的方法,就是不断的寻找网上的示例,先自己在spyder中手动敲一遍,然后逐句逐句的分析每一条代码的含义。重复2-3个例子之后,会发现所有的爬虫都基本是这个套路。这个重复的过程一周足矣。0-0爬取妹子图,对于内心成就感的提升是最大的。。。
这一节很好的的教程:
知乎:如何入门Python爬虫;
崔庆才的个人博客的python板块;
在w3school上学习XPath;
(4)研读《从零开始学Python网络爬虫》,系统学习爬虫
2017年12月18日-2017年12月31日
在学习了基本的小型爬虫之后,开始学习爬虫框架scrapy。学习Scrapy的过程非常的曲折,主要困难在:由于Scrapy包在17年2月份之后,才支持Python3;此外,有些网页的html也在更改,因此网上很多教程都是不可正常运行的。
我百度关键词为“scrapy爬取图片”,浏览了前100个网页,能运行的爬虫实例,不过6个而已。因此,除了浏览Scrapy框架的简介之后,没有几个能仔细研究的case。于是,上jd买了一本《从零开始学Python网络爬虫》,由于是17年10月份出版的,因此和目前的开发环境很契合,不会出现代码运行不了的情况。
将要学习的知识点:
1、用mongoDB和mysql存储爬取的数据;
2、多线程爬虫的实现方法;
3、针对异步加载网页抓取数据的方法;
4、使用cookies模拟登录网站;
这一节很好的的教程:
《从零开始学Python网络爬虫》;
关于此书我的学习笔记;
CSDN、简书上关于爬虫的各种实例;
(5)初识机器学习,研读《机器学习Python实践》
2018年1月2日-2018年1月13日
看到了拉勾网上广州银行的数据分析岗位,要求机器学习方向,做数据预测的工作;结合目前的行业趋势,开始了机器学习的了解。方式,当然是把知乎、CSDN、博客园、简书等网站的信息都过一遍,把百度关键词的几百个网页都过一遍;然后在京东买了三本书,《机器学习Python实践》、周志华《机器学习》、李航《统计学习方法》,第一本是基于scikit-learn框架的Python实践指导书,后两本都是机器学习理论方面的经典教材,一深一浅;同时,正好我的舍友(秋招去了海康的大数据算法)和实验室的杨烈(做的课题是Tensorflow框架的深度学习)做的工作与之相关,就和他们多讨论,可以在学习方向上即是纠偏。
这段时间,主要是直接上手《机器学习Python实践》这本书的代码,把书上几乎所有的代码都重写了一遍,了解了scikit-learn的基本用法、机器学习的基本流程;当然,对于理论完全没有了解,也缺乏独立进行项目的能力。
这一节很好的的教程:
《机器学习Python实践》;
此书我的学习笔记;
周志华《机器学习》(西瓜书);
李航《统计学习方法》(统计学习扛鼎之作);
(6)研读《利用Python进行数据分析》
2018年1月13日-1月22
动物书系列都写的很好。这本书可以说是数据分析领域,不可避免的一部经典了。集中花了十天左右来看,做示例。
优点在于:针对Python2语言,在数据分析情境下,介绍了常用的包(Scipy、Numpy、pandas、matplotlib)、数据的一般操作(导入、清洗、转换、合并、可视化)、十个左右的实例帮助理解。
缺点在于:代码案例在Python3上运行时,很多都需要修改;个人感觉实例偏少,并且有些脱离当代商业分析的实际情景;美国人写书比较口水;代码在书本里面,没有灰色背景色,不太容易看出来。
我个人只是不求甚解的通看了一遍而已,然后将例子照抄做了一遍,没有太多的个人思考。个人感觉这本书,是当做“字典”来翻阅的。也即是说:遇到数据分析的具体案例时,查阅这本书,寻找有哪些方法可以借鉴。
这一节很好的的教程:
《利用Python进行数据分析》的学习笔记这里写链接内容;
动物书系列《利用Python进行数据分析》;
(7)研读《深入浅出数据分析》
2018年1月23日-2月1日
这段时间去厦门大学出差,只是在做实验中途间歇的时候,匆匆浏览完了这本书。也是在京东上买的,算是数据分析的入门教程了;这本书本身也属于‘Head first’系列,即从头开始,可以是实实在在的入门书。
优点:案例结合商业实践非常紧密;语言、图例都及其通俗易懂,没有任何阅读难度;
缺点:内容太浅;看过之后印象不深刻。只能算是科普书。
#(8)研读《机器学习》(周志华老师的西瓜书)
我的学习笔记;
机器学习领域,在国内的经典书籍,要好好研读;
(9)工作&项目&比赛实战
学到了这里,Python就已经上路了。这时,你已经对Python生态、用它能做什么、不能做什么有了一定的了解;在接下来,你需要去学习数据库、算法、其他语言、计算机网络、大数据等技术栈的理解,这些需要自己另外摸索了。
基本上,使用Python还是做一个调包侠,核心还是要牢牢抓住实际工程的需要,除了技术本身之外,对业务和产品的理解也都非常重要。
windows系统下定时启动python任务
https://blog.csdn.net/Q_QuanTing/article/details/82854444
此贴已完结,共勉。
相关文章