《机器学习实战》书中python2.7与

2023-01-31 02:01:31 书中机器实战

《机器学习实战》书中使用的是python2.7，而对于现在新接触Python的同学来说都是上手python3.6版本。

由于本渣渣也正在学习此书，将陆续列出遇到的不同于现实编码的困难与解决方法（如果能解决的话.......）。

1.在import numpy时候，书中提倡from numpy import *
而我们在学习python3.6时常用import numpy as np，于是在调用tile、zeros等函数时，要改为np.tile()，np.zeros()。

2.输出的print后边要加上()

3.在使用pickle打开文件时，由于打开方式时二进制，要在‘w’后面或者‘r’后面加上‘b’，如‘wb’，

    import pickle
    fw = open(filename,'wb')                   #pickle是二进制打开，加b
    pickle.dump(inputTree,fw)
    fw.close()

4.书中的获取字典dict的keys方法dict.keys()获得的字典集不是list形式，不能直接使用'[ ]'取值，

这是python2.7的取值方法，在3.6中应该改为如下：

str = list(dict.keys())[0]

先将dict.keys()转化为list形式

5.在第四章出现一个无法解决的问题：

tokenText = textParse(open('E:/BigData/Machinelearninginaction/Ch04/email/spam/%d.txt' % i).read())

这个打开文件会出现解码错误的问题：'gbk' codec can't decode byte 0xff in position 199

然后我试着用‘utf-8’ 出现：'utf-8' codec can't decode byte 0xff in position 43

似乎是这些文件中有两种的编码的方式。于是我只提取前15个文件，不用修改就成功了。

试了很多方法，全部文件的读取还是没有成功。

如果同时解码多个编码方式还是没有解决。

6.在一个dataSet = range（50），中 del（dataSet[30]）会出现错误

因为range返回的是range object 先将起转化为list

如：dataSet = list（range（50））

7.第九章中在加载数据时有这块代码：

for line in fr.readlines():
        curline = line.strip().split('\t')
        fltLine = map(float,curline)
        dataMat.append(fltLine)

这里会报错，提示map对象不能做mean处理，原因是python 2.7的map返回的是直接的结果，而python 3.6中返回的是map的对象：

<map object at 0x00000000021DA860>

这里把这个对象转化为list即可，具体整个代码块改为：

for line in fr.readlines():
        curline = line.strip().split('\t')
        curline = list(map(float,curline))
        dataMat.append(curline)

相关文章