专访存储专家张冬:大数据时代存储如何演变?

2021-11-08 00:00:00 数据 定义 虚拟 闪存 管理层

大家好,欢迎大家做客本期名人堂,我是主持人皮丽华。存储是人类千百年来都在应用并且探索的主题。在原始社会,人类用树枝和石头来记录数据。后来,人类创造了铁器,用铁器在石头上刻画一些象形文字来记录数据。再接下来,人们选择用语言来记录的东西。到现在的互联网时代,人们发明了新的存储技术,从早的软盘硬盘到如今的云存储、闪存等新兴技术,那么大数据时代传统存储该何去何从?本期名人堂我们邀请到了《大话存储》的作者张冬,为我们聊聊大数据时代存储背后的演变。


冬瓜头(张冬),社区ID:东瓜头,系统工程师,多年来一直就职于存储设备公司,一直对存储技术孜孜不倦的研究探索并且乐于帮助存储初学者提高。著有畅销书《大话存储》,该书屡次获奖,包括2008年十大IT畅销书、2009年技术品种畅销书,版权被输出至台湾地区。更多嘉宾精彩专访,请关注名人堂栏目:http://www.chinaunix.net/star/




皮皮(Q1):我了解到您从事存储行业多年了,也出过《大话存储》的书,为什么会对存储结下情缘呢?能否介绍下自己,和我们分享下背后的故事。


张冬(A1):大学学的是化学专业。大二那年宿舍一起弄了台电脑,当然,主要都来打暗黑了。一直到大三,都在玩计算机,而从来没有想过去搞清楚它到底是怎么运作的。不知道哪一天,突然产生了好奇心,想弄清楚墙上的网线接口后面到底连接到哪里了,数据又是怎么传过来发出去的。就这样学习了一下网络,图书馆借了不少书来看,过程中有本书叫做“存储区域网络”,带着网络的我都借来看,结果就是这本书,基本看不懂,完全不知所云,当时就感觉很高端。后来工作了,也是计算机行当,逐渐接触存储,这时候才知道所谓SAN网络,然后就开始潜心学习存储,钻研,终有了结晶,就是大话存储这本书。





皮皮(Q2):在大数据时代,软件定义数据中心成为了新的方向,而作为数据中心的主角,存储面临着海量数据带来的压力,于是出现了一种新的观点,软件定义存储,您怎么看?能否和我们谈谈存储的演变?


张冬(A2):软件定义这个词我觉得被过度炒作和利用了。软件定义的本质是指让原有的比较封闭且不灵活的系统变得可以开放且灵活定制,比如提供细粒度的控制接口等等,这并不意味着拿着开源软件加上白牌机搭出一款产品来就叫软件定义了。同样,软件定义数据中心,也是说提供灵活管理和配置的数据中心基础架构管理方案,以及将不灵活的硬件单元虚拟成灵活的虚拟部件,比如虚拟机。在这个趋势下,传统存储的封闭做法就显得不合时宜了,这一点刚好被一些二三线以及初创公司抓住狠狠的戳中了要害,举着软件定义的大旗,向这些一线大厂发起挑战:凭什么你们基于过时的硬件搭出来的系统还卖的那么贵?我们要软件定义掉你们。再加上固态存储的挑战,这些厂商的日子开始不好过了。近又在炒作所谓server san,其实就是分布式存储系统,因为面向企业,所以不带san这三个字说不过去。





皮皮(Q3):随着各种流媒体、社交网站、图片等非结构化数据铺天盖地,一时间云存储风生水起。那么云存储与传统的存储有哪些不同?哪些应用适合选择云存储?


张冬(A3):其实我至今也不知道云存储的定义。和软件定义一样,都是被过度炒作的结果。云则更是过度炒作了。云尚可定义为一堆被自动化细粒度管理并向外提供服务的的计算机。云存储是什么还真不好定义。之前的存储系统,也是向外提供存储服务,如果说云存储就是分布式存储的话,那也不太像那么回事。如果说网盘就是云存储,那也没什么可炒作的了。云存储和传统存储,没法比较,传统存储经过包装也可以作为云存储,只不过贵,从这一点上说,似乎”便宜的存储就是云存储“。





皮皮(Q4):“优盘”是闪存走进我们常生活的明显写照,在数码相机、录音笔、手机、数字电视、电脑里我们都可以看到闪存的影子。现如今,基于闪存的固态硬盘SSD更是成为了存储市场的香饽饽,那么闪存的存储原理是什么?采用FLASH的闪存与DRAM的闪存究竟各自有哪些应用场景?


张冬(A4):闪存的存储原理是利用可充电的晶体管串联加并联形成二维矩阵来存储数据。其与DRAM基本原理类似,DRAM采用电容来充电,Flash采用带有一定绝缘性的浮栅来储电,电容漏电太快,所以DRAM得不停的刷新,但是DRAM的Cell比Flash的Cell响应快得多。基于DRAM的存储产品就不叫闪存了,有NVRAM或者NVDIMM等不同形态。这些基于RAM的持久存储都使用电容+Flash来保证掉电后RAM中数据拷贝到Flash。RAM比Flash快了几个数量级,但是容量小,所以适用于容量较小但是又要求极低访问时延的场景比如元数据、数据库日志缓冲等。





皮皮(Q5):IBM、微软、谷歌、亚马逊等IT巨头都纷纷转型拥抱云计算,进而催生了存储的虚拟化。对于用户来说,虚拟化的存储资源就像是一个巨大的“存储池”,那么基于主机、存储设备、网络的存储虚拟化究竟有哪些玄机呢?如何保证虚拟化之后的数据状态不变,同时也能避免复杂的数据备份和迁移?它们用到了哪些技术?


张冬(A5):存储的虚拟化并不是云计算催生的,而是一直都有,同样,计算的虚拟化也不是云计算催生的,云计算只是把一些技术包装了一下。存储虚拟化又有多种理解,至少有三种,一种是挂接其他厂商的设备形成一个池,这和卷管理层没什么大区别;第二个是底层数据布局的虚拟化,比如Raid2.0、分布式存储等;第三个是用一台存储设备虚拟出多个相互隔离的虚拟设备。当然,多数人说的还是种理解。主机端就是用卷管理层来做,存储设备则也是用卷管理层,只不过是其内部的卷管理层,基于网络设备来做那就是网络设备上做一个卷管理层,反正都是卷管理层就对了,位置在哪的问题。一般来讲,越靠近上层,灵活性越高。要做到虚拟化之后状态不变,厂商一般是通过将原本要写入源卷的元数据写到其他地方保存,确保虚拟化设备不主动写入任何数据到源卷,在这个基础上可以对源卷做快照镜像容灾等功能加成,一旦虚拟化设备出了问题,主机直接挂载源卷,其看到的数据和原来一样。





皮皮(Q6):早在2011年,天蝎计划就已经被提出,由BAT三巨头及中国电信主导,旨在为互联网数据中心定制IT基础架构。从存储的角度,能否和我们谈谈天蝎计划有哪些机遇?

张冬(A6):存储在天蝎中机遇很可观。其实互联网和大型数据中心不用SAN的原因并不是全盘否定其价值,SAN还是有价值的,如今可以看到各种服务器机型太多,其原因很大一部分是存储需要多种配置,比如计算性,均衡型,存储型,冷存储型,这些配置都不一样,如果使用SAN的思想,就不会出现这些问题。在Rack范围内,如果形成一个mini SAN,并且不带有那些花哨功能的纯硬件SAN,那其实还是很有意义的,服务器可以不设计存储相关的部分,而从集中的存储池中获取对应的空间,这个空间可以是物理的也可以是虚拟的。


相关文章