1. 不要害怕RAID

    2020年5月22日星期五

    简介

    我在互联网上感觉到这种情绪,RAID是危险的,你的RAID阵列在重建期间发生故障的可能性几乎是肯定的,因为硬盘驱动器已经变得如此之大。ob体育下载

    我认为事实并非如此,我想要打破这个神话。

    特别是对于家庭用户和小型企业来说,RAID阵列仍然是在单一位置存储大量数据的一种可靠和有效的方式。

    RAID可靠性感知

    在互联网上有许多关于人们在家里丢失RAID阵列的恐怖故事。欧宝体育直播官网这些故事可能导致了人们对RAID的消极态度。

    你可能会指责我指责受害者,但在许多情况下,我确实想知道这些事件是否是由于用户错误造成的1,由于运气不好或实际RAID造成的问题。报道中存在偏见:你不会听到无数没有问题的人的声音。

    在任何情况下,损害已经造成,但我仍然认为(软件)RAID是完美的。

    关于不可恢复读错误欧宝体育直播官网(URE)的误解

    我想麻烦是从这个开始的ZDNET上的糟糕文章从2007年开始。

    在这篇文章中,我们讨论的是随着驱动器变大,而不是变多可靠的,您将看到更多不可恢复的读错误(ure)。更大的产能意味着更多的行业,因此其中一个行业出现问题的风险就更大。

    URE是指硬盘无法读取扇区的事件ob体育下载5.对于像我这样的老人来说,这听起来就像一个“坏扇区”.这篇文章认为,平均来说,每读取12.5 TB的数据就会遇到一个URE。

    根据ZDNET文章的逻辑,仅仅从14tb驱动器复制所有数据可能是不可能的,因为在完成复制之前可能会遇到URE /坏扇区。

    这对于RAID阵列来说是一个非常大的问题。RAID阵列重建包括完整地读取所有剩余驱动器的内容2.所以你是保证在RAID重建过程中击中一个URE。

    好消息是你不用担心这些。欧宝体育直播官网因为它就是不正确的

    ob体育下载硬盘驱动器则不是在实践中不可靠。恰恰相反。我得说,他们非常可靠。看看Backblaze驱动器统计6

    ZDNET上那篇臭名昭著的文章的预测并没有成为现实。硬盘驱动器的URE规范描述了最坏的情况,似乎更多的是ob体育下载关于营销(一种区分企业驱动器和消费者驱动器的方法),而不是关于现实。欧宝体育直播官网

    如果ZDNET文章是正确的,我自己应该遇到了许多ure,因为在各种RAID阵列上完成了许多RAID阵列擦洗/巡逻读取。

    RAID从未停止工作,并且仍然很强大。

    擦洗可以防止坏道的影响

    当只能容忍一个驱动器故障的RAID阵列中的一个驱动器故障时,所有剩余的驱动器都不会遇到任何读取错误是非常重要的。由于丢失了冗余,由坏扇区引起的任何读取错误都可能意味着整个阵列丢失或至少某些文件损坏7

    每个RAID阵列都支持“擦洗”。它是一个读取RAID阵列的每个扇区的过程,这实际上导致所有硬盘驱动器的所有扇区都被读取。ob体育下载

    擦除是一种提前检查坏扇区的过程。如果在硬盘驱动器上发现坏扇区,可以更换驱动器,以便在未来可能ob体育下载的重建期间不会引起问题。更换驱动器本身将导致重新构建,但假设擦除没有发现任何其他坏扇区的驱动器,重新构建将是正常的。

    一个RAID阵列如果不定期进行擦洗,那就是一场灾难。坏扇区可能会在另一个驱动器上堆积,当一个驱动器实际发生故障时,整个阵列可能会丢失,因为(其中一个)剩余驱动器上没有检测到坏扇区。

    如果需要在RAID组中可靠地存储数据,则需要定期对RAID组进行擦洗。即使你不使用RAID,我也建议每个月对你拥有的每个硬盘进行一次长时间的SMART测试。ob体育下载

    默认情况下,Linux软件RAID阵列每周在Ubuntu上清洗一次。具体操作请参见“/etc/cron.d/mdadm.”目录

    如果你在Linux上使用ZFS,如果你运行Ubuntu,你的数组会在每个月的第二个星期天自动被清洗。

    像Synology或QNAP这样的NAS供应商默认启用了数据擦洗。请考虑您的特定NAS的手册来调整频率。我建议每个月至少擦洗一次,而且是在晚上。

    为什么认为RAID 5是有害的?

    坦率地说,我也想知道

    我注意到网上很多人都说你应该这样做从来没有使用RAID 5,但我不同意。这要视情况而定。在成本和风险之间找到平衡很重要。

    回溯到2003年不提倡使用RAID 5,但它主要针对企业环境,即使在企业环境中,我也看到了它的用途。

    5个或更少驱动器的RAID阵列,我认为RAID 5仍然是一个很好的选择。特别是如果您运行一个小型的4盘NAS,那么使用RAID 5是完全有意义的。您可以在容量和可用性成本之间取得很好的平衡。

    不建议创建更大的RAID 5阵列。与单个驱动器相比,包含8个驱动器的RAID阵列出现驱动器故障的可能性是单个驱动器的8倍。你将单个驱动器故障的风险乘以8。对于较大的阵列,双驱动器故障成为一个严重的风险。

    这就是为什么建议对较大的RAID阵列使用RAID 6的原因,因为RAID 6可以容忍两个同时发生的驱动器故障。我过去使用过RAID 6,现在使用RAIDZ2 (ZFS)作为当前NAS的基础。

    我还在我的一台主机服务器上运行8盘RAID 5不是很重要的数据我仍然想留在身边,不想失去,但不是不惜一切代价。这一切都是关于风险欧宝体育直播官网和成本之间的平衡。也请阅读这篇文章的后记,你会喜欢的。

    的确,在重建过程中,硬盘驱动器会承受更大的压力,但除非RAID阵列也ob体育下载被大量使用,否则驱动器上的负载不会那么大:数据是按顺序读取的,这对驱动器来说相当容易。

    突袭重建性能主要由驱动器的大小决定,而不是由RAID阵列中的驱动器数量决定3.

    几年前,我运行了一个基于1tb驱动器的20个驱动器的RAID 6,它在5个小时内完成了重建。最近我在RAID 5中测试了8个驱动器的重建(使用相同的驱动器),它也花了将近5个小时(4H45M)。

    RAID写洞

    RAID 5/6“写入漏洞”经常被提到,这是你应该担心的事情。欧宝体育直播官网

    像raid5和raid6这样基于奇偶的RAID可能会受到一个名为“写入漏洞”。为了(过度)简化:如果计算机突然断电,对RAID的写入可能会中断。这可能会导致对RAID阵列的部分写入,使其处于不一致的状态。

    作为旁注,我总是建议用UPS(电池备份)来保护您的NAS,这样您的服务器就可以在电池耗尽之前以一种干净的方式关闭。

    ZFS RAIDZ不受“写洞”问题的影响,因为它在将数据写入实际数组之前先将数据写入日志4

    Linux MDADM软件RAID也通过使用一个“写洞”现象来保护位图(默认启用4).

    硬件RAID还可以通过为高速缓存使用电池备份来防止这种情况。一旦计算机重新上电,高速缓存中的数据就会被写入磁盘。

    设置提醒,如果您关心您的数据欧宝体育直播官网

    我认为许多RAID恐怖故事是由于人们可能永远不会注意到任何问题,直到为时已晚,因为他们从来没有设置任何类型的警报(通过电子邮件或其他方式)。

    理想情况下,您还可以确保您的系统监视硬盘驱动器的SMART数据,并在关键数字开始上升时发出警报(重新分配的扇区计数和当前待定扇区计数)。ob体育下载

    这也是个人反思的时刻。你运行一个RAID阵列吗?你设置警报了吗?或者您的RAID阵列正在失败非常时刻你不知道吗?

    无论如何:我认为缺乏适当的警报是RAID遇到麻烦的好方法,但这不是RAID。任何不受监控的存储解决方案都只是一场等待发生的灾难。

    为什么人们选择不使用RAID

    如果RAID组故障,将导致所有数据丢失。有些人对这种风险感到不安。他们宁愿丢失一些驱动器的内容,而不是全部。

    解决方案等Unraid而且SnapRAID使用一个或多个专用硬盘来存储冗余(奇偶校验)数据。ob体育下载其他硬盘驱动器是用您ob体育下载选择的文件系统格式化的,可以像普通硬盘驱动器一样访问。虽然我对这个产品没有经验,StableBit DrivePool似乎是类似的方式。

    如果您有6个硬盘驱动器,因此有5个数据驱动器ob体育下载和1个校验磁盘,丢失两个驱动器将导致数据丢失,就像RAID 5一样。然而,其余四个驱动器上的数据仍然完好无损。数据丢失仅限于一个驱动器的数据值。

    与常规软件RAID相关的“全有或全无”风险因此得到缓解。我自己不认为这些风险没有那么大,但Unraid和snapraid是很受欢迎的产品,我认为它们是合理的选择。

    Mergerfs这也是一个有趣的选项,尽管它只支持镜像。

    备份仍然很重要

    将数据存储在任何类型的RAID阵列上从来没有备用的替代品。

    如果你想保护你的数据,你仍然应该把你的数据复制到一些其他的存储。您可以选择只备份所有数据的一个子集,但至少您承担了知情的风险。

    评价

    我希望我已经说明了为什么RAID仍然是数据存储的有效和可靠的选择。

    欢迎在评论中分享你的观点。

    注:

    在撰写本文时,我对8盘RAID 5阵列(基于2 TB驱动器)进行了一次擦洗。我的服务器只在我需要的时候才会启动,而在关闭的时候,它们很容易错过定期的擦洗窗口。

    为了实践我所宣扬的,我经营了一家医院。你瞧,其中一个驱动器被踢出了我的Linux软件RAID阵列。你不喜欢讽刺吗?

    sd 0:0:4:0: [sde] tag#29 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE sd 0:0:4:0: [sde] tag#29 Sense Key: Medium Error [current] sd 0:0:4:0: [sde] tag#29 Add. Sense: Unrecovered read Error sd 0:0:4:0: [sde] tag#29 CDB: read (10) 28 00 9f 42 9e 30 00 04 00 00 print_req_error: critical Medium Error, dev sde, sector 2671943216

    紧随其后的是:

    md/raid:md6: Disk failure on sde, disabling device。md/raid:md6: Operation continuing on 7 device。

    驱动器显然是被踢出的,因为驱动器遇到坏扇区。对SMART数据的快速检查显示,超过300个扇区已经重新映射,但存储在其中的数据无法恢复,导致读取错误。

    这个计划显然已经完成了,尽管它仍在运作。

    在把这个有缺陷的驱动器换成备用的替换后,我开始了重建过程,这花了4小时20分钟。我的RAID 5已经重建,现在完全正常。

    如果这样的活动都不能让人们明白手术服的重要性,我不知道还有什么能做到。


    1. 有时我读到人们用来存储的硬件,我会想到约翰·格伦的这句话:欧宝体育直播官网“我的感受和你在准备发射时的感觉一模一样,你知道自己正坐在200万个零件上,这些零件都是由政府合同中出价最低的投标人制造的。”

    2. ZFS的工作方式不同,它只读取包含实际数据的扇区。

    3. ZFS重建或“resilvers”变得更慢当您添加更多的驱动器到RAIDZ(2/3) VDEV时,它似乎。我不确定最近的ZFS版本是否仍然如此。

    4. 由于使用日志/位图,ZFS和MDADM的性能都会受到影响。这两种解决方案都支持使用SSD来加速日志/位图,以消除这种性能影响。大多数家庭用户可能不需要这个。

    5. 一个驱动器可以存储的最小存储单位,对于较老的、较小的驱动器,通常是4K或512字节。

    6. 这些硬盘存储ob体育下载在一个有条件环境的数据中心里,你可能在家里没有这样的环境。但是只要你把硬盘的温度控制在一定的范围内,我认为这并不重要。ob体育下载

    7. ZFS既是一个RAID解决方案,也是一个文件系统,它可以准确地告诉您哪个文件受到了影响。一个不错的功能。

    标记为: 存储突袭

第1页/ 1

Baidu
map