サーバーのHDDの現在の状態

この前の記事の「サーバーが不調だ!」の続き。

サーバーのHDDにエラーが発生してるって この前の記事で書いたけど、もう少し詳しく説明してみる。

サーバーのメインHDDは 3Tバイトのドライブで 確か1年半位前に購入した物で まだ2Tバイト位しかデータが埋まっていない。実際のサーバー運用に必要なデータは500Mバイトも必要ない。残りはxxxなデータが溜まってるだけ。(余談) データで全て埋まる前にエラーが発生するとは何事だ!

LinuxでHDDの状態は smartcmdというコマンドで見ることが出来る。

[code]
[root@hogehoge ]# smartctl -A -l selftest /dev/sda
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-431.3.1.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 117 099 006 Pre-fail Always – 144205304
3 Spin_Up_Time 0x0003 093 092 000 Pre-fail Always – 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always – 42
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always – 0
7 Seek_Error_Rate 0x000f 075 060 030 Pre-fail Always – 36695550
9 Power_On_Hours 0x0032 088 088 000 Old_age Always – 11239
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always – 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always – 68
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always – 0
184 End-to-End_Error 0x0032 100 100 099 Old_age Always – 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always – 0
188 Command_Timeout 0x0032 100 084 000 Old_age Always – 68720525328
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always – 0
190 Airflow_Temperature_Cel 0x0022 071 054 045 Old_age Always – 29 (Min/Max 23/33)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always – 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always – 44
193 Load_Cycle_Count 0x0032 036 036 000 Old_age Always – 128234
194 Temperature_Celsius 0x0022 029 046 000 Old_age Always – 29 (0 15 0 0 0)
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always – 48
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline – 48
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always – 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline – 68354404526742
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline – 15623100929633
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline – 30504439387963
(後略)
[/code]
メインのHDDのパラメータを表示してみた。 問題なのは 197 Current_Pending_Sectorの行の右端の数値が48な事。何かしらのデータの読み出しエラーが発生している(かもしれない?)場所が 48箇所あるという意味らしい。 当然 この数値は0で まったくエラーが発生していないのが理想的な状態と言う事。

ここで悩ましいのは ほんとにエラーが発生しているのかもしれないし 発生していないのかもしれない・・・ 該当する場所にデータを書いて読み出してみないと はっきりした状態は分からないらしい。 記録面にほんとに問題があった場合は  5 Reallocated_Sector_Ctの項の右端の数値がカウントアップする。 この数値は 磁気記録面に問題のあった場所を別の場所に代替した数を示す。 この数値がカウントアップするようなら そのHDDは早急に交換した方が良い。

気になるのは 1 Raw_Read_Error_Rateが毎日不安定に変動する。 特に大量のデータの読み書きが発生したときに この数値の変動が激しいので 今はなるべく大きなデータの読み書きは控えて 様子を見守っている。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

This site uses Akismet to reduce spam. Learn how your comment data is processed.