晩酌しながらサーバ管理。 こんな「てきとー管理者」にサーバ預けて、大丈夫?
Search
Powered by
Movable Type 4.23-ja
■■■■■免 責■■■■■
このサイトを参考にしたために発生した一切の損害に「てきとー管理者」は一切関知しませんし、補償もしません。 また、本サイトの記述が正しいことも保証しません。
自己責任にてお願いします。
-------------------------
京都の鍵トラブルなら鍵レスキュー 鍵師が、家・金庫・バイク・車等の解錠を始め鍵に関する全般、また防犯設備士からみた防犯診断の上の工事等、安心しておまかせ下さい。24時間対応致します。
玄箱でウィルス対策を行っている最中だが、ふと思ったことがあった。
玄箱はHDDが1本
FANは付いていると言っても、HDDを効率良く冷却しているかがわからない。
そこで、S・M・A・R・Tでチェックすることにしよう。
いつものように・・・
# apt-get install smart
該当が無い。
もしかして名称が違うのかと思い、FTPサイトにて確認。
「smartmontools」と言うパッケージになっているらしい。
そこで再度apt-get
# apt-get install smartmontools
無い(ーー;)
再度FTPサイトで確認すると、i386版は用意されているがppc版は無い。
そこで「SRPM」をゲットしてrebuildすることにした。
# wget http://ftp.kddilabs.jp/pub/Linux/packages/Vine/apt/3.1/SRPMS.plus/
smartmontools-5.36-1vl1.src.rpm
# rpm -ivv smartmontools-5.36-1vl1.src.rpm
# cd /usr/src/vine/SPECS
# rpmbuild -bb smartmontools.spec
errorが出る。
libtoolize が必要と警告がでる。
そこで、パッケージを探してみる。
該当するのはlibtoolらしい。
# apt-get install libtool
すると、依存関係でautomakeもインストールされるらしい。
再度rebuild
# rpmbuild -bb smartmontools.spec
問題なくrebuild出来た。
smartmontools-5.36-1vl1.ppc.rpm
早速インストール
# cd /usr/src/vine/rpms/ppc
# rpm -ivh smartmontools-5.36-1vl1.ppc.rpm
インストール完了。
早速チェックする。
# smartctl -a /dev/hda
smartctl version 5.36 [powerpc-unknown-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF INFORMATION SECTION ===
Model Family: Maxtor DiamondMax Plus 9 family
Device Model: Maxtor 6Y120P0
Serial Number: Y3K4KKZE
Firmware Version: YAR41BW0
User Capacity: 122,942,324,736 bytes
Device is: In smartctl database [for details use: -P show]
ATA Version is: 7
ATA Standard is: ATA/ATAPI-7 T13 1532D revision 0
Local Time is: Tue Sep 19 14:11:51 2006 JST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 39) The self-test routine was interrupted
by the host with a hard or soft reset.
Total time to complete Offline
data collection: ( 242) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
No General Purpose Logging support.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 54) minutes.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
3 Spin_Up_Time 0x0027 203 202 063 Pre-fail Always - 16177
4 Start_Stop_Count 0x0032 253 253 000 Old_age Always - 78
5 Reallocated_Sector_Ct 0x0033 253 253 063 Pre-fail Always - 0
6 Read_Channel_Margin 0x0001 253 253 100 Pre-fail Offline - 0
7 Seek_Error_Rate 0x000a 253 252 000 Old_age Always - 0
8 Seek_Time_Performance 0x0027 253 247 187 Pre-fail Always - 58935
9 Power_On_Minutes 0x0032 189 189 000 Old_age Always - 438h+20m
10 Spin_Retry_Count 0x002b 253 252 157 Pre-fail Always - 0
11 Calibration_Retry_Count 0x002b 253 252 223 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 253 253 000 Old_age Always - 89
192 Power-Off_Retract_Count 0x0032 253 253 000 Old_age Always - 0
193 Load_Cycle_Count 0x0032 253 253 000 Old_age Always - 0
194 Temperature_Celsius 0x0032 253 253 000 Old_age Always - 42
195 Hardware_ECC_Recovered 0x000a 253 252 000 Old_age Always - 40495
196 Reallocated_Event_Count 0x0008 253 253 000 Old_age Offline - 0
197 Current_Pending_Sector 0x0008 253 253 000 Old_age Offline - 0
198 Offline_Uncorrectable 0x0008 253 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0008 199 199 000 Old_age Offline - 0
200 Multi_Zone_Error_Rate 0x000a 253 252 000 Old_age Always - 0
201 Soft_Read_Error_Rate 0x000a 253 252 000 Old_age Always - 12
202 TA_Increase_Count 0x000a 253 052 000 Old_age Always - 0
203 Run_Out_Cancel 0x000b 253 252 180 Pre-fail Always - 10
204 Shock_Count_Write_Opern 0x000a 253 252 000 Old_age Always - 0
205 Shock_Rate_Write_Opern 0x000a 253 252 000 Old_age Always - 0
207 Spin_High_Current 0x002a 253 252 000 Old_age Always - 0
208 Spin_Buzz 0x002a 253 252 000 Old_age Always - 0
209 Offline_Seek_Performnce 0x0024 189 189 000 Old_age Offline - 0
99 Unknown_Attribute 0x0004 253 253 000 Old_age Offline - 0
100 Unknown_Attribute 0x0004 253 253 000 Old_age Offline - 0
101 Unknown_Attribute 0x0004 253 253 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
当然のごとく、今は問題ない。
一般的は使い方でオプションの指定がある
=====================================
-a すべての情報を表示する。
-i ハードディスクのS.M.A.R.T.サポート状況を表示する。
-l エラーのログを表示する。
-v 温度やシークエラーなどの状況を表示する。
-t テストを実行する。
-h オプション一覧と使用例を表示する。 ヘルプですね。
=====================================
しかし、vineのsmartmontoolsは若干違うようだ。
「-v」が、smartmontoolsでは「-A」になっているようです。
再度、見てみる。
# smartctl -A /dev/hda
smartctl version 5.36 [powerpc-unknown-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
3 Spin_Up_Time 0x0027 203 202 063 Pre-fail Always - 16177
4 Start_Stop_Count 0x0032 253 253 000 Old_age Always - 78
5 Reallocated_Sector_Ct 0x0033 253 253 063 Pre-fail Always - 0
6 Read_Channel_Margin 0x0001 253 253 100 Pre-fail Offline - 0
7 Seek_Error_Rate 0x000a 253 252 000 Old_age Always - 0
8 Seek_Time_Performance 0x0027 253 247 187 Pre-fail Always - 59034
9 Power_On_Minutes 0x0032 189 189 000 Old_age Always - 438h+36m
10 Spin_Retry_Count 0x002b 253 252 157 Pre-fail Always - 0
11 Calibration_Retry_Count 0x002b 253 252 223 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 253 253 000 Old_age Always - 89
192 Power-Off_Retract_Count 0x0032 253 253 000 Old_age Always - 0
193 Load_Cycle_Count 0x0032 253 253 000 Old_age Always - 0
194 Temperature_Celsius 0x0032 253 253 000 Old_age Always - 42
195 Hardware_ECC_Recovered 0x000a 253 252 000 Old_age Always - 40495
196 Reallocated_Event_Count 0x0008 253 253 000 Old_age Offline - 0
197 Current_Pending_Sector 0x0008 253 253 000 Old_age Offline - 0
198 Offline_Uncorrectable 0x0008 253 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0008 199 199 000 Old_age Offline - 0
200 Multi_Zone_Error_Rate 0x000a 253 252 000 Old_age Always - 0
201 Soft_Read_Error_Rate 0x000a 253 252 000 Old_age Always - 18
202 TA_Increase_Count 0x000a 253 052 000 Old_age Always - 0
203 Run_Out_Cancel 0x000b 253 252 180 Pre-fail Always - 10
204 Shock_Count_Write_Opern 0x000a 253 252 000 Old_age Always - 0
205 Shock_Rate_Write_Opern 0x000a 253 252 000 Old_age Always - 0
207 Spin_High_Current 0x002a 253 252 000 Old_age Always - 0
208 Spin_Buzz 0x002a 253 252 000 Old_age Always - 0
209 Offline_Seek_Performnce 0x0024 189 189 000 Old_age Offline - 0
99 Unknown_Attribute 0x0004 253 253 000 Old_age Offline - 0
100 Unknown_Attribute 0x0004 253 253 000 Old_age Offline - 0
101 Unknown_Attribute 0x0004 253 253 000 Old_age Offline - 0
こんな感じで表示される。
温度のみ出力したい場合は・・・
# smartctl -a /dev/hda | grep Temp
194 Temperature_Celsius 0x0032 253 253 000 Old_age Always - 42
これを見ると、現在42℃って事ですね。
玄箱で使っているHDDは「Maxtor 6Y120P0」でデータシートを見てみると動作時の温度が「5~55」となっている。
もっと温度を下げたいところだが、許容範囲内なので問題はないでしょう。
時間があるときにでも、玄箱内部の熱対策を行うことにしよう。
※排気FANの改善(交換)
※HDDやCPUの廃熱改善
次にやらなければならないのが、問題が出る前に何かしらの予兆があるはず。
それをデーモンで監視して、アラートを出すようにすれば完全にクラッシュする前にデータを救う事が出来るでしょう。
そこで、次のような設定を行いました。
# vi /etc/smartd.conf
#/dev/hdc -H -m admin@example.com
となっている所のコメントを外して修正する
/dev/hda -H -m root
そしてデーモンを自動起動。
# chkconfig smartd on
デーモンスタート
# /etc/rc.d/init.d/smartd start
これでOKかな?
でも、メールの設定を行っていないのでアラートは飛んできませんね ^^;