Проверка состояния жестких дисков

Материал из ALT Linux Wiki

Smartmontools - утилита для проверки состояния жестких дисков при помощи SMART.

  1. Определение дисков в системе:
    # smartctl --scan

    Отобразится список дисков в вашем компьютере:

    /dev/sda -d scsi # /dev/sda, SCSI device
  2. Информация о диске
    # smartctl -i /dev/sda

    Пример:

    === START OF INFORMATION SECTION ===
    Model Family:     Toshiba 2.5" HDD MK..65GSX
    Device Model:     TOSHIBA MK3265GSXN
    Serial Number:    3192P99AT
    LU WWN Device Id: 5 000039 322201685
    Firmware Version: GH101M
    User Capacity:    320 072 933 376 bytes [320 GB]
    Sector Size:      512 bytes logical/physical
    Rotation Rate:    5400 rpm
    Form Factor:      2.5 inches
    Device is:        In smartctl database [for details use: -P show]
    ATA Version is:   ATA8-ACS (minor revision not indicated)
    SATA Version is:  SATA 2.6, 3.0 Gb/s (current: 3.0 Gb/s)
    Local Time is:    Mon Mar  5 00:02:01 2018 MSK
    SMART support is: Available - device has SMART capability.
    SMART support is: Enabled
    
  3. Подробная информация о состоянии
    # smartctl -A /dev/sda

    Пример:

    === START OF READ SMART DATA SECTION ===
    SMART Attributes Data Structure revision number: 16
    Vendor Specific SMART Attributes with Thresholds:
    ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
      1 Raw_Read_Error_Rate     0x000b   100   100   050    Pre-fail  Always       -       0
      2 Throughput_Performance  0x0005   100   100   050    Pre-fail  Offline      -       0
      3 Spin_Up_Time            0x0027   100   100   001    Pre-fail  Always       -       1141
      4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       7407
      5 Reallocated_Sector_Ct   0x0033   100   100   050    Pre-fail  Always       -       0
      7 Seek_Error_Rate         0x000b   100   100   050    Pre-fail  Always       -       0
      8 Seek_Time_Performance   0x0005   100   100   050    Pre-fail  Offline      -       0
      9 Power_On_Hours          0x0032   058   058   000    Old_age   Always       -       17038
     10 Spin_Retry_Count        0x0033   245   100   030    Pre-fail  Always       -       0
     12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       7224
    191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       176
    192 Power-Off_Retract_Count 0x0032   098   098   000    Old_age   Always       -       1279
    193 Load_Cycle_Count        0x0032   047   047   000    Old_age   Always       -       531423
    194 Temperature_Celsius     0x0022   100   100   000    Old_age   Always       -       39 (Min/Max 10/53)
    196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
    197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
    198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
    199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       1
    220 Disk_Shift              0x0002   100   100   000    Old_age   Always       -       89
    222 Loaded_Hours            0x0032   070   070   000    Old_age   Always       -       12360
    223 Load_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
    224 Load_Friction           0x0022   100   100   000    Old_age   Always       -       0
    226 Load-in_Time            0x0026   100   100   000    Old_age   Always       -       309
    240 Head_Flying_Hours       0x0001   100   100   001    Pre-fail  Offline      -       0
    

    Ключевое значение имеет содержимое 3-х столбцов:

    • VALUE - текущее значение параметра
    • WORST - наихудшее значение, которого когда-либо достигало значение Value
    • THRESH - значение, которого должен достигнуть Value этого же атрибута, чтобы состояние атрибута было признано критическим.

    Критичным является поле WHEN_FAILED, если оно имеет значение FAIL, то высока вероятность выхода жесткого диска из строя в ближайшее время.

  4. Быстрый тест здоровья жесткого диска
    # smartctl -H /dev/sda

    Пример:

    === START OF READ SMART DATA SECTION ===
    SMART overall-health self-assessment test result: PASSED
    

    Если результат не PASSED, то диск следует заменить.

  5. Расширенные встроенные тесты
    smartctl --test=long /dev/sda

    Пример:

    === START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
    Sending command: "Execute SMART Extended self-test routine immediately in off-line mode".
    Drive command "Execute SMART Extended self-test routine immediately in off-line mode" successful.
    Testing has begun.
    Please wait 98 minutes for test to complete.
    Test will complete after Mon Mar  5 01:46:10 2018
    
    Use smartctl -X to abort test.
    

    Для просмотра результатов выполнения тестов используется команда вывода внутреннего журнала после завершения теста:

    smartctl -l selftest /dev/sda

    Для прерывания теста нужно ввести:

    smartctl -X

Источники: wiki.debian.org, wiki.enchtex.info, wiki.dieg.info