Diagnóstico de reinicios/congelaciones aleatorios

Qué hacer cuando nuestro Slimbook se reinicia o congela

Los reinicios aleatorios suelen deberse a problemas de hardware, como sobrecalentamiento, fallos en la RAM, discos dañados o fuentes de alimentación inestables, o a conflictos de software, como drivers incompatibles, errores del kernel o firmware desactualizado. Factores externos, como fluctuaciones eléctricas, también pueden influir. Analizar los logs del sistema y usar herramientas de diagnóstico es clave para identificar la causa.

En este tutorial encontrarás los pasos para diagnosticar los reinicios inesperados.

Los logs del sistema son esenciales para entender lo que ocurre justo antes de un reinicio.

1. Abre una terminal.
2. Recolecta los logs.

sudo journalctl --since "2 days ago" > logs_reinicio.txt

Qué buscar en los logs:

- Mensajes que indiquen errores críticos (`Critical`, `Kernel Panic`, `OOM Killer`).
- Fallos relacionados con hardware: `GPU`, `CPU`, `thermal`, `power supply`, o controladores.

Verificar los mensajes del kernel

El kernel suele registrar problemas relacionados con hardware. Extrae los mensajes del kernel:

sudo dmesg > logs_dmesg.txt

Analiza el archivo logs_dmesg.txt buscando:

- Mensajes de error relacionados con hardware: `nouveau`, `nvidia`, `radeon`, `amdgpu`, `thermal throttling`, etc.
- Mensajes de desconexión/reconexión de dispositivos (`X disconnected`).

Monitorear temperaturas y sobrecalentamiento

Los reinicios abruptos son comunes cuando el sistema alcanza temperaturas críticas.

1. Instala s-tui y stress:

sudo apt install s-tui stress      # Ubuntu
sudo dnf install s-tui stress      # Fedora
sudo pacman -S s-tui stress    # Manjaro

2. Monitoriza los sensores y las temperaturas en tiempo real buscando valores críticos, por encima de 90-95 °C.
Dependiendo del modelo de CPU la temperatura máxima soportada puede diferir, para más información recomendamos consultar la web de oficial de AMD o Intel y buscando "Temperatura de funcionamiento máxima"

sudo s-tui

Ejecuta una prueba de carga eligiendo la opción stress durante 30 minutos. Monitoriza la temperatura.

Diagnosticar la memoria RAM

Errores en la RAM pueden causar reinicios. Usa memtest86+ siguiendo este tutorial:

Descartar fallo/error de RAM con Memtest86+ | SLIMBOOK

Verificar el estado del disco

Los problemas en el disco duro o SSD pueden causar inestabilidad. Usa smartctl para verificar:

1. Instala nvme-cli:

sudo apt install nvme-cli         # Ubuntu
sudo dnf install nvme-cli         # Fedora
sudo pacman -S nvme-cli       # Manjaro

2. Verifica el estado del disco:

sudo nvme smart-log /dev/nvme0

Cambia `/dev/nvme0` por el identificador de tu disco (por ejemplo, `//dev/nvme0, /dev/nvme1, etc`).

3. Revisa indicadores como:

critical_warning: Este campo indica si hay problemas críticos en el dispositivo NVMe. Es un campo bitmask (máscara de bits) en el registro SMART/Health de NVMe, donde cada bit representa una condición crítica. Los valores posibles son:

- 0x00: Todo está bien, no hay advertencias críticas.
- 0x01: Espacio en el dispositivo es bajo (casi lleno).
- 0x02: Desempeño degradado debido a temperatura alta o baja.
- 0x04: Vida útil de la memoria NAND ha expirado.
- 0x08: Capacidad de reserva es baja (falta de bloques de repuesto).
- 0x10: La memoria NAND ha alcanzado o excedido el límite de desgaste permitido.
- 0x20: Temperatura crítica.
- 0x40: y superiores: Reservado para usos futuros.

num_err_log_entries: Este campo muestra el número acumulado de entradas en el registro de errores del dispositivo. Es útil para verificar si han ocurrido errores de operación, como:

- Fallas de lectura o escritura.
- Problemas de conexión con el host.
- Errores internos del controlador NVMe.

Warning Temperature Time: Indica el tiempo acumulado (en minutos u horas, dependiendo del dispositivo) que el NVMe ha estado funcionando fuera del rango de temperatura recomendado, pero no necesariamente en un estado crítico. Existen dos valores relacionados con la temperatura en las unidades NVMe:

- Temperatura de advertencia (Warning Temperature): Un rango superior o inferior que no es ideal pero tampoco fatal.
- Temperatura crítica (Critical Temperature): Temperatura extrema que puede dañar el dispositivo.

Actualizar el firmware/BIOS

Un firmware desactualizado puede causar problemas con hardware. Actualiza la BIOS y EC siguiendo este tutorial:

Cómo actualizar BIOS y EC en tu Slimbook | SLIMBOOK

Qué hacer si los reinicios continúan.

1. Proporcionanos:

   - Logs de journalctl y dmesg.
   - Resultados y pruebas de stress y s-tui.
   - Estado del disco con nvme-cli.

2. Revisa posibles fallos de hardware:

- Fuente de alimentación.
- Fallos en la batería.

3. Considera contactarnos a través de support si no identificas la causa.

en Tutoriales

# Linux benchmark drivers kernel liveusb monitor windows

Slimbook Team

17 diciembre, 2024

Categorías

Editar

Linux benchmark drivers kernel liveusb monitor windows

ELEMENTAL
Ocio y ofimática

EXCALIBUR Profesionales y creadores

EVO Desarrolladores y profesionales

EXECUTIVE Profesionales y creadores

CREATIVE Creadores y gaming

NAS CUBEEmpresas y creadores

SERVIDORESEmpresas y centro de datos

ZERO
Domestico u ofimática

ONECompacto y potente

NUEVOS KYMERAIncreíblemente configurable

ACCESORIOS

SOFTWARE

Los logs del sistema son esenciales para entender lo que ocurre justo antes de un reinicio.

Verificar los mensajes del kernel

Monitorear temperaturas y sobrecalentamiento

Diagnosticar la memoria RAM

Verificar el estado del disco

Actualizar el firmware/BIOS

Qué hacer si los reinicios continúan.

Compartir

Categorías

Nuestros blogs

ArchivO

Últimas Publicaciones

ELEMENTALOcio y ofimática

EXCALIBUR Profesionales y creadores

EVO Desarrolladores y profesionales

EXECUTIVE Profesionales y creadores

CREATIVE Creadores y gaming

NAS CUBEEmpresas y creadores

SERVIDORESEmpresas y centro de datos

ZERO Domestico u ofimática

ONECompacto y potente

NUEVOS KYMERAIncreíblemente configurable

ACCESORIOS

SOFTWARE

Los logs del sistema son esenciales para entender lo que ocurre justo antes de un reinicio.

Verificar los mensajes del kernel

Monitorear temperaturas y sobrecalentamiento

Diagnosticar la memoria RAM

Verificar el estado del disco

Actualizar el firmware/BIOS

Qué hacer si los reinicios continúan.

Compartir

Categorías

Nuestros blogs

ArchivO

Últimas Publicaciones

ELEMENTAL
Ocio y ofimática

ZERO
Domestico u ofimática