Los reinicios aleatorios suelen deberse a problemas de hardware, como sobrecalentamiento, fallos en la RAM, discos dañados o fuentes de alimentación inestables, o a conflictos de software, como drivers incompatibles, errores del kernel o firmware desactualizado. Factores externos, como fluctuaciones eléctricas, también pueden influir. Analizar los logs del sistema y usar herramientas de diagnóstico es clave para identificar la causa.
En este tutorial encontrarás los pasos para diagnosticar los reinicios inesperados.
Los logs del sistema son esenciales para entender lo que ocurre justo antes de un reinicio.
1. Abre una terminal.
2. Recolecta los logs.
sudo journalctl --since "2 days ago" > logs_reinicio.txt |
Qué buscar en los logs:
- Mensajes que indiquen errores críticos (`Critical`, `Kernel Panic`, `OOM Killer`).
- Fallos relacionados con hardware: `GPU`, `CPU`, `thermal`, `power supply`, o controladores.
Verificar los mensajes del kernel
El kernel suele registrar problemas relacionados con hardware. Extrae los mensajes del kernel:
sudo dmesg > logs_dmesg.txt |
Analiza el archivo logs_dmesg.txt buscando:
- Mensajes de error relacionados con hardware: `nouveau`, `nvidia`, `radeon`, `amdgpu`, `thermal throttling`, etc.
- Mensajes de desconexión/reconexión de dispositivos (`X disconnected`).
Monitorear temperaturas y sobrecalentamiento
Los reinicios abruptos son comunes cuando el sistema alcanza temperaturas críticas.
1. Instala s-tui y stress:
sudo apt install s-tui stress # Ubuntu sudo dnf install s-tui stress # Fedora sudo pacman -S s-tui stress # Manjaro |
2. Monitoriza los sensores y las temperaturas en tiempo real buscando valores críticos, por encima de 90-95 °C.
Dependiendo del modelo de CPU la temperatura máxima soportada puede diferir, para más información recomendamos consultar la web de oficial de AMD o Intel y buscando "Temperatura de funcionamiento máxima"
sudo s-tui |
Ejecuta una prueba de carga eligiendo la opción stress durante 30 minutos. Monitoriza la temperatura.
Diagnosticar la memoria RAM
Errores en la RAM pueden causar reinicios. Usa memtest86+ siguiendo este tutorial:
Descartar fallo/error de RAM con Memtest86+ | SLIMBOOK
Verificar el estado del disco
Los problemas en el disco duro o SSD pueden causar inestabilidad. Usa smartctl para verificar:
1. Instala nvme-cli:
sudo apt install nvme-cli # Ubuntu sudo dnf install nvme-cli # Fedora sudo pacman -S nvme-cli # Manjaro |
2. Verifica el estado del disco:
sudo nvme smart-log /dev/nvme0 |
Cambia `/dev/nvme0` por el identificador de tu disco (por ejemplo, `//dev/nvme0, /dev/nvme1, etc`).
3. Revisa indicadores como:
critical_warning: Este campo indica si hay problemas críticos en el dispositivo NVMe. Es un campo bitmask (máscara de bits) en el registro SMART/Health de NVMe, donde cada bit representa una condición crítica. Los valores posibles son:
- 0x00: Todo está bien, no hay advertencias críticas.
- 0x01: Espacio en el dispositivo es bajo (casi lleno).
- 0x02: Desempeño degradado debido a temperatura alta o baja.
- 0x04: Vida útil de la memoria NAND ha expirado.
- 0x08: Capacidad de reserva es baja (falta de bloques de repuesto).
- 0x10: La memoria NAND ha alcanzado o excedido el límite de desgaste permitido.
- 0x20: Temperatura crítica.
- 0x40: y superiores: Reservado para usos futuros.
num_err_log_entries: Este campo muestra el número acumulado de entradas en el registro de errores del dispositivo. Es útil para verificar si han ocurrido errores de operación, como:
- Fallas de lectura o escritura.
- Problemas de conexión con el host.
- Errores internos del controlador NVMe.
Warning Temperature Time: Indica el tiempo acumulado (en minutos u horas, dependiendo del dispositivo) que el NVMe ha estado funcionando fuera del rango de temperatura recomendado, pero no necesariamente en un estado crítico. Existen dos valores relacionados con la temperatura en las unidades NVMe:
- Temperatura de advertencia (Warning Temperature): Un rango superior o inferior que no es ideal pero tampoco fatal.
- Temperatura crítica (Critical Temperature): Temperatura extrema que puede dañar el dispositivo.
Actualizar el firmware/BIOS
Un firmware desactualizado puede causar problemas con hardware. Actualiza la BIOS y EC siguiendo este tutorial:
Cómo actualizar BIOS y EC en tu Slimbook | SLIMBOOK
Qué hacer si los reinicios continúan.
1. Proporcionanos:
- Logs de journalctl y dmesg.
- Resultados y pruebas de stress y s-tui.
- Estado del disco con nvme-cli.
2. Revisa posibles fallos de hardware:
- Fuente de alimentación.
- Fallos en la batería.
3. Considera contactarnos a través de support si no identificas la causa.