Saluos
Quiero compartir con Uds. algunas experiencias traumáticas con referencia a la familia de kernels 2.6.9 especialmente las versiones mayores de 2.6.9.11 (los kernel que vienen por defecto en Centos/RedHat)
Recientemente y debido a alertas de seguridad y vulnerabilidades reportadas en el kernel 2.6.9.11 hicimos el upgrade de todos los servidores de mi compañia a la versión 2.6.9.34 (el último estable provisto por CentOS) la actualización transcurrió sin problemas en una variedad de plataformas que incluian Pentium 4, y XEON y dual XEON, por supuesto guarde copia de mi anterior kernel por si las cosas no salian bien.
Luego de cruzar los dedos y la respectiva oración a SAN CPU se procedió a realizar el reboot de los servidores para que arrancaran con el nuevo kernel, el primer servidor arrancó sin problemas y luego de una hora de correr sin ningún inconveniente decidimos realizar el reboot en los demás servidores de la plataforma, debo agregar que estas operaciones siempre las realizamos a altas horas de la noche para causar un mÃ#nimo impacto a los clientes. Felices por el éxito de la operación (actualizar kernel sie mpre supone un riesgo de que algo falle y la máquina no arranque) nos tomamos un merecido descando.
4:00 AM Jueves: Recibo la primera alerta de un servidor web a dejado de funcionar, al revisar el equipo solo encontramos que el servidor apache habia muerto y por alguna razón el programa que deberÃ#a reiniciarlo no era capaz de iniciarlo por si solo, se solventó con un reboot de hardware.
7:00 AM Jueves: Nuestro servidor de correo dejó de funcionar, esta vez si notamos una alta carga
13:00 Jueves: Colpaso del servidor de BBDD MySQL la misma causa una anormal carga del servidor.
5:00 Jueves: Colpaso del servidor de Panel de Control, la misma situación elevadas cargas
En fin está ha sido la constante en los últimos dÃ#as, luego de investigar un poco la causa del colapso de los servidores estaba en que se presentaban demoras en la lectura / escritura a los discos, un problema conocido como iowait (en donde un proceso tiene que esperar para leer o escribir en el disco y los procesos se van acumulando) esto es una condición normal en un servidor sobrecargado pero no en nuestros Dual XEON con discos SCSI y arreglos RAID, en fin luego de investigaciones pruebas y consultas decidimos volver a nuestros anteriores kernels, se hace el reboot se arranca sin problemas con los kernel 2.6.9.11 y todo paece volver a la normalidad, las cargas vuelven a estar en valores < 1 pero no es lo único que esta casi en cero. La memoria libre a desaparecido !!!!, en condiciones normales nuestrsos servidores mantenian entre 400 a 700 MB de memoria libre ahora TOP mostraba apenas unos 40 MB libres y el servidor comenzaba a usar la SWAP.
El dilema erá crÃ#tico, o utilizaba el kernel nuevo con sus altas cargas o utilizabamos el kernel viejo sin memoria !!!
En definitiva estamos utilizando el kernel nuevo y monitoreando cuidadosamente todos los servicios y cargas mientras compilamos nuestros propios kernels
Moraleja : NO USEN NINGUN KERNEL 2.6.9 salvo los 2.6.9.11