domingo, 10 de julio de 2011

DBA - Lista de Tareas para Administradores de Bases de Datos

 

Los Administradores de Bases de Datos (DBA’s) muchas veces tienen el trabajo más estresante dentro de la compañía. Si eres un DBA, entonces conoces el escenario.

Este articulo tiene como objetivo presentar una lista de tareas (Checklist) que deben ser ejecutadas cada mañana para asegurarnos que nuestros servidores se encuentren en optimo rendimiento.

El Checklist debe contener tres secciones.  La Sección Uno es una lista de items de las siguientes categorías:

Respaldos:

  • Existen dos formas de realizar respaldos de bases de datos, la primera es usando las herramientas del mismo motor y la segunda es usando aplicaciones de terceros; en ambos casos deben configurarse el envió de correos de confirmación.  De esta manera puedes enterarte cuando un respaldo fue exitoso o fallido, lo cual es una de las tareas que debemos realizar cada mañana. 
  • Si un respaldo falló, la primera acción debe ser investigar que produjo la falla y volverlo a ejecutar en la noche
  • Revisar la duración de los respaldos de todos los servidores productivos.  Cualquier incremento significativo en la duración debe ser notificado al personal de Respaldos y/o Redes para aplicar los correctivos necesarios.
  • Verificar que todas las Bases de Datos han sido respaldadas, en caso de la creación de una nueva, debe ser incluida en el cronograma de respaldos.  Es importante realizar pruebas de respaldos antes para determinar el incremento de tiempo en la duración de esta actividad.

Espacio de Disco: Verificar el espacio libre de cada unidad de disco del servidor. Si existe una variación significante con respecto al día anterior, se debe buscar la causa de esta fluctuación y resolverla si es necesario.  Observar los archivos de logs, ya que van a estar aumentando de tamaño constantemente debido a la ejecución de jobs mensualmente.

Jobs Fallidos: Chequear los jobs que deben ejecutarse en cada servidor, si falló algún job debes investigar y resolver a la brevedad posible y contactar al propietario del job de ser necesario.

Chequeo de Sistema: Chequear los logs de eventos de bases de datos en cada servidor, en caso de conseguir un error critico, preparar una reunión con el Grupo de DBA’s para acordar como resolver el problema.  En caso de conseguir un evento critico de aplicación, debes involucrar al grupo de Redes para determinar que necesitas de ellos para lograr una solución.

Rendimiento:

  • Verificar las estadísticas de rendimiento de todos los servidores usando alguna herramienta de monitoreo que te permita encontrar y resolver cualquier evento.
  • Monitorear el rendimiento de todos los servidores productivos y verificar que todos los contadores se encuentren dentro de los parámetros normales

Conectividad:  Iniciar sesión en las aplicaciones, verificar la conexión a la BD, verificar que exista una aceptable velocidad de rendimiento. En caso de existir algún error critico, enviar un correo al responsable del área antes de proceder a resolver el inconveniente.

También puedes chequear algún otro item aplicado a tu entorno como replicación, mirroring, clustering, etc. 

La Sección Dos contiene un área para documentar los casos de Caída de Servicios y como fueron resueltos. 

La Sección Tres consiste simplemente en anotar la fecha en que se ejecutó el chequeo y tu firma, aunque esta sección parezca muy trivial, es de mucha importancia debido que vas a poder tener un documento verificado sobre el estado real de las bases de datos, y la referencia en el tiempo de cuando y como solucionaste un incidente de manera que si se repite puedes consultarlo y solucionarlo de manera eficiente.

No hay comentarios:

Publicar un comentario