SciELO - Scientific Electronic Library Online

 
vol.15 número3Parallel Computing Applied to Satellite Images Processing for Solar Resource EstimatesFacial Recognition Using Neural Networks over GPGPU índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Links relacionados

Compartir


CLEI Electronic Journal

versión On-line ISSN 0717-5000

Resumen

MONTEZANTI, Diego et al. SMCV: a Methodology for Detecting Transient Faults in Multicore Clusters. CLEIej [online]. 2012, vol.15, n.3, pp.5-5. ISSN 0717-5000.

El desafío de mejorar la potencia de cómputo de los procesadores actuales se logra mediante el aumento en la escala de integración. Esto conlleva una creciente vulnerabilidad a los fallos transitorios, los cuales incrementan su impacto en clusters de multicores que ejecutan aplicaciones paralelas científicas de garn duración. El requerimiento de aumentar la fiabilidad de estos sistemas y el alto costo de relanzar la ejecución desde el comienzo resultan en la necesidad de contar con estrategias de software específicas para ellos. En este trabajo, se presenta SMCV, una técnica totalmente distribuida que provee detección de fallos mediante la validación de los contenidos de los mensajes enviados, impidiendo la propagación de un error a otro proceso y aprovechando la redundancia de hardware intrínseca existente en el multicore. SMCV logra una alta cobertura introduciendo un reducido overhead, y obtiene un compromiso entre una latencia de detección moderada y una baja sobrecarga de trabajo.

Palabras clave : fallo transitorio; corrupción silenciosa de datos; cluster de multicores; aplicación científica paralela; detección de soft errors; validación de contenidos de  mensajes; fiabilidad.

        · resumen en Inglés     · texto en Inglés     · Inglés ( pdf )

 

Creative Commons License Todo el contenido de esta revista, excepto dónde está identificado, está bajo una Licencia Creative Commons