Introducción
Los trastornos témporomandibulares (TTM) son afecciones que se caracterizan clínicamente por dolor y/o disfunción en los músculos masticatorios, cervicales, de la cabeza, las articulaciones témporomandibulares (ATM) y estructuras adyacentes 1.
Los TTM son un problema de salud pública significativo que afecta aproximadamente al 30% de la población general 2 y se considera la causa más común de dolor crónico de origen no dental en el área orofacial 3. El dolor relacionado con los TTM puede afectar la capacidad del individuo para realizar sus actividades diarias, el funcionamiento psicosocial y su calidad de vida 4. Sin embargo, aun cuando los TTM tienen un impacto negativo en la vida diaria, estas condiciones parecen ser en gran medida no detectadas o descuidadas en la atención dental de rutina. Esto se ve reflejado por la discrepancia entre la necesidad estimada de tratamiento y el tratamiento efectivamente realizado 5,6. Solo cuando el dolor es muy intenso o se hace crónico los pacientes tienden a buscar tratamiento (7,8. Los estudios realizados sobre las implicancias económicas y laborales de las entidades dolorosas crónicas como las cefaleas o el dolor facial por TTM son muy elevadas. Se estima que los pacientes con TTM generan un 50% más de costos medios de consumos de fármacos y consultas profesionales 9. Se ha calculado que solo en EE. UU. el gasto del tratamiento de estas afecciones en la última década se ha duplicado, estimándose en unos 4.000 millones de dólares anuales 10. Diferentes investigaciones indican que la intervención temprana de estos trastornos tiene una alta tasa de éxito y conllevan menores costos de tratamiento a largo plazo 11-13.
La utilización rutinaria de pruebas de detección de TTM en la práctica odontológica permitiría que estos pacientes accedan a un diagnóstico y tratamiento oportuno, lo que mejoraría su calidad de vida, disminuyendo además los costos de tratamiento.
Pruebas de diagnóstico en TTM
Existen varios sistemas de diagnóstico para el dolor orofacial causado por TTM 14,15. Los Criterios de Diagnóstico para TTM, (DC/TMD) y su versión previa, el RDC / TMD, son métodos de diagnóstico estrictamente definidos para las afecciones más comunes de TTM como mialgia, artralgia, dolor miofascial, trastornos articulares degenerativos y trastornos funcionales de la articulación témporomandibular. Su sistema de evaluación, que separa los aspectos psicosociales de los aspectos físicos, ha sido considerado un cambio de paradigma dentro del campo del dolor orofacial 16.
Los protocolos diagnósticos RDC y DC/TMD han sido utilizados, en los últimos años, como prueba de referencia o "gold standard" para evaluar las pruebas de screening en la detección de TTM. Si bien el DC/TMD es fiable y válido, su uso rutinario para el triaje clínico de TTM no es práctico dado que su protocolo de evaluación consume mucho tiempo y requiere la adecuada interpretación de sus complejos algoritmos 17. En este sentido, las herramientas de detección de TTM deben ser económicas, sencillas, eficientes y precisas.
Pruebas de screening para la detección de TTM
Se ha sugerido que la detección temprana permitiría prevenir los cuadros crónicos 13. A su vez, la mayoría de los pacientes con diagnóstico de TTM se beneficiarían con tratamientos conservadores y únicos 18.
Se han validado varios métodos diagnósticos para la detección de TTM. Los más estudiados han sido el screening de dolor por TTM de la prueba RDC-TMD, el Índice Anamnésico de Fonseca (IAF) 19 y el Test 3Q-TMD 20. De estas tres pruebas, el screening RDC-TTM ha demostrado validez para detectar individuos con dolor potencial por TTM, pero no incluye aspectos funcionales no dolorosos 16.
El IAF es un cuestionario de 10 preguntas en su forma original y de 5 preguntas en su forma corta (IAFC) que permite detectar la existencia de TTM. Las preguntas poseen un puntaje que indican los grados de severidad del trastorno. El IAF presentó resultados consistentes con otros instrumentos para detectar TTM, incluido el cuestionario de la academia americana de dolor orofacial y se evaluó contra el RDC / TMD y DC / TMD 21,22 .
Por su parte, el test 3Q-TMD es más breve y se compone de un cuestionario de 3 preguntas, dos de las cuales se orientan sobre el dolor facial y la tercera se enfoca en la existencia de bloqueo mandibular durante la función. Dado que los pacientes con TTM parecen no ser detectados y tratados oportunamente por la odontología, hemos centrado este trabajo en los 2 métodos de detección que permitirían identificar los TTM más comunes, tanto dolorosos como funcionales. Por lo tanto, esta revisión sistemática se ha enfocado en comparar estos dos instrumentos a través de la siguiente pregunta: ¿Cuál es la validez (especificidad y sensibilidad: precisión) de los instrumentos disponibles para uso clínico y epidemiológico IAF y 3Q-TMD para la detección de TTM?
Métodos
Protocolo y registro
El protocolo de esta revisión fue documentado de acuerdo con la guía de la declaración PRISMA-P 23 y fue enviado para su inscripción en el Registro Internacional Prospectivo de Revisiones Sistemáticas (PROSPERO, Centre for Reviews and Dissemination, University of York; y National Institute for Health Research). Para elaborar esta revisión sistemática de pruebas diagnósticas se siguieron las recomendaciones de la lista de verificación PRISMA-DTA 24.
Criterios de elegibilidad
En esta revisión se incluyeron estudios de precisión diagnóstica para detección de TTM basados en el IAF como prueba índice y el test 3Q-TMD como comparador. Para ambas pruebas se examinaron los trabajos que tuvieran como gold standard las pruebas RDC y DC/TMD. No se aplicaron restricciones con respecto a la edad y el sexo de los participantes ni con respecto al idioma de publicación de los trabajos. Se admitieron tanto estudios con un diseño tipo “cohorte” como aquellos con un diseño “caso-control”.
En cuanto a los sitios de recolección de muestra, se aceptaron estudios tanto de entornos primarios (centros odontológicos generales) como secundarios (centros especializados en dolor orofacial). Para establecer la condición objetivo, los pacientes de estos estudios respondieron a una evaluación clínica individual de TTM (particularmente ruidos articulares, limitación del movimiento mandibular, dolor muscular, articular y/o dolor pre auricular) de acuerdo a los criterios establecidos por el consorcio INFORM 25.
Los criterios de exclusión abarcaron lo siguiente:
1) estudios que no utilizaron RDC/TMD (estudios publicados antes de 1992) o DC/TMD o estudios que modificaron la herramienta;
2) artículos con datos duplicados de otro estudio incluido;
3) estudios que no estuviesen enfocados exclusivamente en el diagnóstico de pacientes con TTM;
4) revisiones, cartas, libros, opinión de expertos e informes de casos.
Identificación de las fuentes de estudio
Se utilizó un filtro de búsqueda HIRU para estudios de precisión diagnóstica 26. A continuación, se desarrolló una estrategia de búsqueda electrónica para PubMed y se adaptó para cada una de las siguientes bases de datos bibliográficas: Web of Science, Science direct, Scopus y Scielo. También se buscó en bases de datos de literatura gris como Google Scholar y ProQuest One Academic.
El período de búsqueda abarcó desde el año 1992 hasta abril de 2022. Además, se realizaron búsquedas manuales en la lista de referencias de los estudios incluidos para identificar estudios relevantes adicionales. Se utilizó un gestor de referencias* para recopilar referencias y eliminar duplicados (*Mendeley®, Elsevier Ámsterdan, Paises Bajos).
Estrategia de Búsqueda
Se utilizaron términos indexados y términos libres para localizar la investigación realizada sobre estudios de diagnóstico de TTM, así como su precisión diagnóstica. Se describe a continuación la estrategia de búsqueda utilizando el filtro para estudios de precisión diagnóstica 26:
Search: (("temporomandibular joint disorders"(mh) OR "Disorder, Temporomandibular Joint"(tiab) OR "Disorders, Temporomandibular Joint"(tiab) OR "Joint Disorders, Temporomandibular"(tiab) OR "Temporomandibular Joint Disorder"(tiab) OR "TMJ Disorders"(tiab) OR "Disorder, TMJ"(tiab) OR "Disorders, TMJ"(tiab) OR "TMJ Disorder"(tiab) OR "Temporomandibular Disorders"(tiab) OR "Disorder, Temporomandibular"(tiab) OR "Disorders, Temporomandibular"(tiab) OR "Temporomandibular Disorder"(tiab) OR "Temporomandibular Joint Diseases"(tiab) OR "Disease, Temporomandibular Joint"(tiab) OR "Diseases, Temporomandibular Joint"(tiab) OR "Temporomandibular Joint Disease"(tiab) OR "TMJ Diseases"(tiab) OR "Disease, TMJ"(tiab) OR "Diseases, TMJ"(tiab) OR "TMJ Disease"(tiab)) AND (Diagnosis(mh) OR diagnosis(tiab) OR Triage(tiab))) AND (sensitiv*(TiAb) OR sensitivity and specificity(mh) OR (predictive(Tiab) AND value*(Tiab)) OR predictive value of tests(mh) OR accuracy*(Tiab)).
Selección de estudios
En la fase 1, dos autores (HDR y CIR) evaluaron de forma independiente los títulos y resúmenes de los estudios identificados aplicando los criterios de elegibilidad establecidos previamente. Cuando los artículos se consideraron elegibles para su inclusión, los revisores realizaron una lectura de texto completo en la fase 2. Finalmente se eliminaron los artículos que no respondían a los criterios de elegibilidad. Si bien se contaba con un tercer revisor (MK) para intervenir ante posibles desacuerdos, los mismos se resolvieron entre los autores en varias reuniones de consenso.
Proceso de recopilación de datos
El proceso de recolección de datos fue realizado por el primer revisor (HDR) y verificado por el segundo revisor (CIR) para asegurar la integridad de los contenidos. Los desacuerdos se consensuaron con el tercer revisor (MK). Se utilizó una planilla electrónica y se extrajeron los siguientes datos para cada estudio incluido:
Datos bibliométricos: año de publicación, país de origen, autor, revista donde fue publicada.
Datos metodológicos: número de participantes de cada estudio, edad, sexo, forma de cegamiento y randomización de los pacientes para las pruebas. Entorno sanitario donde se realizó el estudio (atención primaria o secundaria).
Datos estadísticos: se extrajeron datos como: tamaño muestral de cada grupo, datos de sensibilidad y especificidad, valores predictivos, OR diagnóstico y área bajo la curva ROC.
Riesgo de sesgo
El riesgo de sesgo fue evaluado de forma independiente por dos revisores (HDR y CIR). Se utilizó la herramienta QUADAS 2 para examinar el riesgo de sesgo y la aplicabilidad de los estudios 27. La evaluación comprende cuatro dominios separados: selección de pacientes, prueba índice, estándar de referencia y flujo y tiempo de pacientes a través del estudio. Para comenzar con la aplicación de la herramienta se realizó previamente una prueba piloto para garantizar un consenso sobre la valoración del riesgo de sesgo entre ambos revisores. No se calculó una puntuación general resumida, pero para cada dominio, cualquier preocupación con respecto al sesgo y la aplicabilidad se calificó como "baja", "alta" o "poco clara". Las diferencias se resolvieron por consenso. Estos resultados se presentan en forma completa en un documento anexo.
Medidas de precisión diagnóstica
Se utilizaron datos de las tablas de dos por dos para calcular la sensibilidad, especificidad y valores predictivos de cada estudio. Los resultados de los estudios individuales se presentaron gráficamente, trazando las estimaciones de sensibilidad y especificidad (y sus intervalos de confianza del 95 %). Se realizaron estimaciones adicionales como el Odds Ratio diagnóstico y se utilizó un modelo de riesgos proporcionales para estimar el comportamiento de las pruebas sobre una curva de rendimiento diagnóstico (ROC), de este modo se pudo apreciar en un solo valor la capacidad de detección de las pruebas de detección de manera global.
Síntesis de Resultados
Los resultados se resumieron trazando estimaciones de sensibilidad y especificidad, para las pruebas índice y comparador (IAF y 3Q-TMD) en diagramas de bosque acoplados y en una matriz de características operativas del receptor (Curvas ROC).
Metaanálisis
Para ambas pruebas a evaluar se estimaron los puntos operativos resumidos (sensibilidades y especificidades resumidas) bajo un intervalo de confianza del 95 %. A continuación, se estableció el odds ratio diagnóstico para obtener en un solo número la precisión diagnóstica para cada prueba. Finalmente se calculó en una curva de rendimiento diagnóstico (ROC) el área bajo la curva para ambas pruebas utilizando un modelo de riesgo proporcionales.
Resultados
Selección de estudios
Se encontraron un total de 798 artículos. Se excluyeron 727 artículos debido a títulos no elegibles para los objetivos de la búsqueda. En esta etapa los motivos de exclusión de títulos obedecían principalmente a que los trabajos no correspondían a pruebas de detección. Después de seleccionar 71 estudios para la evaluación de títulos y resúmenes se eliminaron 49 trabajos repetidos (fase 1). Finalmente 22 estudios se consideraron elegibles para ser evaluados íntegramente. Después de la lectura del texto completo (fase 2), se excluyeron 12 estudios que no tenían como eje central la evaluación de pruebas de screening. Finalmente, se incluyeron 10 artículos para realizar la revisión sistemática y el
metanálisis. Una visión general del proceso de selección se muestra en la figura 1.
Características de los estudios
Los 10 estudios incluidos17,19,20,28-34 representaron un total de 4106 sujetos (2348 mujeres, 580 hombres, 878 género no especificado, con una proporción entre género masculino y femenino de 1 a 4). El rango de edad de estos estudios abarcó desde los 11 hasta los 78 años con una edad promedio de 3.7 años.
Los estudios se realizaron en 7 países diferentes con tamaños de muestra que variaron desde 102 hasta 923 personas. Las características descriptivas de estos estudios se resumen en la tabla 1.
Riesgo de sesgo y aplicabilidad de los estudios
Las diferencias metodológicas de los estudios incluidos obligaron a evaluar los aspectos que determinan la validez interna y externa de cada uno de ellos. Por medio de la herramienta QUADAS 2 27 se pudo establecer el riesgo de sesgo de los estudios primarios (validez interna). En este sentido ninguno de los estudios cumplió con todos los criterios de calidad metodológica. Cinco de ellos 19,31,32,34,35 se consideraron con un alto riesgo de sesgo. Cuatro se consideraron de bajo riesgo 17,20,28,36 y uno se definió como no claro 35.
El mayor problema que presentaron tuvo relación con la selección de pacientes. Las recomendaciones de expertos en estudios de precisión diagnóstica (DTA) señalan que se debe evitar incluir pacientes seleccionados como casos y controles, dado que puede sesgar la precisión diagnóstica de una prueba. Como se ve reflejado en la tabla 1, solo 4 estudios incluyeron una muestra consecutiva de pacientes. En cuanto a la aplicabilidad, es decir, en qué medidas se pueden generalizar los resultados de estos estudios a otros pacientes y en otros lugares, todos los estudios presentaron un bajo riesgo de sesgo.
La tabla 2 representa una síntesis de los diferentes aspectos analizados en la evaluación del riesgo de sesgo.
Resultados de estudios individuales
A pesar de la gran heterogeneidad de los estudios se encontró una precisión diagnóstica muy buena tanto en la prueba 3Q-TMD como en el IAF. Para el diagnóstico de TTM se ha propuesto que los niveles aceptables de sensibilidad y especificidad sean de al menos 70% y 95% respectivamente 14.
A diferencia de los estudios diagnósticos, para los estudios de detección lo que interesaría es el nivel de sensibilidad a expensas de disminuir la especificidad dado que importaría que todos los individuos sospechosos sean detectados. Los dos estudios encontrados sobre 3Q-TMD utilizaron la prueba de referencia DC-TMD y obtuvieron los siguientes resultados de precisión diagnóstica: Para el estudio de Lovgren de la prueba 3Q-TMD en un entorno primario, los resultados de sensibilidad fueron de 0.81 (IC: 0.73-0.87) mientras que la especificidad fue de 0.79 (IC: 0.73-0.83). En un entorno secundario los valores de sensibilidad fueron de 0.96 (IC: 0.92-0.98) y los de especificidad 0.34 (IC: 0.28-0.40).
En cuanto a los estudios que examinaron la prueba IAF se encontró una gran heterogeneidad. Dividiremos los resultados de acuerdo a su versión original y a su versión corta. Se encontraron cinco estudios de la versión original (19,31,32,35,36. La mayoría muestran datos de sensibilidad y especificidad muy buenos.
El grupo de estudios de la versión corta del IAF se compone de 3 trabajos presentados entre 2018 y 2021. Los trabajos de Ujin-Yap y Pires 17,34 mostraron una sensibilidad y especificidad muy buena (0.95-0.93) para el estudio de Yap, y (0.86-0.95) para el de Pires. El estudio de Zagalaz Anula 37 mostró una sensibilidad y especificidad aceptable (0.78-0.79). En la tabla 3 se muestran los resultados de sensibilidad, especificidad y valores predictivos.
Síntesis de resultados
A pesar del escaso número de artículos, se encontró una alta heterogeneidad entre los trabajos analizados debido a la variabilidad de las características de la muestra, la diversidad metodológica y el riesgo de sesgo. El resultado del metaanálisis mostró valores de sensibilidad muy buenos para, IAF y 3Q-TMD: 0.92 (0.88-0.95). Por su parte los valores de especificidad mostraron una precisión cercana al 80%: 0.79 (0.63-0.90)
Metaanálisis
Sensibilidad: En términos generales, todos los estudios mostraron una muy alta sensibilidad al usar un modelo de efectos fijos: (0.94) IC 95% (0.93-0.95). Cuando se observó el resultado bajo un modelo de efectos aleatorio, la sensibilidad para todas las pruebas de screening fue ligeramente más baja con un rango de fluctuación más amplio: (0.92) IC (0.88-0.95). Al discriminar entre las pruebas Índice (IAF) y comparador (3Q-TMD) no se hallaron diferencias significativas. (Figura 2)
Especificidad: En las pruebas de detección para TTM se observó un menor valor de especificidad que de sensibilidad y una mayor heterogeneidad entre los resultados. Usando un modelo de efectos aleatorios el metaanálisis mostró una especificidad de (0.79) IC 95% (0.63-0.90). (Figura 3)
Medidas Adicionales: Odds Rato Diagnóstico (ORD):
Los valores globales de ORD para el conjunto de pruebas fueron de (3.81) IC 95% (3.10-4.53). Observando la tabla con las estimaciones puntuales para el Odds Ratio Diagnóstico, se puede decir que los tests bajo análisis en cuanto a su precisión diagnóstica, muestran una alta sensibilidad y especificidad, lo que los muestran como buenas herramientas de detección. (Figura 4)
Proportional hazards model approach: Se utilizó el enfoque del modelo de riesgos proporcionales para estimar el comportamiento de las pruebas sobre una curva de rendimiento diagnóstico (ROC). Considerando este modelo bajo homogeneidad, los resultados globales de las pruebas IAF Y 3Q-TMD estimaron un área bajo la curva (AUC) de 0.95 IC 95% (0.97-0.92). Para el modelo de heterogeneidad los resultados fueron ligeramente menores manteniendo un desempeño muy bueno AUC 0.94 IC 95% (0.97-0.91). (Figura 5)
Discusión
El diagnóstico precoz es esencial en la atención médica, ya que define la condición y confirma el padecimiento del paciente. En algunas ocasiones, como en el caso de los TTM, establecer un diagnóstico es una tarea desafiante que puede ser facilitada por instrumentos de detección.
Este trabajo se basó en la comparación de dos pruebas de detección simplificadas a partir de su precisión frente a una prueba de diagnóstico de referencia (gold standard) con el fin de establecer la viabilidad de su aplicación como herramientas de cribado.
Pruebas de referencia
El desarrollo de RDC/TMD en 1992 tenía la intención de ser utilizado sólo para la investigación. Más tarde, en 2014, el DC/TMD amplió su uso al ámbito clínico. Estas herramientas diagnósticas están destinadas a establecer criterios confiables, estandarizados y validados para diagnosticar subtipos de TTM, ya que uno de los mayores problemas metodológicos en la investigación correlacionada es la definición precisa de los criterios aplicados 14. La validez de criterio para las pruebas de detección se estableció en relación con el DC-TMD. Si bien el DC/TMD es fiable y válido, su uso rutinario para el triaje clínico de TTM no es práctico, dado que su protocolo de evaluación consume mucho tiempo y requiere la adecuada interpretación de sus complejos algoritmos 17. Por su parte, las pruebas de screening para la detección de TTM permiten determinar de manera rápida y simple qué pacientes se beneficiarían de un diagnóstico específico.
Cabe señalar que la mayoría de los estudios de detección de esta revisión utilizaron el DC-TMD como prueba de referencia. Aunque el DC-TMD es la versión actualizada de los criterios del RDC- TMD, no se observó una diferencia sustancial en la precisión diagnóstica de los estudios cuando se los examinó a través del metaanálisis.
Validez de criterio de la prueba 3Q-TMD
La validez de criterio para la prueba 3 Q-TMD se estableció en relación al estándar de referencia DC-TMD en dos muestras de pacientes. Una de ellas sobre la población general y la otra sobre pacientes que acudían a un centro especializado. Cuando se compararon las respuestas positivas a las preguntas del 3Q-TMD en relación a la prueba de referencia se observó una diferencia sustancial entre los entornos. Sin embargo, la razón principal de esta diferencia se puede deber al cuestionario de síntomas del DC-TMD 16.
Al examinar los resultados en cada ámbito surgieron dos diferencias importantes. Primero, el marco temporal: si bien es real que ambos cuestionarios se basan en los síntomas informados, el test 3Q- TMD abarca un período semanal, mientras que la prueba de referencia se basa en los síntomas percibidos en los últimos 30 días. Segundo, la formulación de las preguntas: en el cuestionario 3Q-TMD la primera pregunta, se centra en el dolor reportado y la segunda en el dolor en la función. Sin embargo, para calificar para un diagnóstico de dolor DC / TMD, los criterios requieren que el dolor sea provocado o modificado por la función. Las diferencias observadas en la sensibilidad y especificidad del 3Q-TMD pueden obedecer a estas dos diferencias. Aun así, los valores predictivos fueron altos, especialmente los valores predictivos negativos, lo que indica que son preguntas excelentes para descartar un diagnóstico de TTM.
Un párrafo aparte merece la pregunta relacionada a los trastornos funcionales. Actualmente está en discusión el pronóstico de los sonidos articulares y las posibilidades de una evaluación clínica de un TTM intraarticular 38. El DC/TMD ha mostrado una validez de moderada a pobre para un TMD intraarticular. En este sentido, el estándar de referencia actuaría mejor con fines de detección que como un instrumento diagnóstico 39. Recientemente se ha puesto en duda la validez de los protocolos clínicos tanto del RDC-TMD como del DC-TMD para evaluar los trastornos intraarticulares 40. Se proponen como alternativa de mayor precisión los estudios por imágenes como la resonancia, tomografía e incluso la artrografía. Es necesario subrayar que estos métodos estarían justificados sólo si el resultado de estos estudios puede cambiar el protocolo terapéutico. Sin embargo, es importante tener en cuenta que incluso en individuos asintomáticos, los desplazamientos de disco pueden estar presentes en la resonancia magnética en aproximadamente el 30% de la población 41,42. A diferencia de las dos preguntas sobre dolor, los resultados de la pregunta sobre los trastornos intraarticulares mostraron una utilidad diferente según el entorno en el que fue aplicada. Cuando se aplicó sobre la población general fue útil para descartar la ausencia de un TTM intraarticular, mientras que, aplicada en un ámbito especializado su elevado valor predictivo positivo indicó un probable TTM intraarticular. En síntesis, aun cuando la validez de la pregunta sobre TTM intraarticular tiene una validez de regular a moderada su especificidad se mantuvo alta, lo cual indica que es muy útil a los fines de detección, particularmente para descartar un diagnóstico de disfunción cuando los resultados son negativos.
Validez de criterio de la prueba IAF
A diferencia del test 3Q-TMD, el índice Anamnésico de Fonseca identifica a los individuos con TTM a partir de un puntaje. Inicialmente el fin del IAF buscaba establecer el grado de severidad de los síntomas. Todos los estudios del IAF han mostrado altos niveles de precisión para detectar TTM relacionados con el dolor e intraarticulares. El presente estudio demostró que el área bajo la curva varió de entre 0.93 y 0.98 en diversas observaciones. 21,32,36. Los estudios que analizaron el IAF establecieron un puntaje a partir de las preguntas que incluían los individuos con dolor, aquellos con trastornos intraarticulares y la suma de todos los síntomas. En este sentido, esta categorización fue similar a la analizada en el test 3Q-TMD. Las diferencias entre los estudios del IAF estuvieron en los puntos de corte. Cada estudio estableció puntos de corte diferentes para determinar la mayor precisión en relación a la prueba de referencia. La heterogeneidad de poblaciones y métodos podría explicar estas diferencias. Los puntos de corte del IAF para descartar individuos sin TTM fue de 0 a 20 puntos con un incremento del puntaje de acuerdo a la intensidad de los síntomas. Si bien quedan dudas respecto a la utilidad de establecer un grado de severidad de los síntomas, los diferentes estudios han mostrado su capacidad de identificar TTM. En términos generales el IAF parece ser muy sensible para la detección, pero no muy específica. La menor especificidad observada con la IAF puede atribuirse a la inclusión de elementos no específicos de TTM como los dolores de cabeza, dolor de cuello, parafunción, maloclusión y tensión emocional. Esto derivó en una investigación de la dimensionalidad del cuestionario y sus propiedades psicométricas 43. Este estudio confirmó la multidimensionalidad del IAF con una dimensión primaria de cinco ítems que dio como resultado el IAF corto de 5 preguntas. Los trabajos a partir de la versión abreviada del IAF mostraron un incremento de su precisión con un área bajo la curva de 0.97 y una mayor especificidad (95.5%) en relación a la prueba de referencia.
Análisis de las pruebas IAF y 3 Q-TMD
Los resultados del presente trabajo demostraron que, al comparar ambos test, el mayor número de estudios publicados sobre la prueba IAF permite considerar que los resultados observados en cuanto a su precisión diagnóstica son confiables aun cuando se observó una gran heterogeneidad en los trabajos. Por su parte, sobre la prueba 3Q-TMD solo se encontraron 2 estudios. En este caso, la confiabilidad de sus resultados proviene de la evaluación de riesgo de sesgo, que para ambos estudios fue baja. Es importante señalar que, a pesar de la heterogeneidad de métodos y entornos, las pruebas de detección IAF y 3Q-TMD han mostrado muy buena precisión diagnóstica. Solo dos trabajos mostraron baja especificidad. El de Lovgren sobre las pruebas 3Q-TMD en un entorno especializado (Especificidad 0.34) y el de Stasiak sobre el IAF (especificidad 0.26) también en un entorno secundario. En cuanto al estudio de Lovgren que se realizó en una clínica especializada de dolor orofacial, la alta proporción de falsos positivos se explicaría porque en estos entornos la muestra de pacientes con dolor facial que no sea causado por TTM es mucho más frecuente que en un entorno primario. Es necesario remarcar que el DC/TMD fue elegido debido a su fiabilidad y validez para los diagnósticos de TTM más comunes. Sin embargo, hay una variedad de condiciones de dolor adicionales que pueden alterar la función normal de la mandíbula, como el dolor neuropático, la odontalgia atípica, la fibromialgia y el dolor cervical. Se espera que la prevalencia de afecciones dolorosas y no dolorosas sea mucho mayor en una clínica especializada en dolor orofacial en comparación con una clínica basada en la población general. También es lógico que la prevalencia de afecciones más raras sea mucho mayor en un entorno especializado 44. Por lo tanto, las respuestas afirmativas al 3Q/TMD en una clínica especializada pueden estar relacionadas con un diagnóstico de TTM, pero también con varios diagnósticos diferenciales. En definitiva, esto podría explicar el aumento de falsos positivos con la consecuente baja en especificidad.
Podría hipotetizar lo mismo sobre los resultados del estudio de Stasiak, sin embargo, hay motivos para pensar que esta diferencia podría deberse al riesgo de sesgo. Particularmente el estudio de Stasiak no define claramente cómo se aplicó el test de referencia ni cómo se estableció el flujo y la sincronización de los pacientes. El estándar de referencia utilizado para estos estudios comprende un sistema de diagnóstico basado en criterios estrictos y tanto la historia clínica como el examen están estructurados en detalle; los datos se procesan posteriormente en algoritmos predefinidos y dan como resultado un diagnóstico probable. Por otra parte, el examinador requiere un entrenamiento apropiado. Consecuentemente, un inadecuado manejo del test de referencia podría explicar esta discrepancia en los resultados. En sintonía con esta explicación se encuentra el estudio de Yap, que utilizó el IAF y también fue realizado en un entorno secundario que, sin embargo, mostró una especificidad mucho mayor (0.88). En base a esta información no es posible establecer una explicación para las diferencias encontradas sobre la especificidad en entornos secundarios entre la prueba IAF. En conjunto, estos datos muestran la necesidad de más estudios de este tipo para explicar estas diferencias. Sin embargo, es necesario aclarar que al considerar estas pruebas como herramientas de detección y no de diagnóstico, la pérdida de especificidad no constituye una limitación. De hecho, es esperable que los test de detección o cribado no excluyan ningún potencial enfermo, aun cuando el “costo” a asumir sea un incremento de la presencia de falsos positivos. En este sentido, a diferencia de los estudios diagnósticos, para los estudios de detección lo que interesaría es el nivel de sensibilidad a expensas de disminuir la especificidad, dado que importaría que todos los individuos sospechosos sean detectados 45.
En cuanto a la sensibilidad, los resultados de casi todos los estudios mostraron una muy buena capacidad para detectar TTM. con excepción del estudio de Zagalaz que mostró una disminución leve. (Sensibilidad 0.78) Este resultado puede ser puesto en duda, dado que es el estudio con mayor riesgo de sesgo. A pesar de esto, tanto el IAF como el 3Q-TMD reflejaron buenos resultados para detectar individuos con TTM.
Aunque puedan existir dudas sobre aspectos puntuales de los resultados obtenidos, la falta de herramientas probadas para la detección de TTM señala que esta evidencia, aunque no concluyente, es la mejor disponible a la actualidad e indica que se promueva el uso de estos instrumentos. Dado que el test 3Q-TMD ha sido validado en su lengua original y en el caso del IAF solo en 3 idiomas más, debería alentar a los investigadores a validar cualquiera de estos instrumentos en su propio idioma.
En esta revisión sistemática podrían señalarse algunas limitaciones. Por un lado, se encontraron pocos estudios, con resultados variables en cuanto a la precisión diagnóstica de cada prueba y una gran heterogeneidad metodológica. Por otro lado, se observó un alto riesgo de sesgo.
Direcciones futuras
Como orientación hacia futuros estudios, recomendamos a los investigadores poner especial cuidado en la selección de pacientes. Particularmente, se debe evitar incluir pacientes bajo la forma “casos y controles” dado que puede sesgar los resultados, tal como lo expresan los especialistas en pruebas de precisión diagnóstica. Llamativamente, de todos los estudios analizados, este fue el aspecto que mayor influencia tuvo en el análisis de riesgo de sesgo. La heterogeneidad y el escaso número de los estudios encontrados, es una muestra de que las pruebas de detección de TTM, recién se están comenzando a considerar como herramientas necesarias en el ámbito del dolor craneofacial de origen no odontogénico. Esta observación es importante en esta revisión, dado que, aunque podamos tener dudas de los resultados obtenidos, la falta de herramientas probadas para la detección de TTM señala que esta evidencia, aunque no concluyente es la mejor disponible a la actualidad e indica que se promueva su uso. Como estos instrumentos han sido validados en su lengua original y en el caso del IAF solo en 3 idiomas más, se alienta a los investigadores a validar cualquiera de estos instrumentos en su propio idioma.
Conclusiones
Las pruebas IAF Y 3Q-TMD son cuestionarios formulados con preguntas breves y constituyen herramientas simples y prácticas que permiten su aplicación de rutina en la clínica, sin afectar la actividad cotidiana.
Los resultados de la presente revisión sistemática y metaanálisis permiten concluir que tanto el IAF como EL 3Q-TMD son instrumentos muy sensibles para la detección de TTM en pacientes. Ambas pruebas de detección presentan la capacidad de identificar con mayor facilidad individuos con TTM. En este sentido, los pacientes detectados precozmente podrían beneficiarse de un diagnóstico y tratamiento oportunos, lo que evitaría largos periplos en busca de un diagnóstico y disminuir los costos de tratamientos, al evitar que estos problemas se cronifiquen.
Hasta donde sabemos, esta es la primera revisión sistemática con metaanálisis sobre pruebas de detección de TTM. La aparición de futuros estudios de validación permitirá incorporar nuevos datos y así obtener información más fidedigna sobre la capacidad de estas pruebas para detectar TTM.










texto en 











