Estudio de Washington State University revela inconsistencias en respuestas científicas de ChatGPT

Un nuevo estudio de la Universidad Estatal de Washington revela limitaciones significativas en la inteligencia artificial generativa. La investigación evaluó la capacidad de ChatGPT para juzgar hipótesis científicas y encontró resultados preocupantes sobre su fiabilidad. Aunque el sistema parece preciso, su razonamiento real es mucho más débil de lo que sugieren las métricas superficiales.

El equipo liderado por el profesor Mesut Cicek probó más de 700 hipótesis extraídas de artículos científicos. Para medir la consistencia, solicitaron la misma pregunta 10 veces para cada caso evaluado. Este método permitió identificar fluctuaciones en las respuestas que pasarían desapercibidas en pruebas estándar.

Los datos muestran que la precisión subió del 76.5% en 2024 al 80% en 2025. Sin embargo, al ajustar los resultados por azar aleatorio, el rendimiento real cae drásticamente. El sistema funciona solo un 60% mejor que el azar, un nivel cercano a una calificación baja en exámenes académicos.

Una de las mayores preocupaciones es la inconsistencia en las respuestas ante el mismo estímulo. En ocasiones, el modelo marcó una afirmación como verdadera y luego como falsa en la misma sesión. Solo mantuvo una consistencia del 73% cuando se le interrogó 10 veces sobre el mismo punto.

Cicek enfatizó que la fluidez no equivale a comprensión conceptual en estas herramientas. Según el investigador, los sistemas actuales memorizan patrones en lugar de entender el mundo real. Esto sugiere que una inteligencia artificial general capaz de pensar genuinamente está más lejos de lo esperado.

Los hallazgos se publicaron en la Rutgers Business Review con la colaboración de académicos de otras universidades. El estudio utilizó hipótesis de revistas de negocios publicadas desde 2021 para garantizar complejidad temática. Reducir matices científicos a juicios binarios de verdadero o falso requiere un razonamiento cuidadoso.

Los expertos recomiendan que los líderes empresariales verifiquen la información generada por inteligencia artificial. La confianza ciega en estos sistemas podría llevar a decisiones erróneas en entornos corporativos. Se destaca la necesidad de capacitación para entender las capacidades y limitaciones reales de la tecnología.

Aunque la investigación se centró en ChatGPT, experimentos similares con otras herramientas arrojan resultados comparables. Un estudio nacional de 2024 indicó que los consumidores compran menos productos cuando se promocionan con inteligencia artificial. La cautela es esencial para evitar el escepticismo o la adopción prematura.

Las implicaciones para la adopción tecnológica son amplias en el sector global. Las empresas deben establecer protocolos de verificación humana para datos críticos. El futuro de la inteligencia artificial dependerá de superar estas limitaciones fundamentales de razonamiento.

Etiquetas

accuracy chatgpt research

Estudio de Washington State University revela inconsistencias en respuestas científicas de ChatGPT

Etiquetas

Comentarios

Sigue leyendo

Más de IA

jensen huang en davos presenta la teoría de las cinco capas de la inteligencia artificial

Líderes empresariales priorizan escalabilidad de IA en foros de Davos 2026

SpaceX y xAI se fusionan para impulsar centros de datos impulsados por energía solar en el espacio

Últimas noticias

senado recibe plan b electoral de sheinbaum y prevé aprobación antes de semana santa

Desalinización del agua: El Sabueso analiza viabilidad ante crisis hídrica en México

Reporte revela más de 2,000 actos de violencia política criminal en México durante elecciones