Repaso: alucinaciones con total descaro
En la Parte 1, al pedirle a una IA generativa que analizara mapas meteorológicos, observamos errores fatales: inventó una borrasca inexistente y pronosticó "mal tiempo generalizado" cuando la zona estaba bajo un anticiclón. Lo más aterrador fue que la IA tampoco detectó esos errores en la fase de autoverificación, y encima mintió dos veces al afirmar que "todo era completamente coherente".
¿Por qué ocurren estos fallos? ¿Se pueden corregir ajustando el prompt, o son limitaciones estructurales inherentes a la arquitectura actual de la IA? En este artículo profundizamos en las causas desde cuatro ángulos.
Limitación 1: Incompatibilidad de proyecciones — no puede reconocer un "mapa" como mapa
Los mapas meteorológicos de altura de la Agencia Meteorológica de Japón se trazan con la proyección estereográfica polar (referencia: 60°N, 140°E). Es una proyección azimutal centrada en el Polo Norte, donde la cuadrícula de latitud y longitud aparece como curvas.
Un meteorólogo humano puede corregir mentalmente la distorsión de esta proyección de forma dinámica: "Por la curvatura de este paralelo, esto no es el interior del continente, sino el Mar del Japón".
Sin embargo, los modelos de visión de la IA procesan la imagen simplemente como una matriz de píxeles 2D y no cuentan internamente con un motor de transformación de coordenadas. Aunque el prompt indique "analiza con proyección estereográfica polar", no se genera ningún SIG (Sistema de Información Geográfica) en su interior.
Como resultado, la IA interpreta la "posición relativa" en pantalla de forma plana y literal, cometiendo errores de percepción espacial como:
- Teletransportar una borrasca continental hasta las inmediaciones de Kyushu
- Confundir el paralelo 40° con el 50°
- Juzgar erróneamente si una isohipsa afecta o no a Japón
El fenómeno observado en el caso real —"teletransportó la borrasca continental a las cercanías de Kyushu y generó un pronóstico de mal tiempo"— es el ejemplo más claro de esta limitación.
Limitación 2: Baja resolución para información visual densa — le cuesta "seguir una línea"
Los mapas meteorológicos especializados tienen infinidad de curvas superpuestas sin etiquetas: isohipsas, isotermas, líneas de temperatura potencial equivalente, barbas de viento, símbolos de frentes, etc.
Un meteorólogo humano puede fijar la vista en una sola línea y seguirla de extremo a extremo (trazarla). La IA es extremadamente mala en esto.
Los modelos de visión actuales:
- Son buenos reconociendo objetos o caracteres aislados (por ejemplo, etiquetas como "H", "L" o "1018")
- Son muy malos en rastrear curvas sin etiqueta distinguiéndolas de otras líneas en un entorno denso
Por eso, al analizar zonas frontales o vaguadas donde las líneas se acumulan, la IA suele conformarse con un reconocimiento de textura del tipo "hay muchas líneas por aquí, así que debe ser una zona frontal". Esta es la causa raíz de los errores al leer el gradiente de temperatura potencial equivalente o la posición del máximo de vorticidad.
Limitación 3: Ausencia de modelo físico y de "sentido común climatológico"
Un meteorólogo humano lee los mapas con conocimientos de dinámica de fluidos y termodinámica. Por eso activa de forma natural una alarma física y climatológica (metacognición) ante cosas como:
- "¿La superficie está bajo un anticiclón (1018 hPa) pero hay una fuerte corriente ascendente a 700 hPa? Algo no cuadra."
- "¿Una masa de aire polar de pleno invierno y una borrasca de 996 hPa en Kyushu en abril? Climatológicamente imposible."
La IA carece de esto. No tiene una cuadrícula tridimensional de la atmósfera en su interior ni un motor de cálculo de dinámica de fluidos. Solo "habla" de fenómenos meteorológicos como una secuencia probabilística de texto.
Por eso su comportamiento es:
- Presentar sin inmutarse interpretaciones físicamente contradictorias entre distintos niveles del mapa
- No reconocer como "anómalos" valores extremos para la estación y simplemente emitirlos
- Ser incapaz de verificar a posteriori si su propia salida es coherente con las leyes naturales
La descripción observada en el caso real —"un frente frío cruza cerca del centro de un anticiclón"— es una contradicción lógica que cualquier humano detectaría al instante, pero la IA la escribe hasta el final sin percatarse de la incoherencia.
Limitación 4: Exceso de confianza (overconfidence)
Técnicamente las limitaciones 1 a 3 son el núcleo del problema, pero esta es la más peligrosa en términos de daño real.
Los grandes modelos de lenguaje están entrenados y ajustados para "generar respuestas que suenen plausibles, fluidas y con tono de autoridad". Aunque internamente la certeza sea del 10%, en la salida se convierte en frases como:
- "Se puede confirmar que…"
- "Se prevé que…"
- "Ha quedado verificado que…"
…es decir, en oraciones que transmiten un 100% de confianza.
Esto impide al usuario distinguir "hasta dónde ha leído realmente la IA y a partir de dónde está especulando". La salida observada en la Parte 1 —"he podido verificar que todo es completamente coherente"— fue el resultado de un procesamiento interno vacilante sobreescrito por un tono de total seguridad.
Lo que hace que las alucinaciones sean tan peligrosas no es el error factual en sí, sino que se presenta con un tono de plena confianza.
La pregunta práctica: ¿qué pasa con los mapas de superficie en color?
Aquí surge una pregunta:
Los mapas ASAS y FSAS tienen información textual y están codificados por colores. Si se indica explícitamente que el análisis debe hacerse con proyección estereográfica polar, ¿no podría alcanzarse un nivel práctico al menos para los mapas de superficie?
Esto es mitad verdad, mitad limitación persistente.
Mejoras esperables:
- La precisión en la extracción de elementos con alto contraste y acompañados de información textual —como "línea roja (frente cálido)", "línea azul (frente frío)" o "valor de presión central"— mejora de forma notable
- Los errores de reconocimiento de disposición geográfica general —como "la borrasca está al norte de Hokkaido"— se reducen considerablemente
Limitaciones que persisten:
- Como no se genera un motor SIG dinámico en el interior de la IA, la transformación precisa de coordenadas de latitud y longitud sigue siendo imposible
- La tarea de leer cuantitativamente el gradiente de presión a partir del número e intervalo de isobaras sigue siendo difícil
En resumen, si nos limitamos a mapas de superficie con abundante información en color y texto, aumenta la probabilidad de evitar los fatales "teletransportes" espaciales. Esto constituye una cobertura de riesgo válida.
Por el contrario, parece más sensato asumir directamente que el análisis visual de mapas de altura en blanco y negro con líneas densas (FXJP854, FXFE502, etc.) es, en principio, inviable con la tecnología actual.
La idea del reparto de roles — ¿qué le dejamos a la IA y qué reservamos para el humano?
Teniendo en cuenta estas limitaciones, surge de forma natural el siguiente principio de diseño:
Dejar de esperar que la IA sea un "analista perfecto" y posicionarla como un "asistente que extrae datos y presenta listas de verificación teóricas"
En concreto:
| Tarea | Responsable | Motivo |
|---|---|---|
| Extracción de información textual (presión central, parámetros de tifones) | IA | Procesamiento tipo OCR: punto fuerte |
| Reconocimiento general de la disposición en mapas de superficie en color | IA | Alto contraste |
| Verbalización de "los puntos clave a verificar a continuación" | IA | Generación de texto: su terreno natural |
| Trazado de isohipsas en mapas de altura | Humano | Limitación del modelo de visión |
| Juicio final sobre la coherencia física entre niveles | Humano | Imposible para una IA sin modelo físico |
| Detección de anomalías climatológicas | Humano | Requiere metacognición |
Esta idea se concretará en la Parte 3, donde la trasladaremos a un diseño específico de prompts e implementación de servicios.
Nota adicional: ¿Los prompts estructurados eliminan las alucinaciones?
A partir de la experiencia probando varios "prompts estructurados para que la IA lea con precisión", lo que se puede decir es que superar las limitaciones 1 a 4 únicamente con prompts es, a día de hoy, imposible.
Sin embargo, sí es posible orientar la IA hacia una menor probabilidad de alucinación. Las claves son tres:
- Forzar la "prohibición de especular" y la "declaración de ilegibilidad" — permitir que la salida sea "Ilegible (Unreadable)"
- Hacer que la IA practique la metacognición — pedirle que declare desde el principio: "En esta zona del mapa las líneas están muy densas y mi nivel de certeza es bajo"
- Convertir la detección de contradicciones físicas y climatológicas en la tarea central — que el protagonismo no sea crear un escenario de pronóstico, sino hacer una "verificación de incoherencias en los datos"
El diseño de prompts que incorpora estos elementos, junto con las medidas para los riesgos residuales (advertencias al usuario), se tratará en detalle en la Parte 3.
Conclusión
Las limitaciones que arrastra la IA generativa actual en el análisis de mapas meteorológicos son estructurales, y van más allá de lo que se puede resolver ajustando prompts.
- Limitación 1: No puede corregir dinámicamente la distorsión de la proyección y comete errores de geolocalización
- Limitación 2: No puede trazar isohipsas densas y se conforma con un reconocimiento de textura
- Limitación 3: Sin modelo físico ni sentido común climatológico, no detecta las contradicciones en su propia salida
- Limitación 4: Independientemente de su certeza interna, siempre emite la salida con un tono de total confianza
No es algo que se pueda resolver automáticamente con "la próxima generación de modelos". Al menos durante varios años, será imprescindible un diseño que no deje nada completamente en manos de la IA.
En la próxima entrega, partiendo de estas limitaciones, abordaremos cómo integrar la IA en un servicio real: el diseño de uso como "copiloto" en una aplicación meteorológica como Tenkiz Port.
Continúa → Parte 3: El camino hacia la aplicación práctica — Diseño de uso de la IA como "copiloto"