ChatBI: Hacia una conversión natural del lenguaje a SQL complejo en Business Intelligence
Jinqing Lian, Xinyi Liu, Yingxia Shao, Yang Dong, Ming Wang, Zhang Wei, Tianqi Wan, Ming Dong, Hailin Yan
16 may 2024
Tema central
ChatBI es un sistema de IA que optimiza la traducción del lenguaje natural a consultas complejas de inteligencia empresarial (NL2BI), centrándose en el uso de diálogos interactivos por rondas. Su diseño permite afrontar con mayor eficacia la generación de consultas SQL complejas gracias a un enfoque escalonado, el uso de modelos de menor tamaño, tecnologías de vistas para el schema linking, y un flujo de procesos por fases.
Este enfoque no solo mejora la precisión al manejar relaciones semánticas complejas y comparativas, sino que también lo hace especialmente adecuado para entornos de producción a gran escala. En comparación con métodos actuales de NL2SQL, ChatBI demuestra un rendimiento superior en escenarios reales de BI como el análisis de visualizaciones y tiempos de reproducción de vídeos.
Entre sus elementos diferenciadores destacan el uso de columnas virtuales, la descomposición de tareas y una utilización más eficiente de modelos de lenguaje grandes (LLMs), superando en precisión útil a sistemas como DIN-SQL y MAC-SQL.
Mapa conceptual

Resumen rápido
¿Qué problema intenta resolver el estudio? ¿Es un problema nuevo?
El estudio busca solucionar los retos en la conversión de lenguaje natural a Business Intelligence (NL2BI), especialmente en contextos donde intervienen relaciones semánticas complejas, cálculos y comparaciones. Aunque no es un problema nuevo, los enfoques anteriores no han conseguido abordarlo de forma eficaz.
¿Qué hipótesis científica se quiere validar?
Que un flujo de procesos por fases puede manejar con mayor eficacia relaciones semánticas, cálculos y comparaciones complejas dentro de escenarios de Business Intelligence.
¿Qué ideas, métodos o modelos nuevos propone el estudio? ¿Qué ventajas ofrece frente a métodos anteriores?
El modelo propuesto, ChatBI, introduce un flujo por fases que descompone el problema NL2BI en pasos más manejables. Además, incorpora tecnologías de vistas (usadas comúnmente en bases de datos) para resolver el problema de schema linking, reduciendo la necesidad de modelos de gran tamaño y mejorando la eficiencia general.
Características clave y ventajas de ChatBI
Flujo de procesos escalonado
Divide el problema NL2BI en varias fases, lo que permite manejar de forma más precisa relaciones semánticas complejas, cálculos y comparaciones.Schema Linking con vistas
Utiliza tecnologías de vistas ya existentes en el ámbito de bases de datos para descomponer el schema linking en una tarea de selección de vista única (Single View Selection), usando modelos más ligeros y eficientes.Alta eficiencia operativa
Al combinar el flujo escalonado con técnicas de selección de vistas, ChatBI logra una solución optimizada y ágil para convertir lenguaje natural en consultas BI.Gestión de semántica compleja
Puede interpretar estructuras lingüísticas sofisticadas, gracias a la descomposición por fases que facilita el entendimiento contextual de las preguntas.Mejora en la precisión
La integración del procesamiento por fases con el uso de columnas virtuales y tecnologías de vistas mejora significativamente la precisión en la conversión NL2BI.
Estado del arte y avances relacionados
¿Existen investigaciones relacionadas? ¿Quiénes son los investigadores destacados en este campo?
Sí, este campo ha recibido una atención creciente, especialmente en el área de NL2SQL. Se han desarrollado modelos como DIN-SQL, C3 y SQL-PaLM que mejoran la generación de SQL mediante técnicas de prompt engineering. Entre los líderes del sector se encuentran investigadores de Google, Microsoft, Meta, Oracle, Amazon, Databricks, Snowflake, Alibaba y Baidu, centrados en traducir lenguaje natural en conocimiento empresarial útil.
¿Cuál es la clave de la solución que plantea el estudio?
El diseño por fases del flujo de trabajo, que permite dividir el problema en tareas más sencillas, gestionar relaciones semánticas complejas y reducir la carga cognitiva del modelo, es la clave para mejorar el rendimiento y precisión.
Diseño experimental
¿Cómo se han diseñado los experimentos?
Los experimentos se organizaron en torno a tres categorías:
Métodos preentrenados y ajustados mediante Supervised Fine-Tuning (SFT).
Modelos grandes (LLMs) optimizados con prompt engineering.
Modelos LLM entrenados específicamente para NL2SQL.
Se evaluó el rendimiento en tareas reales de análisis dentro de escenarios de Business Intelligence, poniendo a prueba la capacidad del sistema para generar consultas SQL precisas desde lenguaje natural.
¿Qué conjunto de datos se ha utilizado para la evaluación cuantitativa? ¿El código es de código abierto?
Se utilizó el conjunto de datos SRD para la evaluación. El modelo Qwen-72B empleado en el estudio es de código abierto.
¿Apoyan los resultados experimentales las hipótesis planteadas?
Sí. Los resultados validan que el enfoque por fases y el uso de columnas virtuales mejora notablemente la gestión de semántica compleja y relaciones computacionales. La precisión obtenida respalda la hipótesis de que una descomposición estructurada mejora el rendimiento de los modelos.
Aportaciones del estudio
Introducción de un flujo de trabajo escalonado para NL2BI.
Uso de columnas virtuales y tecnología de vistas para resolver el schema linking de forma eficiente.
Definición de una nueva métrica de utilidad para evaluar la ejecución útil de las consultas SQL.
Evaluación del coste económico en base al número de tokens usados en prompts y respuestas.
Propuesta de uso de modelos más pequeños y económicos sin sacrificar precisión.
Líneas de trabajo futuro
Optimización de prompts para mejorar la precisión de los LLMs en NL2SQL.
Estudio de columnas virtuales generadas por LLMs para facilitar el caching y acelerar el rendimiento de consultas.
Evaluación del uso de ChatBI en entornos reales de producción, con especial enfoque en escenarios de diálogo multi-ronda (MRD).
¿Quieres saber más?
Este resumen ha sido generado automáticamente por Powerdrill.
Haz clic en el siguiente enlace para acceder a la página de resumen y descubrir otros artículos relacionados.




