Recursos

BIM y Ciencia de Datos

La BIM y Ciencia de Datos

La tecnología de Modelado de Información de Construcción (BIM, por sus siglas en inglés) está siendo implementada de manera extensa por la industria de la Arquitectura, Ingeniería, Construcción y Propietarios/Operadores a lo largo del ciclo de vida de una instalación: desde la planificación inicial, el diseño, la construcción, hasta las operaciones. Además, se aplica a una amplia variedad de procesos, como la detección de colisiones, la programación 4D, la estimación 5D, la sostenibilidad 6D, la gestión de instalaciones 7D y el escaneo láser. Diversas comunidades de la industria han desarrollado estándares para BIM, incluidos el intercambio de información en operaciones de construcción (COBie), las clases de la Fundación Industrial (IFC) y el nivel de detalle/desarrollo (LoD). Dado el creciente uso de la tecnología BIM, es extremadamente importante comprender y explorar los datos subyacentes de BIM.

El principal beneficio de BIM es que permite a múltiples disciplinas trabajar juntas y colaborar sobre un único modelo. Sin embargo, el uso de un único modelo plantea desafíos, especialmente en proyectos de gran envergadura; estos desafíos generalmente están relacionados con limitaciones de hardware, interoperabilidad de software y limitaciones en la administración de modelos. La solución es usar una estrategia de estructura de desglose del trabajo (WBS, por sus siglas en inglés) que utilice varios modelos y bases de datos diferentes, como 4D, 5D, etc.

Si bien el uso de una solución WBS resuelve ciertos desafíos, implica el uso de «big data», lo que puede dar lugar a discrepancias de datos, entre otros problemas. Resolver las discrepancias de big data y mantener la precisión de los grandes datos de BIM, estándares y requisitos consume tiempo. AECOM ha logrado importantes ahorros de tiempo y mejorado la precisión utilizando la ciencia de datos para el aprendizaje automático, la minería de datos, la estadística y la visualización de datos. La ciencia de datos tiene muchos aspectos, y los cambios innovadores en los flujos de trabajo pueden realizarse dentro de ella para optimizar las eficiencias según las necesidades empresariales y las bases de datos disponibles. Este artículo se centrará en algunos de los subcampos de la ciencia de datos, el flujo de trabajo y los problemas clave relacionados con BIM. La Figura 1 muestra la relación entre BIM, el almacén de datos y la ciencia de datos, junto con algunos de los subcampos que contribuyen a la ciencia de datos.

BIM, Almacén de Datos y Flujo de Trabajo de Ciencia de Datos

Preguntas clave

La ciencia de datos implica extraer información de diversos recursos y formatos de datos (por ejemplo, modelos BIM multidisciplinarios, 4D, 5D, COBie, etc., en el contexto de BIM), a menudo referida como el proceso de Extracción, Transformación y Carga (ETL), para compilar los datos necesarios para resolver problemas del mundo real en un dominio específico. La clave en la ciencia de datos es hacer preguntas que los datos puedan responder. Básicamente, hay cinco preguntas clave que la ciencia de datos puede responder, como se muestra en la siguiente figura.

Cinco preguntas que la ciencia de datos puede responder.

Extracción, Transformación y Carga (ETL)

ETL es el proceso utilizado para extraer información de diversos recursos y formatos y transformar esos datos en bruto en una estructura de datos uniforme, que luego es adecuada para su almacenamiento en un almacén de datos e integración. La Figura 3 muestra ejemplos de información relacionada con la construcción que puede pasar por el proceso ETL antes de ser almacenada en un almacén de datos. Las bases de datos BIM generalmente contienen tres tipos de datos: estructurados, semi-estructurados y no estructurados. Cada uno de estos necesita pasar por el proceso ETL, que se describe a continuación:

  • Extracción: La primera parte del proceso ETL consiste en extraer valiosos datos BIM de diversos recursos, como modelos BIM (por ejemplo, elementos del modelo como puertas, niveles y espacios), hojas de cálculo de Excel, archivos HTML y archivos planos. En el proceso de extracción, puede ser necesario utilizar dark data (datos no utilizados para otros fines).
  • Transformación: El siguiente proceso es la transformación, que es uno de los más importantes en la preparación de los datos para el almacén de datos objetivo. En el proceso de transformación, se aplican varias funciones a los datos. Estas funciones incluyen la identificación de tipos de datos, la limpieza de datos, la búsqueda de valores faltantes y la designación de columnas deseadas. Estas funciones se aplican a los datos extraídos para asegurar la calidad de los datos antes de cargarlos en el almacén de datos y en la estructura de datos uniforme.

Ejemplos de información relacionada con la construcción que puede ser extraída, transformada y cargada en un almacén de datos.

Algoritmos de Aprendizaje Automático

El aprendizaje automático es un subcampo de la ciencia de datos (ver Figura 1). La información que ha pasado por el proceso ETL y se encuentra almacenada en un almacén de datos facilita el aprendizaje automático. El aprendizaje automático depende de un conjunto de datos y algoritmos para predecir respuestas a preguntas sin programación explícita. De manera simplificada, el aprendizaje automático implica entrenar conjuntos de datos utilizando diversos tipos de algoritmos de aprendizaje automático.

Por ejemplo, supongamos que un usuario desea predecir si una información es verdadera, falsa o está ausente en un modelo BIM en comparación con los estándares BIM, los estándares del proyecto, el plan de ejecución BIM u otros documentos BIM. Los algoritmos de aprendizaje automático pueden utilizarse para hacer predicciones basadas en una característica de elemento dada (es decir, grosor de línea, color, patrón de línea, etc.) como datos de entrada. Las respuestas (salida) pueden ser verdadero/falso/ausente según los algoritmos aplicados al conjunto de datos BIM. La salida también puede producir predicciones para nuevos datos procesados por ETL. Un ejemplo simple para ilustrar este concepto sería el filtrado de correos electrónicos, donde los algoritmos identifican si un correo electrónico dado es spam o no.

Los dos tipos de algoritmos de aprendizaje automático más utilizados son los algoritmos de aprendizaje supervisado y no supervisado. Estos se describen a continuación:

  • Algoritmos de Aprendizaje Supervisado: Los algoritmos de aprendizaje supervisado son los más comúnmente utilizados y son significativos para BIM porque los elementos se categorizan en el sistema, y tanto los datos de entrada como los de salida pueden entrenarse fácilmente para que el sistema genere ideas precisas para resolver problemas. Los siguientes son algoritmos de aprendizaje supervisado comúnmente utilizados:
  • Clasificación
  • Regresión
  • Algoritmos de Aprendizaje No Supervisado: Los algoritmos de aprendizaje no supervisado no tienen información de categoría. Se deben agregar características adicionales de los elementos (por ejemplo, forma y tamaño del elemento) para poder categorizarlos. El propósito de los algoritmos de aprendizaje no supervisado es identificar patrones en los datos para categorizarlos para la salida. Los siguientes son algoritmos de aprendizaje no supervisado comúnmente utilizados:
  • Agrupamiento
  • Reducción de dimensionalidad

Los siguientes dos ejemplos ilustran posibles problemas en los datos de BIM. Figura 4 muestra algoritmos de aprendizaje automático con una salida falsa y cinco salidas correctas. Figura 5 muestra un conjunto de datos entrenado con algoritmos de aprendizaje automático, Salida Modelo A y Modelo B. El Modelo A tiene un Nivel 3 falso porque es inconsistente con el conjunto de datos entrenado (columna izquierda), y la salida del Modelo B está ausente en el Nivel 4.

Algoritmo de clasificación de aprendizaje supervisado identificando una salida falsa.

Algoritmo de clasificación de aprendizaje supervisado identificando información falsa y ausente.

Visualización de Datos

La salida del aprendizaje automático puede presentarse en forma gráfica para ayudar a los usuarios a identificar dónde los datos son inconsistentes o incompletos. Por ejemplo, AECOM ha desarrollado internamente una herramienta que ejecuta el proceso ETL y los algoritmos de aprendizaje automático para predecir problemas en los datos BIM y proporciona informes e información utilizando las siguientes herramientas de visualización. La visualización de datos puede generarse en varios niveles según sea necesario para apoyar a un equipo de proyecto. Puede generarse a nivel de proyecto (Figura 6), nivel de modelo (Figura 7) y nivel de elemento (Figuras 8 y 9). Proporcionar visualizaciones en estos niveles permite a los usuarios ver la misma información, pero con diferentes niveles de detalle.

Visualización a nivel de datos mostrando el estado general del proyecto.

Visualización a nivel de modelo mostrando el estado de la información del modelo.

Visualización a nivel de datos mostrando el estado de la información de los elementos y el gestor de tareas generado por la máquina para resolver problemas.

Visualización a nivel de datos mostrando el estado de la información de los elementos; los resultados indican elementos de cuadrícula faltantes.

Figuras 10 y 11 muestran visualizaciones que ilustran un resultado exitoso para la ciencia de datos utilizando ETL y algoritmos de aprendizaje automático. Estos ejemplos demuestran la precisión de todos los modelos.

Ejemplo mostrando elevaciones a nivel de modelo consistentes en todos los modelos.