Revolución del procesamiento inteligente de documentos: el auge de la IA generativa y los modelos de lenguaje de gran tamaño

El procesamiento de documentos ha sido durante mucho tiempo una tarea que requiere mucho tiempo y mano de obra para las organizaciones, ya que implica un esfuerzo manual para identificar documentos, dirigirlos a la persona adecuada y extraer información relevante. Durante décadas, hemos dependido del reconocimiento óptico de caracteres (OCR) para convertir imágenes en texto y de soluciones de procesamiento inteligente de documentos (IDP) con distintos grados de complejidad para extraer campos relevantes de ese texto del OCR.

En la actualidad, se están aprovechando los algoritmos de aprendizaje automático (ML) para mejorar los métodos tradicionales de extracción de datos, como el OCR zonal y la extracción de pares clave/valor basada en reglas, mediante el entrenamiento de modelos para extraer datos de documentos estructurados, semiestructurados y no estructurados. Sin embargo, estos métodos tradicionales a menudo requerían el entrenamiento de modelos de ML de dominio específico y un etiquetado manual extenso de grandes conjuntos de datos de entrenamiento, lo que hacía que su mantenimiento y creación consumiera mucho tiempo y recursos.

El surgimiento de la IA generativa y los modelos de lenguaje de gran tamaño

En el entorno del IDP, que está en constante evolución, los avances recientes en las tecnologías de IA han provocado un cambio transformador en la forma en que las organizaciones desarrollan y mantienen sus soluciones de extracción de documentos. Durante los últimos doce meses, el mercado ha experimentado cambios sin precedentes impulsados por el surgimiento de la IA generativa y la integración de modelos de lenguaje de gran tamaño (LLM). Estas innovaciones no solo han revolucionado el mercado, sino que también han abierto nuevas posibilidades para automatizar documentos que antes no podían automatizarse.

“La IA generativa es el cambio más importante en la larga historia del IDP”, afirmó Dan Lucarini, analista sénior de Deep Analysis y destacado experto en el mercado del IDP. “Por primera vez, una computadora puede clasificar documentos y extraer datos sin intervención humana, muestras de entrenamiento o conocimientos previos. En términos de IA, esto se conoce como aprendizaje de tiro cero; es decir, se reconoce el documento sin haberlo visto antes ni contar con entrenamiento previo”.

La introducción de LLM, como la serie GPT de OpenAI y Vertex AI de Google, ha abierto un mundo completamente nuevo de posibilidades para automatizar la entrada de datos de documentos. Estos modelos se entrenan con grandes cantidades de datos, lo que les permite comprender no solo elementos de datos individuales, sino también matices contextuales, lo que los hace expertos en el manejo de documentos complejos no estructurados. También pueden extraer información de una amplia variedad de documentos sin necesidad de contar con entrenamiento previo ni de definir reglas.

Aprovechamiento de los métodos tradicionales

Si bien los LLM están revolucionando la forma en que las organizaciones automatizan el procesamiento de documentos, los métodos tradicionales, como el OCR zonal, la extracción de pares clave/valor y el aprendizaje automático, siguen siendo las mejores herramientas para extraer datos de documentos estructurados y semiestructurados. Los LLM pueden completar estas tecnologías de extracción comprobadas y verdaderas para complementar los métodos de extracción de documentos semiestructurados y reemplazar la necesidad de crear modelos para documentos no estructurados.

“A menudo nos preguntan si los LLM fundamentales, como GPT-4, reemplazarán los modelos de aprendizaje automático que se adaptaron a un conjunto de datos”, dijo Lucarini. “La respuesta es no, no en el corto plazo. Los LLM fundamentales fallan con demasiada frecuencia para ser confiables para una aplicación de IDP típica que requiere una precisión de datos del 100%. También son demasiado costosos para leer una gran cantidad de documentos. Los modelos de ML discriminatorios siguen siendo la mejor opción en términos de precisión y costo”.

Maximización de la eficiencia con IA generativa

La IA generativa aún puede ser un complemento que permite ahorrar tiempo para un producto de IDP. Por ejemplo, los usuarios finales sin conocimientos de expresiones regulares o codificación pueden crear y ajustar un nuevo modelo de documento utilizando indicaciones de IA generativa. También puede acelerar la fase de entrenamiento sugiriendo etiquetas de un documento. A medida que los usuarios exploran más, descubren de forma continua aplicaciones innovadoras para la IA generativa dentro del IDP y amplían constantemente su utilidad e impacto.

Los avances recientes de la IA generativa y los LLM han sido realmente revolucionarios. Han complementado y, al mismo tiempo, revolucionado el mercado y abierto nuevas posibilidades para la automatización de procesos comerciales con uso intensivo de documentos. Aprovechando estas innovaciones integradas con los métodos de extracción tradicionales, las organizaciones pueden optimizar sus flujos de trabajo de documentos y conseguir nuevos niveles de eficiencia y productividad.