banner
Centro de Noticias
Excelentes insumos, riguroso aseguramiento de la calidad.

Unstructured, que ofrece herramientas para preparar datos empresariales para LLM, recauda 25 millones de dólares

Sep 27, 2023

Los modelos de lenguajes grandes (LLM), como el GPT-4 de OpenAI, son los componentes básicos de un número cada vez mayor de aplicaciones de IA. Pero algunas empresas se han mostrado reacias a adoptarlos debido a su incapacidad para acceder a datos propios y propietarios.

No es necesariamente un problema fácil de resolver, considerando que ese tipo de datos tiende a permanecer detrás de firewalls y viene en formatos que los LLM no pueden aprovechar. Pero una startup relativamente nueva, Unstructured.io, está tratando de eliminar los obstáculos con una plataforma que extrae y organiza datos empresariales de una manera que los LLM puedan entender y aprovechar.

Brian Raymond, Matt Robinson y Crag Wolfe cofundaron Unstructured en 2022 después de trabajar juntos en Primer AI, que se centró en crear e implementar soluciones de procesamiento del lenguaje natural (NLP) para clientes empresariales.

“Mientras estábamos en Primer, una y otra vez, nos encontramos con un cuello de botella al ingerir y preprocesar archivos de clientes sin procesar que contenían datos de PNL (por ejemplo, PDF, correos electrónicos, PPTX, XML, etc.) y transformarlos en un archivo limpio y curado que está listo para un modelo o canalización de aprendizaje automático”, dijo a TechCrunch Raymond, quien se desempeña como director ejecutivo de Unstructured, en una entrevista por correo electrónico. "Ninguna de las empresas de integración de datos o procesamiento inteligente de documentos estaba ayudando a resolver este problema, por lo que decidimos formar una empresa y abordarlo de frente".

De hecho, el procesamiento y la preparación de datos tiende a ser un paso que requiere mucho tiempo en cualquier flujo de trabajo de desarrollo de IA. Según una encuesta, los científicos de datos dedican cerca del 80% de su tiempo a preparar y gestionar datos para su análisis. Como resultado, la mayoría de los datos que producen las empresas (alrededor de dos tercios) no se utilizan, según otra encuesta.

“Las organizaciones generan diariamente grandes cantidades de datos no estructurados que, cuando se combinan con los LLM, pueden potenciar la productividad. El problema es que estos datos están dispersos”, continuó Raymond. “El sucio secreto de la comunidad de PNL es que los científicos de datos de hoy todavía deben construir conectores de datos únicos y artesanales y canales de preprocesamiento de forma completamente manual. Unstructured [ofrece] una solución integral para conectar, transformar y organizar datos en lenguaje natural para LLM”.

Unstructured proporciona una serie de herramientas para ayudar a limpiar y transformar datos empresariales para la ingestión de LLM, incluidas herramientas que eliminan anuncios y otros objetos no deseados de páginas web, concatenan texto, realizan reconocimiento óptico de caracteres en páginas escaneadas y más. La empresa desarrolla procesos de procesamiento para tipos específicos de archivos PDF; Documentos HTML y Word, incluso para presentaciones ante la SEC; y, sobre todo, los informes de evaluación de oficiales del ejército estadounidense.

Para manejar documentos, Unstructured entrenó su propio modelo de PNL de “transformación de archivos” desde cero y reunió una colección de otros modelos para extraer texto y alrededor de 20 elementos discretos (por ejemplo, títulos, encabezados y pies de página) de archivos sin formato. Varios conectores (unos 15 en total) extraen documentos de fuentes de datos existentes, como el software de gestión de relaciones con los clientes.

"Detrás de escena, utilizamos una variedad de tecnologías diferentes para abstraer la complejidad", dijo Raymond. “Por ejemplo, para archivos PDF e imágenes antiguos, utilizamos modelos de visión por computadora. Y para otros tipos de archivos, utilizamos combinaciones inteligentes de modelos de PNL, scripts de Python y expresiones regulares”.

En sentido posterior, Unstructured se integra con proveedores como LangChain, un marco para crear aplicaciones LLM y bases de datos vectoriales como Weaviate y Atlas Vector Search de MongoDB.

Anteriormente, el único producto de Unstructured era un conjunto de herramientas de procesamiento de datos de código abierto. Raymond afirma que ha sido descargado alrededor de 700.000 veces y utilizado por más de 100 empresas. Pero para cubrir los costos de desarrollo (y sin duda aplacar a sus inversionistas) la compañía está lanzando una API comercial que transformará datos en 25 formatos de archivos diferentes, incluidos PowerPoint y JPG.

“Hemos estado trabajando con agencias gubernamentales y hemos obtenido varios millones de ingresos en tan solo un período muy corto. . . . Como nos centramos en la IA, nos centramos en un sector del mercado que no se ve afectado por la desaceleración económica más amplia”, afirmó Raymond.

Unstructured tiene vínculos inusualmente estrechos con las agencias de defensa, quizás producto de los antecedentes de Raymond. Antes de Primer, fue un miembro activo de la comunidad de inteligencia de Estados Unidos, sirviendo en el Medio Oriente y luego en la Casa Blanca durante la administración Obama antes de trabajar en la CIA.

Unstructured recibió contratos para pequeñas empresas de la Fuerza Aérea y la Fuerza Espacial de EE. UU. y se asoció con el Comando de Operaciones Especiales de EE. UU. (SOCOM) para implementar un LLM "junto con datos relevantes para la misión". Además, la junta directiva de Unstructured incluye a Michael Groen, ex general y director del Centro Conjunto de Inteligencia Artificial del Pentágono, y a Mike Brown, quien anteriormente dirigió la Unidad de Innovación de Defensa del Departamento de Defensa.

El ángulo de la defensa, una fuente temprana de ingresos confiable, podría haber sido el factor decisivo en la reciente financiación de Unstructured. Hoy, la compañía anunció que recaudó 25 millones de dólares en una ronda de financiación inicial Serie A y no revelada anteriormente. Madrona lideró la Serie A con la participación de Bain Capital Ventures, que lideró la semilla, y M12 Ventures, Mango Capital, MongoDB Ventures y Shield Capital, además de varios inversores ángeles.