¿Para qué me sirve esta actividad? 📚

Esta actividad te sirve para implementar un principio fundamental dentro del uso y/o desarrollo de sistemas de inteligencia artificial: la calidad de un sistema de IA está determinada por la calidad de sus datos.

Esta matriz le permitirá a la organización principalmente dos cosas:

Documentar todo el ciclo de vida de los datos usados en sistemas de IA, desde su origen hasta su preparación, creando una trazabilidad adecuada.

Evaluar la calidad de los datos identificando problemas de exactitud, sesgos o consistencia.

Esta información además puede ayudar a la empresa a gestionar proactivamente los riesgos de datos, identificando a tiempo fallos o errores como el sesgo algorítmico, violaciones de privacidad o el uso de datos no representativos, antes de que afecten a tu modelo o incluso directamente a tus usuarios.

¿Qué tengo que hacer? 🚀

Para elaborar esta matriz te recomendamos comenzar leyendo este artículo y la pestaña de "INSTRUCCIONES" del template que te proporcionamos para comprender el propósito de cada pestaña y columna.

Dentro del template encontrarás una estructura de doble entrada: una pestaña para registrar el ciclo de vida de tus datasets y otra para evaluar su calidad, cubriendo así los requisitos del dominio A.7 de la ISO 42001.

A continuación, te explicamos con mayor detalle las dos partes principales de nuestro template.

Pestaña de "Registro general".

Por cada dataset que utilices, deberás completar una fila que documenta su "historia" completa, dividida en tres grandes momentos:

Adquisición: Aquí se registra el propósito del dataset, sus categorías, cantidad de datos, características demográficas, metadatos asociados (como el tipo de etiquetado), etcétera. Aspectos que son vitales para entender el contexto de la información y cómo se obtuvo.

Procedencia: Aquí se responde a la pregunta fundamental "¿de dónde vienen estos datos?". Se debe documentar la fuente, el tipo y sus características. Así como también se deben identificar los derechos sobre los datos, es decir saber y especificar si los datos están sujetos a leyes de privacidad, derechos de autor o licencias de uso.

Preparación de los datos: Se deben registrar los métodos de preparación utilizados sobre los datos, como por ejemplo limpieza, normalización, etcétera, que hayan sido necesarios para asegurar que puedan ser usados dentro del sistema de IA y que logren los objetivos esperados. También será importante establecer una justificación de por qué se eligieron esos métodos.

Pestaña de "Evaluación de calidad".

Esta pestaña funge como un checklist para realizar evaluaciones de calidad sobre cada uno de los datasets que registraste en la primera parte. Por cada dataset, deberás responder a una serie de preguntas para evaluar su idoneidad, y las siguientes dimensiones de calidad:

Exactitud: Se evalúa si los datos reflejan fielmente la realidad, si contienen errores o si han sido validados contra fuentes confiables.

Completitud: Se verifica si faltan valores o registros esenciales que podrían debilitar o afectar el modelo.

Consistencia: Se busca identificar contradicciones o falta de uniformidad en los formatos de los datos (fechas, unidades, etcétera).

Actualización: Se analiza si los datos son lo suficientemente recientes para ser relevantes para el problema que se quiere resolver.

Credibilidad y trazabilidad: Se cuestiona la confiabilidad de la fuente de los datos y si es posible rastrear su origen y las transformaciones que ha sufrido.

Accesibilidad y comprensibilidad: Se verifica que el equipo tenga los permisos necesarios para acceder a los datos y que éstos estén claramente definidos.

Relevancia: Se evalúa si los datos son pertinentes y adecuados para el objetivo del modelo de IA, y si se han eliminado datos irrelevantes o "ruidosos".

Recuerda que nuestro template está estructurado con los lineamientos necesarios para dar cumplimiento a los requisitos normativos. Es una herramienta muy completa que te servirá para llevar tu gestión de datos a un nivel de madurez muy alto. Pero es súper importante que el documento se alinee a las necesidades y contexto real de la organización.

💡 Los pasos a seguir para terminar la actividad dentro de la plataforma son los siguientes:

Una vez que nuestro equipo haya aprobado la actividad, debes subir el documento final en versión PDF (no editable).

Posteriormente, debes subir la evidencia de su aprobación.
- Recomendamos que esta evidencia sea a través de una minuta de sesión de comité (en ese caso, debes subir el documento en PDF de la minuta), o con una captura de pantalla de la respuesta explícita de quién o quiénes lo aprobaron.
- Esto debe realizarse por algún medio de comunicación interno de la empresa, como Slack, Teams o el correo electrónico organizacional.

Y por último, debes subir la evidencia de su comunicación.
- Al igual que la aprobación, la comunicación del documento puede ser por cualquier medio formal interno de la empresa. Y para esto, debes subir una captura de pantalla donde se muestre que el documento fue comunicado a todos los colaboradores interesados.

Recomendaciones ✅

Recomendamos que la evaluación de un dataset no sea una tarea exclusiva de un científico de datos o algún rol equivalente. Involucra otras áreas o expertos pertinentes para validar la relevancia y calidad de los datos usados.
- Por ejemplo, involucrar al equipo legal es altamente recomendable para revisar los derechos de uso y asegurar que no se esté infringiendo ninguno.
- Involucrar al equipo de operaciones te ayudará a entender mejor la credibilidad de las fuentes, etcétera.

Nunca te saltes una evaluación de calidad de los datos. Es un control normativo y es la mejor herramienta para detectar problemas (como sesgos ocultos o datos inconsistentes) antes de que contaminen tu modelo de IA y generen resultados erróneos o injustos.

Aprovecha la columna de "Comentarios" dentro de nuestro template para justificar o dejar información relevante, sobre todo en casos donde la calidad del dataset no es tan buena. Esto puede ser súper valioso para abordar auditorías de la mejor manera.

Esta matriz puede alimentar otros documentos o aspectos del SGIA, como por ejemplo los hallazgos identificados en la evaluación de los datasets pueden arrojar potenciales riesgos que deben registrarse en la Matriz de Riesgos, los cuales también son una entrada fundamental para tu Informe del Análisis de Riesgos de IA y tu Informe del Impacto Ético y Social de los Sistemas de IA.

¡Califica este artículo 👇, esto nos ayudará a mejorar nuestro contenido para ti!

Recuerda que también puedes contactarnos por nuestro chat de soporte y te brindaremos la atención que necesites.

Matriz de Gestión de Datos para IA

¿Para qué me sirve esta actividad? 📚

¿Qué tengo que hacer? 🚀

Pestaña de "Registro general".

Pestaña de "Evaluación de calidad".

Recomendaciones ✅