Ficha del modelo

Modelos

a11yequitas-gr v1.1.1 — todas las variantes
Modelo	Versión	Tamaño	Puntaje del examen	Filas de entrenamiento
a11yequitas-gr:3b	1.1.1	~2,1 GB	96 / 100	~1.890
a11yequitas-gr:rhel10	1.1.1	~2,0 GB	94 / 100	~2.310
a11yequitas-gr:rhel9	1.1.1	~2,0 GB	98 / 100	~2.030

Publicado: junio de 2026
Base: IBM Granite 4.1 3B Instruct (Apache-2.0)
Formato: Q4_K_M GGUF
Distribución: Ollama · Hugging Face

Personas usuarias previstas

Personas editoras de contenido y coordinadoras de accesibilidad en agencias locales, estatales y federales de EE. UU. y organizaciones sin fines de lucro que deben remediar violaciones de axe-core en un CMS (WordPress, Drupal). El modelo está hecho para la persona no desarrolladora que necesita saber qué cambiar en el editor de la página, qué dejar como está y cuándo derivar un problema a una persona desarrolladora.

Las variantes gr:rhel10 y gr:rhel9 también sirven a las personas administradoras de sistemas que ejecutan herramientas de accesibilidad en infraestructura Red Hat Enterprise Linux.

Especializaciones del modelo

gr:3b — núcleo de remediación WCAG 2.2 AA. Enrutamiento CMS (WordPress, Drupal), explicación de violaciones de axe-core, diferenciación entre persona editora y persona desarrolladora. Usar cuando no se necesita contexto de infraestructura.
gr:rhel10 — capacidades de gr:3b más administración de sistemas RHEL 10. Usa DNF5, ansible.builtin.dnf5 y archivos quadlet de Podman 5. Usar para despliegues en RHEL 10 / Rocky Linux 10.
gr:rhel9 — capacidades de gr:3b más administración de sistemas RHEL 9. Usa DNF (no yum ni dnf5), ansible.builtin.dnf y podman generate systemd. Usar para despliegues en RHEL 9 / Rocky Linux 9.

Alcance (v1.0)

v1.0 se enfoca en la remediación de violaciones de axe-core con WCAG 2.2 Nivel AA. AAA es opcional. El conjunto de entrenamiento cubre 14 tiers: núcleo WCAG, distinción AA vs. AAA, patrones ARIA, mapeo de reglas axe-core, explicación en lenguaje claro, enrutamiento CMS vs. desarrollador, interfaz administrativa de Drupal, interfaz administrativa de WordPress, Rocky Linux 10 sin contenedores, Ubuntu sin contenedores, configuración de servidor web, comportamiento de lector de pantalla, informes de auditoría y patrones de uso del agente compañero.

Fuera del alcance (v1.0)

WCAG 2.2 AAA más allá del encuadre opcional de ruta de mejora
Playwright para pruebas automatizadas — diferido a v1.1
Contenedores (Podman, Docker) — solo bare-metal + systemd en v1.0; contenedores en v1.1
Editores de texto enriquecido (CKEditor 5, Gutenberg, editor clásico) — diferido a v1.1
Documentos legales extensos — los 3B parámetros limitan el razonamiento legal entre múltiples documentos; las referencias legales se deben tratar como orientadoras y verificarse contra fuentes autorizadas

Por qué IBM Granite 4.1 3B

Despliegue local primero. 3B parámetros caben en una computadora portátil, un dispositivo tipo Raspberry Pi o un servidor de bajo costo. Ningún dato sale de la organización que lo despliega.
Formato de chat nativo de Granite. El entrenamiento usó la plantilla de chat nativa de IBM — emparejar el formato de entrenamiento con el de despliegue evita la pérdida silenciosa de precisión que produce un desajuste con ChatML.
Base Apache-2.0. La licencia permisiva permite el despliegue en gobierno y organizaciones sin fines de lucro sin fricción legal.

Tubería de entrenamiento

Modelo docente: Qwen3-Coder-Next ejecutándose localmente en una Mac con chip M5 Max. Las respuestas borrador se generaron localmente; ninguna API en la nube tocó los datos de entrenamiento.
Auto-filtro: cada fila generada por el docente pasó por una puerta heurística que rechazaba el enrutamiento al público equivocado (decir a una persona editora que edite CSS), la remediación excesiva, la confusión entre imágenes decorativas e informativas y las respuestas que harían fallar la verificación de axe-core en lugar de arreglarla.
Conjuntos de datos finales: ~1.890 filas (gr:3b), ~2.310 filas (gr:rhel10), ~2.030 filas (gr:rhel9) — cubriendo 50 tipos de violaciones de axe-core más temas específicos de infraestructura. Los datasets de entrenamiento en sí no se distribuyen públicamente.
Ajuste fino: LoRA (rango 32), tasa de aprendizaje 5×10⁻⁵, 3 épocas, longitud de secuencia 4.096, tamaño de lote 2 con acumulación de gradiente de 4 pasos. Unsloth + Hugging Face Transformers en una NVIDIA RTX 3090 Ti.
Empaquetado: el adaptador LoRA se fusiona de nuevo en los pesos base, se exporta a GGUF y se cuantiza a Q4_K_M (~2,0–2,1 GB). Corre vía Ollama en Apple Silicon a ~50 tokens/seg en un M5 Max.

Evaluación

Evaluado contra un examen axe-core Fix-It de 50 preguntas con un juez independiente Qwen3-Coder para evitar el sesgo de la misma familia. Cada respuesta debe cumplir cinco partes (problema, fijable en CMS sí/no, arreglo, qué no cambiar, verificación) y pasar una verificación de fallo automático (decorativa vs. informativa, enrutamiento solo para personas desarrolladoras, código inseguro, arreglo de falsos positivos).

Resultados del examen v1.1.1 — umbral: 85 / 100
Modelo	Puntaje	Estado
a11yequitas-gr:3b	96 / 100	Aprobado
a11yequitas-gr:rhel10	94 / 100	Aprobado
a11yequitas-gr:rhel9	98 / 100	Aprobado

Agente compañero (planeado)

El tier 14 del dataset v1.0 entrena patrones de uso para a11y-public-agent, un producto compañero separado. El agente envolverá a11yequitas-gr con generación aumentada por recuperación contra material fuente curado de WCAG y axe-core para reducir números de regla alucinados. El agente no forma parte de la publicación del modelo v1.0.

Limitaciones conocidas

El modelo puede generar números de criterios WCAG que parecen plausibles. Verifica contra w3.org/TR/WCAG22.
Las leyes, los plazos de cumplimiento y los montos cambian. El modelo está instruido para dirigir a las personas usuarias a fuentes autorizadas (ada.gov, 28 CFR Parte 35) en lugar de citar cifras desde el entrenamiento.
Los ejemplos de código son ilustrativos. Prueba en tu propia plataforma antes de desplegar.
La guía de despliegue basada en contenedores (Podman, Docker), la remediación de editores de texto enriquecido (CKEditor 5, Gutenberg) y la generación de pruebas Playwright están fuera del alcance de v1.0 y en cola para v1.1.

Licencia

MIT + Addendum de Transparencia y Divulgación de Adquisiciones. Los proveedores que desplieguen este modelo en clientes gubernamentales o sin fines de lucro deben divulgar que es de código abierto y de libre ejecución. El modelo base (IBM Granite 4.1 3B) está bajo Apache-2.0; el archivo NOTICE incluye la atribución.

Contacto

A11y Equitas