El Avance Revolucionario de Homsh: ViT+ArcFace
La precisión del reconocimiento de iris alcanza el nivel más alto del mundo
Con una Tasa de Error Igual (EER) de solo 0.29% y un ROC AUC que se acerca al límite teórico —
Hemos redefinido los límites del reconocimiento de iris con Vision Transformer
▲ Vision Transformer redefine el paradigma subyacente de la extracción de características del iris
I. Esta Vez, No es Solo un Progreso — Es un Cambio de Paradigma
Si le preguntas a un ingeniero que ha trabajado en reconocimiento de iris durante dos décadas: "¿Cuál es el problema más difícil que has enfrentado?"
Probablemente hará una pausa por un momento y dirá: "La Hoja de Goma".
Desde que John Daugman propuso el algoritmo IrisCode en 1993, el proceso de "desenvolvimiento de la Hoja de Goma" ha sido como un conjuro grabado en el ADN de los sistemas de reconocimiento de iris en todo el mundo. Desenvolver el iris circular en una imagen rectangular, y luego extraer texturas usando filtros Gabor... este flujo de trabajo se ha utilizado durante tres décadas, y nadie lo cuestionó.
Hasta que decidimos desecharlo.
II. ¿Por Qué Dejó de Funcionar la Hoja de Goma?
Vision Transformer (ViT para abreviar) es uno de los avances tecnológicos más deslumbrantes en el campo del aprendizaje profundo en los últimos tres años. Divide una imagen en varios "parches" de 16x16, utiliza el mecanismo de autoatención de los modelos de lenguaje para comprender la estructura global de la imagen y supera a las redes neuronales convolucionales (CNN) que dominaron durante años en múltiples tareas visuales de primer nivel.
Cuando intentamos aplicar ViT al reconocimiento de iris por primera vez, los resultados iniciales fueron decepcionantes: la Tasa de Error Igual (EER) fue tan alta como 4.65%, muy por debajo de las expectativas.
El equipo identificó rápidamente la causa raíz: la Hoja de Goma "aplana" el iris anular de 64x512 píxeles en un rectángulo, que luego se escala a la entrada de 224x224 requerida por ViT — un estiramiento vertical de 3.5x y una compresión horizontal de 2.3x. La estructura natural de textura radial/circunferencial del iris se distorsionó severamente, lo que impidió que el mecanismo de atención de parches de ViT percibiera la semántica dentro.
En otras palabras: habíamos estado alimentando al modelo más inteligente de la manera incorrecta.
La solución suena simple, pero requirió el coraje de romper la convención — abandonar la Hoja de Goma y cambiar al recorte circular de ROI (Región de Interés): con el centro del iris como origen, recortar un área cuadrada (2.5x el radio) para preservar la simetría espacial natural del iris, luego redimensionarla directamente a 224x224 y alimentarla a ViT. De esta manera, cada parche de 16x16 puede percibir la textura auténtica y sin distorsiones del iris.
III. Métricas Clave: EER = 0.29%, ROC AUC = 0.9999
Cambiar este único paso de preprocesamiento trajo consigo un mundo de diferencia:
| Solución |
EER |
Observaciones |
| Ronda 1: ViT + Hoja de Goma |
4.65% |
Flujo de trabajo tradicional |
| Ronda 2: CNN + Hoja de Goma |
2.80% |
Reemplazo de backbone con mejora limitada |
| Ronda 3: ViT + Recorte ROI |
~0.12%* |
Avance crítico |
| Versión Final: ViT-S/16 + ROI + Regularización |
0.29% |
Solución de grado de producción |
*Los resultados de la Ronda 3 no están sujetos a una verificación estadística rigurosa y contienen un sesgo optimista.
El sistema final lanzado adopta ViT-S/16 (22.1M de parámetros) + pérdida de margen angular ArcFace, entrenado en una fusión de 8 conjuntos de datos públicos (un total de 4,480 identidades / 67,704 imágenes). Después de una rigurosa verificación estadística, los resultados son los siguientes:
● EER = 0.29% (Tasa de Error Igual)
● Intervalo de Confianza del 95%: [0.21%, 0.40%] (200 rondas de remuestreo Bootstrap)
● ROC AUC = 0.9999 (puntuación casi perfecta)
● Similitud media de pares genuinos: 0.8742 (alta consistencia para el mismo individuo)
● Similitud media de pares impostores: 0.0450 (separación completa de características para diferentes individuos)
● En FRR=1%, FAR = 0.00% (cero falsos reconocimientos en puntos de operación de alta seguridad)
▲ Curva ROC (AUC=0.9999) y Distribución de Puntuaciones Genuinas/Impostoras — Dos Picos Completamente Separados
IV. Datos de Entrenamiento: No Solo Grandes, Sino Diversos
Este estudio fusionó 8 conjuntos de datos públicos, incluyendo los dos escenarios más desafiantes de la industria:
Datos de Gemelos (CASIA-Iris-Twins)
Datos de iris de 200 pares de gemelos — incluso con genes casi idénticos, las texturas del iris son completamente diferentes. Esta es la "prueba definitiva" para verificar el poder discriminatorio del algoritmo.
Escenarios No Restringidos con Luz Visible (UBIRIS.v2)
518 identidades con más de 11,000 imágenes, capturadas bajo iluminación natural con desenfoque de movimiento, distorsión fuera de foco y variaciones de iluminación — este es el conjunto de datos más cercano a los escenarios de implementación del mundo real.
El entrenamiento se completó en un Apple Silicon M2 Ultra (Mac Studio) en aproximadamente 12.3 horas (90 épocas de entrenamiento), con una latencia de inferencia máxima de solo ~35 ms (incluyendo recorte ROI y extracción de características).
V. Comparación Horizontal con Trabajos de Industria de Vanguardia
| Método |
Backbone |
Preprocesamiento |
EER |
| Daugman IrisCode |
Gabor |
Hoja de Goma |
~0.10% (Entorno Controlado) |
| UniqueNet (2016) |
CNN Siamesa |
Hoja de Goma |
0.18% |
| IrisFormer (2023) |
ViT-B/16 |
Hoja de Goma |
0.22% |
| PolyIRIS (2021) |
CNN Multiescala |
Hoja de Goma |
(Conjunto de Datos Único) |
| Homsh ViT+ArcFace (Este Lanzamiento) |
ViT-S/16 |
Recorte ROI |
0.29% (8 Conjuntos de Datos) |
▲ De 4.65% a 0.29% EER: El Camino de Evolución Tecnológica de Cuatro Rondas de Iteración
VI. Próximos Pasos
1.Evaluación Independiente Inter-Conjuntos de Datos
Pruebas ciegas en el conjunto de datos IIT Delhi no involucrado en el entrenamiento para verificar la capacidad de generalización en el mundo real.
2.Integración de Detección de Vitalidad
Combinar la respuesta de flash multiframe o el análisis de textura para defenderse contra ataques de reproducción de fotos y construir un sistema anti-spoofing completo.
3.Reconocimiento de Iris a Media y Larga Distancia
Introducir datos de media distancia (3m) para extender a escenarios con distancias de captura más grandes — el próximo océano azul para la implementación comercial.
4.Ligereza y Despliegue en el Lado del Borde
Destilar el modelo ViT-S/16 a <5M de parámetros para adaptarse a dispositivos de borde con recursos limitados (NPU/FPGA).
Conclusión: Una Convención de Treinta Años Merece ser Reexaminada
La Hoja de Goma de Daugman fue la solución óptima de su época. Pero la esencia de la tecnología es esta: cuando surgen mejores herramientas, el viejo paradigma debe dar un paso al costado.
Vision Transformer ha cambiado la lógica subyacente del reconocimiento de imágenes. A través de cuatro rondas de experimentos y cuatro meses de exploración, hemos encontrado la forma correcta para que ViT realmente libere su potencial en el reconocimiento de iris — no para hacer que ViT se adapte al viejo flujo de trabajo, sino para diseñar un nuevo paradigma de preprocesamiento adaptado para ViT.
Un EER de 0.29% es solo un número, pero también una declaración:
El reconocimiento de iris ha entrado en la era Transformer, y Homsh está en la línea de salida.
Acerca de Homsh
WuHan Homsh Technology Co., Ltd. (HOMSH), fundada en 2011, es una de las pocas empresas de alta tecnología en el mundo que posee derechos de propiedad intelectual independientes para algoritmos y chips centrales de reconocimiento de iris. Su algoritmo central Phaselirs™ y sus chips inteligentes Qianxin Series FPGA/ASIC para reconocimiento de iris se han utilizado ampliamente en cobro financiero, despacho de aduanas, emisión de certificados gubernamentales, seguridad militar y otros campos.