Recientemente, el equipo de investigadores Wang Quan de la Oficina de investigación de tecnología de imágenes espectrales del Instituto de maquinaria Óptica de Xi 'an de la Academia China de Ciencias ha logrado nuevos avances en la dirección de detección y localización de anomalías de muestras cero en el campo de la visión por computadora, y los resultados relevantes han sido recibidos por la Conferencia de visión por computadora y reconocimiento de patrones (the IEEE / cvf Conference on Computer vision and Pattern recognition, cvpr 2026). El primer autor de la tesis es Hu ming, un estudiante de maestría de 2024 del Instituto de maquinaria Óptica de Xi 'an, el autor de la comunicación es el Dr. Hu Cong del hospital zhongnan de la Universidad de wuhan, el investigador Hu bingliang del Instituto de maquinaria Óptica de xi' an y el investigador Wang quan, y el Instituto de maquinaria Óptica de Xi 'an es la primera unidad de comunicación.
Con la creciente demanda de aplicaciones como la inspección de calidad industrial y el análisis de imágenes médicas, la tecnología de detección de anomalías ha atraído cada vez más atención. Sin embargo, las muestras anormales en escenarios reales son a menudo escasas o incluso difíciles de obtener, y los métodos tradicionales de Aprendizaje supervisado que dependen de los datos de etiquetado se enfrentan a cuellos de botella.
El método de detección de anomalías de muestra cero basado en el modelo visual - lenguaje, con el conocimiento de preentrenamiento a gran escala, puede lograr la detección sin Etiquetado de anomalías, pero en la tarea de detección de anomalías de grano fino, el método todavía enfrenta tres desafíos principales: primero, el modelo es difícil de distinguir entre el objetivo del primer plano y El Fondo complejo, las características anormales son fáciles de mezclar con el fondo, lo que afecta la precisión de la detección; El segundo es confiar en la representación de un solo texto, la capacidad de expresión semántica es limitada y es difícil proporcionar una base fina para la identificación de anomalías; En tercer lugar, en el proceso de alineación multimodal, hay incertidumbre sobre la coincidencia semántica entre la imagen y el texto, lo que limita la mejora del rendimiento del modelo.
En respuesta a los problemas anteriores, el equipo de investigación propuso un nuevo marco: FB - clip (foreground - Background disuntangled clip). El marco innova desde tres niveles:
En el modelado de texto, se propone un método de fusión de características de texto multiestrategia, que combina la representación a nivel de oración, la información de contexto global y las características ponderadas por atención para construir una representación semántica más rica de percepción de tareas y mejorar la capacidad de comprensión del modelo de la semántica anormal;
En el modelado visual, se diseña un mecanismo de separación de primer plano y Fondo multiángulo para desacoplar las características de la imagen desde dimensiones semánticas, espaciales y estructurales, y reducir la información de interferencia en escenas complejas con la ayuda de estrategias de supresión de fondo, para que el modelo se centre con más precisión en áreas anormales;
En la alineación multimodal, se introduce una restricción de regularización de consistencia semántica para mejorar la capacidad del modelo para distinguir las anomalías mejorando la credibilidad de la predicción y ampliando el intervalo semántica entre las muestras normales y anormales.
Los resultados experimentales muestran que FB - clip ha logrado un excelente rendimiento en múltiples conjuntos de datos de detección industrial e imágenes médicas, especialmente en tareas de posicionamiento anormal de grano fino, y el rendimiento general ha alcanzado el nivel líder internacional. Este método puede lograr una detección y localización precisa de pequeñas anomalías en escenas complejas sin etiquetar muestras anormales, y tiene buenas perspectivas de aplicación práctica.
Se espera que este resultado se aplique en el Diagnóstico asistido por imágenes médicas, detección de defectos industriales y otros campos.
El equipo de investigadores Wang Quan del Instituto de maquinaria Óptica de Xi 'an ha trabajado durante mucho tiempo en la investigación interdisciplinaria de visión por computadora e imágenes biomédicas, inteligencia cerebro - computadora, etc. en los últimos años, ha logrado una serie de avances importantes en campos relacionados, y los resultados relevantes se han publicado en cvpr 2025, pattern recognition y así sucesivamente.
La Conferencia IEEE / cvf sobre visión por computadora y reconocimiento de patrones es una de las conferencias académicas internacionales más influyentes en el campo de la visión por computadora y ha sido calificada como Conferencia de clase a por la sociedad china de informática (ccf).