![]() |
![]() |
|||
Visão Computacional 1. Representação de Prof. Aldo von Wangenheim |
Técnicas Estatísticas para Reconhecimento e Deteção de Face <Luciene de Oliveira
Marin>
Bibliografia IntroduçãoA face humana é uma imagem fascinante, uma inspiração infinita para artistas a milhares de anos. Além disso, a habilidade para reconhecer faces e entender as emoções que elas transmitem é uma das mais importantes habilidades humanas. Bebês podem identificar a face de suas mães dentro de meia hora de nascimento, a maioria de nós é hábil para instantaneamente reconhecer milhares de pessoas, haja visto que Napoleão poderia reconhecer todos os soldados regulares de seu exército [PLH99]. Os maiores reconhecedores de padrão na maioria dos exemplos são humanos, mas ainda não entendemos como os humanos reconhecem padrões. Reconhecimento de padrão é o estudo de como máquinas podem observar o ambiente, aprender e distinguir padrões de interesse do que está sendo visto, verificar e justificar decisões sobre as categorias dos padrões [AKJ99]. A abordagem estatística para reconhecimento de padrão merece especial atenção pois é a que mais tem sido estudada e usada na prática. No que se refere ao projeto de um sistema de reconhecimento, os seguintes assuntos requerem cuidadosa atenção: definição de classes de padrões, absorção do ambiente, representação de padrão, extração e seleção de características, análise de cluster, projeto e aprendizagem de classificador, seleção de exemplos de treinamento e teste, e avaliação de desempenho. Apesar de quase cinqüenta anos de pesquisa e desenvolvimento neste campo, problemas comuns de reconhecimento de padrões complexos com orientação, localização e escala arbitrários encontram-se sem solução. Novas e emergentes aplicações, tais como mineração de dados, pesquisa na web, restauração de dados multimídia, reconhecimento de face e reconhecimento de letras escrita à mão, requerem técnicas robustas e eficientes de reconhecimento de padrão [AKJ99]. O objetivo deste trabalho consiste em pesquisar a respeito do emprego de técnicas estatísticas de processamento de imagens no reconhecimento de padrões relacionados a faces humanas. O mesmo apresenta também uma breve exposição a respeito da abordagem estatística para sistemas de detecção de face, pois ela também é essencial para se desenvolver algoritmos eficientes e robustos em sistemas completamente automáticos, capazes analizar informações de faces humanas [MHY99].Reconhecimento de PadrãoReconhecimento automático, descrição, classificação, e agrupamento de padrões são problemas importantes em diversas disciplinas de engenharia e científicas tais como biologia, psicologia, medicina, marketing, visão computacional, inteligência artificial, e percepção de distância. Mas o que é um padrão? Defini-se um padrão como o oposto do caos; uma entidade, vagamente definida, a qual pode ser dada um nome . Por exemplo, um padrão poderia ser uma imagem de impressão digital, uma palavra escrita a mão, uma face humana, ou um sinal de voz. Dado um padrão, reconhecê-lo ou classificá-lo pode consistir de uma das seguintes tarefas: (i) classificação supervisionada (p.e. análise discriminante) na qual o padrão de entrada é identificado como um membro de uma classe pré-definida, ou seja, a classe é definida pelo projetista do sistema, (ii) classificação não supervisionada (p.e. clustering" - agrupamento) no qual o padrão é determinado por uma fronteira" de classe desconhecida, ou seja, as classes são aprendidas baseadas na similaridade dos padrões. As quatro abordagens mais conhecidas para reconhecimento de padrão são: (i) casamento de modelo", (ii) classificação estatística, (iii) casamento sintático ou estrutural", e (iv) redes neurais. Estes modelos não são necessariamente independentes e às vezes o mesmo método de reconhecimento de padrão existe com diferentes interpretações [AKJ99].Reconhecimento de Padrão EstatísticoO reconhecimento de padrão estatístico tem sido usado com sucesso para projetar uma quantidade de sistemas comerciais de reconhecimento. Na abordagem estatística, cada padrão é representado em termos de características, medidas ou atributos e é visto como um ponto em um espaço d-dimensional. O objetivo é escolher determinadas características que permitam a vetores padrão, pertencentes a diferentes categorias, ocupar regiões compactas e disjuntas em um espaço de características d-dimensional. A efetividade do espaço de representação (conjunto de características) é determinado por quão bem separados podem ser os padrões de diferentes classes. Dado um conjunto de padrões de treinamento de cada classe, o objetivo é estabelecer decisões de fronteiras no espaço de características, aos quais os padrões separados pertenceriam a diferentes classes. Na abordagem teórica de decisão estatística, a decisão de fronteiras é determinada por distribuições de probabilidade de padrões pertencentes a cada classe, a qual deve ser específica ou aprendida. Um sistema de reconhecimento é operado em dois modos: treinamento (aprendizagem) e classificação (teste) veja na Fig. 1.
A função do
módulo de pré-processamento é retirar o padrão
de interesse de uma paisagem, remover ruídos, normalizar o padrão,
e qualquer outra operação a qual contribui na definição
de uma representação compacta do padrão. No modo treinamento,
o módulo de extração/seleção de características
procura características apropriadas para a representação
de padrões de entrada e o classificador é treinado para particionar
o espaço de características. O caminho de volta permite a
um projetista otimizar o pré-processamento e estratégias
de extração/seleção de características.
No modo classificação, o classificador treinado determina
o padrão de entrada para uma das classes de padrões sob considerações
baseadas na medidas das características. O processo de tomada de
decisão no reconhecimento de padrão estatístico pode
ser sumariado como segue. Um dado padrão está determinado
a uma das c categorias baseado em um vetor de d valores de característica ![]() Ela determina o padrão
de entrada
Para esta escolha da função
perda, a regra de decisão Bayes pode ser simplificada como segue:
Ela determina o padrão de entrada
Várias estratégias são utilizadas para projetar um classificador para um reconhecimento de padrão estatístico, dependendo da espécie de informação disponível sobre densidades de classe-condicional. Se todas as densidades de classe-condicional são completamente especificadas, então a regra de decisão Bayes ótima pode ser usada para projetar o classificador. Entretanto, densidades de classe-condicional são freqüentemente não conhecidas na prática e devem ser aprendidas dos padrões de treinamento disponíveis. Se a forma da densidade classe-condicional é conhecida (p. e. Gaussian multivariado), mas alguns dos parâmetros de densidades (p. e. vetores médio e matrizes de covariância) são desconhecidos, então nós temos um problema de decisão parametrizada. Uma estratégia comum para estes tipos de problemas é substituir os parâmetros desconhecidos na função densidade por seus valores estimados, resultando no então chamado classificador Bayes "plug-in". A estratégia Bayesiana ótima nesta situação requer informação adicional na forma de uma distribuição prévia nos parâmetros desconhecidos. Se a forma da densidade classe-condicional é não conhecida, então nós operamos em um modo não parametrizado. Neste caso, nós devemos ou estimar a função de densidade (p. e., abordagem Janela Parzen) ou diretamente construir a decisão de fronteira baseada no treinamento dos dados (p. e., regra do k mais próximo vizinho). De fato, um perceptron multicamada pode ser visto como um método supervisionado não paramétrico o qual constrói uma decisão de fronteira. Outra dicotomia em reconhecimento de padrão estatístico é a do aprendizado supervisionado (chamado treinamento de exemplos) versus o aprendizado não supervisionado (não chamado de treinamento de exemplos). O chamado treinamento de exemplos representa a categoria ao qual o padrão pertence. Em um problema de aprendizado não supervisionado, algumas vezes o número de classes deve ser aprendido diante as estruturas de cada classe. As várias dicotomias que aparecem em reconhecimento de padrões estatísticos são mostradas na árvore de estruturas da Fig.2.
Como se percorre a árvore de cima para baixo e da esquerda para a direita, menos informações estão disponíveis para o projetista de sistema e como um resultado, a dificuldade de classificação dos problemas aumenta. Em alguns casos, a maioria das abordagens em reconhecimento de padrões estatístico (nós folhas da árvore da Fig. 2 ) são tentativas de implementar a regra de decisão Bayes. O campo de análise de cluster essencialmente trata com problemas de tomada de decisão no modo não paramétrico e aprendizado não supervisionado. Além disto, na análise de cluster o número de categorias ou clusters talvez nem mesmo sejam especificadas; a tarefa é descobrir uma categorização razoável dos dados (se alguma existir). Algoritmos de análise de cluster junto com várias técnicas para visualização e projeção de dados multi-dimensionais são também referidas como métodos de análise de dados exploratórios. Ainda outras dicotomias em reconhecimento de padrão estatístico podem ser baseadas se as decisões de fronteiras são obtidas diretamente (abordagem geométrica) ou indiretamente (abordagem baseada em densidade probabilística) como mostrado na Fig.2. A abordagem probabilística requer estimar a primeira função de densidade, e então construir as funções discriminantes as quais especificam as fronteiras de decisão. Por outro lado, a abordagem geométrica freqüentemente constrói fronteiras de decisão diretamente através de funções de custo fixo. Não é importante qual regra de classificação ou decisão é usada, ela deve ser treinada usando os exemplos de treinamento disponíveis. Como um resultado, o desempenho de um classificador depende de ambos o número de exemplos de treinamentos disponíveis bem como valores específicos de exemplos. Ao mesmo tempo, o objetivo de um projetista de sistema de reconhecimento é classificar exemplos de testes futuros os quais são provavelmente diferentes dos exemplos de treinamento. Então, otimizando um classificador para maximizar sua performance no conjunto de treinamento pode não sempre resultar na performance desejada em um conjunto de teste. A habilidade de generalização de um classificador refere-se para sua performance em classificar padrões testes os quais não foram usados durante o estágio de treinamento. Uma pobre habilidade de generalização de um classificador pode ser atribuída por qualquer um dos seguintes fatores: (i) o número de características é muito grande relativo ao número de exemplos de treinamento, (ii) o número de parâmetros desconhecidos associados com o classificador é grande (p. e., classificadores polinomial ou uma rede neural larga), e (iii) um classificador é intensivamente otimizado no conjunto de treinamento (treinamento demasiado - overtraining"); isto é análogo ao fenômeno de overfitting" em regressão quando existe muitos parâmetros livres. Overtraining tem sido investigado teoricamente por classificadores que minimizam a taxa de erro aparente (o erro no conjunto de treinamento). Estudos clássicos sobre capacidade e complexidade de classificadores (p. e. aqueles tendo muitos parâmetros independentes) podem ter uma larga capacidade, isto é eles são hábeis para representar muitas dicotomias para um conjunto de dados dado. Uma medida freqüentemente usada para a capacidade é o dimensionamento Vapnik-Chervonenkis (VC). Estes resultados podem também ser usados para mostrar algumas propriedades interessantes, por exemplo, a consistência do classificador fixo. O uso prático dos resultados sobre classificadores complexos foram inicialmente limitados porque os limites propostos no número requerido de exemplos de (treinamento) foram muito conservativos. No recente desenvolvimento de máquinas de vetor de suporte, entretanto, os resultados tem mostrado ser de total utilidade. A armadilha sobre adaptação de estimadores para o conjunto de treinamento dado é observado em muitos estágios de um sistema de reconhecimento de padrão, tais como redução de dimensionalidade, estimação de densidade, e projeto de classificador. Uma solução certa é sempre usar um conjunto de dados (conjunto teste) independente para avaliação. Na ordem de evitar a necessidade de ter muitos conjuntos testes independentes, estimadores são freqüentemente baseados em subconjuntos de dados rotados, preservando diferentes partes dos dados para otimização e avaliação [AKJ99]. Abordagens Estatísticas para o Reconhecimento de FaceO reconhecimento de face a partir de imagens fotográficas e imagens de vídeo está emergindo como uma atividade na área de pesquisa com numerosas aplicações comerciais e coação de lei. Estas aplicações requerem algoritmos robustos para reconhecimento de faces humanas sobre diferentes condições de iluminação, expressões faciais e orientações. Um esquema geral usado para reconhecimento de face é ilustrado na Fig. 3 [Nef96].O vetor de características
Métodos baseados em modelo de Markov escondido A maioria direta dos procedimentos
usados para reconhecimento de face é o casamento entre as imagens
teste e um conjunto de treinamento de imagens baseado na medida de correlação.
O casamento técnico, neste caso é baseado na computação
do coeficiente de correlação-cruzada CN, definido por: Onde Reconhecimento Usando "Autofaces"O método Autofaces tem sido implementado com o propósito de comparações, pois ele foi um dos melhores sucedidos dentre os algoritmos avaliados. Este método foi desenvolvido no M.I.T. por [Turk and Pentland, 1991] apud [Spi]. No qual é chamado Análise de Componente Principal onde poucos parâmetros são usados para representação, extraídos da face. Estes parâmetros são obtidos pela projeção da face sobre um sistema de coordenadas dados por autovetores" da matriz de covariância do conjunto de treinamento. Estes autovetores, imagens deles mesmos, são chamados autofaces" e transpõe um vetor de espaço chamado espaço face. Cada face é então codificada por meios de suas coordenadas no espaço face. O matching" de duas faces corresponde a um cálculo da distância Euclidiana entre suas representações do espaço de face [Spi]. O trabalho de [Li] apresenta uma nova abordagem para classificação de padrão chamada combinação linear mais próxima (NLC) para reconhecimento de face baseado em autoface. Ele assume que múltiplos vetores prototípicos são disponíveis através de classes, cada vetor começando de um ponto em um espaço autoface. Uma combinação linear de vetores prototípicos pertencentes a uma face classe é usada para definir uma medida de distância de um vetor"query" para a classe, a medida é definida como sendo a distância Euclidiana do "query" para a combinação linear mais próxima (portanto NLC). Isto contrasta a classificação do vizinho mais próximo (NN) onde um vetor query é comparado com cada vetor prototípico individualmente. Usando uma combinação linear de vetores prototípicos, ao invés de cada um deles individualmente, estende-se a capacidade de representação dos protótipos pela generalização, através de interpolação e extrapolação. Experimentos mostraram que isto conduz a melhores resultados do que os métodos de classificação existentes. A Fig. 4 ilustra o uso da técnica NLC para deduzir a posição de ![]() ![]() Figura 4: (Linha Topo)Faces
sob mudanças no ângulo de visão. A face query Este aprimoramento é
devido a representação NLC que expande a capacidade representacional
de protótipos de faces na base de dados: Variações
na iluminação, ângulo de visão e na expressão
entre imagens de faces prototípicas são consideradas por
variações em seus pesos que determinam a combinação
linear.
Reconhecimento sob Condições de Visualização GeraisA Abordagem ParamétricaEsta abordagem extende a
capacidade do método autoface para reconhecimento de objetos em
imagem 3D sob diferentes condições de iluminação
e visualização. Dadas imagens de objetos tidas sob Baseada na decomposição
autoface, [Pentland et al] apud [Nef96] desenvolveu uma abordagem
baseada em autoespaço "view-based" para reconhecimento de faces
humanas sob condições gerais de visão. Dados indivíduos
sob Figura 5: Algumas da imagens usadas para testar a precisão do reconhecimento de face a despeito de amplas variações na orientação da cabeça. A precisão média de reconhecimento foi 92%, a orientação do erro teve um desvio padrão de 15o Estes dados consistem de
189 imagens em nove visões de 21 pessoas. As nove visões
de cada pessoa foram igualmente espaçadas de a Reconhecimento Usando "AutoCaracterísticas"Consiste do uso de características faciais para reconhecimento de face. Isto pode ser visto como uma representação modular ou por camadas da face, onde uma descrição grosseira (resolução baixa) de toda a cabeça é aumentada por detalhes adicionais (resolução alta) para salientar características da face. A técnica autoface foi extendida para detectar características faciais. Para cada característica da face, um espaço de características é construído pela seleção da maioria de autocaracterísticas significantes (autovetores correspondentes para grandes autovalores da matriz de correlação de características). Na representação autocaracterística a equivalente distância do espaço de característica" (DFFS) pode ser efetivamente usado para detecção de características faciais. A detecção de fatores DFFS foi extendida para detecção de características sob diferentes visões geométricas pelo uso ou de view-based autoespaço ou um autoespaço paramétrico [Nef96].Em [MP94] a técnica autoface é facilmente extendida para a descrição e codificação de características faciais, dando "eigeneyes", "eigennoses", "eigenmouths". Estudos do movimento do olhos indica que estas características faciais particulares represetam importante limite para fixação, especialmente em uma tarefa de discriminação. Então é esperado uma melhora no desempenho de reconhecimento pela incorporação de uma camada adicional de descrição em termos de características faciais. Isto pode ser visto como se uma representação modular ou em camadas de uma face, onde uma grosseira (baixa-resolução) descrição de toda a cabeça é aumentada por detalhes adicionais (alta-resolução) em termos de salientar características faciais. Com a habilidade para de forma confiante detectar características faciais através de uma larga escala de faces, pode-se automaticamente gerar uma representação modular de uma face. A utilidade desta representação em camada (autoface mais autocaracterísticas) foi testada em um pequeno subconjunto de sua base de dados de face. Selecionou-se uma amostra representativa de 45 indivíduos com duas vistas por pessoa, correspondendo a diferentes expressões faciais (neutro vs. sorridente). Este conjunto de imagem foi particionado entre um conjunto de treinamento (neutro) e um conjunto de teste (sorridente). Visto que a diferença nas expressões faciais é primeiramente articulada na boca, esta característica particular foi discartada para o propósito de reconhecimento. A Fig. 6 mostra as taxas de reconhecimento como uma função do número de autovetores para autoface-somente, autocaracterística-somente e a representação combinada. O que é surpreendente é que (para este pequeno conjunto de dados no mínimo) a autocaracterística sozinha foi suficiente para adquirir uma (assintótica) taxa de reconhecimento de 95% (igual para aqueles da autofaces). Mais surpreendente, às vezes, é a observação que em menores dimensões de autoespao, autocaracterística apresentam desempenho de melhor qualidade no reconhecimento autoface. Finalmente, pelo uso da representação combinada, ganha-se um leve melhoramento na taxa de reconhecimento assintótica (98%). A potencial vantagem da camada autocaracterística é a habilidade de superar as desvantagens de um método autoface padrão. Um puro reconhecimente autoface pode ser enganado por grosseiras variações na imagem de entrada (chapéus, barbas, etc.). Na Fig. 7(a) mostra visões testes adicionais de 3 indivíduos por cima de um conjunto de dados de 45 indivíduos. Estas imagens teste são indicativas do tipo de variação o qual pode conduzir a combinações falsas: uma mão próxima a face, uma pintura de face, e uma barba. A Fig. 7(b) mostra as combinações mais próximas encontradas baseada na classificação de padrão autoface. Nenhuma das 3 combinações correspondem ao indivíduo correto. Por outro lado, a Fig. 7(c) mostra a mais próxima combinação baseada nos olhos e nariz, e resulta na correta identificação em cada caso. Este simples exemplo ilustra a vantagem de uma representação modular na desambigüidade de combinações autofaces falsas. Figura 7: (a) Visões
testes, (b) Autoface combinadas, (c) Autocaracterísticas combinadas
Método Discriminante Linear - Fisherfaces"Neste novo método há a redução da dimensionalidade do espaço de características usando Discriminante Linear de Fisher (FLD) [21] apud [Nef96]. O FLD usa o classe de informação de um grupo e desenvolve um conjunto de vetores de características nos quais variações de diferentes faces são enfatizadas enquanto diferentes exemplos de faces combinadas com condições de iluminação, expressões faciais e orientação são desenfatizadas.Método Baseado no Modelo Markov EscondidoO Modelo Markov Escondido (HMM) é um conjunto de modelos estatísticos usados para caracterizar propriedades estatísticas de um sinal. HMM são feitos de dois processos interelacionados: (1)uma secreta não observável cadeia Markov com finitos números de estados, um estado de transição, matriz de probabilidade e um estado inicial, distribuição de probabilidade. (2)um conjunto de funções de densidade probabilidade associado a cada estado. Os elementos de uma HMM:
![]()
![]() ![]() ![]() onde ![]() ![]() ![]() ![]() ![]() HMM tem sido usado extensamente para reconhecimento de voz, onde os dados são naturalmente uni-dimensionais (1D) ao longo do eixo do tempo. Entretanto, o equivalente completamente conectado em duas dimensões HMM dominaria uma grande quantidade de problemas computacionais. Tentativas tem sido feitas para usar representações multi-modelos que conduzem ao um pseudo 2D HMM. Estes modelos são atualmente usados no reconhecimento de caracteres. Foi proposto em [Samaria et al] apud [Nef96] o uso de 1D contínuo HMM para reconhecimento de face. Assumindo que cada face está em uma posição ereta e frontal, características ocorrerão em uma ordem previsível, isto é, testa, olhos, nariz etc. Esta ordenação sugere o uso de um modelo top-bottom", onde somente transições entre estados adjacentes do modo de cima para baixo são permitidos. Os estados do modelo correspondem a características faciais como testa, olhos, nariz, boca e queixo. A sequência de observação O é gerada de uma imagem X x Y usando uma janela amostra X x L com X x M pixels sobrepostos (Fig. 8) [Nef96]. Cada vetor de observação
é um bloco de Misturas de Subespaços Linear LocalNo trabalho de [BJF98] temos a análise de desempenho de reconhecimento de um modelo de misturas de subespaços linear local que pode ser combinado para treinamento dos dados usando algoritmo de maximização de expectativa. O modelo misturado tem melhor desempenho do que um classificador vizinho mais próximo" operando em um subespaco PCA (análise de componente principal) ou expansão Karhunen-Loeve. Foi mostrado o quanto esta abordagem de reconhecimento é robusta para modelagens de faces como na Fig. 9. Em uma abordagem para visualizar a modelagem da face, imagens de face N-pixel normalizadas são projetadas sobre um subconjunto de D autovetores ou autofaces de matriz de covariância estimada do conjunto de treinamento de imagens. O subespaço D-dimensional atravessado por estas autofaces ortogonais é o subespaço no qual os dados de treinamento tem a maior variação. De fato, estas autofaces são iguais aos primeiros D principais componentes obtidos da análise de componente principal. A distância de uma nova imagem de entrada deste subespaço linear tem sido usada totalmente com sucesso para detectar faces. Foi considerado que uma mistura de K subespaços linear como uma mistura de K analizadores de fator, onde cada analizador de fator tem o mesmo número D de fatores. Seja![]() ![]() ![]() ![]() ![]() onde ![]() ![]() ![]()
Figura 9: Exemplos de formas de vídeo e faces normalizadas. Abordagem Estatística para a Detecção de FacesO trabalho de [MHY99] mostra que a interação humano computador tem se tornado uma ativa área de pesquisa em que interfaces mais amigáveis e efetivas vem sendo desenvolvidas. Entre todas as interface humano computador, é mais comum acreditar que faces humanas é um dos mais efetivos meios, visto que ela carrega enormes informações as quais computadores podem reagir de acordo. Por exemplos, computadores podem ajustar seu comportamento pelo conhecimento das emoções do usuário, através de suas expressões faciais. Atenção visual é outro exemplo onde computadores podem reagir baseados nos interesses de seus usuários. Em direção a este objetivo, reconhecimento de face e expressão facial tem atraído muita atenção recentemente e embora já venha sido estudada a mais de vinte anos por psicólogos, neurocientistas e engenheiros. Muitas aplicações interessantes e úteis tem sido desenvolvidas com estes esforços. A maioria dos métodos existentes assumem que faces humanas devem ser extraídas de imagem estática ou de uma seqüência de imagens e focalizar algoritmos de reconhecimento. Entretanto, detecção de face de uma imagem simples ou uma seqüência de imagens é uma tarefa muito desafiante e não mais fácil do que reconhecimento de face. Detecção de face é consideravelmente difícil porque envolve localização de face com nenhum conhecimento prévio de sobre suas escalas, localizações, orientações(ereta, rotacionada) com ou sem oclusões, com diferentes posições (frontal, perfil). Expressões faciais e condições de iluminação também alteram por completo aparências de faces, tornando-se difícil detectá-las. Além disto, a aparência de faces humanas em uma imagem depende da posição de humanos e de visões dos dispositivos de aquisição. Os desafios associados com problemas de detecção de face podem ser atribuídos aos seguintes fatores:
Abordagem AutofaceUm método de aprendizagem visual probabilístico, baseado na estimação da densidade em um espaço altamente dimensionado usando decomposição de autoespaço, foi desenvolvido por Mogaddam e Pentland [1] apud [MHY99]. Na análise de componente principal, os maiores autovalores e autovetores são identificados e selecionados como componentes principais para formar um subespaço. Estes componentes principais preservam as principais correlações lineares nos dados e discartam as sem importância. Em contraste, tem-se a forma de uma decomposição ortogonal do espaço vetor dentro de dois subespaços mutuamente exclusivos e complementares: o principal subespaço (ou espaço de características) e seus complementos ortogonais. Então, a densidade objetivo é decomposta em dois componentes: a densidade em um subespaço principal (transposto por componentes principais) e seus complementos ortogonais (os quais são discartados na análise de componente principal padrão). A multivariável Gaussian e uma mistura de variáveis Gaussians são usadas para aprender as características estatísticas de características locais de uma face. Estas densidades probabilidades são então usadas para detecção de objeto basedas em uma estimação de probabilidade máxima. O método proposto tem sido aplicado para localização de face, codificação e reconhecimento. Comparada com a clássica abordagem autoface, o método proposto mostra melhor desempenho no reconhecimento de face. Em termos de detecção de face, suas técnicas tem sido somente demonstradas na localização (isto é, assumindo que uma imagem de entrada possui somente uma face).Abordagem ProbabilísticaEm [52] apud [MHY99] Schneiderman e Kanade descrevem um modelo probabilístico para reconhecimento de objeto basedo primeiramente na aparência do local, o qual difere significativamente da aparência baseada no método que enfatiza a aparência global. Esta abordagem é comparada a métodos nos quais modela o todo, extensão global do objeto, e neste caso a face humana, junto. A razão deles enfatizarem a aparência local é que alguns padrões locais no objeto são mais únicos do que outros. Para faces humanas, os padrões de intensidade ao redor dos olhos de uma face humana são mais exclusivos do que o padrão encontrado nas bochechas. Para representar a aparência exclusiva do local, aparências estatísticas e local necessitam ser modeladas. A razão delas usarem uma forma funcional de função de probabilidade posterior é capturar a junção estatística da aparência local e posição no objeto bem como as estatísticas da aparência local. Este modelo probabilístico de relacionamento entre aparência local e spacial mostra desempenho comparável com a detecção de face baseadas em redes neurais. Em [53] apud [MHY99] uma alta ordem estatística baseada em algoritmos de clusterização e um molelo Markov escondido, esquema (HMM) são propostos para detecção de face. No primeiro método, a distribuição desconhecida da face e face com cópia são modeladas usando alta ordem estatística. A conjectura é que a distribuição de diferentes padrões face deve ser governada por funções Gaussian multidimensionais. Um perceptron multicamada é usado para classificação, em [45] apud [MHY99]. O segundo método usa uma HMM para aprender entre face e não face e transições de face e não face. A sequência de observação é gerada no domínio de transformação pela comparação de cada subimagem máscara com uma base de conhecimento consistindo de 6 faces e 6 faces como centróides, similar a métrica de distância usada em [45] apud [MHY99].Exemplo de Ferramenta de Detecção de Face com Técnicas EstatísticasA seguir é apresentado uma ferramenta desenvolvida por [Vis98] usando técnicas estatísticas (Autofaces e Pirâmide de Gaussian) para a detecção de face.
Objetivo O objetivo da ferramenta
é detectar faces de diferentes tamanhos em imagens em escala de
cinza. O programa
Considerações
As faces não são inclinadas ou rotacionada na imagem. Algoritmo
Determinações
Foram determinados códigos MATLAB para geração de pirâmides. Passos de Pré-Processamento
ParâmetrosOs valores dos parâmetros foram mantidos para todas as imagens mostradas.
Algoritmo
A posição da mínima distância de Mahalanobis que cruza todas as escalas e posições na janela de entrada é encontrada. Esta é a posição e a escala onde a probabilidade de se encontrar uma face na imagem é máxima. Imagens de SaídaAs seguintes imagens foram obtidas tanto pelo uso da distância DFFS como da DIFS:
Imagem obtida usando somente a distância DIFS e ignorando DFFS:
Imagens onde o programa falha:
DesempenhoO programa tem sucesso no encontro de 8 das 10 faces segundo demonstrado em [Vis98]. Interessantemente, em uma das imagens onde ela falha, ele parece preferir uma face de lado, parcialmente ocluída ao fundo com relação à face que está de frente, veja Fig.14. Este problema pode ser resolvido usando mais níveis na pirâmide Laplaciana da entrada.Problemas e Críticas Apresentadas
Na maioria dos casos, o uso de DFFS melhora o desempenho, mas em alguns, ele atrasa o desempenho. A escolha de usar ou não usar a distância DFFS se dá pela experiência. ImplementaçãoEsta ferramenta de detecção de face foi programada em MATLAB 5.2 usando a caixa de ferramentas de processamento de imagem. O código desta aplicação foi dividido nos seguintes arquivos:
showme.m ConclusãoEste trabalho teve como objetivo apresentar um estudo sobre reconhecimento de padrões estatístico e mostror vários exemplos de abordagens estatísticas empregadas no reconhecimento de faces humanas. Dentre as várias abordagens vistas, temos que o método de correlação atua com alta precisão, se iluminação artificial e normalização do tamanho são aplicadas, sob variações na expressão facial e posições. Entretanto, este método é computacionalmente muito complexo. A mais eficiente abordagem para o reconhecimento de face é o método autoface. Embora o desempenho de reconhecimento é menor do que o método de correlação, a redução substancial na complexidade do método autoface faz este método ser mais atrativo. A taxa de reconhecimento aumenta com o número de componentes principais usados (autofaces) e quanto mais componentes principais são usados, o desempenho aproxima-se do da correlação. Vimos que por meio da abordagem paramétrica, onde os parâmetros são conhecidos eou estimados, extende-se a capacidade do método Autoface para reconhecimento de objetos em imagens 3D, fazendo com que um espaço paramétrico descreva a identificação de um objeto visulização e iluminação. A partir da decomposição deste espaço desenvolveu-se uma abordagem em autoespaço chamada "view-based" que se realiza sob condição gerais de visão, para o reconhecimento de face. No reconhecimento de faces usando autocaracterísticas são utilizadas características faciais gerando uma representação modular da face e sua potencial vatagem é a habilidade de superar as desvantagens do método autoface padrão, que pode ser facilmente enganado por grosseiras variações na imagem de entrada (chapéu, barbas, etc). O método de discriminante linear de Fisher é proposto para reduzir a dimensionalidade do espaço de características, como exemplos teve-se os trabalhos de [19] e [20] apud [Nef96] nos quais tratam respectivamente, Autofaces x Fisherfaces no reconhecimento usando classes específicas de projeções lineares e reconhecimento de faces usando discriminantes autovetores. Já o método baseado em HMM o qual é bem sucedido no reconhecimente de voz, mostrou que é significantemente melhor para o reconhecimento de face do que o método Autoface. Istó é devido ao fato de que o método baseado em HMM oferece uma solução para detecção de características faciais bem como reconhecimento de face. Entretanto a 1D HMM contínuas são computacionalmente mais complexas do que o método Autoface. A solução é reduzir o tempo de execução deste método com o uso de HMM discreta. Foi apresentado também um método que reune misturas de subespaços linear local, que tem melhor e mais robusto desempenho do que o classificador "vizinho mais próximo" operando em um subespaço de análise componente principal ou expansão Karhunen-Loeve. Foi apresentado também um breve estudo sobre métodos de detecção de face com abordagens estatísticas, e para que um sistema de detecção de face seja robusto, projetistas devem-se preocupar com os seguintes problemas: utilização de mistura de diferentes classificadores, efeitos das condições de iluminação, detecção da face em diferentes posições, experimentos empíricos para comparações e uma base de bados para "bechmarking". Recentemente muitas abordagens estatísticas usam uma mistura Gaussian ou uma mistura de subespaços para reconhecimento de faces humanas. O problema é que face humana é algo que não pode ser propriamente representado por um padrão simples "cluster". Além do mais, a maioria dos sistemas de detecção usam face com expressões neutras e pouco características faciais. Para se construir um sistema de detecção que possa identificar faces, é natural esperar que diferentes clusters sejam melhor representados por diferentes subespaços. Deteção de face é um problema muito desafiante e interessante, e portanto é o primeiro passo prático e importante para se construir um completo sistema de reconhecimento de face automático. E como há um enorme e crescente interesse nas interações humano-computador, é importante investigar métodos que possam ter desempenhos cada vez mais rápidos e robustos. Bibliografia
|
|||
![]() |
![]() |
![]() |