# ServiÃ§o OCR - Prova de Conceito para ocerizaÃ§Ã£o de imagens e PDFs usando Tesseract em portuguÃªs ## Projeto implementado em python, com o uso do Tesseract - O objetivo Ã© analisar qualidade, performance e regiÃµes identificadas pelo Tesseract para permitir a criaÃ§Ã£o de regras ou treinamento de modelos para identificar regiÃµes como CitaÃ§Ãµes, Estampas laterais, CabeÃ§alho e RodapÃ©. A identificaÃ§Ã£o pode ser feita por regras simples, como margens em pÃ¡ginas padronizadas (A4, Carta, Legal etc). E tambÃ©m pode ser identificado por repetiÃ§Ãµes de textos em Ã¡reas especÃficas, como cabeÃ§alhos e rodapÃ©s. ## O que estÃ¡ disponÃvel - Foi criado um serviÃ§o flask que recebe imagens ou PDFs e processa eles em batch, permitindo acompanhar a fila de tarefas e visualizar os arquivos da extraÃ§Ã£o (html) ou baixar uma versÃ£o Markdown ou PDF da anÃ¡lise realizada. - As regiÃµes estÃ£o sendo identificadas por posicionamento (estampas e citaÃ§Ãµes) ou repetiÃ§Ã£o e posicionamento (cabeÃ§alhos e rodapÃ©s). - A tela apresenta o motivo da identificaÃ§Ã£o do tipo da regiÃ£o - Pode-se filtrar o retorno, removendo regiÃµes nÃ£o desejadas - O arquivo `config.json` contÃ©m configuraÃ§Ãµes do serviÃ§o como o nome das pastas, DPIs para as anÃ¡lises, nÃºmero de workers, dentre outros. Caso nÃ£o exista, ele serÃ¡ criado com o padrÃ£o de cada configuraÃ§Ã£o. - O campo `token` do serviÃ§o Ã© usado para listar as tarefas do usuÃ¡rio, podendo ser digitado livremente ou serÃ¡ criado ao enviar um arquivo a primeira vez. A ideia Ã© o usuÃ¡rio enviar vÃ¡rios arquivos no mesmo token. O usuÃ¡rio precisa dele para acompanhar as tarefas enviadas. NÃ£o Ã© garantida a seguranÃ§a com esse token, apenas restringe um pouco o livre acesso Ã s tarefas entre usuÃ¡rios pois Ã© sÃ³ uma poc. - O serviÃ§o instancia a classe `ProcessarOcr` disponÃvel no arquivo `util_processar_pasta.py` para processar continuamente as tarefas de OCR enviadas pela tela. - Pode-se acionar o serviÃ§o de processamento contÃnuo independente do serviÃ§o flask chamando `python util_processar_pasta.py` usando o `config.json` para ajustar as configuraÃ§Ãµes desejadas. - O processo em background realiza o OCR de PDF para PDF (pasta entrada) ou PDF/PNG/JPG/TIF para HTML/MD (pasta entrada_img) e atualiza o status das tarefas em arquivos `nome_arquivo_entrada.status.json` - .\entrada - .\entrada_img (processa imagens ou PDFs com a saÃda no formato json de anÃ¡lise, MD e/ou HTML - .\processamento - .\processamento_img - .\erro - .\erro_img - .\saida - .\saida_img > ðŸ’¡ _{Nota: Ã© feito um controle de todos os arquivos enviados e status de cada um para acompanhamento, tanto no caso de PDF para PDF como PDF para MD/HTML. O arquivo fica na pasta `saida` ou `saida_img` dependendo do tipo de processamento solicitado.
Caso um arquivo seja enviado novamente para OCR, serÃ¡ identificado pelo hash e nÃ£o serÃ¡ processado duas vezes. Para sobrepor o processamento anterior, basta selecionar a opÃ§Ã£o "ignorar-cache" ao enviar o arquivo.} ![exemplo recorte tela serviÃ§o](./img/servico_ocr_20230223_3.png?raw=true "Exemplo recorte tela serviÃ§o - HTML e PDF") ## Exemplo de extraÃ§Ã£o e metadados gerados ``` [ {'pagina' : 0 ...n nÃºmero da pÃ¡gina 'box' : 0 ...n reinicia a cada pÃ¡gina 'id' : 0 ...n atÃ© o Ãºltimo box (na ordem para leitura) 'pagina_la' : [500,75], -> largura e altura da pÃ¡gina 'pagina_tipo' : A4, Legal .. -> tipo da pÃ¡gina identificado 'box_xyla' : [10,14,30,45], -> x,y largura, altura da caixa 'alt_linhas' : 23, -> mÃ©dia da altura das linhas do box 'alt_linhas_med' : 30 -> mÃ©dia da altura das linhas da pÃ¡gina 'qtd_linhas' : 3, -> linhas da caixa 'qtd_boxes' : 2, -> boxes na pÃ¡gina 'qtd_letras' : 44, -> letras Ãºnicas 'qtd_palavras' : 22, -> palavras Ãºnicas 'margens_edsi' : [5,5,3,7] -> margens atÃ© a caixa mais prÃ³xima - esquerda, direita, superior, inferior 'bordas' : [D,E,S,I..] -> Direita, Esquerda, Superior, Inferior (estÃ¡ em uma ou mais bordas) 'texto' : 'bla bla bla', 'tipo_sugerido': ... descriÃ§Ã£o do motivo do tipo sugerido (bordas, repetiÃ§Ã£o etc) 'tipo': C, R, T... CabeÃ§alho, RodapÃ©, TÃtulo, Folha, CitaÃ§Ã£o ... }, ] ``` ## TODO - apresentaÃ§Ã£o da anÃ¡lise feita nas imagens enviadas para o Tesseract - em `util_ocr.py` tem um exemplo funcional, falta apresentar no serviÃ§o - exportaÃ§Ã£o de trechos para fine tunning do Tesseract - acionamento por api para uso em outros projetos - criaÃ§Ã£o de componente para reaproveitamento - aplicaÃ§Ã£o de extraÃ§Ãµes de entidade nas caixas de texto, respeitando o posicionamento - identificar inÃcio e fim de caracteres de cada box, para melhor posicionamento de extraÃ§Ãµes - melhor compactaÃ§Ã£o de arquivos PDF com OCR - anÃ¡lise se o PDF de entrada precisa de OCR ou pode ser analisado (estampas, cabeÃ§alho, rodapÃ©, citaÃ§Ãµes) com o texto existente - possibilidade de recriar a camada de OCR no pdf original sem precisar criar um novo que pode ficar maior ## dependÃªncias para o linux - Testado WSL com Debian - sudo apt-get update - para a manipulaÃ§Ã£o de imagens pelo Pillow - sudo apt-get install poppler-utils - tesseract - sudo apt-get install tesseract-ocr tesseract-ocr-por - sudo apt-get install libtesseract-dev -y - sudo apt-get install -y libleptonica-dev ## Ghostscript para compactaÃ§Ã£o - nem sempre resolve compactar o PDF gerado, mas para imagens muito simples (PB) pode compactar bem - Ã© usado pelo serviÃ§o de processamento em background apÃ³s gerar um PDF com camada de OCR - sudo apt-get install ghostscript