|
|
|
|
- Presentación
- ¿Cómo utilizar el OCR nativo?
- Modelo del idioma
- Leer una imagen o PDF
- Observaciones
OCR: Convertir una imagen en texto
El sistema OCR (Reconocimiento óptico de caracteres) analiza una imagen y extrae el texto. A partir de la versión 26, se pueden integrar las funcionalidades del OCR en las aplicaciones y sitios. El motor de OCR es una red neuronal. El OCR descifra las imágenes que contienen texto. ¡Tome una foto de un contrato con su teléfono, y recupere el texto en Word! El OCR también es útil en los Sistemas de Gestión de Documentos (SGD) para indexar contenidos. ¿Cómo utilizar el OCR nativo? Para extraer el texto mediante el OCR nativo: - Si es necesario, cargue el modelo que corresponde al idioma utilizado.
- Utilice la función OCRExtractText e indique el nombre de la imagen o del documento PDF a analizar.
Modelo del idioma Los siguientes modelos de idiomas se proporcionan de forma predeterminada: español, inglés y francés. Se utilizará el modelo que corresponde al idioma actual. Para que el OCR nativo reconozca otros idiomas, simplemente: - Proporcione el modelo de entrenamiento de la red neural que corresponde al idioma (archivo ".traineddata" a incluir en el directorio del ejecutable):
- Utilice la función OCRLoadLanguage para cargar el idioma deseado.
Leer una imagen o PDF La función OCRExtractText devuelve el texto de la imagen. Solo se tiene en cuenta el contenido de tipo texto. Si es necesario, esta función se puede utilizar para analizar solo una parte de una imagen: simplemente especifique las coordenadas de la parte que desea que se analice. La función OCRExtractTextBlock analiza una imagen y devuelve un conjunto de rectángulos que contienen cada uno un bloque de texto. Observaciones - Para obtener mejores resultados, se recomienda:
- Utilizar una imagen de alta resolución.
- Si es posible, recortar la imagen alrededor del texto (evite las áreas innecesarias).
- Limitar la inclinación del texto. Si la imagen está ligeramente inclinada, el OCR puede detectar el texto, pero bajará la calidad.
Se pueden leer las imágenes inclinadas. - Limitar el número de modelos/idiomas utilizados.
- Tenga en cuenta que, si la imagen utilizada corresponde a un control Imagen, se manipulará directamente la imagen de origen. Por lo tanto, los cambios realizados en el control Imagen (tamaño de la imagen, por ejemplo) no se tendrán en cuenta. Para aplicar estos cambios, es necesario guardar la imagen.
- Tenga en cuenta que, si la imagen utilizada (a través de un control Imagen) es un archivo PDF, su calidad cambiará a 300 DPI.
- El OCR solo puede detectar texto impreso. No reconoce el texto escrito a mano.
- No se reconoce el texto "en blanco".
Esta página también está disponible para…
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|