"Si tú no trabajas por tus sueños, alguien te contratará para que trabajes por los suyos”

Steve Jobs

Afiliado
Dominios3Euros

Seguramente a muchos os paso que escaneas un documento generando un pdf, pero luego cuando utilizas ese pdf , intentas seleccionar el texto que tiene ese documento no te deja. El motivo es porque realmente es una imagen.

Este tipo ficheros suelen ocupar mucho mas que los pdf que realmente tienen texto, por lo que es recomendable que todo documento deba ser escaneado con tecnologia OCR, que es la abreviatura  reconocimiento óptico de caracteres en ingles.

¿ Si tengo una imagen puedo convertirlo en pdf pero reconociendo el texto ?

Hay servicios online, donde enviar el documento y este le pasa programa OCR y te devuelve un documento con caracteres y no imagenes. :-)

Listado servicios online

- OnlineOCR -> https://www.onlineocr.net/es/service/ocrwebservice : Esta pagina hasta tiene API para poder desarrollar nosotros la interfaz y poder obtener esos documentos.

OCR en Linux

Nosotros en nuestros equipos utilizamos Debian, por ello nos ponemos a buscar información y no escontramos linuxadictos este post donde nos habla de tesseract-ocrtesseract-ocr, comentando que es muy buena.

[FALTA PROBARLA]