GNU/Linux >> Tutoriales Linux >  >> Linux

gImageReader:extraiga texto de imágenes y PDF en Linux

gImageReader es un lector de PDF gratuito y de código abierto con la capacidad de extraer texto de imágenes y archivos PDF. Está construido como un front-end Gtk/Qt simple para Tesseract-OCR , un motor OCR de código abierto para reconocer textos y patrones en documentos e imágenes usando inteligencia artificial .

Por sí solo, Tesseract es una herramienta de línea de comandos que está restringida al uso de usuarios de Linux lo suficientemente familiarizados con sus terminales. Gracias a gImageReader , ahora todos pueden aprovechar la eficiencia de OCR del motor.

gImageReader funciona escaneando textos de PDF o archivo de imagen en cualquiera de los varios idiomas que soporta gracias a la existencia de caracteres Unicode. Cuenta con una interfaz de usuario personalizable simple y bien organizada a través de la cual puede realizar tareas de revisión ortográfica y traducción.

Funciones en gImageReader

  • Software gratuito y de código abierto. Código fuente disponible en GitHub.
  • Disponible en plataformas GNU/Linux y Windows.
  • Interfaz de usuario temática con un diseño de edición familiar.
  • Importe documentos PDF e imágenes desde el disco, dispositivos de escaneo, capturas de pantalla y portapapeles.
  • Genera documentos PDF a partir de documentos hOCR.
  • Definición de área de reconocimiento manual o automático.
  • Procese múltiples imágenes y documentos en lotes.
  • Reconocer documentos hOCR o texto sin formato.
  • Texto reconocido que se muestra junto a las imágenes.
  • Procesar posteriormente el texto reconocido, incluida la revisión ortográfica.

gImageReader es fácil de usar y admite el trabajo con documentos impresos, así como instantáneas de los medios cargados, p. capturas de pantalla Incluso tiene la opción de seleccionar el área de texto que le interesa y agregar solo el texto que necesita. En última instancia, gImagereader funciona como un lector de PDF y una herramienta de extracción de texto. Tonterías.

Instalar gImageReader en Linux

Para usar gImageReader al máximo, debe instalar manualmente Tesseract paquetes de idiomas para que pueda analizar correctamente las imágenes y los archivos. El paquete se llama 'Tesseract-ocr-eng ‘ y está disponible desde el administrador de software en Debian y Fedora distribuciones.

Si está ejecutando Ubuntu , simplemente puede agregar el PPA y ejecute el comando de instalación usando los siguientes comandos:

$ sudo add-apt-repository ppa:sandromani/gimagereader
$ sudo apt update
$ sudo apt install gimagereader

En Debian , Fedora y OpenSUSE instálelo desde el administrador de paquetes.

$ sudo apt install gimagereader     [On Debian]
$ sudo dnf install gimagereader     [On Fedora]
$ sudo zypper install gimagereader  [On OpenSuse]

No se sienta excluido si está ejecutando Arch Linux o cualquiera de sus derivados. El AURO te tiene cubierto. Y si prefiere reconstruir la aplicación desde el origen, las instrucciones se encuentran en el enlace Wiki del repositorio de GitHub.

¿Eres de los que extraen texto impreso de imágenes? Incluso puede tomar instantáneas de áreas seleccionadas con su teléfono y cargarlas en su computadora portátil. Lo que es aún más genial es su soporte multilingüe, que aunque no es perfecto, ya es una de las mejores opciones en la comunidad en este momento.

gImageReader se encuentra entre los mejores lectores de PDF en el mundo de código abierto, especialmente con su capacidad de OCR, así que pruébelo y vea cómo le gusta.

Como de costumbre, puede compartir sus experiencias con la aplicación con nosotros si tiene alguna. Y para agregar otras sugerencias en la sección de comentarios a continuación.


Linux
  1. Cómo extraer archivos .gz y .tar.gz en Linux

  2. ¿Extraer gráficos de PDF?

  3. ¿Cómo usar sched_getaffinity y sched_setaffinity en Linux desde C?

  4. ¿Cómo extraer texto con OCR de un PDF en Linux?

  5. ¿Herramientas para extraer texto de powerpoint pptx en linux?

Cómo crear directorios desde un archivo de texto en Linux

Cómo quitar la contraseña de un archivo PDF en Linux

Cómo extraer direcciones de correo electrónico de un archivo de texto en Linux

Cómo crear un video a partir de imágenes en Linux

Cómo extraer audio de video en Ubuntu y otras distribuciones de Linux

Cómo convertir PDF a imágenes PNG y viceversa en Linux