Extraer y copiar los datos de una tabla en archivos PDF
Con Tabula podrás seleccionar y extraer una tabla de un archivo PDF y luego guardar la información de la misma en formato CSV, TLS, etcétera. Pero la plataforma también te permite seleccionar una fila o columna, para guardar los datos de una fila o columna de una tabla de un archivo PDF.A diferencias de otros programas que extraen los datos de una tabla de un archivo PDF (ByteScout PDF Multitool o 3*Four PDF), Tabula se caracteriza por sus sencillez y eficacia al momento de la extracción de las tablas.
Una vez descargado el programa desde su página oficial, observarás como se ejecutará una ventada CMD y se abrirá una pestaña del navegador Web predeterminado de tu ordenador que será la interfaz del entorno. (http://127.0.0.1:8080/).
Lo primero que tienes que hacer es buscar el archivo PDF en tu equipo y posteriormente pinchar en el botón “Import”, en este punto la utilidad cargará el archivo PDF en la pestaña del navegador Web y lo dividirá en páginas.
Ahora eliges la página de la cual quieres extraer las tablas y con el ratón seleccionas la tabla (o parte de ella) y pinchas en el botón verde ubicado en la parte superior de la interfaz.
Pasarás a otro nivel del proceso, donde observarás la extracción del contenido de la tabla. Solo te resta seleccionar el formato de salida (CSV, TSV, JSON, ZIP de CSV o Script) y para finalizar la extracción tendrás que pinchar en el botón exportar o bien guardar la información en el portapapeles.
Como puedes observar trabajar con el entorno es realmente sencillo, pero si quieres hacer las cosas un poco más fáciles, podrás pinchar en el botón “Autodetected Tables” y la plataforma detectará todas las tablas de todas las página del PDF y lo extraerá en el formato que selecciones.
Realmente la herramienta es una de las opciones más sencillas para extraer tablas de un archivo PDF, pero su función de detectar todas las tablas de un documento y extraerlas en un archivo único, la destacan de otras utilidades similares.
Tabula es un programa gratuito que se encuentra disponible para sistemas operativos Windows y Mac OS X.
La entrada Extraer y copiar los datos de una tabla en archivos PDF se publicó primero en NeoTeo.