Extração de tabelas PDF API

Extrair tabelas estruturadas de arquivos PDF e devolvê-las em formato JSON Excel ou CSV Detecta automaticamente tabelas individuais ou múltiplas admite PDFs de várias páginas e entrega uma saída determinista legível por máquina para pipelines de dados e automação

Use esta API do seu agente de IA via MCP

Funciona com OpenClaw, Claude Code/Desktop, Cursor, Windsurf, Cline e qualquer cliente de IA compatível com MCP.

Docs e configuração

Crie uma skill envolvendo este MCP: https://mcp.zylalabs.com/mcp?apikey=YOUR_ZYLA_API_KEY

API de Extração de Tabelas PDF permite que os desenvolvedores extraíam de maneira confiável dados tabulares estruturados de documentos PDF e os convertem em formatos legíveis por máquinas como JSON, Excel ou CSV.

Esta API se concentra exclusivamente na extração verdadeira de tabelas, não na análise de texto geral de PDF. Detecta automaticamente estruturas tabulares baseadas em grades dentro dos PDFs e ignora o conteúdo não tabular, como títulos, cabeçalhos, rodapés e parágrafos. Isso a torna ideal para automação, pipelines ETL, fluxos de trabalho de ingestão de dados e sistemas backend que exigem saída limpa e previsível.

Capacidades Chave

Detecta e extrai uma ou várias tabelas de um único PDF
Suporta tabelas que abrangem múltiplas páginas
Retorna resultados em JSON, Excel (.xlsx) ou CSV
Múltiplas tabelas são retornadas como:
- Um array em JSON
- Planilhas separadas em Excel
- Arquivos CSV separados empacotados em um arquivo ZIP
Saída determinística: a mesma entrada sempre produz o mesmo resultado
Pontuações de confiança opcionais por tabela
Projetada para automação e casos de uso em backend

O Que Esta API Faz

Identifica dados tabulares com base no layout e na estrutura
Preserva o alinhamento de linhas e colunas
Lida com tabelas irregulares, células vazias e linhas desiguais
Retorna uma saída estruturada adequada para processamento programático

O Que Esta API NÃO Faz

Não extrai texto livre fora das tabelas
Não realiza OCR em PDFs digitalizados
Não tenta interpretar semanticamente o conteúdo da tabela
Não modifica nem enriquece os valores dos dados

Exemplos de Casos de Uso

Extrair itens de faturas de documentos PDF
Converter relatórios financeiros em conjuntos de dados estruturados
Ingerir dados tabulares de PDFs enviados pelos clientes
Automatizar pipelines de dados a partir de fontes PDF
Substituir fluxos de trabalho manuais de copiar e colar

Formatos de Saída

JSON

Tabelas retornadas como um array
Cada tabela inclui linhas, intervalo de páginas e pontuação de confiança

Excel (.xlsx)

Um livro de trabalho por solicitação
Cada tabela colocada em uma planilha separada

CSV

Cada tabela exportada como um arquivo CSV separado
Todos os arquivos CSV retornados em um arquivo ZIP

Características da API

Sem estado e respeitosa com a privacidade
Nenhum dado é armazenado após o processamento
Comunicação segura apenas por HTTPS
Adequada para cargas de trabalho em produção

Limitações

Aplicam limites de tamanho máximo para PDF
Apenas PDFs baseados em texto (sem suporte para OCR)
As tabelas devem estar estruturadas visualmente (grades ou filas alinhadas)

Projetado Para Desenvolvedores

Esta API é projetada para desenvolvedores que necessitam de uma extração de tabelas confiável, saída previsível e integração limpa em sistemas automatizados — sem a complexidade ou o custo de grandes plataformas de documentos empresariais.

Resumo

Se você precisa de dados estruturados de tabelas PDF — não blobs de texto, não imagens e não limpeza manual — esta API fornece uma solução rápida, determinística e amigável para os desenvolvedores.

Documentação da API

Endpoints

Extrair Dados

Extrai dados tabulares estruturados de documentos PDF e os retorna em formatos legíveis por máquina Detecta automaticamente uma ou mais tabelas dentro de um PDF ignora texto não tabular e produz dados limpos em JSON Excel (múltiplas planilhas) ou CSV Projetado para automação pipelines de dados e processamento de backend com resultados determinísticos

                                                                            
POST https://www.zylalabs.com/api/11754/pdf+table+extraction+api/22299/extract+data

Extrair Dados - Recursos do endpoint

Objeto	Descrição
`pages`	Opcional Pages to extract. Examples: "all", "1,3-5", or [1,3,4,5]
`fileBase64`	Opcional Base64-encoded PDF (alternative to multipart upload)
`Corpo da requisição`	[Obrigatório] Arquivo binário

Testar endpoint

RESPOSTA DE EXEMPLO DA API

       
                                                                                                        
                                                                                                                                                                                                                                                                                                                                        {"tables":[{"tableIndex":0,"pageRange":[1,1],"rows":[["Lorem ipsum","","","","","","","",""],["condimentum.","Vivamus","dapibus","sodales","ex,","vitae","malesuada","ipsum","cursus"],["convallis. Maecenas sed egestas nulla, ac condimentum orci.","Mauris diam felis,","","","","","","",""],["ac accumsan nunc vehicula vitae.","Nulla eget justo in felis tristique fringilla. Morbi sit amet","","","","","","",""],["","Maecenas non lorem quis tellus placerat varius.","","","","","","",""],["","Aenean congue fringilla justo ut aliquam.","","","","","","",""],["","Mauris id ex erat.","Nunc vulputate neque vitae justo facilisis, non condimentum ante","","","","","",""],["sagittis.","","","","","","","",""],["","Morbi viverra semper lorem nec molestie.","","","","","","",""],["","Maecenas tincidunt est efficitur ligula euismod, sit amet ornare est vulputate.","","","","","","",""],["12","","","","","","","",""],["10","","","","","","","",""],["8","","","","","","","",""],["Column 1","","","","","","","",""],["6","","","","","","","",""],["Column 2","","","","","","","",""],["4 Column 3","","","","","","","",""],["2","","","","","","","",""],["0","","","","","","","",""],["Row 1","Row 2","Row 3","Row 4","","","","",""]],"rowCount":20,"columnCount":9,"strategyUsed":"stream","warnings":[],"confidence":0.85},{"tableIndex":1,"pageRange":[2,2],"rows":[["velit.","Pellentesque","fermentum","nisl","vitae","fringilla","venenatis.","Etiam","id","mauris","vitae","orci"],["a.","","","","","","","","","","",""],["Lorem ipsum","Lorem ipsum","Lorem ipsum","","","","","","","","",""],["1","In eleifend velit vitae libero sollicitudin euismod.","Lorem","","","","","","","","",""],["2","Cras fringilla ipsum magna, in fringilla dui commodo Ipsum","","","","","","","","","",""],["a.","","","","","","","","","","",""],["3","Aliquam erat volutpat.","Lorem","","","","","","","","",""],["4","Fusce vitae vestibulum velit.","Lorem","","","","","","","","",""],["5","Etiam vehicula luctus fermentum.","Ipsum","","","","","","","","",""],["et","pulvinar","nunc.","Pellentesque","fringilla","mollis","efficitur.","Nullam","venenatis","commodo","",""]],"rowCount":10,"columnCount":12,"strategyUsed":"stream","warnings":[],"confidence":0.85},{"tableIndex":2,"pageRange":[3,3],"rows":[["elit.","","","","","","","","","","",""],["dictum tellus.","","","","","","","","","","",""],["Aliquam","erat","volutpat.","Vestibulum","in","egestas","velit.","Pellentesque","fermentum","nisl","vitae",""],["fringilla","venenatis.","Etiam","id","mauris","vitae","orci","maximus","ultricies.","Cras","fringilla","ipsum"],["et","pulvinar","nunc.","Pellentesque","fringilla","mollis","efficitur.","Nullam","venenatis","commodo","",""]],"rowCount":5,"columnCount":12,"strategyUsed":"stream","warnings":[],"confidence":0.85}],"summary":{"tableCount":3,"pageCount":4}}

Extrair Dados - TRECHOS DE CÓDIGO


    curl --location 'https://zylalabs.com/api/11754/pdf+table+extraction+api/22299/extract+data' \
    --header 'Content-Type: application/json' \ 
    --form 'image=@"FILE_PATH"'

Chave de acesso à API e autenticação

Após se cadastrar, cada desenvolvedor recebe uma chave de acesso à API pessoal, uma combinação única de letras e dígitos para acessar nosso endpoint de API. Para autenticar com a Extração de tabelas PDF API basta incluir seu token Bearer no cabeçalho Authorization.

Cabeçalhos

Cabeçalho	Descrição
`Authorization`	[Obrigatório] Deve ser `Bearer access_key`. Veja "Sua chave de acesso à API" acima quando você estiver inscrito.

Perguntas

Preços simples e transparentes

Sem compromisso de longo prazo. Faça upgrade, downgrade ou cancele a qualquer momento. O teste gratuito inclui até 50 requisições.

Mensal Anual

(Economize 2 meses com cobrança anual 🎉)