Extração de tabelas PDF API

Extrair tabelas estruturadas de arquivos PDF e devolvê-las em formato JSON Excel ou CSV Detecta automaticamente tabelas individuais ou múltiplas admite PDFs de várias páginas e entrega uma saída determinista legível por máquina para pipelines de dados e automação
Use esta API do seu agente de IA via MCP
Funciona com OpenClaw, Claude Code/Desktop, Cursor, Windsurf, Cline e qualquer cliente de IA compatível com MCP.
Docs e configuração
Crie uma skill envolvendo este MCP: https://mcp.zylalabs.com/mcp?apikey=YOUR_ZYLA_API_KEY

API de Extração de Tabelas PDF permite que os desenvolvedores extraíam de maneira confiável dados tabulares estruturados de documentos PDF e os convertem em formatos legíveis por máquinas como JSON, Excel ou CSV.

Esta API se concentra exclusivamente na extração verdadeira de tabelas, não na análise de texto geral de PDF. Detecta automaticamente estruturas tabulares baseadas em grades dentro dos PDFs e ignora o conteúdo não tabular, como títulos, cabeçalhos, rodapés e parágrafos. Isso a torna ideal para automação, pipelines ETL, fluxos de trabalho de ingestão de dados e sistemas backend que exigem saída limpa e previsível.


Capacidades Chave

  • Detecta e extrai uma ou várias tabelas de um único PDF

  • Suporta tabelas que abrangem múltiplas páginas

  • Retorna resultados em JSON, Excel (.xlsx) ou CSV

  • Múltiplas tabelas são retornadas como:

    • Um array em JSON

    • Planilhas separadas em Excel

    • Arquivos CSV separados empacotados em um arquivo ZIP

  • Saída determinística: a mesma entrada sempre produz o mesmo resultado

  • Pontuações de confiança opcionais por tabela

  • Projetada para automação e casos de uso em backend


O Que Esta API Faz

  • Identifica dados tabulares com base no layout e na estrutura

  • Preserva o alinhamento de linhas e colunas

  • Lida com tabelas irregulares, células vazias e linhas desiguais

  • Retorna uma saída estruturada adequada para processamento programático


O Que Esta API NÃO Faz

  • Não extrai texto livre fora das tabelas

  • Não realiza OCR em PDFs digitalizados

  • Não tenta interpretar semanticamente o conteúdo da tabela

  • Não modifica nem enriquece os valores dos dados


Exemplos de Casos de Uso

  • Extrair itens de faturas de documentos PDF

  • Converter relatórios financeiros em conjuntos de dados estruturados

  • Ingerir dados tabulares de PDFs enviados pelos clientes

  • Automatizar pipelines de dados a partir de fontes PDF

  • Substituir fluxos de trabalho manuais de copiar e colar


Formatos de Saída

JSON

  • Tabelas retornadas como um array

  • Cada tabela inclui linhas, intervalo de páginas e pontuação de confiança

Excel (.xlsx)

  • Um livro de trabalho por solicitação

  • Cada tabela colocada em uma planilha separada

CSV

  • Cada tabela exportada como um arquivo CSV separado

  • Todos os arquivos CSV retornados em um arquivo ZIP


Características da API

  • Sem estado e respeitosa com a privacidade

  • Nenhum dado é armazenado após o processamento

  • Comunicação segura apenas por HTTPS

  • Adequada para cargas de trabalho em produção


Limitações

  • Aplicam limites de tamanho máximo para PDF

  • Apenas PDFs baseados em texto (sem suporte para OCR)

  • As tabelas devem estar estruturadas visualmente (grades ou filas alinhadas)


Projetado Para Desenvolvedores

Esta API é projetada para desenvolvedores que necessitam de uma extração de tabelas confiável, saída previsível e integração limpa em sistemas automatizados — sem a complexidade ou o custo de grandes plataformas de documentos empresariais.


Resumo

Se você precisa de dados estruturados de tabelas PDF — não blobs de texto, não imagens e não limpeza manual — esta API fornece uma solução rápida, determinística e amigável para os desenvolvedores.

Documentação da API

Endpoints


Extrai dados tabulares estruturados de documentos PDF e os retorna em formatos legíveis por máquina Detecta automaticamente uma ou mais tabelas dentro de um PDF ignora texto não tabular e produz dados limpos em JSON Excel (múltiplas planilhas) ou CSV Projetado para automação pipelines de dados e processamento de backend com resultados determinísticos


                                                                            
POST https://www.zylalabs.com/api/11754/pdf+table+extraction+api/22299/extract+data
                                                                            
                                                                        

Extrair Dados - Recursos do endpoint

Objeto Descrição
pages Opcional Pages to extract. Examples: "all", "1,3-5", or [1,3,4,5]
fileBase64 Opcional Base64-encoded PDF (alternative to multipart upload)
Corpo da requisição [Obrigatório] Arquivo binário
Testar endpoint

RESPOSTA DE EXEMPLO DA API

       
                                                                                                        
                                                                                                                                                                                                                                                                                                                                        {"tables":[{"tableIndex":0,"pageRange":[1,1],"rows":[["Lorem ipsum","","","","","","","",""],["condimentum.","Vivamus","dapibus","sodales","ex,","vitae","malesuada","ipsum","cursus"],["convallis. Maecenas sed egestas nulla, ac condimentum orci.","Mauris diam felis,","","","","","","",""],["ac accumsan nunc vehicula vitae.","Nulla eget justo in felis tristique fringilla. Morbi sit amet","","","","","","",""],["","Maecenas non lorem quis tellus placerat varius.","","","","","","",""],["","Aenean congue fringilla justo ut aliquam.","","","","","","",""],["","Mauris id ex erat.","Nunc vulputate neque vitae justo facilisis, non condimentum ante","","","","","",""],["sagittis.","","","","","","","",""],["","Morbi viverra semper lorem nec molestie.","","","","","","",""],["","Maecenas tincidunt est efficitur ligula euismod, sit amet ornare est vulputate.","","","","","","",""],["12","","","","","","","",""],["10","","","","","","","",""],["8","","","","","","","",""],["Column 1","","","","","","","",""],["6","","","","","","","",""],["Column 2","","","","","","","",""],["4 Column 3","","","","","","","",""],["2","","","","","","","",""],["0","","","","","","","",""],["Row 1","Row 2","Row 3","Row 4","","","","",""]],"rowCount":20,"columnCount":9,"strategyUsed":"stream","warnings":[],"confidence":0.85},{"tableIndex":1,"pageRange":[2,2],"rows":[["velit.","Pellentesque","fermentum","nisl","vitae","fringilla","venenatis.","Etiam","id","mauris","vitae","orci"],["a.","","","","","","","","","","",""],["Lorem ipsum","Lorem ipsum","Lorem ipsum","","","","","","","","",""],["1","In eleifend velit vitae libero sollicitudin euismod.","Lorem","","","","","","","","",""],["2","Cras fringilla ipsum magna, in fringilla dui commodo Ipsum","","","","","","","","","",""],["a.","","","","","","","","","","",""],["3","Aliquam erat volutpat.","Lorem","","","","","","","","",""],["4","Fusce vitae vestibulum velit.","Lorem","","","","","","","","",""],["5","Etiam vehicula luctus fermentum.","Ipsum","","","","","","","","",""],["et","pulvinar","nunc.","Pellentesque","fringilla","mollis","efficitur.","Nullam","venenatis","commodo","",""]],"rowCount":10,"columnCount":12,"strategyUsed":"stream","warnings":[],"confidence":0.85},{"tableIndex":2,"pageRange":[3,3],"rows":[["elit.","","","","","","","","","","",""],["dictum tellus.","","","","","","","","","","",""],["Aliquam","erat","volutpat.","Vestibulum","in","egestas","velit.","Pellentesque","fermentum","nisl","vitae",""],["fringilla","venenatis.","Etiam","id","mauris","vitae","orci","maximus","ultricies.","Cras","fringilla","ipsum"],["et","pulvinar","nunc.","Pellentesque","fringilla","mollis","efficitur.","Nullam","venenatis","commodo","",""]],"rowCount":5,"columnCount":12,"strategyUsed":"stream","warnings":[],"confidence":0.85}],"summary":{"tableCount":3,"pageCount":4}}
                                                                                                                                                                                                                    
                                                                                                    

Extrair Dados - TRECHOS DE CÓDIGO


    curl --location 'https://zylalabs.com/api/11754/pdf+table+extraction+api/22299/extract+data' \
    --header 'Content-Type: application/json' \ 
    --form 'image=@"FILE_PATH"'


Chave de acesso à API e autenticação

Após se cadastrar, cada desenvolvedor recebe uma chave de acesso à API pessoal, uma combinação única de letras e dígitos para acessar nosso endpoint de API. Para autenticar com a Extração de tabelas PDF API basta incluir seu token Bearer no cabeçalho Authorization.
Cabeçalhos
Cabeçalho Descrição
Authorization [Obrigatório] Deve ser Bearer access_key. Veja "Sua chave de acesso à API" acima quando você estiver inscrito.

Preços simples e transparentes

Sem compromisso de longo prazo. Faça upgrade, downgrade ou cancele a qualquer momento. O teste gratuito inclui até 50 requisições.

🚀 Empresarial

A partir de
$ 10.000/Ano


  • Volume personalizado
  • Limite de taxa personalizado
  • Suporte ao cliente especializado
  • Monitoramento de API em tempo real

Recursos favoritos dos clientes

  • ✔︎ Pague apenas por requisições bem-sucedidas
  • ✔︎ Teste 7 dias gratis
  • ✔︎ Suporte multilíngue
  • ✔︎ Uma chave de API, todas as APIs.
  • ✔︎ Painel intuitivo
  • ✔︎ Tratamento de erros abrangente
  • ✔︎ Documentação amigável para desenvolvedores
  • ✔︎ Integração com Postman
  • ✔︎ Conexões HTTPS seguras
  • ✔︎ Alta disponibilidade

Extração de tabelas PDF API FAQs

A API retorna dados tabulares estruturados extraídos de documentos PDF Isso inclui várias tabelas cada uma representada como um array em formato JSON com opções para receber os dados em formatos Excel (.xlsx) ou CSV

A resposta inclui campos chave como `tableIndex`, `pageRange`, `rows`, `rowCount`, `columnCount`, `strategyUsed` e `confidence`. Os dados de cada tabela são organizados para facilitar o processamento programático fácil

Os dados da resposta estão organizados em uma seção de resumo que inclui o número total de tabelas e páginas, seguidos por um array de tabelas. Cada tabela contém suas linhas, intervalo de páginas e pontuação de confiança, facilitando a navegação e utilização

O parâmetro principal para o endpoint é o próprio arquivo PDF que pode ser enviado diretamente Parâmetros adicionais podem incluir opções para formato de saída JSON Excel CSV e configurações para pontuação de confiança

A precisão dos dados é mantida por meio de uma saída determinística, significando que a mesma entrada produz consistentemente o mesmo resultado. A API também fornece pontuações de confiança opcionais para cada tabela, indicando a confiabilidade da extração

Casos de uso típicos incluem extrair itens de linha de faturas, converter relatórios financeiros em conjuntos de dados estruturados, automatizar pipelines de dados e ingerir dados tabulares de PDFs enviados pelos clientes, otimizando fluxos de trabalho de processamento de dados

Os usuários podem aproveitar a saída estruturada para integração em pipelines de dados processos ETL ou sistemas de backend O formato organizado permite fácil manipulação e análise das tabelas extraídas em várias aplicações

Os usuários podem esperar padrões de dados que refletem a estrutura original da tabela, incluindo o alinhamento de linhas e colunas. A API lida com tabelas irregulares e células vazias, garantindo que a saída permaneça estruturada e utilizável para processamento adicional

A API pode extrair vários tipos de tabelas estruturadas, incluindo aquelas com layouts irregulares, células vazias e linhas desiguais. Ela detecta automaticamente tabelas únicas ou múltiplas dentro de um PDF, garantindo que apenas estruturas tabulares baseadas em grades sejam processadas

A API suporta tabelas que se estendem por várias páginas, capturando com precisão toda a estrutura da tabela e retornando-a em uma única saída. O intervalo de páginas de cada tabela é incluído na resposta para fácil referência

Sim os usuários podem personalizar suas solicitações de dados especificando o formato de saída desejado JSON Excel (.xlsx) ou CSV Essa flexibilidade permite a integração em várias aplicações e fluxos de trabalho

A API oferece escores de confiança opcionais para cada tabela extraída indicando a confiabilidade da extração Essa funcionalidade ajuda os usuários a avaliar a qualidade dos dados retornados

A API é projetada para ser sem estado e amigável à privacidade garantindo que nenhum dado seja armazenado após o processamento Ela utiliza comunicação segura apenas em HTTPS para proteger os dados do usuário durante a transmissão

Os usuários podem esperar que a API trate células vazias de forma elegante, preservando a estrutura geral da tabela. A saída refletirá o layout original, permitindo uma manipulação de dados simples, apesar de quaisquer valores ausentes

Os scores de confiança variam de 0 a 1 indicando a probabilidade de que a tabela extraída seja precisa Um score mais alto sugere maior confiabilidade ajudando os usuários a determinar quais tabelas confiar para processamento adicional

O campo `strategyUsed` indica o método empregado pela API para extrair os dados da tabela. Essa informação pode ajudar os usuários a entender o processo de extração e avaliar a adequação da saída para suas necessidades específicas

Perguntas Frequentes Gerais

O Zyla API Hub é como uma grande loja de APIs, onde você pode encontrar milhares delas em um só lugar. Também oferecemos suporte dedicado e monitoramento em tempo real de todas as APIs. Após se cadastrar, você pode escolher quais APIs deseja usar. Lembre-se apenas de que cada API precisa de sua própria assinatura. Mas se você se inscrever em várias, usará a mesma chave para todas elas, facilitando as coisas para você.

Os preços são listados em USD (Dólar Americano), EUR (Euro), CAD (Dólar Canadense), AUD (Dólar Australiano) e GBP (Libra Esterlina). Aceitamos todos os principais cartões de débito e crédito. Nosso sistema de pagamento usa a mais recente tecnologia de segurança e é operado pela Stripe, uma das empresas de pagamento mais confiáveis do mundo. Se tiver problemas para pagar com cartão, entre em contato conosco em [email protected]


Além disso, se você já tiver uma assinatura ativa em qualquer uma dessas moedas (USD, EUR, CAD, AUD, GBP), essa moeda será mantida para assinaturas subsequentes. Você pode alterar a moeda a qualquer momento, desde que não tenha assinaturas ativas.

A moeda local exibida na página de preços é baseada no país do seu endereço IP e é fornecida apenas como referência. Os preços reais são em USD (Dólar Americano). Ao efetuar o pagamento, a cobrança aparecerá no extrato do seu cartão em USD, mesmo que você veja o valor equivalente em sua moeda local em nosso site. Isso significa que você não pode pagar diretamente com sua moeda local.

Ocasionalmente, o banco pode recusar a cobrança devido às configurações de proteção contra fraude. Sugerimos contatar seu banco inicialmente para verificar se estão bloqueando nossas cobranças. Você também pode acessar o Portal de Cobrança e alterar o cartão associado para realizar o pagamento. Se isso não funcionar e precisar de mais ajuda, entre em contato com nossa equipe em [email protected]

Os preços são determinados por uma assinatura recorrente mensal ou anual, dependendo do plano escolhido.

As chamadas de API são descontadas do seu plano com base nas requisições bem-sucedidas. Cada plano possui um número específico de chamadas por mês. Apenas chamadas bem-sucedidas, indicadas por uma resposta com Status 200, serão contabilizadas, garantindo que falhas não afetem sua cota mensal.

O Zyla API Hub funciona com um sistema de assinatura mensal recorrente. Seu ciclo de cobrança começa no dia em que você compra um dos planos pagos e será renovado no mesmo dia do mês seguinte. Portanto, cancele sua assinatura com antecedência se quiser evitar cobranças futuras.

Para fazer upgrade do seu plano atual, acesse a página de preços da API e selecione o novo plano desejado. O upgrade é instantâneo, permitindo aproveitar imediatamente os recursos do novo plano. Observe que as chamadas restantes do plano anterior não serão transferidas; você será cobrado pelo valor integral do novo plano.

Para verificar quantas chamadas de API restam para o mês atual, consulte o campo 'X-Zyla-API-Calls-Monthly-Remaining' no cabeçalho da resposta. Por exemplo, se seu plano permite 1.000 requisições por mês e você usou 100, este campo no cabeçalho da resposta indicará 900 chamadas restantes.

Para ver o número máximo de requisições de API que seu plano permite, verifique o cabeçalho de resposta 'X-Zyla-RateLimit-Limit'. Por exemplo, se seu plano inclui 1.000 requisições por mês, este cabeçalho exibirá 1.000.

O cabeçalho 'X-Zyla-RateLimit-Reset' mostra o número de segundos até seu limite de taxa ser redefinido. Isso informa quando sua contagem de requisições começará do zero. Por exemplo, se exibir 3.600, significa que restam 3.600 segundos até o limite ser redefinido.

Sim, você pode cancelar seu plano a qualquer momento acessando sua conta e selecionando a opção de cancelamento na página de Cobrança. Observe que upgrades, downgrades e cancelamentos têm efeito imediato. Além disso, após o cancelamento, você não terá mais acesso ao serviço, mesmo que ainda tenha chamadas restantes na sua cota.

Você pode nos contatar via chat para receber assistência imediata. Estamos online de 8h às 17h (EST). Se nos contatar após esse horário, retornaremos o mais rápido possível. Além disso, você pode enviar um e-mail para [email protected]

Para oferecer a oportunidade de experimentar nossas APIs sem compromisso, oferecemos um teste gratuito de 7 dias que permite realizar até 50 chamadas de API sem custo. Esse teste pode ser usado apenas uma vez; recomendamos aplicá-lo à API que mais interessa. Embora a maioria das APIs ofereça teste gratuito, algumas podem não oferecer. O teste termina após 7 dias ou quando você atingir 50 requisições, o que ocorrer primeiro. Se atingir o limite, será necessário "Iniciar seu plano pago" para continuar. Você encontra esse botão no perfil em Assinatura -> Escolha a API -> aba Preços. Se não cancelar até o 7º dia, sua assinatura será cobrada automaticamente, liberando todas as chamadas do plano.

Após 7 dias, será cobrado o valor total do plano ao qual você estava inscrito durante o teste. Portanto, é importante cancelar antes do término do período. Solicitações de reembolso por esquecimento de cancelamento não são aceitas.

Ao assinar um teste gratuito de API, você pode fazer até 50 chamadas. Se desejar fazer chamadas adicionais além desse limite, a API solicitará que você "Inicie seu plano pago". Você encontra o botão no perfil em Assinatura -> Escolha a API -> aba Preços.

As Ordens de Pagamento são processadas entre os dias 20 e 30 de cada mês. Se você enviar sua solicitação antes do dia 20, seu pagamento será processado dentro desse período.


APIs relacionadas