文档数据提取 API

通过我们的文档数据提取API 简化您的工作流程 该API旨在将任何结构化或非结构化文档转换为可操作的结构化数据
通过 MCP 从您的 AI 代理使用此 API
支持 OpenClaw、Claude Code/Desktop、Cursor、Windsurf、Cline 以及任何兼容 MCP 的 AI 客户端。
文档和设置
通过封装此 MCP 创建技能: https://mcp.zylalabs.com/mcp?apikey=YOUR_ZYLA_API_KEY

提升您的数据处理能力,使用Extracta.ai的文档数据提取API。我们前沿的解决方案使您的系统能够自动从多种文档中提取结构化数据 - 无论是扫描图像、PDF、电子邮件、发票、合同,还是您能想到的任何数字文件格式。我们的API量身定制,以满足各行业的需求,促进工作流程的无缝自动化,显著减少手动操作并提高整体效率 功能:

  • 通用兼容性:处理任何格式的文档 - PDF、DOCX、TXT、JPG、PNG等。
  • 高准确性和速度:利用最先进的技术,无需预训练,确保快速提取并实现卓越准确性。
  • 可自定义的数据提取:定义特定的提取标准,以满足您的独特业务需求,从提取特定文本部分到复杂数据点。
  • 易于集成:凭借开发者友好的API文档,将我们的服务顺利集成到您现有的软件或工作流程中。
  • 可扩展性:从少量文档到数千份,我们的API能够高效处理任何规模的批量。
  • 安全性:您的数据隐私和安全至关重要。我们确保您的信息绝不用于训练目的,并以最高机密性处理。
无论您是软件开发者、业务分析师还是数据科学家,我们的文档数据提取API都旨在简化您的数据处理任务,让您专注于真正重要的事情 - 推动您的业务向前发展。今天就开始使用Extracta.ai,改变您处理文档的方式,永远。

API 文档

端点


使用必需的参数结构化请求:'name','language','fields' 和 'file'。每个字段都需要一个 'key','description' 和 'example' 为可选。文档必须以 'base64String' 或 'fileUrl' 的形式提供。

## API 文档
本节提供了为 Extracta.ai 结构化文档解析 API 请求的指南。请确保遵循以下格式以成功提取数据:

## 请求格式
```
{
"extractionDetails": {
"name": "提取名称", // 必需 - 为您的提取过程命名
"language": "支持的语言", // 必需 - 从支持的语言中选择
"fields": [
{
"key": "字段键", // 必需 - 定义数据提取的键
"description": "字段描述", // 可选 - 描述字段
"example": "字段示例" // 可选 - 提供示例值
},
...
]
},
"file": "base64String 或文件 URL" // 必需 - 以 base64String 格式或作为 URL 提供文档
}
```
## 高级格式
除了前面部分中概述的基本格式外,Extracta.ai 还支持更复杂的数据结构以满足专业的提取需求。这种高级格式允许定义 **嵌套对象和数组**,适应更广泛的数据表示。

### 类型 `object`
**object** 类型表示具有多个 **属性** 的结构化对象。每个属性在数组中定义为一个对象,并可以包含自己的 **key**、**description**、**type** 和 **example**。
```
{
"key": "personal_info",
"description": "个人信息", // 可选
"type": "object",
"properties": [
{
"key": "name",
"description": "姓名", // 可选
"example": "亚历克斯·史密斯", // 可选
"type": "string" // 可选
},
{
"key": "email",
"description": "电子邮件",
"example": "[email protected]",
"type": "string"
},
.....
]
}
```

### 类型 `array`
**array** 类型用于 **项目** 的列表,例如工作经验的集合。items 键包含一个对象,定义数组中每个项目的结构。
```
{
"key": "work_experience",
"description": "工作经验", // 可选
"type": "array",
"items": {
"type": "object",
"properties": [
{
"key": "title",
"description": "职位名称", // 可选
"example": "软件工程师", // 可选
"type": "string" // 可选
},
{
"key": "start_date",
"description": "工作开始日期",
"example": "2022",
"type": "string"
},
...
]
}
}
```

### 使用注意事项 | 文档解析 API
- 对于 `object` 和 `array` 类型,`example` 参数仅适用于其内部属性/项目。
- 在定义字段时,如果未指定 `type`,则默认为 `string`。
- 对于 `object` 和 `array` 类型,内部字段只能是 `string` 类型。这意味着对象中的每个属性或数组中的每个项目都应为字符串类型,以确保数据表示的一致性和简单性。
- 这些高级字段类型使更详细和结构化的数据表示成为可能,增强了 Extracta.ai 的数据提取过程的能力。

## 支持的文件类型

Extracta.ai 能够处理 **图像(JPG、PNG)、PDF 和 DOCX 格式** 的文档。这一增强使得更多类型的文档可以提交进行提取。

## 支持的语言

Extracta.ai 目前支持以下语言的文档提取:**罗马尼亚语、英语、法语、西班牙语、阿拉伯语、葡萄牙语、德语、意大利语**。还计划支持另外 20 种语言。

**注意**:如果指定了不支持的语言,API 将返回错误消息,指示语言选择无效。请通过我们的 API 文档了解新的语言添加情况。



                                                                            
POST https://www.zylalabs.com/api/3606/document+data+extraction+api/4000/process+document
                                                                            
                                                                        

流程文件 - 端点功能

对象 描述
请求体 [必需] Json
测试端点

API 示例响应

       
                                                                                                        
                                                                                                                                                                                                                                                                                                                                        {
	"name": "Darren Charles",
	"email": "[email protected]",
	"phone": "+1-709-680-9033",
	"address": "9 Corpus Christi, Texas",
	"soft_skills": "highly motivated, ability to translate business strategies, learn new things",
	"hard_skills": "Matlab, MeVisLab, Keras, CUDA, Git, DataStage, MQTT",
	"last_job": "Trainee With English Communications",
	"years_of_experience": "Ongoing"
}
                                                                                                                                                                                                                    
                                                                                                    

流程文件 - 代码片段


curl --location --request POST 'https://zylalabs.com/api/3606/document+data+extraction+api/4000/process+document' --header 'Authorization: Bearer YOUR_API_KEY' 

--data-raw '{
	"extractionDetails": {
		"name": "CV - Extraction",
		"language": "English",
		"fields": [
			{
				"key": "name",
				"description": "the name of the person in the CV",
				"example": "Johan Smith"
			},
			{
				"key": "email",
				"description": "the email of the person in the CV",
				"example": "[email protected]"
			},
			{
				"key": "phone",
				"description": "the phone number of the person",
				"example": "123 333 4445"
			},
			{
				"key": "address",
				"description": "the compelte address of the person",
				"example": "1234 Main St, New York, NY 10001"
			},
			{
				"key": "soft_skills",
				"description": "the soft skills of the person",
				"example": ""
			},
			{
				"key": "hard_skills",
				"description": "the hard skills of the person",
				"example": ""
			},
			{
				"key": "last_job",
				"description": "the last job of the person",
				"example": "Software Engineer"
			},
			{
				"key": "years_of_experience",
				"description": "the years of experience of last job",
				"example": "5"
			}
		]
	},
	"file": "https://deveatery.com/extracta/cv.png"
}'

    

API 访问密钥和身份验证

注册后,每个开发者都会被分配一个个人 API 访问密钥,这是一个唯一的字母和数字组合,用于访问我们的 API 端点。要使用 文档数据提取 API 进行身份验证,只需在 Authorization 标头中包含您的 bearer token。
标头
标头 描述
授权 [必需] 应为 Bearer access_key. 订阅后,请查看上方的"您的 API 访问密钥"。

简单透明的定价

无长期承诺。随时升级、降级或取消。 免费试用包括最多 50 个请求。

🚀 企业版

起价
$ 10,000/年


  • 自定义数量
  • 自定义速率限制
  • 专业客户支持
  • 实时 API 监控

客户喜爱的功能

  • ✔︎ 仅支付成功请求
  • ✔︎ 7 天免费试用
  • ✔︎ 多语言支持
  • ✔︎ 一个 API 密钥,所有 API。
  • ✔︎ 直观的仪表板
  • ✔︎ 全面的错误处理
  • ✔︎ 开发者友好的文档
  • ✔︎ Postman 集成
  • ✔︎ 安全的 HTTPS 连接
  • ✔︎ 可靠的正常运行时间

文档数据提取 API FAQs

我们能够处理各种类型的文件,包括结构化和非结构化格式,例如PDF Word文档 文本文件和扫描图像(PNG JPG格式),根据需要使用OCR技术

API返回从文档中提取的结构化数据,包括姓名、电子邮件、电话、地址和技能等关键字段。这些数据以JSON格式组织,便于集成到应用程序中

用户可以通过在'fields'参数中定义特定的提取标准来自定义请求。每个字段可以包含'key'、'description'和'example',允许根据独特的业务需求量身定制数据提取

响应数据通常包括“姓名”“电子邮件”“电话”“地址”“软技能”“硬技能”“最后一份工作”和“工作经验年限”等字段 这些字段提供了对提取文档内容的全面洞察

响应数据采用JSON格式结构,其中每个键对应提取的信息的特定部分。这种组织方式便于解析和整合到各种应用程序中

API可以从各种文档类型中提取广泛的信息,包括个人详细信息、联系信息、技能、工作经验和教育背景,如简历和发票

数据准确性通过先进的提取算法得以保持,这些算法利用最先进的技术 API无需预训练,确保从多种文档格式中快速而准确地提取

该端点接受参数,如'name'(提取名称)、'language'(支持的语言)和'fields'(特定数据键)用户必须提供有效的文档,格式可以是'base64String'或'fileUrl'

典型的用例包括自动化从简历、发票、合同和其他文件中提取数据、优化人力资源、财务和法律行业的工作流程,并提高各行业的数据处理效率

一般常见问题

Zyla API Hub 就像一个大型 API 商店,您可以在一个地方找到数千个 API。我们还为所有 API 提供专门支持和实时监控。注册后,您可以选择要使用的 API。请记住,每个 API 都需要自己的订阅。但如果您订阅多个 API,您将为所有这些 API 使用相同的密钥,使事情变得更简单。

价格以 USD(美元)、EUR(欧元)、CAD(加元)、AUD(澳元)和 GBP(英镑)列出。我们接受所有主要的借记卡和信用卡。我们的支付系统使用最新的安全技术,由 Stripe 提供支持,Stripe 是世界上最可靠的支付公司之一。如果您在使用卡片付款时遇到任何问题,请通过 [email protected]


此外,如果您已经以这些货币中的任何一种(USD、EUR、CAD、AUD、GBP)拥有有效订阅,该货币将保留用于后续订阅。只要您没有任何有效订阅,您可以随时更改货币。

定价页面上显示的本地货币基于您 IP 地址的国家/地区,仅供参考。实际价格以 USD(美元)为单位。当您付款时,即使您在我们的网站上看到以本地货币显示的等值金额,您的卡片对账单上也会以美元显示费用。这意味着您不能直接使用本地货币付款。

有时,银行可能会因其欺诈保护设置而拒绝收费。我们建议您首先联系您的银行,检查他们是否阻止了我们的收费。此外,您可以访问账单门户并更改关联的卡片以进行付款。如果这些方法不起作用并且您需要进一步帮助,请通过 [email protected]

价格由月度或年度订阅决定,具体取决于所选计划。

API 调用根据成功请求从您的计划中扣除。每个计划都包含您每月可以进行的特定数量的调用。只有成功的调用(由状态 200 响应指示)才会计入您的总数。这确保失败或不完整的请求不会影响您的月度配额。

Zyla API Hub 采用月度订阅系统。您的计费周期将从您购买付费计划的那一天开始,并在下个月的同一日期续订。因此,如果您想避免未来的费用,请提前取消订阅。

要升级您当前的订阅计划,只需转到 API 的定价页面并选择您要升级到的计划。升级将立即生效,让您立即享受新计划的功能。请注意,您之前计划中的任何剩余调用都不会转移到新计划,因此在升级时请注意这一点。您将被收取新计划的全部金额。

要检查您本月剩余多少 API 调用,请参考响应标头中的 "X-Zyla-API-Calls-Monthly-Remaining" 字段。例如,如果您的计划允许每月 1,000 个请求,而您已使用 100 个,则响应标头中的此字段将显示 900 个剩余调用。

要查看您的计划允许的最大 API 请求数,请检查 "X-Zyla-RateLimit-Limit" 响应标头。例如,如果您的计划包括每月 1,000 个请求,此标头将显示 1,000。

"X-Zyla-RateLimit-Reset" 标头显示您的速率限制重置之前的秒数。这告诉您何时您的请求计数将重新开始。例如,如果它显示 3,600,则意味着还有 3,600 秒直到限制重置。

是的,您可以随时通过访问您的账户并在账单页面上选择取消选项来取消您的计划。请注意,升级、降级和取消会立即生效。此外,取消后,您将不再有权访问该服务,即使您的配额中还有剩余调用。

您可以通过我们的聊天渠道联系我们以获得即时帮助。我们始终在线,时间为上午 8 点至下午 5 点(EST)。如果您在该时间之后联系我们,我们将尽快回复您。此外,您可以通过 [email protected]

为了让您有机会在没有任何承诺的情况下体验我们的 API,我们提供 7 天免费试用,允许您免费进行最多 50 次 API 调用。此试用只能使用一次,因此我们建议将其应用于您最感兴趣的 API。虽然我们的大多数 API 都提供免费试用,但有些可能不提供。试用在 7 天后或您进行了 50 次请求后结束,以先发生者为准。如果您在试用期间达到 50 次请求限制,您需要"开始您的付费计划"以继续发出请求。您可以在个人资料中的订阅 -> 选择您订阅的 API -> 定价标签下找到"开始您的付费计划"按钮。或者,如果您在第 7 天之前不取消订阅,您的免费试用将结束,您的计划将自动计费,授予您访问计划中指定的所有 API 调用的权限。请记住这一点以避免不必要的费用。

7 天后,您将被收取试用期间订阅的计划的全额费用。因此,在试用期结束前取消很重要。因忘记及时取消而提出的退款请求不被接受。

当您订阅 API 免费试用时,您可以进行最多 50 次 API 调用。如果您希望超出此限制进行额外的 API 调用,API 将提示您执行"开始您的付费计划"。您可以在个人资料中的订阅 -> 选择您订阅的 API -> 定价标签下找到"开始您的付费计划"按钮。

付款订单在每月 20 日至 30 日之间处理。如果您在 20 日之前提交请求,您的付款将在此时间范围内处理。


相关 API


您可能还喜欢