La API de Extracción de Código HTML ofrece a los desarrolladores una forma simple pero poderosa de recuperar y procesar el HTML en bruto de cualquier página web. En lugar de configurar manualmente scrapers, manejar agentes de usuario o preocuparse por bloqueos, esta API proporciona datos HTML limpios y consistentes que se pueden integrar directamente en tus aplicaciones.
Con esta API, puedes:
Obtener el código fuente HTML completo de cualquier URL accesible públicamente.
Poder pipelines de datos, crawlers y analizadores de contenido sin configuración adicional.
Usar el HTML extraído como base para construir scrapers web, motores de búsqueda, herramientas de SEO o análisis impulsado por IA.
Automatizar flujos de trabajo como la extracción de metadatos, el análisis de DOM y la generación de contenido estructurado.
Tanto si estás trabajando en minería de datos, monitoreando sitios web o mejorando herramientas de SEO, la API de Extracción de HTML ahorra tiempo al manejar toda la carga pesada de solicitudes HTTP, encabezados y obtención de sitios. Es rápida, confiable y está diseñada para escalar con tus necesidades.
Permite al usuario ingresar una URL y extraer código HTML formateado más metadatos adicionales.
Extraer HTML - Características del Endpoint
| Objeto | Descripción |
|---|---|
url |
[Requerido] The URL of the page you want to extract the HTML code from. |
{"link_count":1,"image_count":0,"heading_tag_count":{"h1":1,"h2":0,"h3":0,"h4":0,"h5":0,"h6":0},"p_count":2,"character_encoding":"utf-8","page_language":null,"total_size_kb":1.25,"character_count":1283,"word_count":127,"line_count":54,"title":"Example Domain","description":null,"keywords":null,"final_url":"https://www.example.com/","status_code":200,"headers":{"headers":{"date":"Fri, 05 Sep 2025 14:58:16 GMT","content-length":"648","vary":"Accept-Encoding","content-encoding":"gzip","last-modified":"Mon, 13 Jan 2025 20:11:20 GMT","content-range":"bytes 0-647/648","content-type":"text/html","etag":"\"84238dfc8092e5d9c0dac8ef93371a07:1736799080.121134\"","connection":"keep-alive","accept-ranges":"bytes","cache-control":"max-age=86000","alt-svc":"h3=\":443\"; ma=93600,h3-29=\":443\"; ma=93600","x-status-normalized":"206->200"}},"html_code":"<html>"}
curl --location --request GET 'https://zylalabs.com/api/10189/html+code+extractor+api/19560/extract+html?url=https://forkthis.io/' --header 'Authorization: Bearer YOUR_API_KEY'
| Encabezado | Descripción |
|---|---|
Autorización
|
[Requerido] Debería ser Bearer access_key. Consulta "Tu Clave de Acceso a la API" arriba cuando estés suscrito. |
Sin compromiso a largo plazo. Mejora, reduce o cancela en cualquier momento. La Prueba Gratuita incluye hasta 50 solicitudes.
La API de Extracción HTML recupera el código fuente HTML en bruto de cualquier página web accesible públicamente con una sola llamada a la API.
Solo necesitas proporcionar una URL válida. La API recuperará y devolverá el HTML de la página.
La API devuelve una respuesta JSON que contiene el contenido HTML completo como una cadena. Además de datos adicionales como link_count, image_count, heading_tag_count, p_count, character_encoding, page_language, total_size_kb, character_count, word_count, line_count, title, description, keywords, final_url, status_code y headers.
La API devuelve HTML estructurado que se analiza a través de la biblioteca BeautifulSoup.
Absolutamente. Se puede usar para analizar metadatos, encabezados, etiquetas y elementos de SEO en la página directamente desde el HTML.
La versión actual extrae una página por solicitud, pero puedes agrupar solicitudes en tu aplicación para manejar múltiples URL.
La API está optimizada para velocidad, normalmente respondiendo en milisegundos dependiendo de la complejidad del sitio y el tiempo de carga.
Raspado web y recopilación de datos Auditoría SEO y análisis de metadatos Monitoreo y archivo de contenido Investigación y conjuntos de datos de aprendizaje automático Construcción de herramientas de búsqueda o rastreo.
Sí, la API sigue redirecciones (301/302) y devuelve el HTML de la página de destino final.
La API solo obtiene datos disponibles públicamente. Los usuarios son responsables de cumplir con los términos de servicio del sitio web de destino y con robots.txt.
El endpoint Extract HTML devuelve un objeto JSON que contiene el código HTML completo de la página web solicitada, junto con metadatos como el conteo de enlaces, el conteo de imágenes, las etiquetas de encabezado, la codificación de caracteres y más.
Los campos clave incluyen `link_count`, `image_count`, `heading_tag_count`, `title`, `description`, `final_url`, `status_code` y `html_code`. Estos proporcionan información sobre la estructura y el contenido de la página.
La respuesta está estructurada como un objeto JSON con campos anidados. Los atributos principales incluyen contenido HTML y metadatos, lo que permite un acceso fácil a puntos de datos específicos como `title` y `link_count`.
El punto final proporciona información sobre la estructura de la página web, incluyendo el conteo de enlaces, imágenes, encabezados y párrafos, así como el contenido HTML en sí y los detalles de la respuesta HTTP.
Los usuarios pueden personalizar solicitudes especificando diferentes URL para extraer HTML de varias páginas. La API maneja automáticamente la obtención y el análisis de la URL proporcionada.
Por ejemplo, `link_count` indica el número de hipervínculos en la página, mientras que `heading_tag_count` proporciona una desglosa de los diferentes niveles de encabezado (h1, h2, etc.), ayudando a los usuarios a entender la jerarquía del contenido de la página.
La API obtiene datos en vivo directamente de las URL especificadas, asegurando que el HTML y los metadatos reflejen el estado actual de la página web, sujeto a la disponibilidad del sitio.
Los casos de uso típicos incluyen la extracción de datos de sitios web para análisis de datos, auditorías de SEO para evaluar elementos en la página, monitoreo de contenido para cambios y construcción de herramientas para motores de búsqueda o rastreadores.
Los casos de uso típicos incluyen la extracción de datos para análisis, auditorías de SEO para optimizar contenido y la construcción de rastreadores o motores de búsqueda que requieren datos HTML estructurados para su procesamiento.
Nivel de Servicio:
100%
Tiempo de Respuesta:
7.660ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
8.219ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
3.107ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
2.697ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
68ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
4.048ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
10.154ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
1.537ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
1.711ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
1.374ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
1.374ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
884ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
10.154ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
1.711ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
878ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
766ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
3.107ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
2.845ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
681ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
876ms