La API de Extracción de Texto de Dominio proporciona una solución sin problemas para extraer contenido textual de dominios web en varios formatos, como HTML, Markdown o texto plano. Esta versátil API satisface las necesidades de los usuarios que buscan recuperar datos textuales relevantes de páginas web de manera eficiente.
Con su robusta funcionalidad e interfaz intuitiva, la API de Extracción de Texto de Dominio simplifica el proceso de extracción de texto de dominios web. Ya sea que los usuarios necesiten texto plano, contenido en Markdown o HTML, la API garantiza una extracción precisa mientras preserva la estructura y el formato originales del texto.
Los usuarios pueden integrar la API de Extracción de Texto de Dominio en sus aplicaciones y sistemas con facilidad, gracias a sus puntos finales bien documentados y un simple proceso de integración. La API es compatible con lenguajes de programación y plataformas comunes, lo que permite una integración fluida en una amplia gama de proyectos y flujos de trabajo.
En general, la API de Extracción de Texto de Dominio es una herramienta valiosa para extraer contenido textual de dominios web en formato HTML, Markdown o texto plano. Gracias a su versatilidad, rendimiento y fiabilidad, la API permite recuperar datos textuales relevantes de páginas web de manera eficiente y efectiva.
Recibirá un parámetro y le proporcionará un JSON.
Plan Básico: 100 solicitudes por minuto.
Plan Pro: 100 solicitudes por minuto.
Plan Pro Plus: 100 solicitudes por minuto.
Plan Premium: 100 solicitudes por minuto.
Para usar este endpoint, debes especificar la URL de un dominio. También tendrá un parámetro opcional donde puedes indicar el tipo de información a raspar (HTML, markdown, texto) HTML es el valor predeterminado.
Raspar - Características del Endpoint
| Objeto | Descripción |
|---|---|
url |
[Requerido] |
type |
Opcional |
{"url":"https://en.wikipedia.org/wiki/Harry_Kane","title":"Harry Kane - Wikipedia","description":"Harry KaneMBE Kane with England in 2023Personal informationFull name Harry Edward KaneDate of birth 28 July 1993 (age 31)Place of birth Walthamstow, London, EnglandHeight 6 ft 2 in...","links":["https://en.wikipedia.org/wiki/Harry_Kane"],"image":"https://upload.wikimedia.org/wikipedia/commons/thumb/9/91/Harry_Kane_on_October_10%2C_2023.jpg/640px-Harry_Kane_on_October_10%2C_2023.jpg","_note":"Response truncated for documentation purposes"}
curl --location --request GET 'https://zylalabs.com/api/4178/domain+text+extractor+api/5063/scrape?url=https://en.wikipedia.org/wiki/Harry_Kane&type=markdown' --header 'Authorization: Bearer YOUR_API_KEY'
| Encabezado | Descripción |
|---|---|
Autorización
|
[Requerido] Debería ser Bearer access_key. Consulta "Tu Clave de Acceso a la API" arriba cuando estés suscrito. |
Sin compromiso a largo plazo. Mejora, reduce o cancela en cualquier momento. La Prueba Gratuita incluye hasta 50 solicitudes.
Para usar esta API, los usuarios deben indicar la URL de un dominio para raspar el contenido.
La API de extracción de texto de dominio extrae programáticamente contenido textual de dominios web en varios formatos, como HTML, Markdown o texto plano.
Hay diferentes planes para todos los gustos, incluyendo una prueba gratuita para un pequeño número de solicitudes, pero tu tarifa está limitada para evitar el abuso del servicio.
Zyla ofrece una amplia gama de métodos de integración para casi todos los lenguajes de programación. Puedes usar estos códigos para integrarlos en tu proyecto según lo necesites.
Permite a los usuarios acceder rápida y fácilmente a información textual relevante de múltiples páginas web sin necesidad de hacerlo manualmente.
El endpoint GET Scrape devuelve un objeto JSON que contiene la URL, el título, la descripción, los enlaces, la imagen y el contenido extraído del dominio web especificado. Esto permite a los usuarios acceder a información estructurada de las páginas web de manera eficiente.
Los campos clave en los datos de respuesta incluyen "url" (la URL de origen), "title" (el título de la página), "description" (un resumen breve), "links" (hipervínculos asociados), "image" (una URL de imagen relevante) y "content" (el contenido textual principal).
Los datos de respuesta están organizados en un formato JSON, con cada clave representando un aspecto específico del contenido extraído. Este formato estructurado permite un fácil análisis e integración en aplicaciones.
El endpoint GET Scrape acepta un parámetro obligatorio "url" para especificar el dominio a raspar y un parámetro opcional "type" para indicar el formato deseado (HTML, Markdown o texto plano), con un valor predeterminado de HTML.
El endpoint GET Scrape proporciona acceso a varios tipos de información, incluidos los títulos de las páginas, descripciones, contenido principal, imágenes y enlaces, lo que permite una extracción de datos integral de las páginas web.
La precisión de los datos se mantiene a través de técnicas de extracción robustas que garantizan que el contenido se extraiga directamente de las páginas web de origen. Las actualizaciones regulares y los controles de calidad ayudan a garantizar la fiabilidad de los datos extraídos.
Los casos de uso típicos incluyen la agregación de contenido para blogs, la minería de datos para investigación, el análisis de texto para obtener información, la monitorización de contenido para cumplimiento y la optimización de SEO mediante la extracción de palabras clave y metadatos.
Los usuarios pueden utilizar los datos devueltos integrándolos en sus aplicaciones para mostrar contenido, análisis o monitoreo. El formato JSON estructurado permite una fácil manipulación y extracción de campos específicos según sea necesario.
Nivel de Servicio:
100%
Tiempo de Respuesta:
547ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
709ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
11.971ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
449ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
2.466ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
1.945ms
Nivel de Servicio:
91%
Tiempo de Respuesta:
2.513ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
909ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
4.048ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
2.613ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
20ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
7.306ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
17ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
2.907ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
15ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
19ms
Nivel de Servicio:
50%
Tiempo de Respuesta:
2.156ms
Nivel de Servicio:
50%
Tiempo de Respuesta:
1.383ms
Nivel de Servicio:
50%
Tiempo de Respuesta:
5.812ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
18.711ms