एचटीएमएल एक्सट्रैक्टर एपीआई एक उन्नत उपकरण है जिसे वेब पृष्ठों से डेटा की निकासी और विश्लेषण को सुविधाजनक बनाने के लिए डिज़ाइन किया गया है, जो उन पृष्ठों की पूरी एचटीएमएल सामग्री को पुनः प्राप्त करता है। यह एपीआई उन उपयोगकर्ताओं के लिए उपयोगी है, जिन्हें विभिन्न उद्देश्यों के लिए वेब साइटों में निहित जानकारी तक पहुँचने की आवश्यकता होती है, जैसे कि बाजार अनुसंधान, प्रतियोगिता निगरानी, या वेब एप्लिकेशन विकास।
मुख्य विशेषताएँ:
पूर्ण एचटीएमएल कोड पुनः प्राप्त करना: एचटीएमएल एक्सट्रैक्टर एपीआई का मुख्य कार्य एक विशिष्ट वेब पृष्ठ का संपूर्ण एचटीएमएल कोड पकड़ना है। इसमें पृष्ठ की पूरी संरचनात्मक सामग्री शामिल होती है, जैसे कि टैग, विशेषताएँ और अंतर्निहित तत्व। पूर्ण एचटीएमएल प्राप्त करके, उपयोगकर्ता पृष्ठ पर सभी दृश्य और छिपी हुई जानकारी तक पहुँच सकते हैं, जो सामग्री का व्यापक विश्लेषण करने की अनुमति देती है।
विभिन्न प्रकार के वेब पृष्ठों के लिए समर्थन: यह एपीआई बहुपरकारी है और स्थिर पृष्ठों से लेकर उन गतिशील साइटों तक व्यापक वेब साइटों की एक श्रृंखला का समर्थन करता है जो जावास्क्रिप्ट का उपयोग करके सामग्री उत्पन्न करते हैं। विभिन्न प्रकार की सामग्री को संभालने की क्षमता एपीआई को विभिन्न अनुप्रयोगों के लिए उपयुक्त बनाती है, जैसे कि समाचार डेटा संग्रह, सोशल नेटवर्क निगरानी, और जटिल वेब पृष्ठ संरचना विश्लेषण।
विशिष्ट डेटा निकासी: हालांकि एपीआई पूर्ण एचटीएमएल प्रदान करता है, इसे विशिष्ट पृष्ठ डेटा निकालने के लिए भी उपयोग किया जा सकता है। उपयोगकर्ता एचटीएमएल पार्सिंग तकनीकों के साथ एपीआई को संयोजित कर सकते हैं, जैसे नियमित अभिव्यक्तियों या एचटीएमएल प्रोसेसिंग लाइब्रेरी का उपयोग, विशेष जानकारी जैसे उत्पाद की कीमतें, संपर्क विवरण या अन्य प्रासंगिक डेटा निकालने के लिए।
संक्षेप में, एचटीएमएल एक्सट्रैक्टर एपीआई वेब पृष्ठों से एचटीएमएल सामग्री निकालने के लिए एक शक्तिशाली और लचीला उपकरण है। यह विश्लेषण, अनुसंधान या विकास के लिए वेब पृष्ठ सामग्री तक पूर्ण पहुंच की आवश्यकता वाले लोगों के लिए एक प्रभावी समाधान प्रदान करता है। इसका विभिन्न प्रकार के पृष्ठों को संभालने की क्षमता और आसान एकीकरण इसे वेब डेटा प्रबंधन और विश्लेषण में अनेक उपयोग मामलों के लिए एक मूल्यवान विकल्प बनाती है।
एपीआई एक वेब पृष्ठ का यूआरएल प्राप्त करता है और उस पृष्ठ की पूरी एचटीएमएल सामग्री को विश्लेषण और डेटा निकासी के लिए प्रदान करता है।
प्रतिस्पर्धी अनुसंधान: प्रतिस्पर्धियों की वेबसाइटों से सामग्री एकत्र करें ताकि कीमतों, उत्पादों, प्रचार और विपणन रणनीतियों का विश्लेषण किया जा सके।
समाचार निगरानी: समाचार साइटों से सामग्री निकालें ताकि वास्तविक समय में नवीनतम घटनाओं और अपडेट के साथ बने रहें।
शैक्षिक अनुसंधान के लिए डेटा संग्रह: शैक्षिक अनुसंधान या केस स्टडीज के लिए कई वेबसाइटों से सामग्री प्राप्त करें और उसका विश्लेषण करें।
वेब एप्लिकेशन विकास: विकास और परीक्षण के दौरान स्वयं वेब एप्लिकेशनों से एचटीएमएल निकालने और पार्स करने के लिए एपीआई का उपयोग करें।
एसईओ विश्लेषण: महत्वपूर्ण एसईओ तत्वों जैसे मेटा टैग, शीर्षक, और लिंक संरचना का विश्लेषण करने के लिए वेब पृष्ठों से एचटीएमएल निकालें।
प्रति माह अनुमत एपीआई कॉल की संख्या के अलावा, कोई अन्य सीमाएँ नहीं हैं।
स्रोत यूआरएल - एंडपॉइंट फीचर्स
| ऑब्जेक्ट | विवरण |
|---|---|
urlSupplier |
[आवश्यक] String |
forceCache |
[आवश्यक] boolean |
{"method":"GET","urlSupplier":"https:\/\/www.reuters.com\/article\/us-usa-economy-idUSKBN2A40BO","redirectedUrlSupplier":"https:\/\/www.reuters.com\/article\/us-usa-economy-idUSKBN2A40BO\/","_note":"Response truncated for documentation purposes"}
curl --location --request GET 'https://zylalabs.com/api/5079/html+extractor+api/6470/source+url?urlSupplier=https://www.reuters.com/article/us-usa-economy-idUSKBN2A40BO&forceCache=True' --header 'Authorization: Bearer YOUR_API_KEY'
| हेडर | विवरण |
|---|---|
Authorization
|
[आवश्यक] होना चाहिए Bearer access_key. जब आप सब्सक्राइब हों तो ऊपर "Your API Access Key" देखें। |
कोई लंबी अवधि की प्रतिबद्धता नहीं। कभी भी अपग्रेड, डाउनग्रेड या कैंसल करें। फ्री ट्रायल में 50 रिक्वेस्ट तक शामिल हैं।
इस एपीआई का प्रयोग करने के लिए, आप एक अनुरोध भेजते हैं जिसमें वेब पृष्ठ का यूआरएल होता है और पूर्ण HTML सामग्री प्राप्त करते हैं जिसे पार्स और निकालने के लिए प्रयोग किया जाता है
HTML एक्सट्रैक्टर एपीआई एक वेब पृष्ठ से पूरा HTML कोड लाता है जिससे सामग्री से डेटा पार्स और निकालना आसान हो जाता है
विभिन्न योजनाएँ हैं जो प्रत्येक के लिए उपयुक्त हैं जिसमें छोटे अनुरोधों के लिए एक मुफ़्त परीक्षण शामिल है लेकिन इसकी दर का सीमित करना सेवा के दुरुपयोग को रोकने के लिए है
Zyla लगभग सभी प्रोग्रामिंग भाषाओं के लिए एक विस्तृत रेंज के एकीकरण विधियों की पेशकश करता है आप अपनी आवश्यकता के अनुसार इन कोड का उपयोग करके अपने प्रोजेक्ट के साथ एकीकृत कर सकते हैं
एपीआई एक डोमेन की उम्र और इतिहास के बारे में विस्तृत जानकारी लौटाता है जिसमें इसके निर्माण से लेकर वर्षों, महीनों और दिनों के अलावा समाप्ति और अद्यतन तिथियाँ भी शामिल हैं
एपीआई निर्दिष्ट वेब पृष्ठ का संपूर्ण एचटीएमएल सामग्री लौटाता है जिसमें सभी टैग, विशेषताएँ और अंतर्निहित तत्व शामिल होते हैं यह उपयोगकर्ताओं को विश्लेषण के लिए दृश्य और अदृश्य जानकारी दोनों तक पहुँचने की अनुमति देता है
प्रतिक्रिया में "पद्धति" (उपयोग की गई HTTP पद्धति), "urlSupplier" (मांग की गई मूल URL), "redirectedUrlSupplier" (पुनर्निर्देशन के बाद का अंतिम URL), और "pageSource" (पृष्ठ की संपूर्ण HTML सामग्री) जैसे क्षेत्र शामिल हैं
प्रतिक्रिया JSON प्रारूप में संरचित है जिसमें कुंजी-मूल्य जोड़े हैं जो HTTP विधि URLs और पूर्ण HTML स्रोत प्रदान करते हैं यह संगठन पार्सिंग और अनुप्रयोगों में समाकलन को आसान बनाता है
एपीआई वेब पृष्ठों की पूरी एचटीएमएल संरचना तक पहुंच प्रदान करता है जिससे उपयोगकर्ता पाठ सामग्री चित्र लिंक और मेटाडेटा जैसे विभिन्न प्रकार की जानकारी निकाल सकते हैं ताकि आगे के विश्लेषण के लिए
उपयोगकर्ता विभिन्न वेब पृष्ठों से HTML सामग्री प्राप्त करने के लिए अलग-अलग यूआरएल निर्दिष्ट करके अनुरोधों को कस्टमाइज़ कर सकते हैं एपीआई किसी भी मान्य यूआरएल को संसाधित करता है जो उपयोगकर्ता की आवश्यकताओं के आधार पर लचीले डेटा निष्कर्षण की अनुमति देता है
सामान्य उपयोग के मामलों में प्रतियोगी अनुसंधान समाचार मॉनिटरिंग शैक्षणिक डेटा संग्रह वेब अनुप्रयोग विकास और SEO विश्लेषण शामिल हैं जहां उपयोगकर्ताओं को वेब पृष्ठों की संरचना और सामग्री का विश्लेषण करने की आवश्यकता होती है
API निर्दिष्ट URLs से सीधे लाइव HTML सामग्री प्राप्त करता है जिससे यह सुनिश्चित होता है कि डेटा वेब पेज के सबसे वर्तमान संस्करण को दर्शाता है इस वास्तविक समय की पहुंच सटीकता बनाए रखने में मदद करती है
उपयोगकर्ता एक सुसंगत JSON प्रतिक्रिया संरचना की उम्मीद कर सकते हैं जिसमें विधि, URLs और HTML सामग्री के लिए फ़ील्ड होंगे HTML पृष्ठ के डिज़ाइन के आधार पर भिन्न होगा लेकिन प्रतिक्रिया प्रारूप अनुरोधों में समान रहता है
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
137ms
सर्विस लेवल:
99%
रिस्पॉन्स टाइम:
23ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
16ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
8,434ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
10,182ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
255ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,371ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
180ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
76ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
227ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
0ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,371ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
0ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
460ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
3,290ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,573ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
297ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
0ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
4,368ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,778ms