स्केलेबल वेक्टर समानता एपीआई वास्तविक दुनिया के गंदे डेटा के लिए बनाई गई एक उच्च गति वाली फ़ज़ी मिलान और डेडुप्लीकेशन एपीआई है यह आपको निकट-डुप्लिकेट रिकॉर्ड पहचानने में मदद करती है और संस्थाओं को सुलझाती है भले ही मान सटीक रूप से मेल न खाते हों- टाइपो, केस के अंतर, गायब विराम चिह्न, रिक्ति समस्याएं, संक्षेपण, और शब्द-क्रम परिवर्तन।
अपने स्वयं के फ़ज़ी मिलान पाइपलाइन को बनाने और ट्यून करने के बजाय, आप अपनी स्ट्रिंग (या रिकॉर्ड) एपीआई को भेजते हैं और विश्वसनीय समानता-स्कोर किए गए मिलान प्राप्त करते हैं सामान्य आउटपुट में मेल खाते जोड़े (जैसे, “Apple” ⇔ “apple inc.”), समानता स्कोर, और संरचित परिणाम शामिल होते हैं जिन्हें डेटा क्लीनिंग वर्कफ़्लोज़, सीआरएम, ईटीएल कार्य और विश्लेषण पाइपलाइनों में शामिल करना आसान होता है।
सामान्य उपयोग के मामले:
सूचियों को डेडुप्लिकेट करें: एक डेटासेट के भीतर डुप्लिकेट ढूंढें (सभी-से-सभी मिलान) और संभावित डुप्लिकेट जोड़ें लौटाएं।
मास्टर सूची के खिलाफ सामंजस्य: एक आने वाली सूची को एक मानक सेट से मिलाएं (सूची-से-मास्टर)।
सीआरएम और ग्राहक डेटा स्वच्छता: लीड/खाते/कंपनियों को साफ करें जहां डुप्लिकेट रिपोर्टिंग और संपर्क में बाधा डालते हैं।
संस्थान समाधान एवं रिकॉर्ड लिंकिंग: स्रोतों के बीच समान वास्तविक विश्व संस्था के संदर्भों को जोड़ें।
टीमें इसका उपयोग क्यों करती हैं:
बॉक्स से बाहर गंदे पाठ पर काम करता है (प्रत्येक किनारे मामले के लिए कोई मैन्युअल नियम नहीं)
रैंकिंग और थ्रेशोल्ड्स के लिए समानता स्कोर (आप तय करते हैं कि कितने सख्त होना है)
स्केल और ऑटोमेशन के लिए बनाया गया (पाइपलाइनों में चलाने के लिए डिज़ाइन किया गया, केवल एक बार के स्क्रिप्ट नहीं)
डीडुप एक सभी के लिए सभी धुंधली मेल खाने वाला अंत बिंदु है जो एक एकल स्ट्रिंग सूची में डुप्लिकेट खोजने के लिए है। दो इनपुट की तुलना करने के बजाय, आप एक डेटा सेट भेजते हैं और यह पूरे सेट में समान जोड़े और/या डुप्लिकेट मुक्त समूह लौटाता है।
वास्तविक दुनिया की मात्रा के लिए बनाया गया: हर संभव तुलना को बलपूर्वक करने के बजाय, यह ओ (n^2) विस्फोट से बचने के लिए इंडेक्सिंग और अनुमानित खोज का उपयोग करता है जबकि उच्च गुणवत्ता के मिलान को उभारता है। इसका उपयोग CRM सफाई, कैटलॉग सामान्यीकरण, और संपर्क/कंपनी डुप्लिकेशन के लिए करें।
बेंचमार्क: समानता-एपीआई/ब्लॉग/गति-बेंचमार्क (1M रिकॉर्ड लगभग 7 मिनट में; सामान्य Python धुंधली मेल खाने वाली लाइब्रेरीज़ से तेज)।
अनुरोध शरीर (JSON)
डेटा (आवश्यक)
डुप्लिकेट करने के लिए स्ट्रिंग्स की एरे
प्रति अनुरोध अधिकतम 1000 स्ट्रिंग्स
कॉन्फ़िग (वैकल्पिक)
ट्यूनिंग पैरामीटर वाले वैकल्पिक वस्तु
कॉन्फ़िग.समानता_थ्रेशहोल्ड (संख्या, डिफ़ॉल्ट 0.75)
समानता कट ऑफ 0 से 1 तक
कॉन्फ़िग.हटाना_अंकन (बूलियन, डिफ़ॉल्ट सच)
मेल खाने से पहले अंकन हटाएं
कॉन्फ़िग.टू_लोअरकेस (बूलियन, डिफ़ॉल्ट सच)
मेल खाने से पहले स्ट्रिंग्स को लोअरकेस करें
कॉन्फ़िग.उपयोग_टोकन_क्रम (बूलियन, डिफ़ॉल्ट झूठ)
मेल खाने से पहले प्रत्येक स्ट्रिंग के भीतर टोकन को क्रमबद्ध करें (जब शब्द क्रम अलग होता है तो मदद करता है)
कॉन्फ़िग.आउटपुट_फॉर्मेट (स्ट्रिंग, डिफ़ॉल्ट स्ट्रिंग_जोड़े)
आउटपुट प्रारूप। समर्थित मान:
सूचकांक_जोड़े
मेल खाने की सूची [i, j, स्कोर] के रूप में जहां i और j इनपुट डेटा एरे में सूचकांक हैं
स्ट्रिंग_जोड़े
मेल खाने की सूची [string_i, string_j, स्कोर] के रूप में जो मूल इनपुट स्ट्रिंग्स का उपयोग करती है
डुप्लिकेट_स्ट्रिंग्स
डुप्लिकेट हटाकर स्ट्रिंग्स की सूची (प्रत्येक डुप्लिकेट समूह के लिए एक प्रतिनिधि रखती है)
डुप्लिकेट_सूचकांक
मूल डेटा में सूचकांकों की सूची जो डुप्लिकेट मुक्त सेट का प्रतिनिधित्व करती है (प्रत्येक समूह के लिए एक प्रतिनिधि)
सदस्यता_मैप
ऐसी पूर्णांखों की एरे जिनकी लंबाई डेटा के समान है जहां प्रत्येक स्थान i उस पंक्ति के डुप्लिकेट समूह के लिए प्रतिनिधि सूचकांक रखता है
रो_एनोटेशन
प्रतिनिधि जानकारी के साथ प्रति-रो वस्तुओं की एरे: सूचकांक, मूल_स्ट्रिंग, rep_index, rep_string, similarity_to_rep
कॉन्फ़िग.टॉप_के (स्ट्रिंग या पूर्णांक, डिफ़ॉल्ट सभी)
पूर्ण डुप्लिकेट के लिए सभी का उपयोग करें, या प्रत्येक इनपुट के लिए केवल निकटतम मिलान लौटाने के लिए एक सकारात्मक पूर्णांक
उदाहरण अनुरोध
{
"डेटा": ["Microsoft", "Micsrosoft", "Apple Inc", "Apple", "Google LLC"],
"कॉन्फ़िग": {
"समानता_थ्रेशहोल्ड": 0.75,
"हटाना_अंकन": सच,
"टू_लोअरकेस": सच,
"उपयोग_टोकन_क्रम": झूठ,
"आउटपुट_फॉर्मेट": "स्ट्रिंग_जोड़े",
"टॉप_के": "सभी"
}
}
उत्तर
एक JSON वस्तु लौटाता है जिसमें:
स्थिति: सफलता या त्रुटि
उत्तर_डेटा: चयनित आउटपुट_फॉर्मेट में परिणाम
डिडुप्लिकेट - एंडपॉइंट फीचर्स
| ऑब्जेक्ट | विवरण |
|---|---|
data |
[आवश्यक] JSON array of strings to deduplicate (max 1000). Example: ["a","b","c"] |
similarity_threshold |
वैकल्पिक Similarity cutoff from 0 to 1. Higher values are stricter (fewer matches). Default is 0.75. |
remove_punctuation |
वैकल्पिक If true, punctuation is removed before matching. Default is true. |
to_lowercase |
वैकल्पिक If true, strings are lowercased before matching. Default is true. |
use_token_sort |
वैकल्पिक If true, tokens in each string are sorted before matching. Useful when word order varies. Default is false. |
output_format |
वैकल्पिक Default: string_pairs Allowed values (and what each means): index_pairs List of matches as [i, j, score] where i and j are indices in the input list. string_pairs List of matches as [string_i, string_j, score] using original strings. deduped_strings List of strings with duplicates removed (one representative per group). deduped_indices List of indices representing the deduplicated set (one representative per group). membership_map Array of length N where entry i is the representative index for the group of data[i]. row_annotations Array of objects (one per input row) with fields: index, original_string, rep_index, rep_string, similarity_to_rep. |
top_k |
वैकल्पिक Limits how many neighbors are returned per input string. Use all for full dedupe, or a positive integer for top matches per row. |
{"status":"success","response_data":[["Apple","appl!e",1.0]]}
curl --location --request POST 'https://zylalabs.com/api/11919/scalable+vector+similarity+api/22656/dedupe?data=["Apple", "appl!e"]' --header 'Authorization: Bearer YOUR_API_KEY'
| हेडर | विवरण |
|---|---|
Authorization
|
[आवश्यक] होना चाहिए Bearer access_key. जब आप सब्सक्राइब हों तो ऊपर "Your API Access Key" देखें। |
कोई लंबी अवधि की प्रतिबद्धता नहीं। कभी भी अपग्रेड, डाउनग्रेड या कैंसल करें।
डीडुप प्रारंभ बिंदु एक JSON वस्तु लौटाता है जिसमें मिलान किए गए स्ट्रिंग्स के जोड़े, समानता स्कोर और वैकल्पिक डिडुप्लिकेट परिणाम होते हैं आउटपुट को स्ट्रिंग जोड़े, अनुक्रमांक जोड़े या डिडुप्लिकेटेड स्ट्रिंग्स के रूप में स्वरूपित किया जा सकता है यह निर्दिष्ट कॉन्फ़िगरेशन पर निर्भर करता है
प्रतिक्रिया डेटा में महत्वपूर्ण फ़ील्ड "स्थिति" शामिल है (जो सफलता या त्रुटि को दर्शाती है) और "प्रतिक्रिया_डेटा," जिसमें उपयोगकर्ता के अनुरोध के अनुसार स्वरूपित परिणाम होते हैं जैसे मिलान जोड़े या डुप्लिकेट हटाए गए स्ट्रिंग्स
उपयोगकर्ता "config" ऑब्जेक्ट में "similarity_threshold" जैसे मापदंडों को समायोजित करके अनुरोधों को अनुकूलित कर सकते हैं जिससे मिलान की सतर्कता तय होती है "remove_punctuation" पूर्व-प्रसंस्करण के लिए और "output_format" वांछित परिणाम संरचना चुनने के लिए
प्रतिक्रिया डेटा को परिणामों के एक ऐरे के रूप में व्यवस्थित किया गया है जहां प्रत्येक प्रविष्टि एक मैच या डेडुप्लिकेटेड स्ट्रिंग के लिए है आउटपुट प्रारूप के आधार पर प्रविष्टियों में मूल स्ट्रिंग्स इंडेक्स और समानता स्कोर शामिल हो सकते हैं जिससे कार्यप्रवाह में आसान एकीकरण संभव हो सके
विशिष्ट उपयोग के मामलों में ग्राहक सूचियों को डिडुप्लिकेट करना मुख्य सूची के खिलाफ रिकॉर्ड को संतुलित करना CRM डेटा को साफ करना और विभिन्न डेटा स्रोतों में संस्थाओं को हल करना शामिल है ताकि डेटा की अखंडता और सटीकता सुनिश्चित की जा सके
डेटा सटीकता को उन्नत फजी मिलान एल्गोरिदम के माध्यम से बनाए रखा जाता है जो टाइपिंग त्रुटियों और केस के अंतर जैसी सामान्य डेटा समस्याओं पर ध्यान देता है एपीआई को गंदे डेटा को प्रभावी ढंग से संभालने के लिए डिज़ाइन किया गया है जिससे विश्वसनीय मिलान परिणाम सुनिश्चित होता है
स्वीकृत पैरामीटर मानों में "similarity_threshold" (0 से 1), "remove_punctuation" (बूलियन), "to_lowercase" (बूलियन), "use_token_sort" (बूलियन), और "top_k" (पूर्णांक या "सभी") शामिल हैं ये पैरामीटर उपयोगकर्ताओं को अपनी विशिष्ट आवश्यकताओं के अनुसार मिलान प्रक्रिया को अनुकूलित करने की अनुमति देते हैं
यदि डिडुप समाप्ति आंशिक या खाली परिणाम लौटाती है तो उपयोगकर्ताओं को गुणवत्ता समस्याओं के लिए इनपुट डेटा की जांच करनी चाहिए जैसे अत्यधिक डुप्लिकेट या बहुत कम समानता सीमा समानता_सीमा को समायोजित करना या इनपुट सूची की समीक्षा करना परिणामों में सुधार करने में मदद कर सकता है
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
255ms
सर्विस लेवल:
99%
रिस्पॉन्स टाइम:
1,853ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
76ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,682ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
108ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
55ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
878ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
343ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
146ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
508ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
10ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
3,847ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
605ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,720ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
2,216ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
255ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
2,989ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
525ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
620ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
111ms