मानक सिंथेसिस से आगे बढ़ें हमारे उच्च-परिभाषा (एचडी) जनरेटिव टियर की पेशकशें स्वाभाविक रूप से सांस लेने, रुकने और भावनाएं व्यक्त करने वाली आवाजें हैं
संदर्भ-संवेदनशील डिलीवरी: इंजन पाठ का विश्लेषण करता है यह समझने के लिए कि क्या इसे एक रहस्य फुसफुसाना चाहिए, चेतावनी चिल्लानी चाहिए, या समाचार कोauthority के साथ देना चाहिए
प्राकृतिक असंवेदनशीलताएँ: वास्तविक मानव तत्वों जैसे "उम्स", "उह्स", और सांसों को सम्मिलित करने की क्षमता जो बातचीत करने वाले एजेंटों को वास्तव में स्वाभाविक ध्वनि देते हैं
भावनात्मक बुद्धिमत्ता: आपकी स्क्रिप्ट के भावनात्मक वजन (खुशी, दुख, प्राथमिकता) के आधार पर गतिशील रूप से समायोजित करता है
कठोर कोड टैग पर निर्भर रहना बंद करें स्वाभाविक भाषा प्रॉम्प्ट का उपयोग करके आवाज को नियंत्रित करें
प्रॉम्प्ट-से-भाषण: बस API को बताएं: *"इसे एक थके हुए कहानीकार की तरह पढ़ें"* या *"इसे जल्दी और उत्साह से बोलें जैसे एक खेल टिप्पणीकार"*
सूक्ष्म गति: भाषण की रिदम को मिलीसेकंड तक ठीक करें नाटकीय प्रभाव के लिए रुकावटें बढ़ायें या तेज़ बेतुके संवादों की नकल करने के लिए विशेष वाक्यांशों को गति दें
एकल API कॉल के साथ जटिल ऑडियो दृश्य उत्पन्न करें
निर्बाध बारी-बारी से बातचीत: पॉडकास्ट, इंटरव्यू, या ग्राहक सेवा की भूमिका का अनुकरण करें जहाँ कई अलग-अलग आवाजें बातचीत करती हैं
एकीकृत संदर्भ: प्रणाली विभिन्न वक्ताओं के बीच बातचीत के स्वर और प्रवाह को बनाए रखती है, सुनिश्चित करती है कि कोई अचानक परिवर्तन न हो
हमारी बुनियादी ढांचा वैश्विक तैनाती के लिए डिज़ाइन किया गया है आपके अनुप्रयोग को आपके ग्राहकों की भाषा में बोलने का सुनिश्चित करता है—शाब्दिक रूप से
| विशेषता | विवरण |
|---|---|
| आवाज पोर्टफोलियो | सभी स्तरों में 380+ विशिष्ट आवाज व्यक्तित्वों तक पहुंच |
| भाषा कवरेज | 80+ भाषाओं और भिन्नताओं (स्थानिक) के लिए स्थानीय समर्थन |
| क्षेत्रीय उच्चारण | क्षेत्रीय विशेषताओं के लिए गहरी समर्थन (जैसे, अंग्रेजी के 5+ भिन्नताएँ, स्पेनिश और फ्रेंच के 3+ भिन्नताएँ) |
| स्टूडियो टियर | पेशेवर स्वर कलाकारों द्वारा लंबे फॉर्म सामग्री (ऑडियोबुक्स/समाचार) के लिए रिकॉर्ड की गई विशेषज्ञ आवाजें ताकि श्रोता की थकान समाप्त हो |
उन डेवलपर्स के लिए बनाया गया है जो भरोसेमंदता और लचीलापन मांगते हैं
अल्ट्रा-लो लेटेंसी: "फ्लैश" मॉडल आर्किटेक्चर <300ms में ऑडियो प्रदान करता है, एआई एजेंटों के लिए वास्तविक समय, बाधित होने योग्य आवाज संचार की सुविधा देता है
हाई-फिडेलिटी ऑडियो:
स्टूडियो गुणवत्ता: अधिकतम 48 kHz नमूना दर
संपीड़ित आउटपुट: (MP3) पोस्ट-प्रोडक्शन के लिए
इनपुट लचीलापन: सादा पाठ और प्राकृतिक भाषा प्रॉम्प्ट स्वीकार करता है
बिडायरेक्शनल स्ट्रीमिंग: पुनरुत्पादन तुरंत शुरू होता है जबकि वाक्य का बाकी हिस्सा अभी भी उत्पन्न किया जा रहा है
इंटरैक्टिव एआई एजेंट: ग्राहक समर्थन बॉट को शक्ति दें जो सहानुभूतिपूर्ण और मानव की तरह सुनाई देते हैं न कि रोबोटिक
सामग्री उत्पादन: ऑडियोबुक नैरेशन, पॉडकास्ट निर्माण, और वीडियो डबिंग को स्टूडियो की लागत का एक हिस्सा स्वचालित करें
एडटेक और ई-लर्निंग: 80+ भाषाओं में सही स्थानीय उच्चारण के साथ गतिशील भाषा सीखने के पाठ उत्पन्न करें
गेमिंग और वीआर: गतिशील एनपीसी (गैर-खिलाड़ी पात्र) बनाएं जो बिना पूर्व-रिकॉर्ड की गई पंक्तियों के तुरंत संवाद उत्पन्न कर सकें
स्वर की सूची प्राप्त करें
{
"data": [
{
"gender": "FEMALE",
"language_code": "en-US",
"language_name": "English (US)",
"type": "Premium",
"voice_id": "en-US-News-L"
}
],
"message": "success",
"success": true
}
curl --location --request GET 'https://zylalabs.com/api/11558/ultra+text-to-speech+api/21834/list+of+voices' --header 'Authorization: Bearer YOUR_API_KEY'
टेक्स्ट-से-भाषण उत्पन्न करें
टेक्स्ट-टू-स्पीच बनाएं - एंडपॉइंट फीचर्स
| ऑब्जेक्ट | विवरण |
|---|---|
रिक्वेस्ट बॉडी |
[आवश्यक] Json |
{"data":"https://s3.us-east-1.amazonaws.com/invideo-uploads-us-east-1/speechen-US-News-L17664032245720.mp3","message":"success","success":true}
curl --location --request POST 'https://zylalabs.com/api/11558/ultra+text-to-speech+api/21835/create+text-to-speech' --header 'Authorization: Bearer YOUR_API_KEY'
--data-raw '{
"gender": "FEMALE",
"language_code": "en-US",
"language_name": "English (US)",
"voice_id": "en-US-News-L",
"text": "Stand by... we have a major development coming into the newsroom right now. After weeks of uncertainty—and hours of intense speculation—the decision has finally been made. The result? It is absolutely not what anyone expected! Sources on the ground are describing the atmosphere as tense... yet strangely hopeful. We are working to confirm the details at this very moment, so please... do not go anywhere."
}'
| हेडर | विवरण |
|---|---|
Authorization
|
[आवश्यक] होना चाहिए Bearer access_key. जब आप सब्सक्राइब हों तो ऊपर "Your API Access Key" देखें। |
कोई लंबी अवधि की प्रतिबद्धता नहीं। कभी भी अपग्रेड, डाउनग्रेड या कैंसल करें। फ्री ट्रायल में 50 रिक्वेस्ट तक शामिल हैं।
GET वॉयस की सूची समाप्ति उपलब्ध वॉयस पर्सोनास की सूची लौटाती है जिसमें लिंग भाषा कोड और वॉयस प्रकार जैसे गुण होते हैं POST टेक्स्ट-टू-स्पीच बनाने की समाप्ति उत्पन्न ऑडियो फ़ाइल के लिए एक URL लिंक और एक सफलता संदेश लौटाती है
GET आवाजों की सूची के लिए मुख्य फ़ील्ड में "लिंग," "भाषा_कोड," "भाषा_नाम," "प्रकार," और "आवाज_आईडी" शामिल हैं POST टेक्स्ट-से-स्वर बनाने के लिए मुख्य फ़ील्ड "डेटा" (ऑडियो URL), "संदेश," और "सफलता" हैं
पोस्ट क्रिएट टेक्स्ट-टू-स्पीच एंडपॉइंट उन पैरामीटर्स को स्वीकार करता है जैसे कि परिवर्तन करने के लिए पाठ और वॉयस मॉड्यूलेशन के लिए वैकल्पिक प्राकृतिक भाषा संकेत Users इन संकेतों के माध्यम से डिलीवरी स्टाइल और पेसिंग को अनुकूलित कर सकते हैं
GET वॉयस की सूची के लिए प्रतिक्रिया डेटा JSON प्रारूप में "data" कुंजी के अंतर्गत वॉयस ऑब्जेक्ट्स की एक श्रृंखला के साथ संगठित है POST टेक्स्ट-टू-स्पीच बनाने की प्रतिक्रिया में "data" "message" और "success" कुंजी के साथ एकल ऑब्जेक्ट शामिल है
विशिष्ट उपयोग के मामलों में इंटरैक्टिव एआई एजेंटों के लिए गतिशील ऑडियो उत्पन्न करना ऑडियोबुक की वाचन प्रक्रिया को स्वचालित करना आकर्षक शैक्षणिक सामग्री बनाना और गेमिंग अनुभवों को यथार्थवादी एनपीसी संवाद के साथ बढ़ाना शामिल है
डेटा की सटीकता को पेशेवर वॉयस अभिनेता की रिकॉर्डिंग और उन्नत एआई एल्गोरिदम के संयोजन के माध्यम से बनाए रखा जाता है जो उच्च गुणवत्ता वाली आवाज सिंथेसिस सुनिश्चित करते हैं निरंतर अपडेट और उपयोगकर्ता की प्रतिक्रिया भी आवाज के प्रदर्शन में सुधार करने में योगदान करते हैं
उपयोगकर्ता उत्पन्न ऑडियो खेलने या संग्रहित करने के लिए पोस्ट क्रिएट टेक्स्ट-टू-स्पीच प्रतिक्रिया से प्राप्त ऑडियो यूआरएल का उपयोग कर सकते हैं गेट लिस्ट ऑफ वॉयसेस से आवाज़ के गुण उपयोगकर्ताओं को उनके अनुप्रयोग के लिए सबसे उपयुक्त आवाज़ चुनने में मदद कर सकते हैं
उपयोगकर्ता स्पष्ट सफलता संकेतकों के साथ संरचित JSON प्रतिक्रियाओं की उम्मीद कर सकते हैं आवाजों की सूची के लिए GET में डेटा आमतौर पर कई आवाज विकल्पों को शामिल करेगा जबकि POST टेक्स्ट-टू-स्पीच बनाएंगे तो सफल प्रक्रिया पर एकल ऑडियो फ़ाइल लिंक लौटाएगा
उपयोगकर्ता प्राप्त की गई आवाज़ों की सूची में लौटाए गए गुणों का उपयोग करके अपनी आवाज़ चयन को कस्टमाइज़ कर सकते हैं वे लिंग भाषा और प्रकार के आधार पर आवाज़ों को फ़िल्टर कर सकते हैं ताकि अपने अनुप्रयोग के लिए सबसे उपयुक्त आवाज़ व्यक्तित्व मिल सके
एपीआई उत्पन्न किए गए टेक्स्ट-टू-स्पीच ऑडियो के लिए MP3 फॉर्मेट में ऑडियो आउटपुट का समर्थन करता है यह फॉर्मेट पोस्ट-प्रोडक्शन के लिए उपयुक्त है और विभिन्न अनुप्रयोगों में आसान एकीकरण के लिए है
एपीआई की इमोशनल इंटेलिजेंस विशेषता गतिशील रूप से इनपुट टेक्स्ट की भावना के आधार पर भाषण के भावनात्मक वजन को समायोजित करती है जिससे एक अधिक संवादात्मक और संदर्भानुकूल प्रस्तुति संभव होती है
POST टेक्स्ट-टू-स्पीच प्रतिक्रिया में "डेटा" क्षेत्र उत्पन्न ऑडियो फ़ाइल के यूआरएल लिंक को包含 करता है उपयोगकर्ता इस लिंक का उपयोग अपने अनुप्रयोगों के लिए ऑडियो चलाने या डाउनलोड करने के लिए कर सकते हैं
मल्टी-स्पीकर "डायलॉग" इंजन API को विशिष्ट आवाज़ों के साथ बातचीत का अनुकरण करने की अनुमति देता है जिससे एकीकृत संदर्भ और स्वर बनाए रखा जा सके जो पॉडकास्ट या ग्राहक सेवा परिदृश्यों में वास्तविक इंटरैक्शन बनाने के लिए आवश्यक है
प्राकृतिक भाषा प्रॉम्प्ट उपयोगकर्ताओं को आवाज़ वितरण शैली को सहजता से नियंत्रित करने की अनुमति देती है जिससे "उत्साहपूर्वक बोलें" या "धीरे पढ़ें" जैसी रचनात्मक अभिव्यक्तियाँ संभव होती हैं यह लचीलापन ऑडियो के भावनात्मक प्रभाव और सगाई को बढ़ाता है
एपीआई क्षेत्रीय लहजों के लिए गहरी समर्थन प्रदान करती है जो कि अंग्रेजी स्पेनिश और फ्रेंच जैसी भाषाओं के लिए कई रूपांतर प्रदान करती है यह सुनिश्चित करता है कि उत्पन्न भाषण स्थानीय दर्शकों के साथ गूंजता है और संबद्धता को बढ़ाता है
यदि उपयोगकर्ता एक खाली प्रतिक्रिया प्राप्त करते हैं तो उन्हें अपनी इनपुट पैरामीटर की सटीकता और पूर्णता की जांच करनी चाहिए सही पाठ और प्रॉम्प्ट सुनिश्चित करने से खाली परिणामों से बचने में मदद मिल सकती है और सफल ऑडियो उत्पादन की संभावना बढ़ सकती है
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
8,434ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
9,827ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
16ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,732ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
592ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
3,787ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,138ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
464ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
7,712ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
15,224ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
4,449ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
2,897ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
4,270ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
4,101ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
3,187ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
2,575ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
564ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
838ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,304ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,654ms