HomeUGT தமிழ்Tech செய்திகள்மைக்ரோசாப்ட் VALL-E, ஆடியோ AI ஐ வெளியிடுகிறது, இது 3-வினாடி ப்ராம்ட்களில் இருந்து எந்த குரலையும்...

மைக்ரோசாப்ட் VALL-E, ஆடியோ AI ஐ வெளியிடுகிறது, இது 3-வினாடி ப்ராம்ட்களில் இருந்து எந்த குரலையும் உருவகப்படுத்த முடியும்

-


மைக்ரோசாப்ட் ஆராய்ச்சியாளர்கள் சமீபத்தில் VALL-E ஐ அறிவித்தனர், இது மூன்று வினாடி ஆடியோ மாதிரி கொடுக்கப்பட்டால் ஒரு நபரின் குரலை துல்லியமாக பிரதிபலிக்கும் ஒரு புதிய உரை-க்கு-பேச்சு AI மாதிரி. ஒரு குறிப்பிட்ட குரலைக் கற்றுக்கொண்டவுடன், பேச்சாளரின் உணர்ச்சித் தொனியைத் தக்கவைத்துக்கொள்ள முயற்சிக்கும் போது, ​​அந்த நபர் எதையும் பேசும் ஆடியோவை VALL-E ஒருங்கிணைக்க முடியும். GPT-3 போன்ற பிற உருவாக்கக்கூடிய AI மாடல்களுடன் இணைந்தால், VALL-E இன் படைப்பாளிகள் உயர்தர உரையிலிருந்து பேச்சு பயன்பாடுகள், பேச்சுத் திருத்தம் ஆகியவற்றிற்குப் பயன்படுத்தப்படலாம் என்று நம்புகிறார்கள், இதில் ஒரு நபரின் பதிவை உரை டிரான்ஸ்கிரிப்ட்டில் இருந்து திருத்தலாம் மற்றும் மாற்றலாம். (அவர்கள் உண்மையில் சொல்லாத ஒன்றைச் சொல்ல வைப்பது), மற்றும் ஆடியோ உள்ளடக்க உருவாக்கம்.

படி மைக்ரோசாப்ட்VALL-E என்பது முதன்மையாக ஒரு “நரம்பியல் கோடெக் மொழி மாதிரி,” இது என்கோடெக் அடிப்படையிலானது மெட்டா அக்டோபர் 2022 இல் வெளிப்படுத்தப்பட்டது. பொதுவாக அலைவடிவங்களைக் கையாளுவதன் மூலம் பேச்சை ஒருங்கிணைக்கும் உரையிலிருந்து பேச்சு முறைகளுக்கு மாறாக, VALL-E ஆனது உரை மற்றும் ஒலியியல் தூண்டுதல்களிலிருந்து தனித்துவமான ஆடியோ கோடெக் குறியீடுகளை உருவாக்குகிறது. இது ஒரு நபர் எவ்வாறு ஒலிக்கிறது, தொடர்புடைய தரவை என்கோடெக்கைப் பயன்படுத்தி தனித்தனி கூறுகளாக (“டோக்கன்கள்” என குறிப்பிடப்படுகிறது) உடைக்கிறது, பின்னர் அந்த குரல் மற்ற சொற்றொடர்களை பேசினால் அது எப்படி ஒலிக்கும் என்பதை “தெரிந்துள்ளது” என்பதைப் பொருத்த பயிற்சி தரவைப் பயன்படுத்துகிறது. மூன்று வினாடி மாதிரி.

மைக்ரோசாப்ட் மெட்டாவின் லிப்ரிலைட் ஆடியோ நூலகத்தைப் பயன்படுத்தி VALL-E இன் பேச்சு தொகுப்பு செயல்பாடுகளை பயிற்றுவித்தது. 7,000க்கும் மேற்பட்ட பேச்சாளர்களிடமிருந்து 60,000 மணிநேர ஆங்கில மொழிப் பேச்சு இதில் அடங்கும், முதன்மையாக LibriVox பொது டொமைன் ஆடியோபுக்குகளிலிருந்து பெறப்பட்டது. மூன்று-வினாடி மாதிரியில் உள்ள குரல் ஒரு நல்ல முடிவை உருவாக்க VALL-E க்கான கற்றல் அல்காரிதத்தில் உள்ள குரலை ஒத்திருக்க வேண்டும்.

அமெரிக்க தொழில்நுட்ப நிறுவனமான AI மாதிரியின் செயல்பாட்டில் டஜன் கணக்கான ஆடியோ உதாரணங்களை வழங்குகிறது VALL-E உதாரண இணையதளம். “ஸ்பீக்கர் ப்ராம்ப்ட்” டேட்டா செட் என்பது VALL-E க்கு கொடுக்கப்பட்ட மூன்று-வினாடி ஆடியோவாகும், அதை பின்பற்ற முயற்சிக்க வேண்டும். “கிரவுண்ட் ட்ரூத்” என்பது ஒப்பீட்டு நோக்கங்களுக்காக (சோதனையில் உள்ள “கட்டுப்பாடு” போன்றது) ஒரு குறிப்பிட்ட சொற்றொடரைக் கூறும் அதே பேச்சாளரின் முன்பு பதிவுசெய்யப்பட்ட பதிப்பாகும். “பேஸ்லைன்” மாதிரியானது பாரம்பரிய உரை-க்கு-பேச்சு தொகுப்பு முறையால் உருவாக்கப்படுகிறது, மேலும் “VALL-E” மாதிரி VALL-E மாதிரியால் உருவாக்கப்படுகிறது.

Microsoft VALL E தொகுதி வரைபடம் மைக்ரோசாப்ட் VALL-E மைக்ரோசாப்ட்

மைக்ரோசாஃப்ட் ஆராய்ச்சியாளர்களால் எடுத்துக்காட்டு இணையதளத்தில் காட்டப்பட்டுள்ளபடி VALL-E இன் தொகுதி வரைபடம்
பட உதவி: மைக்ரோசாப்ட்

அந்த முடிவுகளைப் பெற ஆராய்ச்சியாளர்கள் மூன்று வினாடி “ஸ்பீக்கர் ப்ராம்ப்ட்” மாதிரி மற்றும் ஒரு உரை சரத்தை (குரல் என்ன சொல்ல வேண்டும் என்று அவர்கள் விரும்புகிறார்கள்) மட்டுமே VALL-E இல் வழங்கினர். சில VALL-E முடிவுகள் கணினியால் உருவாக்கப்பட்டதாகத் தோன்றுகின்றன, ஆனால் மற்றவை மனித பேச்சுக்காக தவறாகப் புரிந்து கொள்ளப்படலாம், இது மாதிரியின் இலக்காகும். தவறான செயல்கள் மற்றும் வஞ்சகத்தைத் தூண்டும் VALL-E இன் திறன் காரணமாக, மைக்ரோசாப்ட் VALL-E குறியீட்டை மற்றவர்கள் ஆராய்வதற்குக் கிடைக்கச் செய்யவில்லை. இந்த தொழில்நுட்பம் ஏற்படுத்தக்கூடிய சாத்தியமான சமூக தீங்குகளை ஆராய்ச்சியாளர்கள் அறிந்திருப்பதாகத் தெரிகிறது.

அவர்கள் கட்டுரையின் முடிவில் எழுதுகிறார்கள்: “ஸ்பீக்கர் அடையாளத்தை பராமரிக்கும் பேச்சை VALL-E ஒருங்கிணைக்க முடியும் என்பதால், குரல் அடையாளத்தை ஏமாற்றுதல் அல்லது ஒரு குறிப்பிட்ட பேச்சாளராக ஆள்மாறாட்டம் செய்தல் போன்ற மாடலை தவறாகப் பயன்படுத்துவதில் இது சாத்தியமான அபாயங்களை ஏற்படுத்தலாம். அத்தகைய அபாயங்களைக் குறைக்க, இது சாத்தியமாகும். VALL-E மூலம் ஆடியோ கிளிப் ஒருங்கிணைக்கப்பட்டதா என்பதை வேறுபடுத்துவதற்கு கண்டறிதல் மாதிரியை உருவாக்க. மாடல்களை மேலும் மேம்படுத்தும் போது மைக்ரோசாஃப்ட் AI கோட்பாடுகளையும் நடைமுறைப்படுத்துவோம்.”


இணைப்பு இணைப்புகள் தானாக உருவாக்கப்படலாம் – எங்கள் பார்க்கவும் நெறிமுறை அறிக்கை விவரங்களுக்கு.

எங்களிடம் உள்ள கேஜெட்கள் 360 இல் நுகர்வோர் எலெக்ட்ரானிக்ஸ் ஷோவிலிருந்து சமீபத்தியதைப் பார்க்கவும் CES 2023 மையம்.


Poco C55 ஆனது மறுபெயரிடப்பட்ட Redmi 12C ஆக இருக்கும், விரைவில் வெளியிடப்படும் என்று எதிர்பார்க்கப்படுகிறது

அன்றைய சிறப்பு வீடியோ

CES 2023: MSI கிரியேட்டர் லேப்டாப்கள் புதுப்பிக்கப்பட்டன, பென் 2 ஸ்டைலஸ் அறிவிக்கப்பட்டது, மேலும் பல



Source link

www.gadgets360.com

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular