Tartalomjegyzék:
- Hogyan fejti ki az emberi hangot a mély tanulás?
- Hangtalan személy hangjának újjáélesztése
- Az AI szintetizátorok negatív felhasználásának kiegyensúlyozása
Videó: TÜRKCELL HATTI KENDİ ÜZERİNE ALMA 2020!!! (November 2024)
2017-ben az pusztító neurológiai rendellenességgel járó amyotrophiás laterális szklerózis (ALS) megsemmisítette Pat Quinnet, a híres Ice Bucket Challenge alapítóját, hogy beszédet tudjon.
A gépi tanulás és a mély tanulás fejlődésének köszönhetően a mesterséges intelligencia algoritmusok nagyon jók voltak az emberek utánozásában. De bár az űrben sok kiemelkedő fejlemény negatív volt, az AI utánozó hatalma pozitív változások hajtóereje volt Quinn számára.
"Az ALS-sel (más néven a motoros neuronbetegséggel) élő emberek bénulnak és nem képesek kommunikálni semmiféle mesterséges" számítógépes "hanggal, " mondja Oskar Westerdal, a Project Revoice társalapítója, egy olyan kezdeményezés, amelynek célja az ALS-ben szenvedő betegek, mint például Quinn..
Quinn hangjának újraterjesztése érdekében a Project Revoice együttműködött a Lyrebird-szel, az olyan maroknyi társasággal, amely AI-t használ az ember hangjának klónozására - egy csoport, amely magában foglalja a Google WaveNet-et és a Voicery-t, egy Y Combinator által támogatott indítót, amely AI-t használ szintetizált hangfelvételek készítésére..
Hogyan fejti ki az emberi hangot a mély tanulás?
Ezen alkalmazások mögött vannak a mélyreható algoritmusok, az AI népszerű ága, amelyek nagyszámú adatot használnak olyan betekintésekre és mintákra, amelyeket a hagyományos, szabályalapú szoftverekkel nem lehet rögzíteni. Ha egy elég mélyen tanuló hangszintetizátort képzel elegendő hangfelvételtel, akkor létrehoz egy digitális modellt, amely képviseli az ember hangját, és új hangmintákat generálhat.
Az AI-alapú hangszintézis-technológia megjelenése előtt az ALS-betegeknek általános digitális hangokat kellett használniuk, amelyek nem voltak a sajátok. Más technológiák összeilleszthetik az előre rögzített mondatokat a páciens hangjával, de az eredmények túl mesterségesek voltak, és több tucat órányi hangfelvétel igényeltek minimális felhasználást.
A mélyen tanuló alkalmazások viszont sokkal kevesebb adatot igényelnek, és jobb eredményeket nyújtanak. "Amit Lyrebird elérhet néhány órányi hanggal, figyelemre méltó - teljes digitális hangklónt ad az embereknek, így bármit elmondhatnak, amit akarnak" - mondja Westerdal.
Hangtalan személy hangjának újjáélesztése
A mélyen tanuló alkalmazások egyik korlátja az ideghálózatok kiképzéséhez való függőség a kiváló minőségű adatmintáktól. Az ALS-betegek esetében az a probléma, hogy ha elveszítik a hangjukat, lehetetlen hangminta rögzítése. Szerencsére Quinn órányi feljegyzéseket és interjúkat vett fel.
"A legnagyobb kihívás a minőség volt. Ez a technológia teljesen függ attól, hogy következetes, kiváló minőségű felvételeket készítsenek, amelyek pontos szkriptet is követnek - tehát együtt kellett dolgoznunk egy hangstúdióval, hogy manuálisan" remasteráljunk ", és átírjuk minden párbeszédablakot, amelyet találtunk Pat "- mondja Westerdal.
"Kicsit féltünk, hogy nem tudunk kiváló minõséget biztosítani Pat hangjának megteremtésére" - mondja Jose Sotelo, a Lyrebird társalapítója. "Mivel nem sikerült tiszta felvételeket beszerezni, a mesterséges hang végső minősége nem tökéletes. Úgy gondoljuk, hogy sokkal jobb munkát tudunk végezni a tiszta felvételekkel."
Az eredmények kissé természetellenesek és szintetikusak. De Quinn számára, aki általános hangot adott a kommunikációhoz, a különbség drámai volt. "Miután meghallottam a hangomat ezen az új technológián keresztül, elrobbantottam! Annak érdekében, hogy a betegek tudják, hogy megvan a saját hangjuk, miután az ALS elvette azt, az megváltoztatja az emberek életmódját az ALS-szel" - mondja.
Quinn azt ajánlja, hogy az ALS-betegek rögzítsék hangjukat, mielőtt túl késő lenne. "Miután újra meghallottam a saját hangomat, szükségem van az ALS-betegekre, hogy tudjam, hogy hangjuk felvétele hihetetlenül fontos" - mondja.
Az AI szintetizátorok negatív felhasználásának kiegyensúlyozása
Ez év elején a FakeApp, az AI-alapú arccsere-alkalmazás, hamis pornográf videók támadását váltotta ki, amelyek hírességeket és politikusokat mutattak be. Aggodalomra ad okot, hogy az olyan alkalmazások, mint a FakeApp és a Lyrebird, bevezetik a hamis hírek, csalások és hamisítások új korszakát.
A Lyrebird webhelyének etikai oldala korábban elismerte, hogy a technológia "potenciálisan veszélyes következményekkel járhat, mint például a diplomaták megtévesztése, a csalás és általánosságban minden más probléma, amelyet valaki másnak a személyazonosságának ellopása okozhat".
A lényeg érdekében a társaság weboldala számos szintetizált felvételt tartalmaz, amelyeket Donald Trump és Barack Obama hangjai készítettek.
@realDonaldTrump https://t.co/N6DRPdEGPT pic.twitter.com/G30DvmQNdk
- Lyrebird AI (@LyrebirdAi), 2017. szeptember 4
Quinn története segíthet megvilágítani egy olyan ipar pozitív aspektusait, amely az alkalmazások potenciálisan hátborzongató és etikátlan felhasználása érdekében átvette a flakot. "Fontos, hogy az emberek felismerjék ennek a technológiának a fényes oldalát" - emlékezteti a Lyrebird Sotelo.
Az orvosi felhasználások mellett az AI szintetizátor alkalmazások más produktív célokat is szolgálhatnak. A Voicery márkákat testreszabott digitalizált hangokkal lát el, amelyeket AI algoritmusok táplálnak. A Google a WaveNettel is kísérletezik, hogy természetesebb élményt nyújtson a Google Assistant-alapú eszközök felhasználóinak. Más területeken, ahol a technológia hasznos, beletartozik az audiokönyvek automatizálása vagy a filmekben a hangmásolás sokkal könnyebbé tétele.
Az etikai és jogi akadályok kétségtelenül felmerülnek, és a viták folytatódnak. De Quinn számára az AI jó erő. "Nem akarok úgy hangzni, mint egy számítógép" - mondja. "Szeretnék olyannak hangzni, mint én."