top of page
Obrázek autoraMICHAL KODNÁR

Zaznamenávání projevů pomocí umělé inteligence: Andrej Babiš versus WhisperAI

Raketový rozvoj umělé inteligence vzbuzuje obavy. Důsledky neumí odhadnout ani její tvůrci. Praktické využití některých nástrojů je ale ohromující. Například projekt WhisperAI již prakticky připravil o práci stenografy. A dokonce si umí poradit i s přepisem řeči slavného rétora Andreje Babiše. Posuďte sami.



Umelá inteligencia (AI) a strojové učenie rýchlo napredujú a prinášajú nové technológie, ktoré nám pomáhajú efektívnejšie riešiť rôzne úlohy a zjednodušovať naše životy.


Spoločnosť OpenAI, ktorá je zameraná na vývoj a výskum umelej inteligencie, spôsobila vďaka projektom ako sú ChatGPT, DALL-E a pod. v každodennom živote každého z nás podobnú revolúciu, akú spôsobil v 90tych rokoch internet.


Ľudstvo interaguje s umelou inteligenciou a radí sa s ňou o najrôznejších témach ako sú zdravie, veda, technológie a spoločenské vedy. Umelá inteligencia pritom môže poskytnúť odpovede na konkrétne otázky, ale aj širšie vysvetlenia a súvislosti. Vie generovať kód a obrázky, známkovať úlohy, počítať matematické úlohy, písať akademické práce, alebo aj nahrádzať prácu právnikov a úspešne riešiť súdne prípady a vypracovávať znalecké posudky.


Mnohé úlohy, ktoré spisovateľom, programátorom či grafikom kedysi zaberali hodiny a hodiny času vie už dnes vyriešiť umelá inteligencia, ktorá je verejne prístupná a ktorá je prakticky zdarma.


Whisper AI

Jedným z projektov spoločnosti OpenAI je WhisperAI – univerzálny model rozpoznávania hovorenej reči a jej prenosu do písaného textu. Whisper je vytrénovaný na veľkom súbore dát s rôznorodým zvukom, pričom disponuje aj podporou multitaskingu, vďaka čomu vie zvládať aj viacjazyčné rozpoznávanie reči, preklad reči a identifikáciu jazyka.


Technológia Whisper využíva takzvaný “sequence-to-sequence model transformer”, ktorý je natrénovaný na rôzne úlohy spracovávania reči vrátane detekcie viacjazyčného hovoreného prejavu, prekladu, identifikácie jazyka a detekcie hlasovej aktivity. Tieto úlohy sú v technológii spoločne reprezentované ako sekvencia tokenov, ktoré sú predpovedané dekodérom a “vypľuté” ako output.


Whisper a záznam prejavu Andreja Babiša

Oblastí ľudského života, do ktorých vnáša revolúciu konkrétne WhisperAI je nekonečne mnoho, no zaujímavosťou je, že táto umelá inteligencia si našla svoje uplatnenie aj v obore politiky a diplomacie. Whisper totiž prakticky úplne pochoval stenografiu – alebo vo všeobecnosti – rýchle a presné zaznamenávanie reči, napríklad počas rokovaní, súdnych pojednávaní, prednášok a podobne.


V porovnaní s tradičnými stenografmi má umelá inteligencia, ako je WhisperAI, niekoľko výhod. Po prvé, dokáže rýchlo a presne prevádzať reč na text pomocou pokročilých algoritmov strojového učenia. To znamená, že je schopná zaznamenať vysoký počet slov za krátky čas, čím sa zvyšuje rýchlosť záznamu.


Whisper sa dokáže učiť sa a prispôsobovať sa individuálnym potrebám. Počas záznamu si dokáže zapamätať predchádzajúce vety a ich kontext, čo mu umožňuje presnejšie zaznamenávať reč a minimalizovať pravdepodobnosť chýb.

Nižšie je nahratá ukážka z promptu a outputu umelej inteligencie Whisper, ktorá spracovala verejný príhovor Andreja Babiša na tému “Já jsem populista”:



Whisper svoju prácu vykonal nesmierne efektívne – celá práca mu zabrala menej ako minútu. AI najprv detekovala jazyk, v ktorom bol príhovor prenesený, následne extrahovala text a k jednotlivým pasážam prejavu nezabudla doplniť aj konkrétne časy ich prednesu. AI si dokonca poradila aj s lámanou češtinou bývalého pána premiéra; output obsahuje charakteristické slovakizmy, no pritom je stále zrozumiteľný.


entente@pop-os:~/Downloads$ whisper Pane\ premiére\ máte\ pravdu.\ Ano\ jsem\ populista\ hrdý\ populista\!\ \[TubeRipper.com\].mp3 --model medium

Detecting language using up to the first 30 seconds. Use `--language` to specify the language

Detected language: Czech

[00:00.000 --> 00:06.400] Pane premiére, já jsem se přihlásil, abych na vás promluvil, abych vás vyzval.

[00:06.400 --> 00:12.200] Vy jste vždycky říkal, že já rozdělují národ, že jsem populista.

[00:12.200 --> 00:18.600] Ano, populismus je politický přístup, spočívající snaze oslovit běžného človeka,

[00:18.600 --> 00:22.800] který se domnívá, že vládnoucí skupiny nehají nebo přehlíšího zájem.

[00:22.800 --> 00:27.000] Já jsem hrdý populista. Ano, já tady hajím duchodce.

[00:27.000 --> 00:34.400] 7 000 korun. Pane premiére, potěsem. A řekněte, že jste byl uveden v omyl.

[00:34.400 --> 00:42.800] A zkuste spojit, aspoň na chvíli, na chvíli, ty dvě půlky. Váš prezident vyhral.

[00:42.800 --> 00:52.000] Já jsem měl 2,4 mena hlasu. Řekněte, že těch 19 miliár, které pan Staňura přece má,

[00:53.000 --> 01:02.200] vždy to je směšné. Kolik máte, pane ministře, příjem? Výda je 2223 miliard.

[01:02.200 --> 01:08.800] To je 0,8%. Vy jste to přece řekl na tiskovce, že je to o ničem, že jsou to drobné.

[01:08.800 --> 01:17.800] 19 miliard. Tak pane premiére, přijďte sem, ukončíme to. Řekněte, že jste rozhodl jako premiér,

[01:17.800 --> 01:25.200] že to stavujete, že těch 19 miliard dáte tým důchodcům. Máte historickou šanci to spojit.

[01:25.200 --> 01:29.800] A pokud to neuděláte, já jsem nikdy neorganizoval žádnou demonstraci.

[01:29.800 --> 01:37.600] Tady každý mluví o ústavním soudu, ale prezident rozhodne, protože když 14 ní si veme a dá na to veto,

[01:37.600 --> 01:43.200] a já zorganizuju první demonstraci důchodců, protože mám střed zájmu, je mi 68,

[01:43.200 --> 01:48.200] a podle vás bych už neměl pracet a budu pracovat. Teda už jsem záh.

[01:48.200 --> 01:55.400] Udělejte to tam, pane premiére, protože ten prezident, pokud je různý, tak to spojí a on do toho hodí vidle.

[01:55.400 --> 01:59.600] Já vám za to děkuju. Vratě se prosím vás a řekněte, že je to nesmysl.

[01:59.600 --> 02:04.800] 19 miliard, taková ostuda, co se tady dělá. Neuvěřitelné.


Aj keď sú výsledky umelej inteligencie v obore spisovania textu prakticky neprekonateľné akýmkoľvek žijúcim človekom, stenografi sú stále schopní vytvárať záznamy aj v prípadoch, kedy sa vyskytnú nejaké technické problémy a taktiež dokážu pracovať s citlivými informáciami a poskytnúť dodatočné kontextové informácie, ktoré by mohli byť pre umelú inteligenciu (zatiaľ) ťažko zaznamenávateľné. Klasická metóda záznamu textu človekom počúvajúcim audionahrávku je však v dnešnej dobe vďaka Whisperu absolútne nezmyselná.


Potenciál absolútne nahradiť úlohu človeka

V závere možno povedať, že vývoj umelých inteligencií, ako je Whisper AI, prináša značné zlepšenia v rýchlosti a efektivite záznamu reči. Tieto technológie môžu byť v budúcnosti významným nástrojom pri zaznamenávaní politických príhovorov, rokovaní, súdnych pojednávaní, prednášok a pod., pričom majú potenciál absolútne nahradiť úlohu človeka. V určitej miere sa tak deje už teraz.

 
 

V súčasnosti Elon Musk apeluje na pozastavenie vývoja umelej inteligencie na dobu 6 mesiacov, keďže je ľudstvo podľa neho na tak rýchly technologický vývoj “nepripravené”. Čo presne si pod tým Musk predstavuje zatiaľ nie je zrejmé, no keďže sú technológie OpenAI otvorené a verejne prístupné, k vývoju bude dochádzať bez ohľadu na to, to spoločnosť pripustí alebo nie. Pri “pozastavení vývoja” sa stane prakticky iba to, že sa vývoj AI presunie ďalej na východ, pričom západný svet za danú šesťmesačnú prestávku stratí výraznú konkurenčnú výhodu.


Ako tieto obštrukcie zasiahnu konkrétne vývoj WhisperAI, ukáže iba čas.


 

Michal Kodnár je studentem programu Economics, Business, Politics na vysoké škole CEVRO Institut. Článek vznikl v rámci semináře Na semestr novinářem.

776 zobrazení

Nejnovější příspěvky

Zobrazit vše

Comments


HLAVNÍ PARTNER

1.png

PARTNEŘI

CZ_DEFENCE_ctverec_claim_krivky.jpg
Screenshot 2021-05-27 at 9.58.59.png
bottom of page