Te-ai întrebat vreodată cum ar fi să ai o super puterea de a transforma orice conversație sau prezentare într-un text scris? Ei bine, Inteligența Artificială Whisper și Google Colaboratory te pot transforma într-un erou al transcrierii.
Bun venit la Cafeneaua de digitalizare! Sunt Claudia Ștefan, profesor de Informatică, și la cafeaua de astăzi vom fi super eroii care transformă orice fișier audio și video într-un document scris sau subtitrări folosind Inteligența Artificială (AI).
Cum putem transforma vorbirea în text cu Inteligența artificială AI Whisper
Dacă te-ai confruntat cu situația de a transcrie manual o prezentare sau o discuție sau de a avea nevoie de subtitrare pentru un video, atunci știi cât poate fi de obositor și cât de mult timp consumă. Acum, doar imaginează-ți cum ar fi să te relaxezi la o cafea cu prietenii în timp ce Inteligența Artificială face toată treaba asta pentru tine.
La cafeaua de digitalizare de astăzi, vom vedea cum putem transforma vorbirea în text folosind Inteligența artificială AI Whisper.
Whisper este o rețea neuronală care se apropie de acuratețea nivelului uman în recunoașterea vorbirii. Whisper este un sistem de recunoaștere automată a vorbirii antrenat pe 680.000 de ore de date supravegheate multilingve și multitask colectate de pe web. Utilizarea unui set de date atât de mare și divers duce la o robustețe îmbunătățită față de accente, zgomot de fundal și limbaj tehnic. În plus, permite transcrierea în mai multe limbi, precum și traducerea din acele limbi în engleză.
Arhitectura Whisper este o abordare simplă de la un capăt la altul, implementată ca un Transformator codificator-decodor. Sunetul de intrare este împărțit în bucăți de 30 de secunde, convertit și apoi trecut într-un decoder. Aproximativ o treime din setul de date audio al lui Whisper este non-engleză și i se atribuie alternativ sarcina de a transcrie în limba originală sau de a traduce în engleză.
Whisper este open source, însemnând că este un cod gratuit care poate fi descărcat și utilizat împreună cu alte aplicații.
Whisper OpenAI cu Google Colaboratory
Doar că Whisper nu este o aplicație, pentru a transforma vorbirea în text trebuie să colaboreze cu o aplicație care are o interfață. Pentru a face lucrurile ușoare, vom utiliza Google Colaboratory. Acest lucru îți permite să te folosești de serviciile google gratuite și să rulezi codul direct în browserul web fără să instalezi nimic pe calculatorul personal.
Nu vreau să te pierd în acest proces de instalare, îți promit că este foarte simplu și ușor, trebuie doar să urmezi pas cu pas ce fac eu.
Instalare Google Colaboratory
Pentru a utiliza Whisper cu Google Colaboratory, trebuie să urmezi câțiva pași simpli. Instrucțiunile pe care le folosesc se află în descriere videoclipului folosește doar copy-paste și totul va fi floare la ureche.
-
Pentru a avea acces Google Colaboratory, conectează-te la contul google și mergeți la Google Drive. Veți avea nevoie de un cont Google, iar dacă nu ai încă unul, obținerea lui este complet gratuită.
-
Pe Google Drive, în colțul din stânga sus, faci clic pe butonul Nou. Și din meniu selectăm Mai multe (More), apoi clic pe Conectați mai multe aplicații.
-
În câmpul de căutare al acestei ferestre de dialog scrii Google Colaboratory și apoi cauți. Aici, vedem acest rezultat pentru Colaboratory.
-
Hai să facem clic pe asta, și aici, să facem clic pe Instalare. Apoi, să facem clic pe Continuare (Continue). În continuare, ar trebui să vezi un mesaj care spune că Google Colaboratory a fost conectat la Google Drive. Să facem clic pe OK. Și uită-te la asta. A fost instalat cu succes. Să facem clic pe Terminat (Done). Acum, puteți închide această fereastră.
-
Să revenim acum la colțul din stânga sus. Faci din nou clic pe butonul Nou (new). Apoi coborâți la Mai multe (More). Și aici, ar trebui să vezi acum o opțiune pentru Google Colaboratory. Clic pe acesta. Acest lucru ne trimite în spațiul Google Colaboratory.
Și arată căi instalația terminat în aproximativ 23 de secunde. Nu prea rău deloc.
Transformarea vorbirii în text cu ajutorul Inteligenței Artificiale: cum funcționează transcrierile Whisper
Ești gata să extragi textul din fișiere audio? Acum, transformarea vorbirii în text cu ajutorul Inteligenței Artificiale este la o comandă distanță și doar câteva clicuri de noi. Să înceapă distracția și să vedem cum funcționează transcrierile Whisper pentru a obține text din audio.
În partea stângă, facem clic pe pictograma Folder. Aici poți încărca prin tragere fișierul audio sau fișierul video pe care vrei să-l transcrii. Eu am un fișier MP3.
Aici, scrie că fișierele încărcate vor fi șterse când acest timp sesiunii de lucru se termină. Este în regulă, așa că hai să facem clic pe OK. Și acum putem vedea că fișierul a fost încărcat cu succes.
Acum sunt gata să extrag text din acest fișier audio. În câmpul pentru comenzi voi introduce codul:
!whisper “INTRODU NUMELE FIȘIERULUI AICI” –language Romanian
Exemplu: !whisper audio-voice.MP3 –language Romanian
Aceasta specifică numele fișierului din care dorești să extrageți text. Al meu se numește audio-voice.mp3. Deci, mă voi asigura că în comandă scrie audio-voice.mp3. Apoi, specifici limba fișierului audio.
Poți, de asemenea, specifica și modelul pe care ai dori să-l utilizezi. Vreau să folosesc modelul mediu. Aveți cinci modele diferite din care puteți alege. Pe partea de jos, ai modelul minuscul. Aceasta ocupă cel mai puțin spațiu. De asemenea, funcționează cel mai rapid, dar obțineți cea mai proastă precizie. La celălalt capăt, aveți modelul mare. Durează aproximativ un concert și jumătate. Procesarea durează, de asemenea, cel mai mult timp. Dar obțineți și cel mai înalt nivel de calitate. Am găsit că un punct bun merge cu modelul mediu.
Odată ce am terminat de introdus comanda, fac clic pe pictograma Run. Și aștept să se execute codul. După ce s-a terminat de executat, pot vedea o transcriere a tot ceea ce s-a spus în fișierul audio.
De asemenea, dacă nu vezi fișierele generata, în panoul din partea stângă sus, faci clic pe pictograma Reîmprospătare, și ar trebui să vezi un fișier SRT, un fișier TXT și un fișier VTT. În fișierul text vezi doar textul din audio din audio sau video încărcat. Iar SRT și VTT sunt formate de subtitrări care includ și marcaje temporale, deci știi ce s-a spus și când.
Pentru a descărca oricare dintre aceste fișiere, în partea dreaptă a fiecărui fișier, faci clic pe punctele de suspensie sau pe cele trei puncte, și aici puteți da clic pe Download. Eu descarc, de obicei, fișierul SRT și fișierul TXT. Dacă dăm dublu clic pe denumirea unui fișier generat, acesta se deschide și îl putem vizualiza și edita Și lucrul pentru care iubesc să utilizarea Whisper este face o treabă perfectă transcriind: aplică diacritice și majuscule, pune semne de punctuație, deci aceasta este o transcriere de foarte înaltă calitate. Trebuie doar să intru și să fac câteva modificări minore și rafinamente pentru a fi perfect. Când deschidem fișierul SRT, aici vom vedea exact aceeași transcriere, dar include și marcaje de timp.
Pentru a transcrie un alt fișier, pur și simplu tragem un alt fișier audio sau video în panoul Folder, și apoi actualizăm numele numele fișierului în comanda:
!whisper “INTRODU NUMELE FIȘIERULUI AICI” –language Romanian
După care acționăm butonul RUN și vom primi o altă transcriere pentru următorul fișier încărcat.
Iar pentru a transcrie aceste fișier, folosim doar o comandă de bază. Nu-i așa că e incredibil!
Transcrieri Whisper multilingve: cum să transcrii audio în diferite limbi
Cu Whisper poți obține transcrieri audio multilingve. Poate fi folosit cu engleză, română și alte 95 de limbi. Funcționează chiar dacă este mult zgomot de fundal în înregistrarea audio. Și funcționează și dacă ai accent. Hai să vedem cum putem obține o traducere automată a transcrii audio.
Avem și câțiva parametri suplimentari pe care îi putem utiliza. Hai să mai adăugăm ceva codîn cîmpul destinat codului din Google Colaboratory:
!whisper -h
apoi facem clic pe Run.
Acest lucru afișează toți parametrii disponibili: putem specifica unde doriți să salvați rezultatul, putem specifica dacă dorim să transcriem un fișier sau dacă dorim și să transcriem și traducem fișierul în același timp. De asemenea, putem specifica și limba, și avem mulți alți parametri. Dacă nu sunteți sigur ce face un parametru, dacă defilezi puțin în jos, aici vei vedea o explicație detaliată a ceea ce face fiecare parametru.
Din această listă de parametri, aflu că trebuie să adaug la comanda parametru –task translate pentru a obține o transcriere în engleză. Iar comanda completă este aceasta:
!whisper “INTRODU NUMELE FIȘIERULUI AICI” –language Romanian –task translate
De exemplu: !whisper 3-starte-voicemod-audio.MP3 –language Romanian –task translate
Și iată minunea! Acum am transcrierea și fisierele pentru subtitrare în engleză. Trebuie doar să le încarc la videoclipul de pe YouTube și voi atrage cu siguranță mai multe vizualizări.
După ce părăsești Google Colaboratory, timpul de rulare se va încheia, și fișierele încărcate și generate vor fi șterse automat. Deci, dacă ai transcris ceva audio, îți recomand să descarci mai întâi înainte de a pleca din aplicație.
Whisper este o tehnologie atât de uimitoare. Eu personal am început s-o folosesc pentru subtitrările la videoclipurile mele de pe YouTube. Face o treabă mai bună decât subtitrările generate automat de Google pentru că înțeleg toate cuvintele corect.
Cu Whisper, totul devine mult mai ușor
Cu Whisper, totul devine mult mai ușor. Cea mai bună parte este că este complet gratuit. Poți încărca fișierul audio sau video și aplicația va face restul muncii pentru tine, transformând audio într-un document scris sau generând subtitrări în timp ce audio este redat.
Nu te lăsa intimidat de pașii necesari pentru a utiliza Whisper cu Google Colaboratory. Gândește-te la aceștia ca la un puzzle, unde fiecare piesă te aduce mai aproape de imaginea finală.
Abonează-te la canalul de youtube ClauAcademy, iar eu te aștept la următoarea cafea de digitalizare.
Enjoy!