🎙️

Whisper - mp3-to-txt

Created

Apr 23, 2024 10:12 PM

Tags

Dzięki Whisperowi, modelowi od OpenAi możesz tworzyć transkrypcje audio. Pamiętacie naszą rozmowę z Szymonem Brodziakiem na temat AI na Rynku Kapitałowym? To właśnie Whisper pomógł nam stworzyć spis treści do naszego filmu na youtube.

Okej, to jak to wykonać? 1. Wchodzisz na replicate.com

openai/whisper:4d507972 – Run with an API on Replicate

Convert speech in audio to text

replicate.com

Zakładasz tam konto, bez obaw, pierwsza generacja (tzw. na testa) jest za darmo, później musisz dodać kartę i płacisz za każdą sekundę, gdy używasz jakiejkolwiek karty. Do Whispera jak najbardziej ok będzie Nvidia T4 Gpu (transkrypcja 1.5h filmu z Szymonem kosztowałaby wtedy jakoś 4-5zł).

Konfiguracja Whispera, najistotniejsze: - audio: tutaj wrzucasz plik z głosem, z którego chcesz stworzyć transkrypt. - langauge: tutaj wybierasz język, w którym jest audio - temperature: testowałem różne, najlepiej wychodzi to ustawienie z wartością 0.2.

Klikasz Run na dole strony. Cały proces trochę trwa, w moim przypadku transkrypcja dla 1.5h pliku audio trwała 30minut.

W sekcji output otrzymasz transkrypcję pliku (sekcja transcription:). Koniec. Możesz skopiować ten tekst i zrobić z nim co chcesz, czy to stworzenie podsumowania, czy wypisanie najistotniejszych wątków poruszonych w trakcie rozmowy albo stworzenie wątku na X na temat zagadnienia poruszanego podczas rozmowy - możliwości jest wiele.