Gadanie Gadesa. Rozmaitości. Witam was w kolejnym odcinku podcastu Gadanie Gadesa. Tym razem znów nieco ucieknę od sprzętu audio w stronę oprogramowania, a wszystko to w trosce o czas. Czas jest ważny. Każdy chciałby go oszczędzić i każdemu go brakuje.
No, może prawie każdemu. Ja przynajmniej chętnie przytuliłbym choćby godzinkę więcej dziennie. Uzyskać można to na kilka sposobów, np. mniej śpiąc. Sensownie jednak brzmi opcja z lepszą organizacją czasu. Dlatego w końcu zdobyłem Rotkastera, żeby szybciej i sprawniej nagrywać odcinki podcastów.
Samo urządzenie to jedno, ale po przeanalizowaniu procesu powstawania odcinka widzę, że wąskim gardłem obecnie jest tworzenie skryptu. No bo niestety nie bardzo potrafię mówić wyłącznie z głowy. Nie dość, że o połowie rzeczy zapominam, to jeszcze zaczynam dryfować w różnych trudnych do przewidzenia kierunkach.
No i ciągle się zacinam, a słuchanie wiecznego do przyjemnych z pewnością nie należy. Zatem skrypt muszę mieć przygotowany. Nie do końca na nim bazuję, ale pozwala mi utrzymać się w ryzach. Jednak skrypt trzeba najpierw przygotować, czyli napisać.
No i nad tym czasem spędzam dużo czasu. Zacząłem więc przemyśliwać, czy jest jakiś sposób, żeby ten czas skrócić do jakiegoś niezbędnego minimum. Pomysł przyszedł dość niespodziewanie, kiedy słuchałem jednego z odcinków na kanale Jak zrobić podcast.
Otóż jeden z rozmówców wspomniał tam o systemach automatycznej transkrypcji, czyli zapisu mowy jako tekstu. Zacząłem drążyć temat i okazało się, że jest to całkiem ciekawe. Możliwość dyktowania treści skryptu, który tworzy się automatycznie, brzmi rewelacyjnie, więc postanowiłem spróbować.
Pierwszy na tapecie pojawił się Word z pakietu firmy Microsoft. Ma on specjalną funkcję rozpoznawania mowy, dzięki której można na żywo dyktować treść dokumentu. Oczywiście spróbowałem. Pierwsze wrażenia? Rewelacyjne. Program rozpoznawał praktycznie wszystko, co mówiłem.
No jednak zaraz po zachwycie przyszedł też moment rozczarowania, kiedy okazało się, że dyktowania trzeba się po prostu nauczyć i dodatkowo trzeba pilnować pewnych rzeczy, jak choćby interpunkcji. Czyli nie możemy powiedzieć, żeby kuska nie skakała, to by nóżki nie złamała, tylko musimy powiedzieć, żeby kuska nie skakała, to by nóżki nie złamała.
I czasem jeszcze dodać nowa linia, jeśli chcemy zakończyć akapit i przejść do nowej linii. To niby jest drobna rzecz, ale strasznie wytrąca zrównowagi przy dyktowaniu. Można rzecz jasna nie stawiać w ogóle znaków przestankowych, ale przy czytaniu późniejszym takiego tekstu oczy nam wypłyną, a mózg się zlasuje od domyślania się, gdzie kończy się jedna myśl, a zaczyna druga.
Według mnie kropki to minimum, które trzeba wstawiać od razu, no bo przecinki i tak później trzeba podopisywać, żeby skrypt się dobrze czytało. Drugą bolączką dyktowania, przynajmniej po polsku, są kłopoty z edycją. Jeśli zostanie niepoprawnie rozpoznane jakieś słowo, no to trzeba je niestety usunąć ręcznie, bo system po polsku nie rozpoznaje anglojęzycznych komend, a polskie nie są najwyraźniej przygotowane, bo nigdzie nie można znaleźć ich spisu, ani w pomocy, ani na stronach Microsoftu, ani na forach czy grupach.
Poza tym do systemu w Wordzie mam jeszcze zastrzeżenia, jeśli chodzi o stabilność. Nasłuchiwanie wyłącza się czasem w losowych momentach i można, nie zauważywszy tego, gadać do obrazu przez dłuższy czas, a program niczego wówczas już nie rejestruje.
Parę razy też przydarzyły mi się jakieś błędy, kończące się nawet wyświetleniem stosownego komunikatu, zaś samo dyktowanie powinno być prowadzone raczej w spokojnym i niespiesznym tempie. Nauczony doświadczeniem, z pewnymi obawami odpaliłem dokumenty Google'a, które też mają wbudowaną funkcję dyktowania treści.
Tu się szybko okazało, że moja przeglądarka internetowa Vivaldi, mimo że zbudowana na silniku Chromium, nie obsługuje funkcji głosowej. Podobnie zresztą zadziało się w Operze GX. Dopiero uruchomienie dokumentów Google'a w Chromie pozwoliło przeprowadzić testy.
No i powiem Wam, że poszło ciut lepiej. Przede wszystkim można było mówić szybciej, mniej więcej tak jak mówię w swoich odcinkach, czyli na przykład teraz, i program nadążał z rozpoznawaniem mowy. Rzecz jasna sprawa przecinków i kropek rozwiązana jest tutaj identycznie jak w Wordzie, czyli też trzeba mówić przecinek, kropka, nowy akapit.
I podobnie nie działają funkcje edycyjne, czyli po nieudanym rozpoznaniu trzeba źle wprowadzony wyraz skasować ręcznie za pomocą klawiatury. Zauważyłem za to ciekawą rzecz. Otóż algorytm Google'a potrafi modyfikować treść podyktowanego zdania już po jego zakończeniu, jakby starał się domyślić o co w tym zdaniu chodzi i czy na pewno prawidłowo odgadł wszystkie występujące w nim słowa.
A że cały proces jest na bieżąco wyświetlany, no to można się temu przyjrzeć i wygląda to dosyć zabawnie czasami. W wypadku tego algorytmu nie spotkałem się z samoczynnym wyłączaniem się funkcji dyktowania oraz z jakimiś błędami, które taką funkcję wyłączają.
W obu przypadkach, czyli i w przypadku Worda i dokumentów Google'a, podyktowany skrypt należy dokładnie przeczytać od początku do końca i poprawić wszystkie pomyłki. A jeśli często używamy np. wtrąceń w obcym języku, może być takich pomyłek sporo.
Czasami też ręczna korekta jest niezbędna w przypadku niektórych słów. Ja np. nie potrafiłem podyktować słowa ląd, tak by komputer nie zapisał go jako ląd. W efekcie tworzenie skryptu z wykorzystaniem opisanych narzędzi niespecjalnie przyspiesza mi pracę, bo jako zawodowy programista tłukący w klawiaturę od 11 roku życia piszę bezwzrokowo i to dosyć szybko.
Jeśli jednak ktoś z klawiaturą jest na bakier lub po prostu nie może z niej korzystać, bo ma np. złamaną rękę, to pewnie napisze dłuższy tekst szybciej za pomocą takiego systemu transkrypcji niż przy użyciu tylko jednej dłoni.
Postanowiłem się jednak nie poddawać i sprawdzić jeszcze jeden scenariusz. Otóż zdarza mi się, jeśli wpadnę na jakiś pomysł z dala od komputera, nagrywać go na dyktafonie zainstalowanym w czeluściach smartfona. Najczęściej mi się to zdarza przed snem, kiedy już leżę w ciemnym pokoju i rozmyślam.
Wiecie jak to jest. Byłoby zatem całkiem fajnie, gdybym mógł w takim wypadku ten mój pomysł nagrać, ale jako tekst, bo przyznam, że sporo właśnie takich nagrań tkwi nadal w telefonie jako pliki dźwiękowe, których nie mam czasu wysłuchać.
Z czytaniem tekstu jest o wiele łatwiej i szybciej i ciszej i nie trzeba podłączać słuchawek. Przeszukałem sklep Google Play i jak to bywa, zostałem wręcz zalany listą programów do dyktowania i zamiany dźwięku na tekst. Przy okazji nie wiem, czy ktoś może mi objaśnić, dlaczego w sklepie Google nie można posortować programów po ocenach? Do tej pory nie wiem, dlaczego jest to niemożliwe.
Wracając do tematu. Niemal wszystkie te programy, albo może nawet i wszystkie, rozpoznają głos, korzystając właśnie z algorytmu Google. Szybko okazało się dodatkowo, że większość z nich to niestety kiepski szmelc. Nie dosyć, że zamęczający użytkownika reklamami, często pełnoekranowymi i przerywającymi nagrywanie, to jeszcze tak ubogi funkcjonalnie, albo przeciwnie, wręcz udziwniony, że nie da się z tego w praktyce korzystać.
Skończyło się na tym, że użyłem po prostu swojego standardowego notatnika. Używam akurat programu Blacknote. Po prostu wpisywałem w nim treści notatki, używając funkcji dyktowania obecnej w wirtualnej klawiaturze Google. Zadziałało to zaskakująco dobrze, a dzięki wbudowanej w Blacknote funkcji udostępniania, notatkę mogę od razu wysłać bezpośrednio jako wiadomość e-mail.
I w tym właśnie wypadku, czyli takiej pracy z telefonem, z dysketerem, z komputerem, z tym, co ja robię, to jest bardzo, bardzo przyjemne. I to jest właśnie ta przewagę dyktowania nad pisaniem. Być może są mistrzowie klawiaturki ekranowej, potrafiący kciukami pisać szybciej niż ja mówię, zwłaszcza przy użyciu jakichś słowników T9 albo podobnych, ale ja na pewno tego nie potrafię i pisanie kciukiem idzie mi co najwyżej miernie.
© 2024 Konrad Leśniak