Gugl za glas

Milan Gnjatović
(Ovaj tekst je objavljen u magazinu Planeta br. 88, januar-februar 2019., pod nazivom „Prepoznavanje govora“.)

„Gugl za glas“ (Google for Voice) nije još jedna funkcionalnost poznatog veb-pretraživača. Radi se o frazi koja je korišćena u internom dokumentu Američke nacionalne službe za sigurnost da bi se efektivno opisala funkcionalnost softvera koji ova agencija poseduje. Ali, ispričajmo ovu priču od početka.

Pitanje da li postoje teme kojima istraživanja u oblasti veštačke inteligencije ne bi trebalo da se bave staro je kao i sama oblast. Međutim, kritike razvoja veštačke inteligencije se često tumače kao „moralistička stanovišta“ izvan „stvarnog“ života i „praktične“ nauke. I zato se, u naletu progresivističkog optimizma, prelako odbacuju kao nevažne. Ali, što god mislili, posledice ovog razvoja su dugoročne i ne obavezno pozitivne. Ne radi se samo o tome što ste možda razočarani činjenicom da još uvek nemate leteće automobile, iako su vam ih odavno obećali. Ulog je, u stvari, mnogo veći.

Da bismo ovo ilustrovali, osvrnimo se sa vremenske distance na razvoj tehnologija za automatsku obradu glasa. Nedugo posle Drugog svetskog rata, tehnologije za prepoznavanje govora i identifikovanje govornika postale su predmet interesovanja vojnih i obaveštajnih agencija. Kao odgovor na problem porasta broja građanskih nemira u različitim delovima sveta, u situaciji dinamičnog razvoja elektronskih komunikacija, nametnuta je ideja o razvoju i primeni tehnologija za udaljeno identifikovanje osumnjičenih na osnovu njihovih glasova.

Zlatno doba jezičkih tehnologija

Treba imati u vidu da odluka da se pribegne primeni ovakvih rešenja nije bila bez alternative, već je predstavljala izbor koji karakteriše duh društva u kom je napravljen. U tadašnjem društvenom kontekstu, sukob mišljenja dva pionira veštačke inteligencije je sedamdesetih godina dvadesetog veka verovatno izgledao nevažno. U svojoj knjizi iz 1976., Jozef Vajcenbaum (Joseph Weizenbaum), profesor na Masačusetskom institutu za tehnologiju, je kao primer tehnologije čiji je razvoj kritičan za društvo izdvojio automatsko prepoznavanje govora. On navodi:

„Možda je jedini razlog što vlade u mnogim zemljama veoma malo nadziru telefonske konverzacije taj što ovakvo nadziranje zahteva mnogo ljudi. Svaku snimljenu konverzaciju mora na kraju da presluša čovek. Ali mašine za prepoznavanje govora bi mogle da izbrišu sve 'neinteresantne' konverzacije, i da svojim gazdama predstave transkripte preostalih.“

Sa druge strane, Džon Makarti (John McCarthy), profesor na Stenfordu, žestoko je kritikovao Vajcenbaumov stav, ocenjujući njegovu knjigu kao moralističku i nekoherentnu:

„Vajcenbaumov stav da Ministarstvo odbrane podržava istraživanja u oblasti prepoznavanja govora da bi moglo da prisluškuje telefonske razgovore je pristrasan, neosnovan, netačan, i izgleda da je motivisan političkom zlonamernošću. Naučni odbor koji je predložio projekat je zagovarao sasvim drugačija razmatranja, a visoki zvaničnici koji su doneli konačne odluke nisu bauci. Uostalom, njihove druge obaveze im ne ostavljaju vremena za komplikovana i nepoštena razmatranja.“

Ono što je u tom trenutku moglo da izgleda kao „moralistička“ kritika, danas je stvarnost. Vreme je pokazalo da je Vajcenbaum bio u pravu. Obaveštajne službe već barem čitavu deceniju ne kriju da teže usavršavanju tehnologija za automatsko prisluškivanje, o čemu, konačno, svedoče dokumenta koja je predočio Edvard Snouden (Edward Snowden). U zaključku jednog od tih dokumenata iz 2006., koji je u međuvremenu postao javno dostupan, navodi se sledeće:

„Ulazimo u zlatno doba jezičkih tehnologija. Moćni i jeftini računari, brzi protok podataka u mreži, i napredni algoritmi se kombinuju da bi revolucionalizovali analitičarsko radno okruženje.“

Konkretno, to znači da je Američka agencija za nacionalnu sigurnost u znatnoj meri ovladala softverskom tehnologijom za automatsko simultano prisluškivanje velikog broja telefonskih konverzacija. U ovom dokumentu se, pod terminom „Gugl za glas“, spominje softver u posedu ove agencije, koji sa izvesnom dozom tačnosti automatski prevodi telefonske konverzacije u tekst, i omogućava njihovo pretraživanje po ključnim rečima. Ovakva pretraga može da se izvršava u realnom vremenu ili retrospektivno, kada analitičar pretražuje podatke o konverzacijama koje su se odvijale prethodnih meseci ili godina.

Softver i Karađoz

Zvanični i neopravdano optimistični glasovi pravdaju ovakav razvoj tehnologije borbom protiv terorizma, kriminala i drugih pretnji po sigurnost društva. Nerado priznajući da primena ovih tehnologija narušava privatnost velikog broja ljudi (čitaj: skoro svih), oni ističu da je ta cena prihvatljiva za stepen sigurnosti koji njome ostvarujemo.

Jedan od upečatljivih primera upotrebe ovakve tehnologije odnosi se na istragu ubistva novinara Džejmsa Folija (James Foley). U avgustu 2014., na Jutjubu (YouTube) je objavljen video-snimak Folijevog ubistva. Na snimku se ubica pojavljuje maskiran, da bi prikrio svoj identitet, ali izgovara nekoliko rečenica. Nedugo potom, svetski mediji su preneli vest da je identitet maskiranog ubice otkriven uz pomoć softvera za prepoznavanje govornika.

Posle aplauza tehnološkom napretku, razmislite na trenutak da li bi ova vest trebalo da vas zabrine, čak i ako niste terorista. Evo zašto bi trebalo. Softver identifikuje govornika automatskim poređenjem snimljenog glasa sa drugim glasovima čiji su audio-zapisi dostupni u postojećim bazama podataka. Drugim rečima, da bi softver identifikovao govornika, neophodno je da neki drugi snimak njegovog glasa već postoji u bazi podataka. Pošto nije moguće predvideti kad će neko da postane ubica ili prestupnik, glasovi različitih ljudi se sakupljaju sistematski i dugoročno. Pretpostavka nevinosti ovde nije od značaja. Ova praksa u nečemu podseća na Andrićevu „Prokletu avliju“, u kojoj upravnik zatvora, poznat pod nadimkom Karađoz, praktikuje specifičnu filozofiju – da su svi za nešto krivi, i da nema nevinih. Slično, kriterijumi za uključivanje nečijeg glasa u bazu podataka nisu restriktivni: svi smo dobri kandidati.

O upozorenjima

Da su Vajcenbaumova upozorenja ozbiljnije shvaćena, možda bi situacija danas bila drugačija. Zbog toga, spomenućemo još jedan razlog zbog kog je Vajcenbaum, pre više od četiri decenije, smatrao da je tehnologija za automatsko prepoznavanje govora rizična. On ova istraživanja vezuje za mogućnosti vojne upotrebe:

„Mornarica [se] nada upravljanju brodovima i drugim oružjima preko glasovnih komandi. Ovakav projekat predstavlja, u očima svog glavnog sponzora, veliki korak prema automatizovanom ratovanju. Ne vidim nijedan razlog da savetujem svoje studente da posvete svoj talenat tom cilju.“

Danas se zaista prave roboti koji mogu samostalno da odlučuju o primeni smrtonosne sile. Neki naučnici učestvuju u tom razvoju, neki mu se protive, a većina se ne određuje ili ne prepoznaje ovo kao gorući problem. Možda bi trebalo da odlučite na kojoj strani ove „moralističke“ rasprave se nalazite, pre nego što vam „pametni“ roboti olakšaju donošenje ove odluke.

gnjatovic.info