Firmy Microsft a Google tento týden oficiálně zahájily závody ve zbrojení na poli strojového učení, lidově nazývaného umělá inteligence. Výsledky vyhledávání nám začnou sumarizovat jazykové modely, místo toho abychom prohledávali jednotlivé weby sami. Jak to funguje, jak se změní web a kolik v tom lítá peněz, v podcastu Stopáž vysvětluje odborník na vyhledávání Dušan Janovský ze společnosti Seznam.cz .
Dá se nějak určit pozice v čase, kdy lidi na vyhledávač začali mluvit lidskou řečí a přestali používat jen klíčová slova?
Přesně se určit nedá. Co si tak pamatuju třeba z roku 2002, tak část uživatelů se rovnou ptala přirozeným jazykem „jak uvařím nejlepší svíčkovou“, ale je pravda, že procent těchto dotazů postupem času přibývá.
Tento týden Microsoft a Google oznámili, že jejich vyhledávače Bing a Google začnou pracovat s generativní umělou inteligencí k tomu, aby poskytovali odpovědi na dotazy uživatelů. Co se stane, pokud zadám ten stejný dotaz „recept na nejlepší svíčkovou“ do vyhledávacího řádku, který už má tento model zapnutý?
Je strašně důležité, že jsi řekl generativní. Ony totiž existují jazykové modely, vznešeně se jim přezdívá umělá inteligence, které generativní být nemusí. A všechny vyhledávače, už mnoho let, takové modely používají. Ta hlavní novinka je v tom, že model je teď generativní. A umí dvě věci. Převést nějaký text na vektor čísel. To je kódování. A druhá věc je dekódování nebo generování. A to je vlastně to samé, kdy z vektoru čísel udělají text. A jakmile se model snaží odpovědět na tvůj dotaz, model si spočítá jaké slovo je nejpravděpodobnější, že jím bude správná odpověď začínat. Protože v historii svého učení, které je obvykle velmi dlouhé, si najde jakým slovem obvykle tyto odpovědi začínají. A jakmile vidí, že tímto slovem už opravdu začal, tak se podívá a zeptá se, jaké slovo bude pravděpodobně druhé. Po druhém slovu se podívá na třetí. A čtvrté. A takhle jede slovo po slovu, než vygeneruje celý text té odpovědi.
Hned v první ukázce jazykového modelu Bard se objevila chyba, kterou dokonce žádný fact checker z Google nepodchytil. A to, že na otázku „o jakých objevech teleskopu Jamese Webba můžu říct své devítileté dceři“ ten model suverénně odpověděl, že teleskop Jamese Webba jako první vyfotil planetu mimo naší sluneční soustavu. Což není pravda, jako první ji v roce 2004 vyfotil teleskop umístěný v Chile. Není trochu nebezpečné v tomhle závodit, když evidentně nejde úplně stoprocentně ošetřit, aby robot poskytoval jenom pravdivé informace?
Už z tohohle je vidět, že Google i Microsoft, které mají největší světové vyhledávače, to trošku uspíšily a snaží se technologii prezentovat ještě předtím, než je odladěná. Myslím, že pokud se na tom ještě zapracuje, bude s tím možné normálně pracovat. Vlastně i dnes, když si proklikáváš těch deset modrých odkazů, tak nemáš žádnou jistotu, že to, co čteš, je pravda. Jediná novinka je, že teď nevíme, kde se model tu informaci naučil. Myslím si, že se dají vymyslet přístupy jak si buďto pamatovat odkud která informace pochází, a to je teda hodně náročné, nebo zpětně ty informace ověřovat nějakým hledáním.
Dá se u těchto modelů nějak ošetřit, abych se jich nemohl zeptat na rusko-ukrajinský konflikt?
Samozřejmě! Vstupním filtrem při učení, výstupním filtrem… Vyhledávač je tu s námi 25 let, tahle technologie jen pár měsíců. Dokonce si myslím, že významná část uživatelů bude preferovat klasické výsledky vyhledávaní, kde mají větší kontrolu nad tím, odkud ty informace jsou. Uvidíme, třeba se to uživatelům bude významně líbit.
Zajímá vás, kde generativní vyhledávání bere informace? Který model je aktuálně nejpřesnější? Nebo jaká jsou další praktická využití této technologie?
Pusťte si celý rozhovor v přehrávači v úvodu článku, v aplikaci Seznam.cz nebo ve vašem oblíbeném podcastovém přehrávači.
Úvodní foto: Profimedia