Sporządzając dokumenty możemy odnieść wrażenie, że komputer nas zupełnie nie rozumie i z uporem maniaka poprawia słowa, które powinny być napisane właśnie tak jak to zrobiliśmy. Choć niejednokrotnie taka typowa korekta jest dla nas zbawienna to równie często bywa irytująca. Naukowcy stworzyli zatem słownik, który pokaże naszemu komputerowi, że każde słowo to coś więcej niż tylko zbiór przypadkowych liter
Badacze z Łodzi przygotowali zupełnie nowy rodzaj słownika. Generalnie ma on być przeznaczony dla badaczy języka oraz naukowców pracujących nad sztuczną inteligencją. Słownik ma szansę wznieść na wyższy poziom możliwość edycji testów – być może dzięki niemu łatwiej będzie pisać teksty na smartfonach, a w edytorach tekstowych wykrywane będą pomyłki, których dotąd te programy nie pokazywały.
Inteligentny słownik języka polskiego oparty o wektorowe reprezentacje słów opracowali doktorant Marek Rogalski oraz prof. Piotr Szczepaniak. Ich rozwiązanie już teraz zostało docenione na wystawie wynalazków Geneva Innovations – otrzymało złoty medal z wyróżnieniem.
Do stworzenia tego słownika zainspirowało ich życie i obserwacje. Naukowcy zauważyli, że dla komputera żadne słowo nie jest opatrzone jakimkolwiek dodatkowym znaczeniem. Stwierdzili oni zatem, że trzeba wymyślić metodę, dzięki której ta współpraca z komputerem będzie się układać znacznie lepiej. Choć słowniki przyjazne maszynom już powstawały to były one tworzone zupełnie inaczej. Mimo, że potrafiły się ze sobą łączyć hiperlinkami i dobierać słowa będące synonimami czy antonimami to ciągle budową przypominały słowniki tradycyjne.
W przypadku najnowszego słownika wyrazy są ze sobą związane matematycznie. Powstało to na bazie sieci neuronowej, która dokładnie zaznajomiła się z Wikipedią. „Obserwowała” ona wyrazy, które nadal nic dla niej nie znaczyły, ale starała się je dobierać tak, by mogły tworzyć logiczne zdania. Jej zadaniem było potem znalezienie takiego słowa, dzięki któremu zdanie zostanie poprawnie uzupełnione.
Efektem pracy tej sieci jest słownik, w którym każde słowo reprezentowane jest przez punkt opisany setką liczb. Każde słowo w języku staje się więc dla komputera punktem w stuwymiarowej przestrzeni. W ten sposób między różnymi punktami – czyli słowami – można wyliczać odległości
– Jeśli np. wyprowadzimy ze słowa „Polska” odcinek do słowa „Warszawa”, a następnie przeniesiemy ten odcinek i wyprowadzimy go ze słowa „Francja”, to koniec tego odcinka wypadnie gdzieś niedaleko punktu, w którym leży słowo „Paryż” – podaje przykład Marek Rogalski.
Tego typu słownik jest właściwie powstałym kilka lat temu projektem zagranicznych naukowców. Trudno było jednak dostosować algorytmy do języka polskiego. Na szczęście w końcu się to udało. Słownik ma postać ważącego ok. 1 GB pliku tekstowego. Można go wykorzystać np. w przygotowaniu aplikacji mobilnych lub edytorów tekstów. Słownik mógłby sprytnie podpowiadać użytkownikowi smartfona następne słowa wpisywanego tekstu. Możliwości wykrywania błędów językowych przez te aplikacje są dziś ograniczone. Wprawdzie w tekstach zaznaczane są literówki, ale jeśli przez pomyłkę napiszemy słowo, które już istnieje – program tego nie wychwyci
Twórcy słownika zastanawiają się jednak nad udoskonaleniem go dzięki pracy na bazie Narodowego Korpusu Języka Polskiego, który zawiera teksty bardziej różnorodne i reprezentatywne dla polskiego języka. To sprawiłoby, że słownik lepiej spisywałby się w codziennych sytuacjach.
Źródło: www.naukawpolsce.pap.pl