Учени от САЩ са разработили алгоритъм, който ще позволи на компютрите да различават новините от художествените текстове, по-специално разказите. Статията още не е публикувана, а е качена само на сайта arXiv.org.

Алгоритъмът е анализирал колко пъти всяка дума от текста се среща заедно с други думи в разказите и в информациите. Получените данни след това са били сравнени. Оказало се, че за двата дадени типа текстове тези показатели видимо се различават.

Изследователите са проверили създадената от тях методика с помощта на 400 новинарски информации, избрани на случаен принцип от сайта на National Public Radio, и 400 случайни разказа от базата на най-старата електронната библиотека - от проекта "Гутенберг".

За да изключат влиянието на историческите особености на езика, авторите на алгоритъма са избрали за анализ произведения на писатели от XX век, предаде Лента.ру.

Точността на разпознаване при информациите в новинарските емисии е била 69,1 процента с грешка 1,22 процента, а при разказите - 73,8 процента с грешка 5,15 процента.

Неотдавна друга група учени представи още една разработка, в която бяха демонстрирани възможностите за използване на компютър при анализ на текстове.

Изследователите разработиха алгоритъм, с помощта на който машината разчете един от мъртвите езици от семитската група само за няколко часа.