Американские студенты создали программу по распознаванию сарказма

Студенты Корнелльского университета в Нью-Йорке при содействии Bloomberg разработали программу TrueRatr для распознавания сарказма в сообщениях. Об этом рассказывает Ars Technica.

Предзназначение TrueRatr — фильтровать саркастичные сообщения в пользовательских рецензиях на приложения для iOS и OSX, корректируя общую оценку продукта в соответствии с внесенными изменениями. Обучение программы провели на выборке из примерно 1200 отзывов, часть из которых была саркастичной, а часть — нет.

Программный код выложили в открытый доступ на GitHub в расчете на то, что другие будут тестировать программу на новых подборках язвительных насмешек, тем самым помогая ее усовершенствовать.

На тестовой выборке из 100 саркастичных и 100 обычных пользовательских рецензий TrueRatr определяла, есть ли в сообщении колкость, с точностью в 75 процентов.

Куратор работы Кристофер Хон (Christopher Hong) пояснил, что раньше исследователи пытались распознавать сарказм по формальным признакам: например, по словам-маркерам («ага, конечно»). Однако Хон предложил анализировать предложения на предмет так называемой «смены утверждения». Под этим термином он подразумевает одновременное использование в одной фразе позитивного и негативного утверждения. В качестве примера он привел фразу: «Обожаю, когда на меня орут». В этом случае «обожаю» — позитивное утверждение, а «на меня орут» — негативное. Исходя из этого, Хон создал самообучающуюся программу по распознаванию сарказма и натренировал ее, использовав выборку из 50 саркастичных и 50 обычных отзывов, оставленных покупателями на Amazon. Его наработки легли в основу TrueRatr.

Журналисты ArsTechnica отметили, что TrueRatr легко сбить с толку. Так, комментарий «я ***(очень сильно) люблю это приложение, но камера в моем Snapchat не работает! Пожалуйста, исправьте это! Спасибо!» был оценен ею как наиболее саркастичный из предложенных во время теста.

Источник: lenta.ru

Leave a comment

Your email address will not be published. Required fields are marked *