×

Источник.

Обнаружение и удаление сплетен, слухов и откровенной дезинформационной лжи из окружающей нас паутины противоречивых данных, подаваемых как новостными ресурсами, так и социальными сетями, становится всё более насущным вопросом.  Необходимость его решения обусловлена не только финансовыми потерями граждан от недобросовестной рекламы, мошенничества и прочих – по сути своей – преступных механизмов, но и чрезвычайно опасными последствиями в вопросах здоровья для тех, кто подвергается такому обману, например, покупая простой мел под видом чудесного лекарства. Но особенно это чревато катастрофическими последствиями во время значительных событий вроде имеющейся пандемии COVID-19.

Всё это, однако, перекликается с правами человека как в одну, так и в другую сторону. Да, мы вправе рассчитывать на достоверные данные по любому вопросу, но мы также должны иметь право высказать собственное – пусть даже ошибочное – мнение и не быть за это преследуемыми или как-либо ущемлёнными в правах. Регулирование этого аспекта является весьма деликатным моментом, поскольку институты, на которые будут возложены функции контроля и управления информационной фильтрацией, должны гарантировать полнейшую обоснованность своих решений. И конечно, нужно проработать меру и средства обеспечения ответственности этих институтов перед обществом.

Однако, мы живём в замечательное время, когда уже освоен такой замечательный инструмент, как глубокое машинное обучение. Да, это автоматизированное устройство; оно беспристрастно, но не лишено изъяна: его обучают люди, и ход его «рассуждений» не является доступным и проверяемым. Возможно, кто-то может счесть эту проблему надуманной, ведь если инструмент работает, то что ещё нужно? Однако для учёных критически важно понимать, как машина попадает в то же решение, что и тренирующие её люди. Иначе как ей можно доверять такую базовую ценность как свободу слова?

Увы, доступ к контекстной информации и её обработке в «представлениях» подобных методов о вопросе являет собой серьёзную проблему. Хотя, конечно, нельзя не признать, что они продемонстрировали замечательную точность прогнозирования, но любая система, которой предназначена столь щекотливая миссия, должна показать как высокую точность прогнозов, так и высокую их объяснимость.

Руководствуясь этими критериями, исследователи из Американского университета создали статистическую модель, которую можно использовать для обнаружения дезинформации в социальных сетях. Она также позволяет избежать главной проблемы для учёных с теми самыми «чёрными ящиками» – слепыми зонами алгоритмов ИИ с непрослеживаемой логикой, – возникающими при машинном обучении.

Используя набор данных Twitter с дезинформационными сообщениями о COVID-19, Зойс Букувалас, доцент кафедры математики и статистики Колледжа искусств и наук Австралии, показывает, как статистические модели могут обнаруживать дезинформацию в социальных сетях во время таких событий, как пандемия или стихийное бедствие, и то, как решения модели совпадают с решениями человека.

«Мы хотели бы знать, о чем думает машина, когда принимает решения, и как и почему она соглашается с людьми, которые её обучали», – говорит он. – Мы не хотим блокировать чью-либо учётную запись в социальных сетях, потому что модель принимает необъективное решение».

Метод Букуваласа – это разновидность всё того же машинного обучения, но уже с использованием статистики. Это не та популярная область исследования, каким стало глубокое обучение – сложный, многоуровневый тип машинного обучения, который мы и называем громкими словами «искусственный интеллект». Всё-таки автор считает, что его статистические модели предоставляют скорее иной, во многом неиспользованный способ борьбы с дезинформацией.

Основой управляемого данными решения, выступает модель скрытых переменных, называемая независимым анализом компонентов (ICA), где небольшая потеря точности по сравнению с другими моделями ИИ компенсируется интерпретируемыми контекстными представлениями. Предлагаемое решение обеспечивает возможность прямой трактовки логики, не влияя на вычислительную сложность модели и без необходимости создания отдельной системы.

Для тестового набора из 112 настоящих и дезинформационных твитов модель достигла высокой эффективности прогнозирования и правильно классифицировала их с точностью почти 90 процентов. Это дало понимание о том, что, вопреки ожиданиям, использование такого компактного набора данных оказалось довольно эффективным способом проверки того, как метод обнаруживал дезинформационные сообщения.

«Что важно в этом открытии, так это то, что наша модель достигла точности, обеспечивая при этом прозрачность того, как она обнаруживала твиты, которые были дезинформацией, – поясняет Букувалас. – Методы глубокого обучения не могут достичь такой точности при прозрачности».

Однако модели хороши ровно настолько, насколько хороша информация, которую предоставляют им люди во время обучения. Например, как известно, одной из причин обнаружения предвзятости в технологии распознавания лиц являются человеческие предубеждения создателей этой технологии. А в купе с черными ящиками проблема усугубляется ещё больше. Поэтому, перед тестированием модели на наборе данных исследователи сначала хорошенько подготовились к её обучению модели. 

Сообщения прошли тщательную маркировку как ложь или правда, для чего был создан набор определенных правил и учтены относительные свойства языка, используемого в дезинформации. Учёные также учли нюансы разговорной речи и лингвистические особенности, связанные с дезинформацией: например, это относится к сообщениям, в которых чаще используются имена собственные, знаки препинания и специальные символы. А ещё социолингвист, профессор Кристин Маллинсон из Университета Мэриленда в округе Балтимор, определила, что твитам с дезинформацией свойственна общая стилистика написания, предвзятость и опора на менее надёжные источники среди СМИ. 

«Как только мы добавляем эти входные данные в модель, она пытается понять основные факторы, которые приводят к разделению хорошей и плохой информации, – поясняет другой участник исследования, профессор компьютерных наук Натали ЯпковичЭто изучение контекста и того, как слова взаимодействуют».

Возьмём, например, два сообщения из набора данных, содержащие вместе «суп из летучих мышей» и «COVID». Исследователи назвали их дезинформацией, и модель определила их таковыми. Модель определила, что им характерны язык вражды, гиперболические преувеличения и сильный эмоциональный фон, что всё вместе и по отдельности указывает на связь сообщений с дезинформацией. Это говорит о том, что модель различает в каждом из этих твитов причины человеческого решения, стоящие за маркировкой, и что она подчиняется заданным правилам.

Эти особенности распознавания теперь можно будет адаптировать для обнаружения дезинформации в сообщениях с изображениями или другими мультимедиа. Наряду с этой эволюцией функционала, команда хочет направить следующие шаги ещё и в сторону улучшения пользовательского интерфейса модели, чтобы люди могли ею пользоваться самостоятельно. Статистическая модель должна будет научиться понимать, как взаимодействие различных элементов сообщений выливается в дезинформационный характер послания. А пока, в нынешнем виде, модель больше подходит социологам и прочим специалистам, изучающим способы обнаружения дезинформации.

Несмотря на успехи в области машинного обучения, помогающие бороться с дезинформацией, Букувалас и Япкович считают, что человеческая интеллигентность и новостная грамотность остаются первой линией защиты в предотвращении распространения непроверенных или неточных данных, и уж теб более откровенной лжи.

«В ходе нашей работы мы разрабатываем инструменты, основанные на машинном обучении, чтобы предупреждать и просвещать общественность, чтобы устранить дезинформацию, но мы твёрдо убеждены, что, в первую очередь, сами люди должны играть активную роль в предотвращении распространения дезинформации», – заключает Букувалас.

Да, вопрос слишком щекотливый, чтобы опираться исключительно на автоматизацию решений по нему, но мы, человечество, и не сможем это сделать. Даже если машина будет решать что есть ложь, а что – ошибочное мнение с точнейшей достоверностью, всё равно учить её «что такое хорошо и что такое плохо» приходится нам самим. Человек остаётся ключом ко всему, и как будет использован хоть скальпель, хоть динамит – целиком зависит от него.


 

АРМК, по материалам Американского Университета.