Дата публикации: 23.06.2023
Визуальный анализ
научных тенденций
с высоты птичьего полёта.
Атлас объединяет документы из разных областей в большие пачки с цветовой кодировкой. Источник.
Хотите ли вы выявить мошеннические публикации или выяснить, статьи по каким видам исследований чаще всего принадлежат авторству женщин, всё, что нам остаётся ‒ пожелать вам удачи в попытках определить тенденции в научной литературе. Ибо это настоящее болото из миллионов статей, плодящихся с неумолимой скоростью, которое может погубить любого исследователя, если только он не бросит своё опасное предприятие.
Действительно, проблема лженаучных публикаций стоит остро во всех сферах знаний, ведь жажда доходов ‒ с её «двигателем торговли» ‒ не гнушается переврать всё, что угодно. Наша цивилизация знает примеры намеренного ввода в заблуждение потребителей тех или иных товаров. Вспомните, как сперва морфий, потом – сигареты, кокаин и прочие, теперь уже признано опасные вещества, продвигались на рынке в качестве болеутоляющих, успокоительных, да и просто «общеоздоровительных» средств.
Помимо таких по-настоящему преступных примеров есть и другие, когда грандиозность совершённого кем-то открытия так воодушевляла учёных, что лишь спустя какое-то время научный мир находил ошибку результатах или выводах. Таких случаев за всю историю научных поисков тоже накопилось не мало, и чтобы разобраться во всём этом нам нужно проделать поистине титаническую работу.
Кто же возьмёт на себя роль Золушки, и отделит зёрна от плевел? ‒ вопрос, как вы уже, наверное, догадались, риторический. Надежды снова возлагаются на алгоритмы машинного обучения.
На сервере препринтов bioRxiv опубликован новый общедоступный атлас статей по биомедицинской тематике. В этой работе отображены взаимосвязи почти 21 миллиона публикаций, предоставляя таким образом обзор литературы «с высоты птичьего полёта». Его авторы считают, что с поддержанием актуальности атлас может стать основным подспорьем в выявлении трудно отслеживаемых закономерностей и тенденций.
Атлас «даёт убедительную картину всей структуры биомедицины, ‒ говорит Кевин Бояк, учёный-информатик, работающий над аналогичными методами визуализации в исследовательской консалтинговой компании SciTech Strategies. ‒ Это должно оказаться весьма полезным при рассмотрении тенденций высокого уровня». ИКонец формы
Вообще, это не первая попытка систематизации научной литературы. Но, объясняя свой подход, исследователи говорят, что предыдущие инструменты для визуализации публикаций биомедицинского сегмента, отображали статьи, основываясь, как правило, на их общих цитатах. Или, в иных случаях, вместе собрались документы со схожими научными терминами.
Такие подходы весьма полезны для изучения тенденций в узких областях и до сих пор с успехом используются как в самих исследованиях, так и для поиска данных или статей. Но эта специализированность не даёт возможности окинуть взором положение дел в глобальном смысле.
«Одна из наших целей состояла в том, чтобы изучить более широкие, интересные для общества вопросы», ‒ говорит Дмитрий Кобак, специалист по данным из Тюбингенского университета, соавтор исследования.
Для создания атласа учёные загрузили аннотации почти 21 миллиона англоязычных статей из поисковой системы PubMed. Затем на вооружение была взята PubMedBERT ‒ большая языковая модель ИИ, главной функцией которой стала сортировка тезисов публикаций по сходству. Машина искала научные термины в каждом реферате и интерпретировала их значение в соответствии с окружающим текстом. Таким образом, например, алгоритм выбирает, относится ли слово «реплицировать» к скопированной ДНК или к повторному эксперименту. На основе этого анализа похожие публикации были сгруппированы вместе в скопления, названные учёными «окрестности».
Изучив полученные данные, команда создала удобный для навигации двумерный атлас всех обработанных документов. Однако это не так уж похоже на карту, как может показаться из нашего словесного описания. Скорее, это напоминает чашку Петри с колониями разноцветных бактерий, и такое сравнение вполне объяснимо. Дело в том, что публикации оказались разбросаны по кругу, с группированием статей из одной и той же области в пятна больших скоплений с цветовой кодировкой. Увеличьте масштаб ‒ и получите больше подробностей и детализации связей по более узким темам ‒ всё как в микроскопе или электронных картах.
По завершении построения атласа, авторы, посредством нескольких дополнительных инструментов, провели визуальное исследование общих тенденций в литературе. В качестве эксперимента, в одном из опытов они проанализировали материалы на предмет прогнозирования пола имён авторов. Было обнаружено, что во всей изученной биомедицинской литературе женщинам-авторам принадлежит меньше статей, чем мужчинам: 42,4% из них были указаны первыми авторами и 29,1% ‒ последними. Это согласуется с другой работой, показавшей, что на руководящие должности в науке женщин продвигается меньше.
Однако, также оказалось, что этот гендерный разрыв значительно варьировался в разных дисциплинарных областях. Например, в области здравоохранения команда обнаружила пачку статей по хирургии, написанных в основном авторами-мужчинами, тогда как в другом сегменте ‒ по уходу за пациентами ‒ женское авторство явно лидировало. Это говорит о том, что атлас позволяет определить конкретные области исследований, в которых преобладают гендерно-окрашенные суждения.
Хотя в атласе можно найти отозванные документы, многие из них сливаются на плотных островах из-за их сходства. Источник.
Наконец, мы подходим к тому, с чего начали: атлас может быть полезен для выявления обманчивых данных. Так, следующий опыт команды Кобака выделил почти 12 000 статей, которые были отмечены в базе данных PubMed как отозванные. Эти единицы разбросало по всему атласу, однако многие из них оказались-таки сгруппированы в плотные «острова». В одном из таких скоплений было несколько отозванных статей, посвящённых функциям малоизученных микро-РНК и их роли в борьбе с раком. Это популярная тема мошеннических статей, выпускаемых бумажными фабриками, штампующими поддельную научную литературу чуть ни в промышленных масштабах.
Кобак утверждает, что внимательное изучение этих «пятен» может выявить другие подозрительные документы. Действительно, по итогам изучения 25 других публикаций среди неотобранных во втором эксперименте, но которые были частью этого «лженаучного» острова, команда обнаружила явные признаки их возможного отношения к упомянутым бумажным фабрикам. Например, названия многих из них следовали точно такому же шаблону, и у всех, кроме одного документа, в авторах значились компаньоны китайских больниц. А уже известно, что этот ход довольно характерен для пресловутых бумажных фабрик.
Дженнифер Бирн, исследователь добросовестности публикации из Сиднейского университета, считает, что эти области атласа вполне достойны дальнейшего изучения, но тут же предупреждает: «Кластеры похожих документов потребуют дополнительной проверки, чтобы избежать ошибочной пометки подлинных документов».
Пока что атлас охватывает только биомедицинскую литературу до 2021 года, а также очень небольшое количество статей за 2022 год. Чтобы идти в ногу с текущими тенденциями, команда планирует обогатить инструмент статьями за последние 2 года. Также учёные надеются создать аналогичные визуализации и для других баз данных по научной литературе.
АРМК, по материалам Science.