|  | 26 апреля 2013 | Информационные технологии

Новые алгоритмы помогают оценить и упорядочить научную литературу в автоматическом режиме

Система анализа научной литературы


Оставаться на "острие" современной науки, быть в курсе всех последних ее достижений является на сегодняшний день очень сложной задачей даже в какой-либо узкоспециализированной области. Ежедневно в различных изданиях публикуются сотни тысяч научных статей, результатов исследований и трудов, прочесть которые, а тем более усвоить содержащуюся в них информацию, не может ни один человек на свете, насколько бы умным он не был. Для решения вышеупомянутой проблемы, связанной с огромным количеством информации, исследователи из Университета Северной Каролины разработали компьютерную программу, которая в автоматическом режиме может оценить, упорядочить и отсортировать всю научную литературу и публикации, предоставив людям ссылки только на наиболее значимые и достоверные источники информации.

Используя алгоритмы глубокого анализа текста программа раскладывает по приоритетам для дальнейшего ознакомления все научно-исследовательские работы, попадающие в ее поле зрения. Отобранные работы помещаются в специализированные тематические базы данных, такие как база Comparative Toxicogenomics Database (CTD), база данных с открытым доступом, в которой содержится информация о влиянии различных химических препаратов на геном человеческого организма, что отражается на здоровье нынешнего и отразится на здоровье будущих поколений людей.

"По одной тематике воздействия на здоровье токсичных тяжелых металлов с 1926 года было опубликовано более 33 тысяч научных работ" - объясняет доктор Аллан Питер Дэвис (Dr. Allan Peter Davis), один из руководителей проекта CTD, - "Даже приложив максимум усилий мы не сможем прочесть весь объем этих работ и выбрать из них только самую важную информацию. К счастью, теперь с этим успешно могут справиться наши новые алгоритмы".

Как уже говорилось выше, для выбора самых значимых публикаций используются алгоритмы глубокого анализа текста. Программа сравнивает тексты сразу многих тысяч статей, определяет совпадения и факты, что выражается в цифровом показателе научного "веса" каждого документа на основании которого принимается решение о включении его в общую базу. "Алгоритм не работает с одной отдельно взятой статьей, он эффективно может работать с большими наборами статей, но в этом случае он очень надежно отделяет зерна от плевел, если можно так выразиться" - рассказывает Томас Виджерс (Thomas Wiegers), один из исследователей в области биоинформатики.

Для проверки работоспособности созданных алгоритмов исследователи отобрали 15 тысяч статей и оправили из команде квалифицированных рецензентов, которые вычитав их должны были выбрать самые важные документы. "Результаты оказались внушительны" - рассказывает доктор Дэвис, - "Рецензенты сделали выбор, совпавший на 85 процентов с выбором, сделанным компьютером. Только компьютер сделал свой выбор гораздо быстрее людей".

Использование алгоритмов оценки научных статей позволит ученым сэкономить время и поднять эффективность своего труда минимум на 30 процентов. "Это технология позволит сэкономить огромное количество драгоценного времени" - объясняет доктор Дэвис, - "Благодаря нашей технологии мы можем гораздо эффективнее использовать ресурсы целых научных команд, предоставив ученым возможность работать только с документами, содержащими максимально возможное количество релевантной информации".

Естественно, как и в работе любого алгоритма, в работе алгоритмов оценки научной литературы бывают аномалии, когда высокий показатель назначается статье, которую человек-рецензент отклоняет как не важную. Исследователи провели тщательный анализ текстов "аномальных" статей и определили причины, по которым программа принимала ошибочные решения. "Теперь мы можем внести коррекции в наши алгоритмы, после чего система начнет работать максимально точно".

"Нам еще далеко до той стадии, когда компьютер сам сможет прочесть литературу, публикации и работы, самостоятельно извлекая только все важные данные и предоставляя их в удобном для восприятия виде" - рассказывает Дэвис, - "Но реализованный нами глубокий анализ текста является большим шагом вперед в этом направлении".




Ключевые слова:
Наука, Литература, Публикация, Статья, Анализ, Информация, Текст, Оценка, Сортировка, Алгоритм, Программа, Компьютер

Первоисточник

Другие новости по теме:
  • Корейский робот-журналист освещает спортивные события спустя две секунды по ...
  • Искусственный интеллект в будущем может стать более точной и объективной за ...
  • Создана новая система, способная произвести полный анализ генома человека в ...
  • Lsjbot - программа-бот, "перу" которой принадлежит 2.7 миллиона статей Ви ...
  • Компьютер Nell самообучается, считывая информацию из Интернета.




  • 26 апреля 2013 09:45
    #1 Написал: FomaNeverujuwij

    Публикаций: 0
    Комментариев: 3876
    стадии, когда компьютер сам сможет прочесть литературу, публикации и работы, самостоятельно извлекая только все важные данные и предоставляя их в удобном для восприятия виде

    Эх, когда же такое появится?.. А то уже достало с утра тратить два часа времени на листание полторы сотни сайтов в поисках интересного


    --------------------
        
    2 мая 2013 22:33
    #2 Написал: mattheus

    Публикаций: 0
    Комментариев: 0
    Так вроде уже компьютеры книжки пишут на заданную тематику (http://today.mts.com.ua/posts/kompyutery-idut-v-tvorchestvo-oni-pishut-knigi/),
    а тут всего-то каталогизатор статей придумали? Или это сильно не одно и то же?
        

    Информация

    Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.