Вход для клиентов
Вход для клиентов
Регистрация
Нас рекомендуют
А.А. Третьяков
АО "Тройка-Д Банк"
Сидоров Т.В.
ген. директор ООО "ДСС Медиа Групп"
С.И. Воробьёв
АО "ВОКБАНК"
Талаш А.А.
Генеральный директор группы компаний РосКо, к.э.н.
Егоров Виталий
директор ООО "ПАЛИТ-РА" it-palitra.ru
Ахметов И.Р.
директор akhmadi-invest.com
Подтыкан Я.А.
директор GM-Lab., проект yavshoke.net
Комарцова Мария
редактор ИА "Бел.Ру"
Бузенкова Мария
директор Domnatamani.ru
Дроздов Вадим
директор importkama.ru
Сергей Вачиков
ООО еКузбассРу
Смирнов Константин, директор
ООО «ФАРМ-ЭКСПРЕСС1»
Занис А.Л.
ген. директор ООО "Веб-Сторс"
Наталия Захаренко
ген. директор ООО "МЦС"
Подробнее
Наши клиенты
Подробнее

О системе поиска информации

В статье рассмотрена система поиска информации, состоящая из информационной потребности, поискового запроса, поисковой машины, информационного объекта, результата поиска. В составе информационной потребности раскрывается информационный парадокс, когда для полноты поиска требуется законченность представлений о научной проблеме, что на начальной стадии исследования невозможно. В качестве выхода из парадокса предлагается возможный инвариант строения научного текста в историческом музыковедении. Цель статьи совершенствование технологии информационного поиска при работе с научными текстами.

Информационный поиск[1] важная часть компьютерных технологий, и вместе с тем междисциплинарная область науки, включающая когнитивную психологию, информатику, лингвистику, семиотику, логику и некоторые другие дисциплины[2].

Необходимость совершенствование технологии поиска информации вызвана рядом причин. Прежде всего, это информационные характеристики современной культуры и лавинообразный рост информации[3].

На сегодняшний день уже измеряют не объем информации, а скорость его удвоения. Так, в первый раз, для удвоения информации в культуре человечеству понадобилось 1750 лет (точка отсчета - Рождество Христово). Следующее удвоение наступило в 1900 г., а затем для удвоения всей информации на планете понадобилось уже 50 лет (1950 г.). В 2000 г. цикл удвоения объема информации составлял всего лишь 5 лет. Во второе десятилетие XXI века считается, что информация удваивается примерно за 180 дней.

Всемирный книжный фонд удваивается каждые 10-15 лет, число телефонных каналов - каждые 11 лет, число автоматизированных баз данных увеличивается в 10 раз за 10 лет. В научных работах растут ссылки на литературу. В гуманитарных дисциплинах, в современных статьях список литературы насчитывает 40-60 наименований на 1 печатный лист текста - настолько велик научный контекст исследований.

Рост объема информации реалии современной жизни. По данным IDC (International Data Corporation - аналитическая фирма исследование рынка информационных технологий) на сегодняшний день проанализировано менее 1% всей имеющейся информации.

Хорошо известная всем озоновая дыра над Антарктидой была обнаружена американским метеорологическим спутником еще в 1979 году, но информация утонула в архиве, насчитывающем около 3 млн. видеолент. И только спустя 7 лет английские ученые расшифровали видеоматериалы, им и досталась честь открытия.

Итак, наряду с накоплением информации действуют и нарастают отрицательные факторы для её поиска, восприятия и понимания. Возникает диффузия информации. Она размывается по

очему же мы не искали информацию исходя из названий техсамы полочек.сь темой исследования), потом разложили информацию по полоч языкам, по сайтам, по отраслям деятельности и дисциплинам науки. С ростом информации объективно затрудняется поиск необходимых сведений. В качестве выхода из кризиса поиска информации уже предлагаются двухэтапные процедуры, когда первый этап, это предварительный поиск и отбор информации в тематические базы данных, а второй этап, это поиск нужной информации в сетевых или локальных полнотекстовых базах.

Процесс дробления и специализации научных дисциплин, дифференциация знаний приводят к сужению тематических границ профессиональной информационной потребности. Все более узким специалистам требуется все более специализированная информация. Необходимо в стоге сена найти не иголку, а отдельную молекулу. Отношения между найденным и отсеянным приближается к дробным величинам близким к нулю, что объективно затрудняет процесс поиска.

В гуманитарных областях знания практически отсутствует деятельность концентрирующая информацию по её спецификации дайджесты, библиографические обзоры, сайты с кратким библиографическим описанием научных изданий. Это положение особенно касается научных дисциплин искусствознания.

Поиск информации важная часть любой научной работы. Не будем касаться случаев, когда исследование предполагает экспериментальное извлечения из небытия новой информации. Это научно-исследовательский поиск сведений, когда неизвестная, введенная в обиход научной дисциплины, информация получена в результате кропотливой экспериментальной, экспедиционной или архивной работы ученого. С точки зрения новизны это первичная информация.

В настоящей статье речь идет о поиске информации уже существующей в человеко-машинных информационно-поисковых системах, о вторичном поиске сведений. Рассматривается поиск информации ограниченный полнотекстовыми базами.

Чтобы совершенствовать поиск информации, необходимо более полно и целостно представить структуру информационного поиска.

Успешность поиска научной информации (результат) зависит:

- от уровня осознания информационной потребности;

- от технических характеристик поисковой машины;

- от адекватности и изощренности запроса на поиск информации;

- от свойств информационного объекта, в котором осуществляется поиск.

Тогда, в нашем варианте, система информационного поиска будет состоять из 5 элементов: информационная потребность, запрос на поиск информации, поисковая машина и её возможности, информационный объект или массив в котором поиск осуществляется и сам результат поиска.

Кратко характеризуем эти элементы и их функции в системе поиска.

Информационная потребность. Это элемент системы поиска информации, в котором исследователь участвует в наибольшей степени. Потребность, необходимость информации формируется в сознании исследователя. Именно в этой части системы, сказывается его искусство вопрошания. (Всякое знание проходит через вопрос. Ганс Георг Гадамер. Об искусстве вопрошания).

Мера осознания информационной потребности может быть разная. Представим информационную потребность в виде иерархических уровней, когда каждый последующий включает и дополняет предыдущие. В таком случае первый и самый элементарный уровень осознания информационной потребности представлен необходимостью в научной литературе по теме исследования. Как правило, это библиографические описания книг, статей, ссылки на сайты, в названии которых будет представлена тема исследования.

Список найденной литературы должен быть наиболее полным и новым по данной проблеме. В соответствии с современным состоянием изучения научной проблемы выстраиваются идея, концепция исследования, формируется исходная аксиоматика, терминологический аппарат.

Но, даже на этой тривиальной ступени, должна быть задействована научная содержательная аналитика в части поиска литературы по синонимам запроса или по родственным понятиям. Тематику поиска необходимо выразить словами, содержание смыслов облечь в вербальную форму. Серьезную аналитическую проблему представляет формулирование запроса в компьютерной системе поиска информации, что бы результат был наиболее полным и точным по содержанию.

Потребность в информации может быть выражена в виде необходимости сведений о терминологическом аппарате исследования. Тогда формируется информация о комплексе понятий и терминов, исчерпывающе описывающих основную проблему исследования. К терминам и понятиям примыкает функциональная система отношений взаимодействий между ними. Запросы и поиск должны находить вербальные эквиваленты таких отношений между терминами исследования или между терминами исследования и категориями (основными фундаментальными терминами) научной дисциплины.

Равно как и вопрос, информационная потребность предполагает наличие некоторой предварительной информации. На её основе и происходит формулирование целей, места и условий поиска. В таком контексте смыслов - поиск есть действие по восстановлению целостности (полноты информации).

Следующий уровень информационной потребности в системе поиска необходимость найти смысловые связи в большом корпусе текстов, логические взаимодействия между суждениями основного научного текста и контекста информационного окружения[4]. Может существовать потребность в умозаключениях и выводах извлеченных системой поиска из корпуса тематически однородных текстов. Итак, этот уровень следует обозначить как логический, состоящий из суждений, умозаключений, обобщений, выводов.

Кроме того различают потребность в фактографической и концептуальной информации. В первом случае - это сведения о фактах: датах, именах, литературных источниках, т. е. справочная информация. Вместе с тем, иногда, необходимы оценки, интерпретации событий, заключения на высоком уровне абстрагирования, изложения теорий или концепций. В таком варианте система поиска должна выявить концептуальную информацию, что наиболее типично для современных научных исследований.

Наконец, большие научные полнотекстовые базы концентрированной тематики позволяют вести т. н. глубинный анализ для выявления существующих, но до настоящего момента необнаруженных взаимосвязей, тенденций между элементами научного текста.

Следовательно, во первых потребность в информации уже разделяется на функционально различные части. Очевидны, потребность в литературе по теме исследования, потребность в фактах, потребность в понятиях, терминах, категориях, суждениях, умозаключениях и выводах,

Во-вторых, становится понятным, что поиск информации не разовая конечная функция, а непрерывная, постоянная технология компьютерной работы с научными текстами.

Поисковая машина. Возможности, поисковой машины должны с одной стороны обеспечить достаточно быстрое завершение обработки информационного объекта. Кроме того, машина (программа поиска) должна предоставить возможность весьма гибко и изощренно сформировать запрос адекватный информационной потребности. Перед поисковыми машинами ставится ряд лингвистических задач морфологический анализ, разрешение лексической многозначности и т. д. Синтаксис запроса и его разнообразие определяются возможностями поисковой программы так же как и текстовые форматы (txt. doc. pdf) с которыми может работать поисковая машина.

Запрос на поиск информации. Все технологические особенности, способы, методы поиска в итоге приводят к формированию запроса для поиска информации. Запрос обладает свойством финального компонента в рядоположной цепочке элементов системы поиска информации. Это может быть не только ключевое слово, но и группа синонимов перекрывающих семантическое поле, или сложная, составная логико-вербальная конструкция. Диапазон синтаксиса запроса простирается от отдельного слова до множества слов совместно со знаками булевой логики, вплоть до поиска фраз из нескольких слов с указанием разрывов между ними и заданных последовательностей.

Сводя разнообразие содержания информационной потребности к лаконичной форме запроса исследователь должен проявить интеллект, научное знание и опыт, а также отчасти быть лингвистом. Функциональная задача запроса в системе поиска информации - короткой вербальной конструкцией отсеить достаточно объемное содержание информационной потребности. Иногда в один заход поиска сделать это не удается, и процедура поиска становится многосоставной. Помочь исследователю могут справочные материалы: различные электронные тезаурусы, словари и прежде всего словарь синонимов.

Различают язык поискового запроса (русский, английский и т. д), синтаксис запроса (ключевые слова и логические знаки), объект запроса (текстовой документ, изображение, видео, музыка, звучание и т. д.).

Запросы бывают: единичные / множественные; однократные / многократные; суммативные / системные; монологичные / диалогичные.

Единичные состоят из одного слова;

множественные - несколько слов (включая булеву логику между ними), синонимические поля; семантические поля;

однократные один запрос = один ответ;

многократные много запросов = множество ответов, но в одной семантической зоне;

суммативные много запросов несистемного, разрозненного характера;

системные множество запросов, ответы на которые взаимосвязаны, представляют собой целостность, систему понятий.

монологичные запросы составленные вне зависимости от полученных ответов

диалогичные когда каждый последующий запрос учитывает предыдущий ответ.

односмысловые запросы для поиска единичного смысла

взаимодействующие запросы на поиск взаимодействия (отношения) между смыслами.

Возможны также смешанные виды запросов.

По степени совпадения запроса и ответа различают запросы на точное совпадение и запросы на произвольное соответствие.

Информационный объект. (Очень трудно найти в темной комнате черную кошку, особенно, если её там нет. Конфуций.) Понятно, что искомая информация должна потенциально присутствовать в том массиве, в котором организуется её поиск, и этот информационный объект должен обладать достаточно большим объёмом. Чем больше массив, тем преимущества компьютерного поиска информации реализуются наиболее полно.

Необходимо различать несколько типов объектов для поиска, поскольку типология информационного массива, безусловно, влияет та текст запроса. Первый тип образует смешанная, тематически не сепарированная информация. Ко второму типу будем относить подготовленные информационные массивы. В них присутствует хотя бы общее тематическое единство. По форме объекты для поиска соответствуют типу файлов тексты в различных форматах, изображения, музыка, видео.

Результат поиска необходимо унести с собой. Поисковая машина должна позволять удобно копировать результаты поиска для дальнейшего использования в текстах научной деятельности.

Влияние на состояние системы оказывают не только характеристики её элементов (информационная потребность, запрос, поисковая машина, информационный объект, результат) но и отношения между этими элементами. Для поиска значимы взаимодействия всех элементов структуры между собой, хотя бы на уровне бинарных отношений, т. е. парных взаимодействий элементов. Например, от качества информационной потребности зависит синтаксис запроса, но одновременно, текст запроса ограничивает информационную потребность. Вербализация запроса в виде ключевой конструкции уточняет информационную потребность. И так во всех парных отношениях происходит взаимовлияние элементов друг на друга.

Парадокс полноты поиска информации. Поиск информации возникает не на пустом месте, а в некотором недостаточном, предварительном информационном контексте, что можно обозначить как информационное пространство проблемы. Оказывается, что на начальном этапе исследования, наиболее полно представить потребность в информации, можно лишь хорошо представляя структуру информации проблемы в целом[5]. Поиск литературы, выписки цитат, ограничения объекта изучения, развитие концепции, формирование аксиоматики происходят вначале исследования. Полное осознание и видение строения научного текста, возникает на завершающей стадии работы, а наибольшая потребность в информации вначале. Таким образом, в рамках системы поиска - формировать на высоком уровне полноты информационную потребность возможно лишь на завершающей стадии научного исследования. Парадокс поиска информации проявляется в информационной потребности и неизбежно влияет на все остальные элементы системы поиска информации. Если методология это способ представить исследование уже законченным, то выход из данного парадокса методологический.

Следовательно, для успешного поиска информации, возникает необходимость в представлении некоего содержательного[6] обобщенного структурного инварианта многих научных работ в данной отрасли знания.

Как выглядит инвариант научных исследований в историческом музыкознании? В большинстве научных работ фигурируют следующие повторяющиеся элементы.

Наряду с Именами композиторов, музыкантов, обсуждаются их атрибуты: характеры, психологические портреты, биографические сведения. В большинстве исследований содержатся атрибуты пространства и времени: путешествия персонажей и места проживания, сопоставления хронологические и исторические. Имена в контексте пространства и времени - такое название можно дать этой части.

Обязательной частью любой работы будут музыкальные произведения. Их свойства, форма, содержание, история создания, исполнения, стиль, жанр, выразительные средства представлены в этой части. В общем смысле здесь присутствуют произведение, атрибуты произведения и его контекст.

Существует информационный поиск и информационный анализ текста. В отличии от машинного перевода, озвучивания текста и других направлений автоматической обработки текстов (АОТ), в данном случае в центре обработки текста стоит человеко-машинная система компьютерного ассистирования. Ни о какой автоматизированной, не зависящей от человека системы, речь не идет. Человек не исключается из действия системы, а наоборот активно включается, участвует в ней, образуя важнейшую, ведущую часть взаимодействующую с возможностями компьютерных технологий.

На какой-то стадии освоения информационных технологий работы с текстом, поиск информации переходит в иную стадию. Чисто внешне запрос, поиск, результат поиска остаются как основные части технологии, но меняется их функция. Как средство работы с информацией они те же, но цели становятся иными. На смену поиску информации, приходит поиск информационного сопоставления, обнаружение информационных взаимосвязей, выявление структуры (строения), информационное обеспечение для обобщения и т.д.

Реализация этих функций в системе поиска обеспечивает высокий уровень взаимодействия исследователя и компьютерной технологии поиска информации. Такое взаимодействие принято называть ассистированием (сomputer assisted).

Выводы

Поиск информации не разовая конечная функция, а непрерывная, постоянная технология цифровой компьютерной работы с научными текстами. В ИПС стоит важная задача постепенного перехода от поиска информации к информационной работе с научным текстом.

Поиск информации представляет собой систему (состоящую из информационной потребности, запроса на поиск информации, поисковой машины, информационного объекта, результата поиска), между элементами которой существуют множественные взаимосвязи. Успешность поиска зависит от состояния всей системы в целом.

Обобщенное осознание структуры научной работы должно предшествовать поиску литературы и цитируемого материала исследования, однако такое осознание происходит на заключительной стадии.

В настоящий момент активно формируется современная технология обработки и работы с научными текстами. Такая технология базируется на инварианте и общей логико-содержательной структуре множества научных работ в отдельной научной дисциплине.

Поиск информации, обработка и работа с научными текстами наиболее эффективны в гуманитарных дисциплинах, где текстовой информационный объект наибольший по количеству информации, где отсутствует обобщенный формализованный язык (формулы), а смыслы выражены вербально. Большинство смыслов гуманитарных текстов выражены словами и содержатся в однородном тексте, без вмешательства специализированного формульного языка. В этом случае возникает работа и обработка текста в чистом виде.

В более обобщенном плане, необходимо создавать некоторую новую компьютерную, человеко-машинную технологию работы с научным текстом. Вектор развития - от поиска информации к современной технологии информационной работы с научными текстами.

 


[1] Термин информационный поиск (англ. information retrieval) ввёл американский математик К. Муэрс. Он заметил, что побудительной причиной такого поиска является информационная потребность, выраженная в форме информационного запроса. К объектам информационного поиска К. Муэрс отнес документы, сведения об их наличии и (или) местонахождении, фактографическую информацию. Под информационной поисковой системой ИПС (англ. information retrieval system, IRS) понимают различные системы обспечивающие поиск информации, хотя их конфигурации и функции могут быть весьма различны.

[2] Существует комплексное научное направление исследований в лингвистики обработка естественного языка компьютерными технологиями. Частью этой проблемы является автоматизированная обработка текста, в свою очередь, состоящая из информационного поиска, машинного перевода, автоматизированного реферирования, вопросо-ответных систем, ведения диалога (с виртуальными собеседниками, помощниками), интеллектуального анализа текста (text mining).

[3] В научной литературе существует более 400 определений термина информация. Очень часто содержание этого термина лишь частично оговаривается, отчасти конвенционно, отчасти объясняется контекстом употребления в научном тексте.

Информация это степень разнообразия.

Информация это то, что не существует без субъекта, который её воспринимает.

Норберт Винер: Информация это информация, не вещество и не энергия, и этого достаточно!

Сообщение несёт информацию для человека, если содержащиеся в нем сведения являются новыми и понятными.

[4] Массив научной информации в границах любой тематики сегодня настолько огромный, что в ходе изложения научного сюжета исследования, практически по каждому суждению, умозаключению может быть найдена информация в полнотекстовых базах.

[5] Мы искали информацию, как попало (отчасти в случайном порядке лишь ограничиваясь темой исследования), потом разложили информацию по полочкам. Почему же мы не искали информацию исходя из названий тех самых полочек, исходя из структуры научного исследования.

[6] В литературе методологического плана существует большое множество работ раскрывающих формальную общую структуру исследования: постановка цели и задачи, научная проблема, материал, методология, и т. д. Однако, общая логическая структура научного текста рассматривается крайне редко.

 

Комментарии
Отправить
Свяжитесь с нами

Чтобы получить консультацию наших экспертов, свяжитесь с нами удобным для вас способом, заполнив форм справа, позвонив по телефону:

(495) 999-02-56

или отправив нам письмо на адрес:

kopiraiting.com@gmail.com

Не забудьте рассказать о вашей компании, цели проекта, имеющихся наработках и оставить свои контактные данные.

Отправить