оглавление | литература | сокращения |
Блюменау Д.И. Информационный анализ/синтез для формирования вторичного потока документов: Учебно-практическое пособие.- СПб.: Профессия, 2002.- 240 с.- (Специалист)
В предыдущей главе речь преимущественно шла об информационном анализе и синтезе, при котором в качестве элемента синтеза выступали предложения, экстрагированные из документов тем или иным способом формализации. В результате такого синтеза формировались различные виды вторичных документов, соответствующих определенным формулам выбора. Такой анализ/синтез осуществлялся на синтаксическом уровне: из элементов этого уровня (предложений) образовывались различные синтагмы — суперсинтаксические целые в форме тех или иных вторичных документов (аннотаций рефератов, реферативных аннотаций, самостоятельных фрагментов).
В данной главе речь пойдет об анализе и синтезе на следующем, текстовом, уровне, когда из отдельных фрагментов (ССЦ, сегментов) формируются текстовые синтагмы — синтезированные документы типа дайджестов, квазиобзоров, квазихрестоматий. Приставка «квази» при различных словах обозначает в прямом смысле «якобы», «мнимый». В определении вторичных документов таких, как квазиреферат, квазиобзор, квазихрестоматия, приставка «квази» обычно указывает на то, что данная разновидность вторичного документа создана не «ручным», интеллектуальным, способом, а при помощи машины (компьютера). Из этого перечня синтезируемых документов в данном пособии будет рассмотрено формирование только квазихрестоматии, представляющей собой наиболее сложную пока разновидность квазидокументов.
Под квазихрестоматией понимают сборник (дайджест) определенным образом упорядоченных текстов документов или их фрагментов, составленный по компьютерной (машинной) технологии в соответствии с учебной микропрограммой и способный выполнять функции индивидуального учебного пособия в процессе самостоятельного овладения определенным объемом знаний.
Идея создания таких пособий средствами компьютерных технологий возникла у информационных и, в первую очередь, у библиотечно-библиографических работников в период широкого развития полнотекстовых баз данных, когда появилась реальная возможность значительно улучшить свою работу по информационно-библиографическому обеспечению самообразовательной деятельности специалистов науки и техники в период их повышенной профессиональной миграции, обусловленной изменением социально-экономической ситуации в стране. Развитие такого вида обслуживания позволяло библиотечно-информационным работникам перевести на новую ступень педагогическую составляющую своей профессии и занять совершенно иное и определенное место в общей системе непрерывного образования и переквалификации специалистов, а именно заполнить тот сегмент в структуре познавательных потребностей специалистов, который находится вне сферы влияния и возможностей формально регламентированного процесса учебного познания, осуществляемого учебными университетами, институтами, курсами и т. д. Речь в конечном счете идет о создании на базе библиотечных и информационных служб (центров) широкой сети образовательных подразделений, занимающихся подготовкой индивидуальных учебных пособий для самой широкой аудитории специалистов науки и техники.
Следует уточнить: если бы весь возможный спектр образовательных потребностей в различных самообразовательных ситуациях можно было бы удовлетворить существующими в документальном потоке учебными материалами в виде учебников, учебных и методических пособий, то проблемы бы не существовало. Проблема в том и состоит, чтобы обеспечить самообразовательные потребности в условиях отсутствия таких материалов, т. е. удовлетворить эти потребности иными видами документов, не относящимися к числу учебных. Это совершенно не значит, что в определенных условиях в сборник-хрестоматию не надо включать учебные материалы (или части их). Но в некоторых самообразовательных ситуациях учебников принципиально не должно быть, поскольку они значительно отстают от так называемого «переднего края» развития науки и техники. Отсюда задача заключается в разработке принципов, методов и средств обеспечения самообразовательной деятельности специалистов на основе использования всего видового спектра источников научно-технической информации с применением машиночитаемых баз данных.
Еще одно уточнение. Для определения места самообразовательной потребности в общей структуре информационных потребностей специалистов науки и техники и выявления типичных самообразовательных ситуаций в теоретическом плане различают информационную и познавательную потребности. Под информационной (профессиональной) потребностью понимается потребность в знаниях, необходимых для решения задач (теоретических, прикладных, производственных) в сфере своей профессиональной деятельности. Под познавательной потребностью, также профессиональной, понимают потребность в знаниях, позволяющих быть готовым к. принятию решений. Если удовлетворение информационной потребности — в общем случае — ликвидирует ее, снимает некоторое информационное напряжение, то удовлетворение познавательной потребности нередко ведет к повышению и укреплению информационного (профессионального) интереса, к возбуждению новой потребности в знаниях.
Познавательная потребность удовлетворяется в результате образовательной деятельности, которая подразделяется на руководимую, организованную в рамках того или иного специального учебного заведения — профессионально-технического училища, колледжа, курсов повышения квалификации, института (формальнорегламентированное учебное познание), и самостоятельную, т. е. самообразовательную деятельность (неформальное учебное познание). Первая разновидность образовательной деятельности осуществляется под руководством специального преподавательского состава по соответствующим учебным планам и программам, подкрепленным рекомендованной литературой и методическими указаниями, вторая разновидность — самообразование — по собственным «микропрограммам», не всегда вербализованным, и подбор литературы здесь осуществляется самостоятельно, в лучшем случае — при содействии библиотечного работника. Из этих двух разновидностей образовательной деятельности в данной главе рассмотрена только вторая, т. е. самообразовательная, и прежде всего для специалистов, занимающихся фундаментальными, прикладными и конструкторскими работами. Разумеется, выводы относительно этих групп специалистов могут быть также распространены и на представителей других групп специалистов.
Существует несколько типичных самообразовательных ситуаций, которые охватывают подавляющее число возможных случаев:
• образование с целью приобрести новую специальность в рамках иной профессии;
• образование с целью приобрести новую специальность в рамках прежней (имеющейся) профессии;
• образование с целью приобрести новую специализацию в рамках прежней специальности;
• образование с целью углубить (или.восстановить) свою, т. е. имеющуюся, специализацию;
• образование с целью приобрести возможность профессионально ориентироваться в достижениях других отраслей знания.
Две первые ситуации исключаются из рассмотрения в рамках данного пособия, так как такое образование связано с переквалификацией специалиста и требует от него обращения к руководимым способам изменения специальности (институты, курсы переподготовки и т. д.). Третья, четвертая и пятая ситуации могут быть включены в сферу образовательной деятельности библиотечно-информационных служб, поскольку это именно те случаи, которые, как правило, не охватываются системой образования. Указанные три разновидности образовательной деятельности специалистов могут реализовываться путем самообразования.
Ситуация 3 возникает прежде всего в двух случаях, близких по своему характеру: в период адаптации молодого специалиста, когда он должен приобрести ту необходимую сумму знаний, которую он по понятным причинам не смог приобрести в институте, и в случае значительного перерыва в работе (год — два) по тем или иным причинам.
Ситуация 4 возникает в случае перехода специалиста на работу в другое подразделение или другую родственную организацию в рамках своей специальности, но с изменением специализации (или подспециа-лизации). Такая ситуация может возникнуть и в связи с перепрофилированием предприятия.
Ситуация 5 возникает в случае необходимости: а) ознакомиться с теоретическими основами смежной специальности или основной проблематикой иных отраслей знания; такая потребность возникает у специалистов многопрофильного коллектива, решающих совместно одну проблему (для обеспечения межотраслевого взаимодействия); б) ознакомиться с основными характеристиками, свойствами и возможностями оборудования, аппаратуры, материалов и технологических процессов в смежных и иных отраслях знания для эффективного их использования в данной разработке либо для грамотного взаимодействия со специалистами-смежниками или руководства межотраслевым коллективом.
Для удовлетворения познавательных потребностей в указанных самообразовательных ситуациях необходима различная по своей видовой принадлежности документальная информация, обладающая познавательными возможностями.
Известно, что учебные функции документа достаточно жестко связаны с его кумулятивными функциями и что степень выраженности кумулятивных функций документа определяет его учебные возможности в рамках той или иной ситуации. В зависимости от самообразовательной ситуации познавательные (учебные) возможности различных документов далеко не одинаковы. Оцениваемые методом ранжирования от 1 до 15 (1 — наивысшая оценка, 15 — наименьшая) эти разновидности документов располагаются в следующей последовательности (см. таблицу 5.1).
Таблица 5.1
№ п/п |
Вид научно-технической литературы |
Самообразовательная ситуация |
||
3-я |
4-я |
5-я |
||
1 |
Отчеты о НИРиОКР |
10 |
9 |
13 |
2 |
Диссертации |
8 |
13 |
14 |
3 |
Теоретико-экспериментальные и производственные статьи |
3 |
11 |
12 |
4 |
Патентные описания |
9 |
14 |
15 |
5 |
Нормативно-техническая и правовая литература |
4 |
6 |
9 |
6 |
Обзоры и постановочные статьи |
1 |
5 |
1 |
7 |
Монографии |
2 |
8 |
10 |
8 |
Научно-популярная литература |
14 |
12 |
2 |
9 |
Руководства |
5 |
2 |
4 |
10 |
Учебники и учебные пособия для вузов |
11 |
4 |
11 |
11 |
Учебная литература для техникумов |
13 |
1 |
8 |
12 |
Специальные справочники |
6 |
3 |
3 |
13 |
Специальные энциклопедии | 12 | 7 | 5 |
14 | Универсальные энциклопедии | 15 | 15 | 6 |
15 | Фирменные проспекты и технические каталоги | 7 | 10 | 7 |
Эта оценка служит ориентиром в работе составителя хрестоматии при подготовке стратегии поиска и обращении к базам с целью выбора из них наиболее учебноемких документов.
Основным инструментарием формализованного анализа документов в данном случае выбран индикаторный метод, который, как уже указывалось, основывается на использовании маркеров, индикаторов, коннекторов и повторов.
Напомним, различают две группы формальных признаков — библиографические, необходимые для идентификации документов в базах данных на уровне библиографического анализа, и текстовые, используемые для процедур обработки текстовой информации — выделения тех или иных фрагментов текста с целью их включения или исключения из текста подготавливаемой хрестоматии.
К числу формальных библиографических признаков относятся прежде всего элементы библиографического описания — год издания, язык издания, язык оригинала, страна-издатель, издательство, город, фамилия автора (составителя), коллективный автор (издающая организация), вид издания (статья, обзор, монография, справочник, учебник и т. д.), количество страниц, шифр базы данных; организация, где выполнена работа, и ее координаты, вид научной работы (теория, методика, эксперимент и т. д.), читательское назначение и пр.
К числу формальных текстовых признаков относятся прежде всего маркеры и индикаторы, позволяющие идентифицировать фразы документа, относящиеся к различным его смысловым (содержательным) аспектам (фрагментам). Процедура такого смыслового фрагментирования более или менее четко разработана в настоящее время в отношении таких видов документов, как статьи (научно-технические — прежде всего посвященные решению конкретной задачи), патентные описания, информационно-справочные листки. Эти разновидности документов преимущественно ориентированы на удовлетворение производственной информационной потребности — для принятия решений в ходе выполнения конкретной производственной (творческой) задачи, и могут лишь ограниченно использоваться при возникновении познавательных потребностей в случае ситуации 3.
Основная задача применения текстовых формальных признаков сводится к идентификации фраз, относящихся к определенным фрагментам текста (в пашем случае это чаще всего абзац, либо часть его, либо некоторая их совокупность в рамках суперсинтаксического целого), с целью, как уже говорилось выше, включения их или исключения из текста подготавливаемой хрестоматии, а также для определения конца такого ССЦ. Соответственно разделяются содержательные аспекты (и маркеры, их идентифицирующие) — «для исключения», «для включения». Эти маркеры включаются в число поисковых признаков (наряду с содержательными, тематическими признаками) в предписание, и поисковая процедура предусматривает выпечатку (или невыпечатку) соответствующих фрагментов текста.
К числу аспектов, в которых раскрывается основное содержание описываемого объекта проблемы, относятся прежде всего: Предлагаемый вариант решения (ПВР), Описание предлагаемого варианта решения (ОпПВР), Особенность предлагаемого варианта решения (ОсПВР), Оценка предлагаемого варианта решения (ОцПВР), Результат (Р), Вывод (В) и Рекомендации (Рек). Эти аспекты ориентированны на включение в подготавливаемую хрестоматию.
К числу «дополнительных», служебных аспектов, которые вводят читателя в курс проблемы, определяют ее место среди других проблем, указывают на цели исследования-разработки, относятся прежде всего:
Известный вариант решения (ИВР), Оценку известного варианта решения (ОцИВР), Постановку проблемы (ПП), Целевую установку (ЦУ), Область применения (ОП). Эти аспекты ориентированы, как правило, на исключение их из текста подготавливаемой хрестоматии (однако в случае подготовки квазиобзоров эти аспекты играют немаловажную роль). Каждый из содержательных аспектов, как мы знаем, располагает своим набором маркеров (формальных признаков). Так, аспект ПВР идентифицируется такими, к примеру, маркерами, как «Исследована возможность» (и его синонимичными вариантами — «Изучена возможность», «Проанализирована вероятность» и т. п.), «Автором выполнена (осуществлена, изучена и т. п.)»; «Осуществлена разработка (конструкция, модель и т. д.)»; «Произведен расчет», «Интерес представляет», «Исследован (предложен, разработан, установлен, проанализирован и т. д.)». Наличие указанных маркеров (одного — двух) в одной из фраз абзаца документа указывает на отнесенность данного абзаца к определенному содержательному аспекту и тем самым на его дальнейшую судьбу («для включения» или «для исключения» из текста хрестоматии). (Фрагмент словаря маркеров приведен в Приложении 2).
Проблема сокращения машинным способом таких структурных единиц текста, как глава, параграф, подпараграф и т. п., в монографиях, руководствах, учебниках (т. е. в книгах), насколько известно, до настоящего времени еще не решалась, и поэтому в данном пособии речь идет о выделении не только и не столько фрагментов, релевантных теме хрестоматии (см. главу 4), сколько о целых релевантных структурных единицах — параграфах, подпараграфах и т. п. Такие единицы выявляются на основе поиска по содержательным и формальным признакам или первым предложениям абзацев, разделов, параграфов и т. п. Важно только при этом, чтобы эти предложения были автосемантичными. Сочетание поисковых признаков заглавия раздела и первого предложения его абзаца, значительно повышает показатель релевантности при поиске. Указанная процедура обнаружения релевантных теме хрестоматии структурных единиц текста значительно сокращает время (а следовательно, и трудоемкость) поиска. При поиске структурных единиц текста (статей) в таких видах документов, как справочники, энциклопедии и словари, серьезных проблем с релевантностью и сокращениями объема текста не возникает, поскольку они достаточно четко идентифицируются своим предметным заголовком, а тексты самих статей обычно сжаты и информативны.
5.2. ЭТАПЫ СОЗДАНИЯ КВАЗИХРЕСТОМАТИИ
Процедура формирования квазихрестоматии включает в себя целый ряд этапов — от обработки (формирования) запроса до оформления пособия с включением всех необходимых для него составных частей и выдачей его либо в печатной (человекочитаемой), либо в машиночитаемой (например, на дискете) форме.
Любой запрос есть словесное выражение информационной (в нашем случае — познавательной) потребности, т. е. осознания субъектом недостаточности его знаний для достройки психологической модели объекта, модели, отражающей уровень его представлений о данном объекте (в нашем случае — о данной предметной области). Процесс вербализации потребности, т. е. превращения ее в запрос, протекает, как известно, в четыре этапа:
1-й этап — осознание потребности как некоторого дефицита в знаниях, т. е. на психическом, образном уровне, уровне представлений;
2-й этап — «переход» с уровня представлений на уровень мышления, этап осмысления в виде мыслительной модели, мыслеобразов, в виде совокупности понятий;
3-й этап — «переход» с уровня мыслительной модели на языковый уровень; модель «обрастает» словами; здесь идет интенсивный поиск в синонимичных рядах наиболее адекватных синтагм, пока еще разрозненных и грамматически неупорядоченных, неоформленных;
4-й этап — формирование в сознании субъекта синтаксической конструкции, также наиболее адекватной семантическому представлению запроса на речевом уровне. Чаще всего, однако, субъект извлекает из своей памяти одну из типовых синтаксических конструкций, в рамках которой морфологически и упорядочиваются лексические единицы, сформировавшиеся на языковом уровне.
Столь подробно процесс вербализации потребности описан для того, чтобы обратить внимание на явление содержательного обеднения первоначального образа-представления в процессе его движения через все этапы (уровни) психолингвистического пространства до его воплощения па речевом уровне в виде фразы-запроса: многие детали образа теряются, некоторые искажаются, и на вербализованном уровне мы получаем подчас модель (запрос), лишь очень приблизительно соответствующую модели на психическом уровне (самой потребности). Видимо, из понимания этого родилось известное выражение, что мысль высказанная есть ложь.
Но это лишь одна сторона проблемы формулирования запроса — проблема неадекватности выражения потребности в запросе.
Более серьезной, однако, является другая проблема: сама психическая (мыслительная) модель потребности в силу ряда причин порой очень приблизительно соответствует той действительно необходимой информации, которая требуется специалисту как для решения стоящей перед ним творческой задачи, так и для повышения (изменения) своей квалификации. По этой причине специалист нередко очень широко формулирует запрос, предполагая, что стоящая перед ним познавательная задача с большей вероятностью «уложится» в широкие рамки запроса. Что на практике получается из такой «запасливости», каждый библиотечно-информационный работник хорошо знает: в ответ на запрос выдается порой слишком много нерелевантной информации, но и в «остатке» далеко не всегда обнаруживается нужное. Происходит это потому, что многие частные вопросы оказываются в ином классификационном ряду, нежели предполагал этот специалист, формулируя запрос.
Практикой библиотечно-информационного обслуживания выработаны различные способы уточнения и развертывания запросов. В нашем случае, кроме «уточнения и развертывания», необходимо также и формирование на основе этого развертывания учебной микропрограммы, пусть иногда и очень краткой. Именно такая программа позволяет систематизировать, логически и дидактически упорядочить, организовать учебный материал.
Приступая к формулированию и развертыванию запроса, первоначальный вариант которого фиксируется обычно на специальном бланке, содержащем сведения о потребителе, составитель прежде всего должен определить, к какой познавательной ситуации относится запрос специалиста. Это нужно по той причине, что характер ситуации будет во многом определять действия составителя на каждой из последующих операций формирования хрестоматии. Затем, используя библиотечно-библиографические классификации, прежде всего УДК, рубрикаторы, имеющиеся в его распоряжении информационно-поисковые тезаурусы, составитель проецирует запрос на соответствующие разделы классификационных схем, что позволит в большинстве случаев достаточно четко определить место данного запроса в системе той или иной отрасли знания и выявить ряд признаков, известных специалисту и важных для него, но не отраженных в первоначальной формулировке.
Иногда тема запроса не укладывается в рубрику классификационной схемы, поскольку последние строятся априори и базируются на формально-логических критериях, которые предусматривают четкое проведение границ между классифицируемыми объектами. В таких случаях следует «конструировать» тему, опираясь на два и более раздела классификации.
Уточнив с помощью вспомогательных средств формулировку темы запроса (что является по сути дела заглавием будущего учебного материала), необходимо с помощью этих же средств произвести его предварительное развертывание от общего к частному в виде оглавления (программы). Нередко для уточнения и развертывания запроса производят пробный поиск в системе с целью нахождения релевантных или «околорелевантных» наиболее фундаментальных работ из этой области знания (учебников, руководств, монографий), анализ оглавлений которых может позволить существенно пополнить и уточнить учебную программу. К сожалению, такой прием, очень действенный в целом, не ко всем образовательным ситуациям применим (в частности, к ситуации 5). На основе полученного оглавления (программы) составляется поисковое предписание, чаще их серия, включающих пока лишь содержательные признаки.
Составление поисковых предписаний является достаточно трудоемкой и ответственной операцией в поисковой процедуре, и качество предписания во многом зависит от поисковых возможностей ИПС, к которым составитель будет обращаться. В принципе эта процедура традиционна и не требует в данном параграфе дополнительных пояснений.
Процедура поиска сводится к выбору средств ограничения информационного пространства этого массива, т. е. к выбору средств сужения рамок поиска, поскольку, если говорить строго, любой документ, относящийся по тематике к массиву, в той или иной степени будет релевантен запросу, ориентированному на этот массив. В качестве таких ограничителей выступают содержательные и формальные поисковые признаки. Задача состоит в том, чтобы правильно сформулировать и организовать набор таких признаков. Наиболее приемлемые условия для поиска создает диалоговый режим, о чем говорилось выше, поскольку он обеспечивает пользователям достаточно гибкий режим работы — позволяет вносить по ходу поиска уточнения, оперативно реагировать на ответы, изменять стратегию поиска, выбирать состав полей, выдаваемых на терминал, сохранять формулировку поискового предписания на будущее, обращаться к средствам «подсказки», которые помогут более рационально распорядиться возможностями системы.
Обычно сам поиск предваряется перечнем операций диалогового взаимодействия с базой данных: установление связи с базой данных (БД) (информационным центром), предъявление пароля, обмен регламентными сообщениями с телекоммуникационным монитором, с поисковой прикладной программой (ППП), выбор режима работы, набор на клавиатуре поискового предписания в сеансе доступа к БД.
На стадии составления поискового предписания указываются желаемые БД и имена БД, в которых требуется произвести поиск. Релевантные запросу БД определяются путем обращения в специальную адресную базу данных.
Опыт диалогового поиска в политематических базах данных показывает, что для получения удовлетворительной полноты требуется, как правило, искать не в одной, а в нескольких тематически связанных базах данных. В этих случаях и прибегают к средствам нахождения БД путем ознакомления пользователя с каталогом БД и общими описаниями тематических разделов, хотя далеко не всегда этих средств бывает достаточно, чтобы выбрать нужные БД. По этой причине последние годы в ряде банков данных были созданы условия для параллельного поиска во всех доступных БД но словарным и инверсным файлам, что значительно повысило степень релевантности БД но отношению к поисковому предписанию.
Средства оценки полноты представления ресурсов тематически связанных БД помогают создать па персональной ЭВМ компактную систему, позволяющую легко определить БД, в наибольшей степени близкие к указанной пользователем тематике. В этом случае, если пользователь указал «профильную» его тематике базу данных, то ИПП (интеллектуальный поисковый процессор), располагая собственными «знаниями», выполнит поиск в ассоциированных базах данных.
Иногда бывает необходимо «доработать» запрос (поисковое предписание) в режиме диалога пользователя с ИПП, который формирует необходимые подсказки, не прибегая к обращениям в банки данных. Пользователь может указать приемлемые предельные числа ожидаемых документов, хронологическую глубину БД, ограничения поиска по определенным полям (авторы, названия, языки, источники). На экран выводится форма с указаниями пользователю по ее заполнению. Если каких-либо пожеланий но специфике поиска у пользователя нет, ИПП по умолчанию принимает решение о стандартном сценарии выполнения поискового предписания. В случае необходимости поисковые признаки предписания можно объединить соответствующими операторами (логическими связками).
Довольно распространенной операцией в процедуре собственного поиска является ограничение на объем выдачи (от минимального до максимального). Если результат поиска попадает в этот диапазон, то ИПП переходит к следующей фразе и формирует самостоятельно перечень записей (текстов) в качестве ответа на запрос. Если число записей меньше минимально допустимого, предпринимаются шаги для снятия излишних ограничений в поисковом предписании (исключаются поисковые признаки с низкой частотой встречаемости, заменяются операторы для увеличения объема выдачи, включаются в предписание синонимы и признаки, связанные с исходными родовидовыми отношениями (при наличии, естественно, тезауруса)).
В случае чрезмерного объема ожидаемой выдачи, если выявляются признаки с высокой частотой встречаемости, делаются попытки модифицировать поисковое предписание с целью ограничения числа выдаваемых документов.
Некоторые сценарии работы ИПП предусматривают выделение из чрезмерной выдачи фрагментов — приоритетных записей (например, последние публикации, публикации па определенных языках, публикации, содержащие большое число ссылок и т. п.). Однако при всей важности мер, направленных на усиление степени алгоритмизации поиска, диалоговый режим в значительной степени продолжает все-таки опираться па интуицию пользователя и носит эвристический характер. Алгоритм лишь подсказывает, направляет и упорядочивает процедуру поиска. Участие человека в процессе поиска увеличивает его эффективность, но при условии, что этот человек-посредник хорошо разбирается в возможностях средств банка данных.
Особенности познавательного поиска. До сих нор речь шла об информационном поиске вообще без акцентирования внимания на особенностях поиска с целью обеспечения познавательных, образовательных задач. Процессуально процедура поиска образовательной информации внешне ничем не отличается от процедуры поиска информации для решения производственных и творческих задач. Однако некоторые особенности все-таки есть. Прежде всего в последнем случае (если, конечно, разработка не носит поискового характера) у потребителя существует большая определенность в том, какая информация ему нужна. Тем не менее, формируя в голове некоторую модель будущего объекта, потребитель должен представлять в ее «конфигурации» непрочерченные участки. И когда с помощью информации потребитель приобретает возможность «прочертить» эти участки модели, он прекращает поиск. При этом снять неопределенность может первый же выданный системой документ — в дальнейшем поиске может уже не быть смысла.
Иногда, наоборот, требуется тотальный поиск, обеспечивающий «стопроцентную» полноту, чтобы быть уверенным, что больше не существует иных средств и подходов к решению данной проблемы. И здесь потеря при поиске даже одного какого-либо документа (факта) может быть критичной для определения направления дальнейших исследований.
В случае поиска с образовательной целью две указанные выше ситуации практически исключаются: потребитель, как правило, не может сформировать в голове информационную модель объекта, так как в этом случае проблемы как таковой вообще не существует.
В роли «учащегося» специалист порой весьма приблизительно представляет себе в деталях, что ему нужно. И лишь знакомство с подсобными материалами, способными помочь развернуть тему, позволяет ему, и то не во всех случаях, представить эту тему в виде краткой учебной программы. Это, конечно, характерно прежде всего для учащихся низших ступеней образования, но и для специалистов с высшим образованием проблема формирования учебной программы также остается злободневной.
Отсутствие «стопроцентной» полноты выдачи в образовательных ситуациях не столь критично: обычно содержание одного-двух потерянных релевантных документов может быть перекрыто содержанием других, более обобщенных источников информации (например, обзором, монографией). Кроме того, и «самые последние достижения» здесь, конечно, желательны, но опять-таки не столь необходимы по той же причине. Однако значение тех же «самых последних достижений» резко возрастает, когда с этапа самообразования потребитель перейдет к решению конкретных производственных задач.
5.2.3. Формирование и оформление хрестоматии
Этап формирования и оформления хрестоматии по сути дела совпадает с синтетическим этапом библиографирования, в процессе которого из материалов, полученных на предыдущих этапах, комплектуется собственно хрестоматия. Здесь также выделяются три операции — отбор и оценка литературы (текстов), группировка ее в определенном порядке и оформление вспомогательных материалов.
Отбор и оценка текстов — по релевантности, дидактическим возможностям, формальным признакам — присутствует и при выполнении операций на предыдущих этапах, однако на этом этапе располагают уже всем материалом, как в полнотекстовом, так и свернутом (в виде фрагментов) варианте, и должны их еще раз рассмотреть и оценить с точки зрения соответствия их структуре и целям подготавливаемой хрестоматии. Как и в случае составления библиографического указателя, здесь также можно выделить формальные, содержательные и качественные признаки отбора.
При формальном подходе проверяют собранный материал с точки зрения его хронологических границ, вида издания, издательской организации и др.
При содержательном отборе внимание прежде всего обращается на соответствие материала тематике запроса, т. е. на релевантность текстов определенным разделам учебной программы, на наполненность этих разделов.
Качественный отбор материала предполагает оценку его с точки зрения целевого и читательского назначения — отвечает ли потребностям и уровню подготовленности конкретного специалиста. Так, к примеру, было бы неправильным включать в хрестоматию теоретическую (или специальную) статью в случае образовательной ситуации 5, даже если она по формальным и содержательным признакам соответствует теме формулируемого запроса. И наоборот: включать популярную литературу в хрестоматию, подготавливаемую для обеспечения потребностей в случае ситуации 3. Все эти признаки отбора, и формальные, и содержательные, и качественные должны быть в большей или меньшей степени (в зависимости от развитости аппарата формализации) заложены в состав поискового предписания и стратегию поиска, однако окончательно решение о включении материала в хрестоматию принимает составитель, чаще всего совместно с потребителем.
При всех различиях методов формального, содержательного и качественного отбора эти процессы нельзя рассматривать как изолированные. На практике происходит чаще всего одновременное выполнение этих операций.
Следующей операцией является группировка текстов в соответствии с тематическим планом и программой хрестоматии. Она позволяет упорядочить тексты не только но разделам программы, но и в рамках этих разделов — в соответствии с требованиями дидактических принципов: от частного к общему, от простого к сложному и т. д.
Обычно хрестоматию открывают материалы общего, постановочного, обзорного характера (общий раздел), основные положения которых затем более детально рассматриваются в разделах содержания.
Однако известно, что ни одна из группировок не может обеспечить всестороннего «входа» потребителя в текст: возможности любого отдельно взятого способа ограничены. Эти ограничения в той или иной степени обычно компенсируются вспомогательными указателями, которые представляют собой, как правило, упорядоченный по алфавиту (или номерам) перечень связанных единым признаком понятий. От каждого признака при этом делается отсылка к порядковому номеру текста или страницы.
К наиболее широко распространенным относятся указатели авторов, имен, предметных рубрик, географических названий, геологических, физических, философских и других терминов, периодических изданий, из которых извлечены тексты, названия научных или учебных заведений, фирм, в стенах которых выполнены разработки и прочее. Широкое распространение в последние годы получили также пермутационные указатели ключевых слов заглавий или предметных рубрик.
В нашем случае наиболее важным инструментом дополнительного входа в текст хрестоматии, помимо тематического расположения рубрик (заглавия), является предметный указатель, составленный на основе индексов поисковых образов документов, включенных в состав хрестоматии *.
Важной частью хрестоматии является библиографический указатель изданий, соответствующий теме, целевому и читательскому назначению хрестоматии. Группировка описаний в библиографическом указателе подчиняется требованиям, выбранным для всего текста хрестоматии. Однако здесь может быть некоторая особенность, заключающаяся в том, что если в основной текст хрестоматии обычно включается основная литература, рекомендуемая по теме запроса потребителя, то в библиографический указатель могут включаться и дополнительные источники, не отраженные в тексте хрестоматии.
Наконец, на заключительном этапе, когда уже сформирована дискета с текстами и вспомогательными указателями, производятся завершающие операции — подготавливаются предисловие, оглавление, титульный лист и осуществляется окончательное редактирование текста с выводом его но частям на экран.
В предисловии излагаются сведения об основных задачах хрестоматии, ее целевом и читательском назначении (в рамках данной самообразовательной ситуации), о порядке расположения материала, его хронологических рамках и методические указания но изучению текстов хрестоматии.
Таким образом, общая структура хрестоматии, выполненной с помощью компьютерной техники, должна (в полном варианте) включать:
титульный лист, оглавление, предисловие, упорядоченные в соответствии с оглавлением тексты (включая библиографический указатель) и некоторое количество вспомогательных указателей. Выдаваться потребителю такая хрестоматия может либо в виде дискеты, либо в виде распечатанного с помощью принтера текста.
Выше были описаны процедуры формирования хрестоматии на основе общих принципов и методов, существующих при выполнении поисковых операций. При всем индивидуальном разнообразии этих методов, определяемых спецификой каждой конкретной информационной системы, в них есть нечто общее, на что и опираются при разработке методики создания хрестоматии.
В качестве примера приведем технологическую цепочку подготовки квазихристоматии но теме «Параметрические антенны гидролокационных устройств (расчет и конструирование)», выполненной для специалиста одной конструкторно-технологической организации рыболовного флота. Будучи по специальности инженером-акустиком (специализация — радиовещательные устройства), этот специалист вынужден был перейти на новое место работы и в связи с этим приобрести специализацию «расчет и конструирование антенных устройств гидролокационных станций». Его познавательная потребность укладывалась в рамки третьей самообразовательной ситуации с вытекающими из этого требованиями к видовой структуре отбираемых документов, их хронологическим рамкам и т. д.
На основе анализа запроса абонента, и с его участием, была разработана первоначально минипрограмма, включающая следующие пункты:
• физическая природа направленности гидроакустических антенн (ГАА);
• характеристика ГАА, особенно параметрических ГАА;
• расчет и конструирование параметрических ГАА;
• ньезокерамические преобразователи для ГАА.
Впоследствии в ходе работы программа была развернута и в окончательном виде включала «Введение в курс» и 6 глав.
Подготовка хрестоматии с точки зрения поиска необходимых материалов включала два этапа: 1-й — поиск в полнотекстовых базах данных необходимых (релевантных) документов и 2-й — поиск в отобранных документах необходимых релевантных фрагментов, из которых затем в соответствии с мини-программой и дидактическими правилами и формировалась сама квазихрестоматия.
На I этапе в результате анализа мини-программы и ее индексирования было сформировано четыре группы содержательных признаков, образовавших четыре частных поисковых предписания, в частности:
антенны гидроакустические (А) — направленность (Б); антенны параметрические (В) — расчет (И), конструирование (К); антенны параметрические (В) — пьезокерамика (Ж); антенны параметрические (В) — экранирование (3). Эти признаки были определены как исходные индексы. В качестве производных в полное поисковое предписание были включены некоторые синонимичные признаки (излучатели (Г), преобразователи (Д), решетки (Е), проектирование (Л). В целом поисковое предписание в содержательной своей части представляло собой логическую сумму (дизъюнкцию) из четырех групп признаков, связанных между собой отношениями логического произведения (конъюнкции):
(А^Б)v[(ВvИvКvЛ)^(ГvДvЕ)]^(В^Ж)v(В^З)
Помимо содержательных признаков на выдачу накладывались ограничения но языку (русский), по хронологическим рамкам (до 5 лет), видам литературы (см. ранжирование документов в соответствии с третьей ситуацией в табл. 5.1), а также по читательскому назначению (конструкторы в области расчета и проектирования гидролокационных устройств); последним ограничителем поиска было число включаемых в хрестоматию документов — не более 30 (для отбора наиболее ценных источников — этот вопрос решал абонент).
В результате библиографического поиска, проводимого составителем, было выявлено 30 документов, удовлетворяющих требованиям поискового предписания с учетом перечисленных выше ограничений
После обращения к первоисточникам, анализ которых на релевантность/пертинентность производился совместно составителем и абонентом, были выбраны 20 документов, которые решено было включить в хрестоматию, при этом 14 документов в «полнотекстовом» варианте и 6 документов в виде библиографических записей в качестве дополнительной литературы, подлежащей в случае необходимости последующему изучению. Среди отобранных для включения в хрестоматию первоисточников: 1 специальная энциклопедия «Ультразвук»; 1 Терминологический словарь-справочник по гидроакустике (терминологические статьи из этих двух источников вошли в раздел «Введение в курс»); 2 учебных пособия по гидроакустике — первое для техникумов, второе для высшей школы (релевантные разделы из этих источников обеспечили основные теоретические главы и параграфы хрестоматии);
3 практические монографии из серии «Библиотека инженера гидроакустика» (составили расчетно-конструктивную часть хрестоматии); 1 обзор зарубежных патентов по гидроакустическим параметрическим антеннам и, наконец, 6 статей по частным техническим проблемам этой области знания, которые и уточняли положения, не затронутые в учебных пособиях и практических монографиях.
II этап — поиск и экстрагирование релевантных фрагментов из текстов, отобранных на I этапе документов. Этот этап разделился на два подэтапа: поиск релевантных фрагментов в источниках, которые были представлены в печатной форме (эта работа проводилась составителем в «ручном» варианте но машинной методике, т. е. с применением содержательных и формальных признаков) и поиск релевантных фрагментов в источниках, которые были представлены в электронной (полнотекстовой) форме.
В последнем случае в текстовое предписание наряду с содержательными признаками обязательно вводились так называемые формальные (для поиска фрагментов) признаки, типы «свойство», «материал», «издание», «аппаратура», «производство», «принцип действия» и др. (см. выше).
В релевантных такому предписанию документах (статьях, главах и параграфах монографий) проводился машинный поиск с целью цветовой разметки текста, которая быстро ориентировала составителя в документе (или его части) и облегчала его работу по выбору релевантных фрагментов. Удостоверившись в правильности выбора машиной очередного фрагмента, составитель отправлял его в «Копилку», где накапливались выделенные уже до этого фрагменты. После фрагментирования первичных документов, относящихся к определенному параграфу (главе) содержания хрестоматии, фрагменты из «Копилки» переписывались на дискету и затем выводились на печать для дальнейшего формирования хрестоматии в соответствии с мини-программой и дидактическими требованиями.
Подготовленная таким образом хрестоматия включала титульный лист, предисловие, раздел «Введение в курс — основная терминология» и основной текст хрестоматии, состоящий из пяти глав, включающих 12 подразделов. Основная часть хрестоматии содержал 46 страниц текстов первоисточников.
Послетекстовую часть хрестоматии составляют: библиографический указатель литературы (основной, т. е. представленной в виде полных текстов, и дополнительный — в форме библиографических описаний), краткий предметный указатель и список сокращений. Общая логика построения хрестоматии с учетом дидактических требований предусматривает следующую последовательность ее частей:
— вначале общее знакомство с проблематикой на уровне терминологии;
— затем идет изложение физической сущности процессов, связанных с гидроакустическими антеннами и преобразователями (теория вопроса), при этом первоначально на уровне учебника для среднего специального образования (техникума), а затем развитие этих же и ряда новых вопросов на уровне учебного пособия для высшей школы;
— после теоретической части — рассмотрение общих конструктивных вопросов, сначала применительно к гидролокационным антеннам в целом, а затем к параметрическим антеннам в частности; тот же подход выдержан и при изложении процессов проектирования ГАА.
За разделом «Расчет и проектирование» следует обзор состояния развития этого вида техники но данным зарубежного патентования. За-
тем даются важнейшие последние частные технические решения российских авторов, и завершает изложение проблемы прогноз развития параметрических антенн на основе анализа российских и зарубежных разработок.
В данной главе па примере квазихрестоматии, выступающей в качестве индивидуального учебного пособия для самообразования, были рассмотрены общие принципы формирования синтезируемых документов. Работы в этом направлении пока находятся в начальной стадии своего развития и требуют еще значительных усилий со стороны информационных и библиографических работников в разработке более совершенного лингвистического аппарата экстрагирования текстовых фрагментов и совершенствования программных средств. В значительной степени развитие этих работ связано с расширением видовой структуры документального потока в его полнотекстовом варианте. Пока значительную часть этого потока составляют «малые» документальные формы — статьи, патентные описания. Это не позволяет в должной степени привлекать к процессу синтезирования более объемные документы типа монографий, учебников, руководств.
На сегодня значительная часть операций по подготовке синтезируемых документов выполняется на интеллектуальном уровне, то есть непосредственно составителем.
С помощью компьютера удается сегодня решать следующие задачи:
помощь в формировании поискового предписания, поиск релевантных документов в полнотекстовых базах данных, цветовая разметка найденных (и «вручную» отобранных для фрагментирования) документов с целью облегчения ориентации составителя в текстах таких документов, накопление экстрагируемых составителем фрагментов в «Копилке», обработка текстов при формировании хрестоматии в рамках возможностей текстового процессора Microsoft Word (97/2000), создание вспомогательных указателей: именных, предметных и др. Вся оценочная деятельность на каждом из этих этапов формирования квазидокумента «лежит на плечах» составителя.
Одна из важнейших задач, которая ждет своего решения, заключается в том, чтобы передать компьютеру процедуру автоматического свертывания входного потока документов с целью формирования пакетов самостоятельных фрагментов (по синтаксическому методу — см. выше), упорядоченных но тематике и их аспектной принадлежности. Образовавшаяся в результате такого свертывания база знаний будет информационной основой для формирования различных синтезируемых документов типа дайджестов, квазиобзоров, квазиконспектов и квазихрестоматий.
* С методом составления таких указателей можно познакомиться, например, по версиям текстового процессора Microsoft Word 2000.