Необхідність створення інформаційно-пошукової системи (ІПС) нормативно-правового матеріалу не викликає сумнівів. Актуальність машинного пошуку правової інформації особливо зросла у зв'язку з розгортанням у країні робіт зі створення автоматизованих систем управління (АСУ), причому значну частину інформаційного забезпечення становить законодавчий матеріал. Створення ІПС законодавства, окрім інших переваг, про які вже йшлося в радянській юридичній літературі, дозволить скоротити витрати на проектування виробничих, галузевих та територіальних АСУ, а також створить передумови, принаймні в галузі кодування та машинної обробки правової інформації, для їх подальшого стикування у єдину загальнодержавну систему.
Процес пошуку інформації умовно можна розбити на два етапи. Перший починається з надходження запиту та закінчується видачею адреси документа, наприклад номера статті та назви акта, в якому вона знаходиться. Тут вирішуються завдання Юридичної семантики. Другий етап починається з надходження адреси необхідного документа та закінчується його видачею. Завдання, що вирішуються при цьому до семантики, відношення не мають і повністю ставляться до сфери техніки.
Як у спеціальній, і у юридичної літературі системи, які забезпечують кожен етап окремо, і системи, які забезпечують обидва етапи разом, найчастіше називаються однаково - інформаційно-пошуковими. Тим часом один і той же термін використовується для позначення різних систем.
Перший етап визначається методом, покладеним в основу організації інформаційного пошуку, або, іншими словами, мовою, у термінах якої здійснюється індексація документів; критерієм відповідності знайденого документа шуканому та алгоритмом пошуку адреси - програмою реалізації критерію відповідності. Це інформаційно-пошукова система в абстрактному вигляді, під якою розуміється сукупність інформаційно-пошукової мови (ІПЯ) із правилами перекладу з природної мови на ІПЯ та навпаки, а також критерію смислової відповідності між пошуковими образами правових актів та пошуковими приписами.
В даний час для цілей інформаційного пошуку використовуються чотири основні типи інформаційно-пошукової мови: бібліотечно-бібліографічних класифікацій, алфавітно-предметної класифікації, дескрипторні мови та змішані мови, що поєднують позитивні сторони класифікаційних та дескрипторних ІПЯ. Необхідність багатоаспектного пошуку правових актів, тобто пошуку за будь-яким, заздалегідь не заданим поєднанням ознак, вимагає використання методу координатного індексування і заснованого на ньому дескрипторного ІПЯ.
Але для того, щоб метод координатного індексування був ефективним, потрібно забезпечити однакове індексування однакових за змістом документів та інформаційних запитів, тобто необхідно усунути такі явища природної мови, як синонімія, омонімія та полісемія. Здійснити це можна лише шляхом встановлення контролю за вживанням слів та словосполучень природної мови, які виступають як ключові. Такий контроль забезпечується упорядкуванням спеціального юридичного словника-довідника. Специфіка його в тому, що ключові слова в ньому згруповані в класи еквівалентності, тобто групи, що позначають близькі сто сенсу поняття. З кожної такої групи вибирається одне слово або словосполучення (нормативне слово), яким позначається вся група. Таке нормативне слово прийнято називати дескриптором, а словник дескрипторів отримав назву тезауруса (від грецького thesaurus - скарбниця, комора, скарб).
Структура тезаурусу поєднує ознаки класифікаційних схем та переліків предметних рубрик. Терміни його повинні розташовуватися в алфавітному порядку, відображаючи в той же час ієрархічні відносини між термінами за допомогою вказівки більш широких родових і вужчих видових, синонімічних або пов'язаних за значенням термінів.
Необхідність у такому словнику виникає внаслідок наявності множини слів з неточно певним обсягом значення, що негативно позначається на результатах індексування та пошуку. Правовий тезаурус повинен бути єдиним у масштабах країни або принаймні союзної республіки для того, щоб була можливість подальшого стикування галузевих ІПС, що розробляються в даний час в галузі права. Перед нормованим переліком термінів не стоїть завдання стандартизації термінології, він повинен лише усунути термінологічні розбіжності, що зустрічаються в практиці, стосовно розробки та функціонування інформаційно-пошукової системи.
Точність та визначеність юридичної мови, відсутність (за досить рідкісним винятком) розпливчастих, двозначних та багатозначних термінів значно полегшують завдання створення правового тезаурусу. Останнє, однак, не означає, що в юридичну інформаційно-пошукову мову немає потреби вводити штучні засоби для відображення зв'язків між поняттями.
Перед упорядниками тезаурусу стоїть складне завдання - зробити відбір термінів, згрупувати їх у класи і ув'язати між собою складні ієрархічні дерева для того, щоб тезаурус забезпечував задовільну повноту і точність пошуку.
Збір термінів здійснюється шляхом детального вільного індексування пошукового масиву (у разі нормативно-правових актів, що становлять той чи інший інститут права).
Для полегшення виділення дескрипторів масив як списку ключових слів розбивається на тематичні поля. У масиві з пільгового пенсійного забезпечення виділено, наприклад, такі групи чи семантичні класи: 1) галузь промисловості, 2) виробництво, 3) підприємство. 4) цех, 5) дільниця, 6) професія, 7) вихідні дані документів.
Дескрипторна мова складається з нормативних ключових слів, у яких штучно, за допомогою відповідних посилань та знаків усунуто синонімію, омонімію, полісемію. Необхідність подібних штучних перетворень викликана тим, що перелічені вище особливості природної мови, хоч і скорочені, але не усунені повністю в юридичній мові, не дозволяють вирішити завдання однозначного опису змістового документів, особливо в пошукових приписах.
Основа побудови дескрипторних інформаційно-пошукових мов
В основі побудови дескрипторних інформаційно-пояскових мов лежить принцип координатного індексування, який передбачає, що основний зміст документа може бути виражений списком ключових слів. До ключових слів відносяться так звані повнозначні слова - іменники, прикметники, дієслова, прислівники, числові, займенники. Ключовими словами не можуть бути прийменники, спілки, зв'язки, частки.
Основними елементами ДІПЯ є:
♦ словник лексичних одиниць;
♦ правила застосування ІСЯ (граматика), що визначають процедуру перекладу текстів документів та запитів з природної мови на ІСЯ:
♦ правила побудови ІСЯ.
словники лексичних одиниць поділяються на дві групи:
♦ основні лексичні словники, що становлять лексику ІМ'Я;
♦ морфологічні словники, які забезпечують морфологічний аналіз та нормалізацію слів.
Як лексичні одиниці основних словників використовуються ключові слова, словосполучення та дескриптори.
Дескриптор - поняття, що означає групу еквівалентних чи близьких за змістом ключових слів. Дескриптор – це ім'я класу синонімів. Як дескриптори можуть бути використані код, слово або словосполучення.
Розробка дескрипторної мови фактично зводиться до розробки інформаційно-пошукового тезаурусу (ІПТ).
Тезаурус (від грецьк. «сховище», «скарбниця») у вузькому сенсі є спеціальним словником-довідником, в якому перераховані ключові слова - дескриптори певної предметної області, зазначені їх синоніми, встановлені способи усунення синонімії, омонімії, полісемії, визначені родовід асоціативні зв'язки дескрипторів.
Найбільш важливими парадигматичними відносинами ІПТ є:
♦ супідрядність;
♦ рід-вид;
♦ частина-ціле;
♦ причина-наслідок;
♦ функціональна схожість.
Узагальнена структура ІПТ включає як мінімум три складові: словникову частину, семантичну карту, посібник із використання.
Наведемо низку визначень.
Словникова частина алфавітний список дескрипторів зі своїми словниковими статтями.
Семантична карта – система тематичних класів дескрипторів, представлена у вигляді графічної схеми чи таблиці.
Посібник з використання ІПТ містить правила перекладу ключових слів та словосполучень на ІПС, правила лексикографічного контролю та редагування ПІД та ПОЗ, а також правила ведення ІПТ.
Відмінністю інформаційно-пошукових тезаурусів від інформаційно-пошукових каталогів на основі предметної ієрархічної рубрикації є те, що в тезаурусах, крім класифікаційної схеми, присутні самі ключові слова та дескриптори, що об'єднуються під назвою класів, рубрик і т.д. позначення (назви) класів.
Головна ідея інформаційно-пошукових тезаурусів полягає у підвищенні ефективності індексування документів у рамках дескриптивного підходу. Інакше висловлюючись, у системах з урахуванням ПІТ ПІД представлений набором дескрипторів. Однак у процесі індексування документів враховуються семантичні відносини між дескрипторами, що, зрештою, забезпечує більш адекватний зміст документа ПІД і підвищує ефективність пошуку документів.
Види ІПЯ
До основних видів ІПС відносяться: класифікаційний, предметизаційний, дескрипторний.
Класифікаційна мова
Класифікаційна мова призначена для індексування документів та інформаційних запитів за допомогою понять та кодів будь-якої класифікаційної системи (ББК, УДК, ДРНТІ, Класифікаторів та ін.).
У основі класифікаційних мов лежить систематична класифікація понять, тобто. класифікація, що відбиває смислові відносини між поняттями. Класифікаційні мови призначені насамперед для формалізації логічних зв'язків слів природної мови.
РДБ пропонує використовувати в ЕК як класифікаційну мову формалізовану та модернізовану ББК у машиночитаному вигляді з предметним входом до неї.
Вибір ББК як ІПЗ ЕК, на думку фахівців РДБ, зумовлений такими факторами: ББК використовується в традиційних каталогах більшості бібліотек країни; у предметної класифікації відсутня досить розвинена ЕК система смислових зв'язків між поділами; використання ББК дозволяє зберегти в ЕК всі переваги традиційних каталогів, що увібрали багаторічний досвід бібліотекарів і бібліографів і привнести нові можливості пошуку інформації, які надає обчислювальна техніка.
А на думку канд. пед. наук, зав. відділом НБ РДТУ Л.І. Альошина, ГРНТІ більше пристосований для автоматизованих технологій, ніж ББК.
Всі ІСЯ класифікаційного типу характеризуються рядом властивостей, що зумовлюють низьку ефективність і утруднюють їх використання в інформаційному пошуку, особливо із застосуванням технічних засобів. До таких властивостей належать: попередня координація (зв'язок) слів та словосполучень у рубриці, труднощі оновлення та доповнення, практична неможливість повної та детальної розробки схеми класифікації, трудомісткість використання при індексуванні.
Усе це спричинило створення мов вербального типу. Ці мови використовують для представлення своїх лексичних одиниць слова та вираження природної мови в їхній орфографічній формі. До мов вербального типу відносяться предметизаційний та дескрипторний.
Предметизаційна мова
Предметизаційна мова призначена для індексування документів та інформаційних запитів за допомогою предметних рубрик. В основі предметизаційної мови лежить алфавітний перелік предметних рубрик, що є коротким формулюванням теми природною мовою. Будучи штучною системою, предметизаційна мова має бути побудована стандартизовано, гранично однаково. Це допомагає читачеві заощадити час та сили.
Дескрипторна мова
Дескрипторна мова служить для координатного індексування документів та запитів за допомогою дескрипторів та/або ключових слів. В основі дескрипторних ІПС лежить алфавітний перелік лексичних одиниць.
Саме дескрипторні мови відкрили можливість автоматизації інформаційного пошуку. Вони дозволяють досить детально та багатоаспектно розкривати зміст документів. Дескриптори та ключові слова легко доповнюються, оновлюються, оскільки до алфавітного списку можна включити будь-яку лексичну одиницю, необхідну для індексування. Проте дескрипторні мови призначені для контрольованого індексування, тобто. для контролю за термінологією, що використовується при індексуванні.
Класифікаційні та дескрипторні мови відображають дві протилежні тенденції у взаєминах між науками та галузями: диференціацію наук та їх інтеграцію.
Немає досліджень, що обґрунтовують ведення кількох систем індексування. Але, оскільки кожен із існуючих ІПЗ забезпечує виконання певних завдань і має поряд з перевагами та недоліки, в ЕК доцільніше використовувати кілька ІПЗ. На думку фахівця РДБ О.М. Зайцева, використання в ЕК декількох систем індексування дозволяє розширити можливості пошуку, сумісності обміну.
-- [ Сторінка 1 ] --
Н.І. ГЕНДІНА
ЛІНГВІСТИЧНЕ ЗАБЕЗПЕЧЕННЯ
АВТОМАТИЗОВАНИХ БІБЛІОТЕЧНИХ
СИСТЕМ
ВІД АВТОРА
В даний час стало очевидним, що традиційна технологія обробки
документального потоку, що надходить у бібліотеки та служби інформації, ручний
пошук, ручні процедури виробництва бібліотечно-бібліографічних продуктів та виконання послуг роблять надто довгим шлях інформації до читача, не забезпечують необхідних умов для плідної роботи вчених та спеціалістів, які звертаються до бібліотек. Потенціал ручної технології практично вичерпано і не дозволяє вийти на якісно інший рівень інформаційно-бібліографічного та бібліотечного обслуговування споживачів інформації.
Оптимальним способом вирішення проблеми є запровадження принципово нових технологічних процесів, що базуються на застосуванні ЕОМ. Впровадження обчислювальної техніки пов'язано як з розробкою програмного забезпечення, так і зі створенням, веденням та експлуатацією баз даних, що містять різні види інформації, записаної на машиночитаному носії. Для того, щоб поповнювати та коригувати такі бази даних, необхідно використання інформаційно-пошукових мов (ІПЯ), що існують у вигляді численних класифікаційних схем, рубрикаторів, класифікаторів, дескрипторних словників, списків предметних рубрик та інших лінгвістичних засобів. Ця необхідність і стала однією з причин підготовки даної книги, мета якої - надати реальну допомогу бібліотечним та інформаційним працівникам у оволодінні основами лінгвістичного забезпечення автоматизованих бібліотечних систем.
На відміну від традиційної постановки питання, в рамках якої функціонування ІПЯ в бібліотеках прийнято пов'язувати лише з систематизацією, предметизацією творів друку та організацією бібліотечних каталогів при обмеженості складу мов (УДК, ББК, алфавітно-предметна класифікація), тут зроблено спробу реалізувати іншу. Його особливість полягає в тому, що ІПС розглядаються з точки зору їх застосування у всіх сферах бібліотечно-інформаційної технології, оскільки ефективність функціонування бібліотечно-інформаційних систем повністю залежить від якості, лінгвістичного забезпечення, тобто.
від комплексу що у системі ИПЯ.
Книга стала результатом як теоретичного узагальнення представлених у літературі відомостей, а й експериментальної перевірки даних, реалізованої під час багаторічних наукових досліджень, проведених на кафедрі автоматизованих бібліотечних систем та обчислювальної техніки Кемеровського державного інституту культури.
Матеріал книги розрахований не так на фахівців, які отримали професійну підготовку в галузі інформатики, засобів автоматизації та програмування, як на осіб, які мають гуманітарну освіту та зайняті у сфері бібліотечно-інформаційної діяльності. Грунтуючись на результатах наукових розробок та більш ніж десятирічному досвіді викладання курсу «Лінгвістичне забезпечення автоматизованих бібліотечних систем», автор адресує свою книгу бібліотечним та інформаційним працівникам – тим, від кого насамперед залежить якість комплектування документальних фондів, наукової обробки літератури, ефективність довідково-бібліографічного та інформаційного обслуговування, обґрунтованість управлінських рішень щодо оптимальної організації бібліотечно-інформаційної технології.
РОЗДІЛ 1. СТРУКТУРА І ПРИЗНАЧЕННЯ ІНФОРМАЦІЙНО-ПОШУКОВОГО
МОВИ (ІПЯ)1.1. ІПЯ ЯК РІЗНОВИДНІСТЬ Штучних мов
Мови, які будь-коли використовувалися як засіб спілкування у повсякденному житті людського суспільства, називаються «природними мовами». Природні - у тому сенсі, що вони є об'єктивною реальністю, подібно до біологічних видів або фізичних компонентів матерії. Можна вивчати, описувати, аналізувати природні мови, але не можна змінити їх за своєю свавіллям: природні мови змінюються так само, як змінюються біологічні види - шляхом еволюції.Природна мова - це звукова мова, створена тим чи іншим народом у ході багатовікової суспільної практики, що є засобом спілкування, обміну думками та взаємного розуміння у суспільстві. Найважливішими функціями природної мови, таким чином, є: 1) засіб людського мислення; 2) засіб комунікації.
Крім природних мов, існують штучні мови, сконструйовані, спеціально винайдені людьми для специфічних видів комунікації, для вирішення певних завдань у галузі науки, техніки, культури. Наприклад, музична партитура – це штучна мова, за допомогою якої композитор чи аранжувальник доводить свій твір до музикантів; обчислення предикатів - одна з багатьох штучних мов, винайдених для використання у спеціальних розділах математики.
Від звичайної, природної мови, що виникла стихійно і являє собою систему звуків і букв, такі штучні мови відрізняються тим, що вони є системою знаків, всі операції з якими здійснюються за формальними правилами.
Серед штучних мов розрізняють універсальні та спеціалізовані Універсальні мови – це сурогати (замінники) природних мов, створені для міжнародного спілкування. До таких мов належать есперанто, волапюк, ідо, інтерлінгва, навіаль та деякі інші. Найбільшу популярність з них отримала мова есперанто, розроблена польським гуманістом доктором Л. Заменгофом, який у 1887 р. запропонував свій проект міжнародної мови. Нині на есперанто виходить художня та наукова література, видається понад сто журналів, віщає вісімнадцять радіостанцій, у тому числі й радіо Москви.
Спеціалізовані штучні мови - це спеціальні знакові системи для запису необхідної інформації з певних галузей науки, техніки, культури. Серед них можна виділити такі мови, як абетка Морзе, мова музичної партитури, засоби стенографічного письма, машинні мови або мови програмування.
Останні є формальні мови, призначені для опису даних (інформації) і алгоритмів (програм) їх обробки на ЕОМ. Найбільшу популярність з мов програмування отримали ФОРТРАН, АЛГОЛ, КОБОЛ, БЕІСІК та низка інших.
До штучних спеціалізованих мов ставляться інформаційно-пошукові мови, створені для пошуку інформації.
Інформаційно-пошукова мова (ІПЯ) - це штучна мова, призначена для вираження змісту документів або запитів або опису фактів з метою подальшого пошуку. Отже, основне призначення будь-якого ИПЯ - забезпечити пошук інформації, документальної чи фактографічної.
ІПЯ є найважливішим елементом інформаційно-пошукових систем (ІПС) і найчастіше використовуються як головна характеристика системи, оскільки саме від якості ІСЯ залежить досягнення найкращих показників пошуку, таких, як повнота і точність. Однак і документи, і факти, і запити, що надходять до інформаційно-пошукової системи, представлені за допомогою природної мови. Виникає питання:
якою є необхідність використання в ІПС штучної мови - ІПЯ? Чому не можна скористатися для пошуку інформації природною мовою? Виявляється, що з погляду інформаційного пошуку природна мова має ряд недоліків, що перешкоджають відбору релевантних запитів повідомлень (документів чи фактів). До них належать такі:
1. Наявність у природній мові слів, які мають невелике смислове навантаження (союзи, прийменники, вигуки), а також слів, якими можна знехтувати при передачі змісту тексту документа або запиту. Іншими словами, йдеться про надмірність природної мови, що дозволяє скорочувати обсяг будь-якого тексту без значної шкоди для його змісту.
Наприклад, у повідомленні Проблема підвищення якості бібліотечно-бібліографічного обслуговування є дуже актуальною, і вирішити її можна лише за широкого використання сучасних технічних засобів найбільш інформативними, значущими будуть слова бібліотечно-бібліографічне обслуговування, якість, технічні засоби. Всі ми враховуємо цю властивість природної мови (надмірність), коли складаємо текст телеграми.
2. Наявність у природній мові синонімів. З їхньою допомогою людина як би розцвічує свою мову, робить її більш виразною, гнучкою, досягає точності вираження думок, її найтонших нюансів. Однак під час проведення інформаційного пошуку наявність синонімів знижує повноту видачі інформації на запит. Так, навряд чи може бути досягнута прийнятна повнота видачі, якщо людина, яка здійснює розшук (бібліотекар-бібліограф, інформаційний працівник), не знає, що лазер та оптичний квантовий генератор, шафран та крокус, авадекс та діалат – це словасиноніми. Так само при неусуненій синонімії страждатиме якість виданої інформації і в автоматизованій інформаційно-пошуковій системі.
При забезпеченні якісного інформаційного пошуку особливе значення має усунення лексичної, логічної та синтаксичної синонімії.
Лексичні синоніми - це, зазвичай, слова і словосполучення, які у ролі взаємозамінних елементів висловлювання: динамо машини - електрогенератори постійного струму, перегній - гумус, токсини - отрути. лексичним синонімам відносяться також повне найменування предмета, процесу, властивості та його абревіатура (скорочене найменування): вибіркове поширення інформації - ІРІ, ракети середньої дальності - PCД.
Логічні синоніми виникають при логічному визначенні понять: Мнемозіна – богиня пам'яті у грецькій міфології, мати дев'яти муз; Ассюрі - друкарська лінійка, що дає відбиток у вигляді кількох паралельних ліній; Семіотика - наука про знаки та знакові системи.
Синтаксичні синоніми являють собою синонімічні синтаксичні конструкції, що відображають можливість природної мови висловити ту саму думку різними мовними оборотами, тобто перефразувати: плавання під водою - підводне плавання, план на квартал - квартальний план, папір для письма - письмовий папір зору створення ІСЯ, що забезпечує високу якість інформаційного пошуку, важливе значення має поєднання слів-синонімів чи синонімічних конструкцій у синонімічні ряди (класи умовної еквівалентності).
3. Наявність у природній мові полісемічних (багатозначних) слів. Так, слово адреса може означати: а) місце проживання певної особи або місцезнаходження установи, підприємства тощо; б) позначення місця проживання чи місцезнаходження одержувача на поштовому відправленні; в) письмове привітання, привітання будь-якій особі, установі з нагоди ювілею; г) код, що визначає місцезнаходження інформації в ЕОМ.
4. Наявність у природній мові слів-омонімів, тобто слів, які звучать і пишуться однаково, але за змістом не мають нічого спільного, наприклад: лин (вид риби) та лин (вид каната), бум (шуміха, штучне пожвавлення) навколо чогось) і бум (спортивний снаряд), рись (ссавець кішок) і рись (вид поступального руху коня).
Полісемічні слова відрізняються від омонімів тим, що зберігають деяку спільність значень у різних за змістом слів, а омоніми такої спільності значень не мають. І якщо у природній мові полісемія та омонімія – суть прояву його багатства та виразної потужності, то при проведенні інформаційного пошуку вони є суттєвим гальмом. Неусунені омонімія та полісемія не тільки ускладнюють пошук інформації, а й призводять до зниження якості інформації, що видається, до так званого «інформаційного шуму». Наприклад, позбавлені контексту слова гусениця, сироватка, з'єднання, операція, змова тощо важко віднести до будь-якої тематичної області пошуку і, отже, гарантувати точність інформації, що видається.
Таким чином, для проведення якісного відбору релевантних документів (фактів) у відповідь на запит було створено спеціальні штучні мови – ІПЯ, що відповідають специфічним вимогам, що висуваються до них інформаційно-пошуковими системами.
Перелічимо їх.
1. Однозначність: кожен запис на ІСЯ повинен мати лише один зміст; і, навпаки, будь-який сенс має отримувати однакове уявлення ІПЯ.
Отже, ІПС має усувати такі явища природної мови, як полісемія, омонімія, синонімія.
2. Експліцитне (явне) вираження корисних для пошуку смислових відносин між словами (логічних відносин та психологічних асоціацій). Реалізація цієї вимоги робить ІПС свого роду довідником, схемою-путівником, що дозволяє бібліотекарю легко орієнтуватися в конкретній галузі знань, встановлювати види зв'язків та взаємодії між окремими (галузями) поняттями.
3. Можливість коригування та поповнення ІСЯ, його «гостинність». Інакше висловлюючись, ИПЯ може бути гнучким, мати здатність включати нові поняття без корінний ломки прийнятої структури.
4. Зручність користування, що передбачає мнемонічність - зручність для запам'ятовування записів на ІПСШ, а також компактність.
5. Семантична сила ІПСШ (виразність, селективна потужність), тобто здатність мови ідентифікувати предмет, розрізняти його дрібні особливості, а також описувати його з різним ступенем деталізації. Семантична сила ІПС тим більше, чим багатший його словниковий склад і ширші його словотворчі можливості, чим чіткіше диференційовані смислові відносини між його словами, чим розвиненіша система синтаксичних відносин між словами цієї мови.
Основними структурними складовими будь-якого ІПС є алфавіт, лексика, граматика, парадигматичні та синтагматичні відносини.
Алфавіт ІПЯ може включати до свого складу літери алфавіту будь-якої природної мови (латинської, кириличної та ін.), арабські та римські цифри, знаки пунктуації (крапка, кома, двокрапка, лапки, дефіс, круглі та квадратні дужки, апостроф), знаки арифметичних операцій (плюс, мінус, коса риса, знак відсотка), знаки відносин (більше, менше, рівно), оператори булевої алгебри (знаки кон'юнкції, диз'юнкції, заперечення), спеціальні знаки та символи, наприклад: стрілки, подвійна двокрапка, квадрат, знак конгруентності тощо.
Алфавіт ІПЯ може бути представлений лише цифрами, наприклад УДК, Рубрикатор ГАСНТИ, або лише літерами, базуючись на алфавіті якоїсь природної мови, наприклад, мова предметних рубрик, дескрипторна мова, мова бібліографічних описів та деякі інші ІПЯ. Крім того, алфавіт ІПС може бути змішаним, буквено-цифровим. На буквенно-цифровому алфавіті засновані фасетна класифікація, мова RX-кодів, СИНТОЛ, семантичний код Перрі – Кента та ін.
Лексика, чи словниковий склад, ИПЯ - це сукупність всіх лексичних одиниць, якими оперує. Лексична одиниця - це послідовність букв, цифр, спеціальних символів, прийнята позначення будь-якого поняття. Таким чином, лексична одиниця ІПЯ є єдністю плану змісту і плану вираження. У ній органічно злиті дві сторони - форма та значення.
Лексичні одиниці в кожному ІПМ мають різні назви: у дескрипторній мові - дескриптори, у мові предметних рубрик (алфавітно-предметної класифікації) - предметні рубрики, у фасетній класифікації - ізолати, в УДК, ББК, рубрикаторах - індекси та відповідні їм словесні формули.
У таких ІПЯ, як мова унітерм, мова ключових слів, мова предметних рубрик, дескрипторний ІПЯ, план вираження та план змісту лексичної одиниці збігатимуться, оскільки ці ІПЯ базуються на алфавіті та лексиці природних мов. В ІСЯ класифікаційного типу, наприклад УДК, ББК, Міжнародної класифікації винаходів і т. п., план вираження та план змісту не співпадатимуть. Наприклад, в УДК:
План вираження План змісту 634. Аналіз лексики будь-якого ІСЯ можна здійснювати, використовуючи три параметри: спосіб завдання лексики, рівень інтеграції лексики та спосіб побудови лексичних одиниць.
неконтрольованою лексикою. У ІСЯ з контрольованою лексикою всі лексичні одиниці враховуються у спеціальному словнику. Як такі словники виступають, наприклад, таблиці класифікації УДК і ББК, рубрикатори, дескрипторні словники та тезауруси, словники предметних рубрик тощо. В ІПЗ із неконтрольованою лексикою таких посібників немає. Вони використовують природну мову, застосування якого обмежено (формалізовано) запровадженням спеціальних правил.
Прикладом використання ІСЯ з неконтрольованою лексикою є інформаційно-пошукові системи, засновані на так званому «безтезаурусному» введенні інформації, наприклад, ІПЯ системи «Кристал».
На відміну від природної мови, як лексична одиниця ІСЯ може виступати не тільки окреме слово, а й стійке словосполучення, а також фраза, речення. Відповідно до цього розрізняють рівні інтеграції.
До першого рівня інтеграції відносяться ІПЯ, лексичними одиницями яких є переважно поодинокі слова та стійкі словосполучення, наприклад:
бетон, індикатори, квантова механіка, кам'яне вугілля. До ІПЯ, що характеризуються лексикою першого рівня інтеграції, належать мови типу «Унітерм», дескрипторні ІПЯ, фасетні класифікації.
Другим рівнем інтеграції лексики характеризуються ті ІПС, лексичними одиницями у яких виступають як окремі слова і словосполучення, а й фрази, мають складну синтаксичну структуру. На цьому рівні знаходиться лексика ІПЯ ієрархічних класифікацій, таких як УДК, ББК, Рубрикатор ДАСНТІ, Міжнародна класифікація винаходів (МКІ), та деяких інших. Наприклад:
641.4 Консервування продуктів у домашніх умовах (УДК); А 44 З 27/00 Виготовлення ювелірних виробів (МК.І).
Поява лексичних одиниць другого рівня інтеграції в ієрархічних класифікаціях обумовлена тим, що вираз «вузьких» понять, що стоять на нижніх щаблях ієрархії, потребує складних синтаксичних конструкцій природної мови. До аналогічних випадків наводить практика використання «вузької рубрики» під час предметизації.
Побудова лексичних одиниць ІПС може здійснюватися двома способами:
1) використанням як лексичних одиниць спеціальних кодів, наприклад в УДК, ББК, Рубрикаторі ДАСНТІ та ін.;
2) використанням як лексичні одиниці слів та словосполучень природної мови, наприклад: мова типу «Унітерм», дескрипторні ІПЯ, мова бібліографічного опису, мова предметних рубрик.
Відповідно до цього розрізняють словникові та кодовані ІПЯ. Словникові ІПЯ - це мови, у яких план змісту збігається із планом вираження природної мови. Тому для лексичних одиниць цього ІПЯ не потрібно переклад природною мовою. Такими є мова предметних рубрик і дескрипторна мова.
Кодовані ІПЯ - це мови, у яких план висловлювання не збігається із планом змісту. У цих випадках створюються спеціальні двомовні словники, що дозволяють коди ІСЯ перекладати природною мовою і назад. Прикладом таких мов є ББК, УДК та інші класифікації, рубрикатори.
Терміни – основа лексики ІПЯ. Незалежно від способу контролю лексики, рівня її інтеграції та способу побудови лексичних одиниць в основі лексики будь-якого ІПС лежать терміни, оскільки вони є основними носіями науково-технічної інформації у текстах документів та запитів. Терміни є найбільш істотним «будівельний матеріал», за допомогою якого створюється ІПЯ. Тому без знання закономірностей освіти термінології, джерел її формування, структурних особливостей термінів неможливо розробити ні словник предметних рубрик, ні класифікатор, ні інформаційно-пошуковий тезаурус, ні будь-який інший ІПС.
Знання механізмів появи та функціонування термінів у науково-технічних текстах дозволяє якісно покращити підготовку пошукових образів документів та пошукових розпоряджень, удосконалюючи тим самим процедуру індексування.
Оскільки єдиної системи класифікації термінів нині немає, скористаємося різними підставами поділу, щоб дати багатоаспектну характеристику термінології як основи лексики будь-якого ИПЯ. Основними ознаками, що дозволяють охарактеризувати терміни є: структурні типи термінів, граматична структура термінів, розподіл термінів залежно від семантичних процесів, сфери вживання, джерел формування.
С т р у к т у р н і т і п е т р м і н о в. Усі терміни залежно від мовних засобів висловлювання можна розділити на дві групи: мовні та немовні.
Мовні терміни включають до свого складу терміни-слова, терміни-словосполучення та терміни-пропозиції.
Терміни-слова поділяються на непохідні: газ, лак, інформація; похідні:
газовий, лаковий, інформаційний; складні: газоносний, лакофарбовий, інформаційно-пошуковий; абревіатури: ДНК, МБА, ЕОМ.
Терміни-словосполучення включають вільні словосполучення, в яких кожен із компонентів - термін і може вступати у двосторонній зв'язок: квантова хімія, фізична хімія, квантова біологія, бібліотечна система, бібліотечна статистика;
невільні словосполучення, в яких компоненти, взяті ізольовано, можуть бути і не термінами, і лише у поєднанні один з одним вони утворюють термін: бібліотечний почерк, авторський лист, білий вірш, читальний зал, чорний ящик; терміни фразеологізми, тобто стійкі, неподільні словосполучення: троянда вітрів, троянда хвилювань, котячі лапки (морські терміни); котяче золото, котяче срібло (геологічні терміни); кишенька книги, ключ до систематичного каталогу, джерело інформації, інформаційний шум (бібліотечно-інформаційні терміни).
Терміни-пропозиції найчастіше є військовими, морськими, спортивними командами, наприклад: Весла за борт!; Вперед дивитися!; На плече! і т.п.
Немовні терміни представлені спеціальними знаками, графічними символами.
Головна особливість немовних засобів вираження термінів полягає в їхній абсолютній умовності, штучності, свідомій закріпленості за поняттям.
Широке застосування з цією метою знайшли символи, які у складі, спеціальних найменувань - комбіновані символослова: V-образные сполуки, Хобразные сполуки. Як немовних засобів часто використовуються літери грецького алфавіту, наприклад, у термінології фізики елементарних частинок: a-частка, a-розпад, bрадіоактивність тощо.
Граматична структура термінів. Експериментальні дослідження термінології показують, що найбільш типовими моделями освіти термінів є наступні: прикметник+іменник (бібліотечні каталоги, жароміцні сплави); 2) іменник + іменник (комплектування фондів, котушки індуктивності); прикметник+прикметник-1-іменник (інтегральні інформаційні системи, дугові полум'яні лампи). Активне використання як термінів таких частин мови, як іменник і прикметник, "пояснюється тим, що саме вони здатні назвати, висловити поняття, на відміну від лексичних одиниць, які лише вказують на предмет, але не дають йому індивідуального імені: над, він, той, ця і т.п.
загальнолітературної лексики: полісемія, омонімія, синонімія, антонімія.
Про полісемію (багатозначність) ми говоримо тоді, коли один термін має два і більше значень. Наприклад, термін тиск застосовується як позначення процесу, так і сили, що діє на поверхню. Існує кілька причин появи полісемії термінів: а) обмеженість словникового складу, порівняно з кількістю понять; б) співіснування понять, які стосуються одного явища, але що відбиває різні погляди, гіпотези; в) неправильне запозичення термінів із іноземних мов та ін.
Омонімія в термінології представлена одним своїм різновидом - міжнауковою термінологічною омонімією, коли за однаковими термінами закріплені різні дефініції (визначення). Ці терміни функціонують у різних термінологічних системах. Наприклад, вживання терміна реакція властиво таким галузям, як хімія, фізика, політика, термін операція використовується в медицині та військовій справі.
Розмежувати полісемію та омонімію буває складно, особливо в тих випадках, коли як слова-терміни використовуються слова загальнолітературної мови в переносному значенні. Наприклад, сухар у техніці - це «проста допоміжна проміжна деталь у механізмах і вузлах машин», мода (в математиці) - «найчастіше зустрічається значення в ряді, що варіює» і т.д.
Синонімія. У термінології синоніми співвідносяться з тим самим поняттям і об'єктом, тому їх іноді називають термінологічними дублетами. Причинами та джерелами виникнення синонімів у термінології є: а) паралельне вживання вітчизняних та міжнародних або запозичених найменувань:
екслібрискнижний знак, видання = багатотомник, коефіцієнт корисної дії = ккд; в) паралельне вживання так званих фамільних термінів та їх варіантів, створених на основі класифікаційної ознаки поняття: Джонсон-ефект = тепловий ефект, булева алгебра = алгебра логіки; г) подвійне позначення поняття у фізиці, хімії та деяких інших науках, словесне та символічне: Н2SО4= сірчана кислота, 1=температура; д) використання різних найменувань об'єкта в залежності від цієї точки зору, сфери його функціонування. Наприклад, залежно від сфери вживання один і той же об'єкт може мати торгову, технічну та хімічну назву:
лавсан = терепласт = поліетилентерефталат.
Характерно, що синонімія особливо властива раннім етапам формування термінологічної системи, коли ще відбувся відбір кращого терміну з кількох запропонованих.
Антонімія в термінології проявляється у наявності протилежних наукових понять. Для їх вираження широко використовуються словотвірні засоби:
чергування приставок (релевантний – нерелевантний, оборотний – незворотний), використання приставок полярного значення (макродокумент – мікродокумент, передкоординатний – посткоординатний).
Залежно від сфери споживання терміни можуть поділятися на наукові, технічні, військові, юридичні та ін. При цьому в межах кожної предметної області можуть бути виділені спеціальні (базисні) терміни, характерні лише цієї сфери; загальнонаукові терміни, що відображають методи, процедури, засоби пізнання будь-якої предметної галузі; «залучені» терміни суміжних галузей знання, що означають необхідні для даної предметної галузі поняття суміжних галузей науки і техніки. Усі ці сукупності термінів перебувають у взаємозв'язку і немає чітких кордонів.
собою різні види запозичень.
1. Запозичення елементів класичних мов (коренів чи морфем грецької чи латинської мов). Прийняті як міжнародні, ці терміни найбільш доцільні. Їх легше захистити від полісемії, оскільки більшість таких термінів однозначно виражають певні значення: мікро-, макро-, -граф-, полі-, -логія, анти-, супер-, -трон, -дром і т.п. викликають хибних асоціацій, тому що не мотивують термінологічні найменування, а розшифровують звані поняття за допомогою значень складових їх терміноелементів, наприклад: мікрофільм, екслібрис, монографія, етнографія, лімнологія і т.п.
2. Запозичення з інших мов. Вони є неминучими як для термінології, але й мов взагалі, оскільки жодна природна мова неспроможна розвиватися ізольовано. Наприклад, для музичної термінології характерні запозичення з італійської (кантата, дует, тенор); військової – з французької (батальйон, атака, десант); у термінології техніки та спорту чимало англійських слів (екскаватор, рейка, тунель, блюмінг, фініш, рекорд, ринг, нокаут) тощо.
п. Значна кількість термінів інформатики також запозичена з англійської мови (комп'ютер, файл, дескриптор, релевантність).
3. Запозичення з літературної мови. Наприклад: втома - стан металу, що знаходиться під багаторазовим впливом навантажень; спілкування з ЕОМ;
інформаційний шум тощо.
1.3. ПАРАДИГМАТИЧНІ ТА СИНТАГМАТИЧНІ ВІДНОСИНИ В ІПЯ
Між лексичними одиницями будь-якого ІПЗ, як і між словами природної мови, існують певні відносини, які обумовлені наявністю логічних зв'язків між предметами та явищами, позначеними цими словами. Такі відносини відбивають смисловий зв'язок між поняттями, показують об'єктивні предметнологічні залежності між явищами зовнішнього світу. Вони мають позатекстовий характер і тому не залежать від ситуацій, для опису яких використовуються слова.Наприклад, слова акварель, фреска, темпера пов'язані друг з одним ставленням підпорядкування чи координації, оскільки вони позначають поняття, які входять у ширший клас - живопис. Між словами живопис та акварель, азот, аміак, водень та гази існує відношення «рід-вид», слова сукня і рукав, будівля та дах пов'язує відношення «ціле-частина», а між словами забруднення навколишнього середовища та порушення екологічної рівноваги існують відносини причинно -Слідчого характеру. Всі ці приклади ілюструють парадигматичні (аналітичні, базисні, іманентні) відносини, зумовлені наявністю мовних, а логічних зв'язків між предметами і явищами. Парадигматичні відносини відбивають, таким чином, логічні відносини та психологічні асоціації між значеннями лексичних одиниць ІПС.
Найважливішими властивостями парадигматичних відносин є:
контексту, т. е. незалежність від ситуації, у якій лексичні одиниці використовуються. Так слово карась незмінно викликає уявлення про рибу, а лексичні одиниці яблука, апельсини завжди асоціюються з поняттям «фрукти»;
2) багатоступінчастість, нелінійність парадигматичних відносин: одна і та ж лексична одиниця може входити до складу різних парадигм, тобто в різні смислові ряди, в яких вона протиставляється за різними смисловими ознаками. Наприклад:
Річка – струмок – річка (розміри водойми) Річка – протока – озеро – море (форма водойми) Річка – канал – ставок – водосховище (характер походження водойми).
Властивість багатоступінчастості, нелінійності парадигматичних відносин особливо помітно проявляється при розробці ІПС на етапі систематизації, упорядкування лексики, при побудові класифікаційних схем понять, коли виникає необхідність віднесення тієї чи іншої лексичної одиниці до різних смислових рядів (парадигм).
Прийнято розрізняти сильні та слабкі парадигматичні відносини, пов'язуючи ці поняття з тією роллю, що ці відносини виконують реалізації інформаційного пошуку.
Сильні парадигматичні відносини включають до свого складу відносини тотожності та ієрархії.
Відносини тотожності (збігу, адекватності) як різновид сильних парадигматичних відносин виражаються у використанні синонімів. Облік відносин тотожності, синонімії під час проведення інформаційного пошуку має важливого значення: неусунена синонімія, як зазначалося, веде до відчутних втрат під час пошуку, знижує повноту видачі інформації на запит. Наприклад, навряд чи буде забезпечена повнота відповіді на запит, якщо людина, яка веде пошук, не знає, що альтернатори - це те саме, що й електричні генератори, а карболіти і фенопласти, метаболізм і обмін речовин - є рівнозначні поняття.
Відносини ієрархії як різновид сильних парадигматичних відносин відповідають відносинам підпорядкування або відносинам типу «вище-нижче». У межах ієрархічних відносин розрізняють відносини типу «рід-вид» та «ціле-частина».
Ставлення «рід-вид» одна із найважливіших видів зв'язків між поняттями.
При цьому родовим (підпорядковує) називається поняття, що виражає суттєві ознаки класу предметів, що є видами цього роду. Відповідно видовим (підлеглим) називається поняття, що відображає суттєві ознаки класу предметів, що є видом будь-якого роду.
Зв'язок видового і родового поняття відображає той реальний зв'язок, який існує між родом та видом у природі та суспільстві. Наприклад, поняття кінь, корова, вівця - видові поняття, в яких виражені суттєві ознаки окремих, якісно особливих, але взаємопов'язаних форм тварин, що входять до одного родового поняття домашні тварини.
Те саме поняття може бути (за винятком одиничних понять і гранично загальних категорій типу матерія, рух, простір тощо) як видовим, так і родовим одночасно залежно від того, стосовно якого поняття воно розглядається. Наприклад, поняття анотація є видовим по відношенню до поняття вторинні документи та родовим по відношенню до поняття довідкова анотація.
Основною умовою для встановлення ієрархічних відносин типу «рід-вид»
є дотримання вимоги: "Все, що можна сказати про рід, можна сказати про вид".
Родове поняття при цьому не можна розглядати як суму вужчих видових понять.
Не можна сказати, наприклад, що стали - це сума таких понять, як сталь високоміцна, сталь легована, вуглецева сталь і т. д. Недотримання цієї умови часто призводить до змішування двох типів сильних парадигматичних відносин:
«рід-вид» та «ціле-частина»1.
Ставлення «ціле-частина» відбиває реальний факт входження одного об'єкта підлеглими внаслідок розкладання цілого частини.
На відміну від родовидових відносин при встановленні зв'язків типу «ціле-частина»
не діє закономірність: «Все, що можна сказати про підпорядковане поняття, можна сказати про підпорядковане поняття». Крім того, поняття, що виражають частини цілого, не знаходяться між собою щодо підпорядкування, що є характерною ознакою видових понять.
Значення для інформаційного пошуку сильних парадигматичних відносин ієрархічного характеру («рід - вид» і «ціле -частина») цілком очевидне. Родовидові 1 З приводу віднесення зв'язку типу «ціле - частина» до сильних парадигматичних відносин у спеціальній літературі немає єдності. Найчастіше цей вид зв'язку розглядається у межах слабких, асоціативних парадигматичних відносин.
відносини, експліцитно подані в ІПСШ, дозволяють суттєво коригувати стратегію пошуку за запитами в залежності від результатів видачі. У разі «нульової»
або недостатньої видачі інформації на запит залучення родових, вищих термінів дозволить розширити область пошуку, підвищивши при цьому повноту видачі. Якщо ж за результатами пошуку видана надмірна інформація, коригування пошукового припису можна здійснити на основі введення видових, нижчестоящих понять, що дає можливість значно звузити область пошуку та підвищити точність інформації, що видається.
Так само може відбуватися коригування стратегії пошуку і з урахуванням парадигматичних відносин типу «ціле - частина», тому що цілком ймовірно, що для споживача інформації, що цікавиться системою, механізмом, апаратом, процесом в цілому, може виявитися корисною інформація і про їх складові , елементи, деталі, операції.
Слабкі (асоціативні) парадигматичні відносини враховують логічні відносини перетину понять та різні психологічні асоціації.
Психологічні асоціації виникають у свідомості людини, коли уявлення про один предмет (процес або явище) викликає у нього уявлення про предмети (процеси, явища), пов'язані з першим за якоюсь істотною ознакою.
Асоціативні відносини у лексиці пов'язані з поняттям мотивованості. Вони завжди характеризують спільну участь відповідних об'єктів у типовій цій галузі ситуації чи участь об'єктів у аналогічних ситуаціях.
зараховувати відносини причини - наслідки, суміжності, розмаїття, кратності.
Відносини типу «причина-слідство» характеризує таку ситуацію, коли одне явище, дія (причина) викликає, визначає, змінює чи тягне у себе інше явище - следствие. Це відношення пов'язує лексичні одиниці, що позначають відповідно причину та наслідок: аварія-травма, порушення технології – шлюб, шум – звукоізоляція.
протиставлення предметів, процесів за критерієм їх спільності, а, по критерію відмінності. Воно виявляється у лексиці ИПЯ з допомогою антонімів, протилежних за значенням слів: експорт-імпорт, повнота-втрати, блокування-деблокування, контактне реле - безконтактне реле.
Крім антонімів відносини протилежності, контрасту в лексиці можуть бути реалізовані за допомогою омонімів: асоціація (психологічна) та асоціація (об'єднання), змова (політика) та змова (фольклор).
Відношення суміжності є відображенням у свідомості асоціативного зв'язку між предметами або явищами, які сприймаються в безпосередній близькості один одному у просторі та в часі: болото-торф, електричний струм - напруга, пасовища - трави багаторічні.
Відношення кратності - особливий вид зв'язку, що існує у категоріях одиниць виміру величин. Так, не можна сказати, що кілометр є поняття ширше, ніж метр, а сантиметр - вужче, ніж метр. Одне є основним, інше - похідним, т. е. кратним.
Розглянуті нами як сильні, так і слабкі парадигматичні відносини мають принципово важливе значення для правильного вибору та точного вживання всіх лексичних одиниць, які потрібні для передачі будь-якого повідомлення, у тому числі для підготовки пошукового образу документа та пошукового припису. Без урахування парадигматичних відносин: неможливо правильно провести інформаційний пошук на запит, здійснити якісне індексування, анотування або: реферування документа, підготувати огляд літератури. Вирішальне значення встановлення парадигматичних відносин між лексичними одиницями має розробки ІПЯ. Для цього потрібне знання основних способів виявлення парадигматичних відносин.
Існуючі способи встановлення парадигматичних відносин можна умовно поділити на дві групи: логіко-інтуїтивні та формалізовані.
Логіко - інтуїтивний спосіб встановлення парадигматичних відносин спрямовано виявлення суттєвих смислових зв'язків між поняттями.
Досягнення цієї мети зазвичай служать такі шляхи.
1. Аналіз реальних науково-технічних текстів як первинних, і вторинних документів. Він дозволяє розкрити реальні типи смислових відносин, притаманних даних текстів, заздалегідь усунути штучне і надумане їх конструювання у відриві від самих текстів. За такого підходу парадигматичні відносини, запроваджені ІПЯ, відповідатимуть смисловим відносинам, які у текстах документів відповідної галузі знання.
2. Встановлення парадигматичних відносин через звернення до енциклопедій, термінологічних словників, узагальнюючих довідників у цій галузі. Цей шлях ґрунтується на аналізі логічного опису та визначення термінів. У словникових статтях довідкових видань зазвичай чітко вказуються всі підвиди об'єкта, його призначення, сфера застосування, місцезнаходження, основні кількісні характеристики та параметри.
3. Звернення до фахівців у галузі знання, що передбачає коригування намічених раніше парадигматичних відносин.
Насправді зазвичай використовуються одночасно всі три способи виявлення парадигматичних відносин.
Формалізований спосіб базується на таких засобах «пізнання»
(розрізнення) парадигматичних відносин у тексті: лексичних (використання дієслів, дієприкметників, вступних слів, прийменників тощо); пунктуаційних (використання двокрапки, тире, дужок тощо); використання схем, креслень; використання відмінностей у шрифтах (курсив, розрядка).
Так, цілям розпізнавання сильних (родо-видових) парадигматичних відносин служать такі лексичні одиниці, як різновид, поділяються на, розрізняють, ділять на, у вигляді, відноситься до класу тощо. Наприклад: «У комплексі лінгвістичного забезпечення ІПС прийнято розрізняти класифікаційні та дескрипторні ІПЯ»;
"Натуральний каучук відноситься до класу природних полімерів"; «Різновидом вторинних документів є реферати».
Розпізнаванню сильних парадигматичних відносин сприяють прийменники з, серед, з і вступні слова типу зокрема, як правило, насамперед: «Серед інформаційно-пошукових систем можна виділити документальні та фактографічні»; «З числа виробів сукня можна назвати сукню-костюм, платтяпальто, сукню-сарафан»; «Насамперед із однорічних бобових трав треба вказати на віку, буркун, люпин».
Важливе значення для встановлення сильних парадигматичних відносин мають знаки пунктуації – двокрапка, тире: «Безперервні носії інформації:
магнітні стрічки, магнітні диски, магнітні барабани»; «Основні лісоматеріали – колоди, дошки, фанера».
Встановленню парадигматичних відносин типу «ціле-частина» сприяють схеми та креслення, наочно що представляють складові предмета, об'єкта.
Лексичними розпізнавальниками для цього виду відносин можуть служити словосполучення типу: що складається, виготовлений з, до складу входять, є частиною. Наприклад: «Рубрикатор ДАСНТ є частиною лінгвістичного забезпечення системи»; "До складу препарату "Каметон" входять хлоробутанолгідрат, камфара, ментол".
Розпізнавання слабких парадигматичних відносин типу «предмет – призначення»
служать такі лексичні засоби: використовується для, призначений для, служить для цілей. Наприклад: «ІПЯ служить для індексування документів та запитів»;
"Термокопіювальний апарат призначений для тиражування листового матеріалу".
Використання формалізованого способу дозволяє знизити суб'єктивізм під час встановлення смислових зв'язків між лексичними одиницями складних, насичених галузевою термінологією науково-технічних текстів. Його використання доцільно поєднувати з логіко-інтуїтивним методом.
Крім парадигматичних відносин, що пов'язують слова будь-якої мови за змістом, у ньому є також і лінійні відносини, що встановлюються безпосередньо при об'єднанні слів та словосполучень у фрази (пропозиції). Такі відносини одержали назву синтагматичних. У спеціальній літературі їх називають також синтаксичними, граматичними, ситуативними, контекстуальними.
Для розуміння природи та призначення синтагматичних відносин в ІСЯ важливо те, що вони встановлюються при використанні лексичних одиниць. На відміну від парадигматичних, синтагматичні відносини виявляються лише за умови вживання лексичних одиниць і цілком залежить від контексту.
Отже, вони характеризують момент реального взаємодії лексичних одиниць. Стосовно ІПЗ вживання лексичних одиниць відбувається при індексуванні - побудові ПІД або ПП. Саме на цьому етапі рухаються лексичні одиниці ІПС і використовується його словниковий склад.
Синтагматичні відносини – це завжди відносини між лексичними одиницями у лінійно-упорядкованих ланцюжках. Як тільки ми наводимо на дію механізм синтагматичних відносин, завжди утворюється лексична одиниця вищого рівня інтеграції: від слова – до словосполучення, від простої предметної рубрики – до складної, від простого індексу класифікації – до складового тощо.
Відомо, що парадигматичні відносини, характеризуючи смислові, семантичні зв'язки між поняттями, мають постійний характер, наприклад: Сосна - це різновид хвойних дерев; Кросівки - вид взуття тощо. буд. У той самий час одні й самі лексичні одиниці можуть утворювати різні висловлювання і передавати зовсім різні (і навіть прямо протилежні) значення, наприклад:
виробництво нафти та очищення бензину та виробництво бензину та очищення нафти;
політика сили та сила політики, перебудова пропаганди та пропаганда перебудови.
Таким чином, словоспоживання, що не має обмежень, «вийшла з-під контролю» лексика може призвести до появи хибних словосполучень і виразів з спотвореним змістом. В результаті лексичні одиниці в ПОД можуть вступати в помилкові словосполучення. При видачі інформації на запит це обертається «інформаційним шумом», нерелевантними документами.
Для того, щоб уникнути подібних негативних явищ та підвищити точність інформаційного пошуку, в ІСЯ передбачено використання спеціальних синтагматичних відносин.
Граматика ІПЯ - це конкретний набір засобів та правил побудови пошукових образів на даному ІПЯ. У межах граматики одного ІПЗ можуть бути використані різні граматичні засоби.
1. Мішкова граматика. Це простий перелік лексичних одиниць, що входять в один ПІД або ПП. У цьому випадку сам факт присутності даного набору лексичних одиниць свідчить про існування текстуального зв'язку між ними, і цей «зв'язок може бути більш менш однозначно виявлено, виходячи зі значення перерахованих лексичних одиниць. Мішкова граматика часто використовується в галузевих або вузькотематичних ІПС дескрипторного типу технічної тематики. Мови, що застосовують м'язову граматику, іноді називають також «ІПЯ без граматики», розуміючи під цим мінімальність граматичних засобів, що використовуються. В ієрархічних бібліотечно-бібліографічних класифікаціях використовується знак «плюс» для з'єднання понять, що зійшли в одному тексті (документ або запит).
Характер відносин у своїй не фіксується. Знак «плюс» фактично виконує роль оператора мішкової граматики, оскільки показує спільне входження лексичних одиниць в один пошуковий образ без зазначення їх смислових стосунків один до одного.
Прикладом ІПС, що реалізують мішкову граматику, є мови типу «Унітерм», що розробляються для вузькогалузевих та тематичних ІПС, які обслуговують невеликі спеціалізовані масиви обсягом до 30 тис. документів.
Наведемо приклад реалізації мішечної граматики, коли просте перерахування слів, витягнутих з тексту документа, дає уявлення про нього та утворює його пошуковий образ:
Важливо підкреслити, що порядок проходження лексичних одиниць у ПОДі або ПП при використанні мішкової граматики не має жодного значення і має довільний характер.
2. Позиційна граматика. Це встановлення жорсткого порядку проходження лексичних одиниць, що входять в один пошуковий образ. В ІСЯ класифікаційного типу (УДК, ББК) позиційна граматика проявляється у правилах побудови складного індексу, згідно з яким на перше місце завжди ставиться індекс, взятий з основних таблиць класифікації, а потім індекс, що міститься у допоміжних таблицях.
До різновидів позиційної граматики слід віднести анкетний (аспектний, формулярний, матричний) спосіб складання пошукових образів та метод «стандартних фраз». Сенс першого способу можна охарактеризувати в такий спосіб. Під час створення ПОД чи ПП вводиться єдина фіксована схема (анкета, формуляр, матриця) упорядкування лексичних одиниць, визначальна порядок їх записи. І тут переклад слів на ИПЯ, т. е. індексування зводиться до розміщення необхідні зони відповідних лексичних одиниць. Якщо будь-яких відомостей у документі чи запиті відсутні, то у відповідній позиції ставиться прочерк. Іншими словами, індексування на основі цього способу зводиться до заповнення позицій анкети, матриці, формуляра тощо.
Такий спосіб складання пошукових образів визначається однотипною структурою текстів, що підлягають індексуванню. Наприклад, для уніфікації та індексування науково-технічних текстів найчастіше використовується наступна схема аналізу:
1. Предмет чи тема дослідження.
2. Область застосування чи використання предмета.
3. Метод дослідження.
4. Умови, у яких протікало дослідження.
5. Технічні засоби або обладнання, що застосовувалися під час дослідження.
6. Результати дослідження.
Перевагами розглянутого способу є компактність запису, зручність зіставлення виразів на ІСЯ при пошуку, зниження суб'єктивізму індексатора.
Однак при великому розмаїтті інформації, укладеної в текстах, цей спосіб втрачає свої переваги, оскільки багато позицій анкети залишаються незаповненими (вони або не мають сенсу для об'єкта, або взагалі відсутні). Цей спосіб може виявитися незручним, якщо анкета буде надто громіздкою.
Метод "стандартних фраз". «Стандартна фраза»- це багатомісний предикат2, що характеризує певну ситуацію. Зазвичай «стандартна фраза» є простою пропозицією з типовою структурою. Наприклад, мова «стандартних фраз»
для пошуку інформації в галузі синтетичної органічної хімії включає до свого складу фразу: Хімічна речовина зі структурою X знаходиться у стані Y.
Схема або анкета (матриця, формуляр), «стандартна фраза», що використовуються при індексуванні, дозволяють уніфікувати форму опису документа або запиту, забезпечуючи одноманітний підхід різних. виконавців до процесу складання пошукових образів, сприяють підвищенню якості та відтворюваності. те, що висловлюється, затверджується чи заперечується у судженні про об'єкт. Предикат відображає наявність або відсутність тієї чи іншої ознаки предмета (постійності) індексування.
3. Покажчики зв'язку. Це - символи, літери або цифри, які приєднуються до двох або більше лексичних одиниць ІПС з метою наочного вираження логічного зв'язку, що існує між ними.
Застосування покажчиків зв'язку найхарактерніше для дескрипторних ИПЯ, мають, як відомо, лексику першого рівня інтеграції, т. е. що з окремих слів і словосполучень. Застосування покажчиків зв'язку викликано тією обставиною, що окремі слова і словосполучення (дескриптори, унітерми, ключові слова) можуть утворювати не одне, а два або кілька осмислених понять, але лише одне з них відповідатиме цілям інформаційного пошуку.
Наприклад, в ІПС-70 на запит Товарні знаки було видано документ "Впровадження прогресивної технології у виробництво меблів". Видача нерелевантної інформації відбулася оскільки у тексті реферату документа містилася фраза: «...покращує їх якість і товарний вид. Продукції надано знак якості». Збіг лексичних одиниць запиту товарний та знак з аналогічними словами тексту документа в умовах автоматизованої ІПС призвело до «шумової» видачі. Для усунення таких ситуацій таки використовуються покажчики зв'язку. Візьмемо як покажчики зв'язку буквені позначення: а - для однієї пари текстуально пов'язаних лексичних одиниць і б - для іншої пари. У цьому випадку можна отримати відповідно до змісту та завдань інформаційного пошуку попарно об'єднані лексичні одиниці:
Покажчики зв'язку зазвичай застосовують в ІСЯ, що має лексику першого рівня інтеграції, у двох випадках:
описують дві різні теми чи предмети одного документа;
описують одну тему чи предмет документа.
4. Покажчики ролі. Це символи, літери або цифри, які приєднуються до двох або більше лексичних одиниць і служать для позначення логічної ролі (функції), яку виконує ця лексична одиниця в пошуковому образі.
Якщо покажчики зв'язку лише фіксують наявність зв'язок між лексичними одиницями ИПЯ, то покажчики ролі характеризують цей зв'язок. Покажчики ролі пояснюють смислову функцію лексичної одиниці у пошуковому образі та задаються списком. Найчастіше ці списки є переліками логічних категорій, якими оперує та чи інша область знань. Наприклад, у дескрипторному ІПЯ галузевої АСТНТ «Союзсільгосптехніка» використовуються такі покажчики ролі:
Р1 Основний об'єкт розгляду Р2 Область, сфера, місце застосування РЗ Метод, спосіб, засіб рішення Р4 Відмінна частина, елемент, складова машини, споруди, речовини тощо.
Покажчики ролі використовуються для опису ситуацій, характерних для певних тематичних областей із яскраво вираженою логічною структурою. Отже, і число, і їх зміст будуть різними, визначаючись особливостями галузі знання, на яку створюється даний ИПЯ.
Покажчики ролі зменшують обсяг поняття, що позначається лексичною одиницею, що рівносильно збільшенню потужності масиву смисловиражальних одиниць ІСЯ, підвищенню вибірковості мови та точності пошуку. Хоча основною сферою застосування покажчиків ролі є дескрипторні ІСЯ, проте й у ІСЯ класифікаційного типу є аналогічні граматичні засоби. Так, функцію покажчиків ролі виконують в УДК загальні та спеціальні визначники, у таблицях ББК - індекси територіальних типових поділів, загальних типових поділів, спеціальних типових поділів. В алфавітно-предметній класифікації цілям зменшення обсягу поняття, що виражається предметною рубрикою, служать тематичні (загальні, типові та специфічні), географічні, хронологічні підзаголовки, а також підзаголовки призначення та форми.
Щодо покажчиків ролі та зв'язку слід підкреслити, що незважаючи на те, що вони призначені для підвищення точності інформаційного пошуку, їх застосування може супроводжуватись зниженням повноти результатів пошуку. Так, використання покажчиків зв'язку дозволяє підвищити точність пошуку інформації до 10%, а спільне використання покажчиків ролі та покажчиків зв'язку - на 15-17%, але при цьому зменшується повнота пошуку. Це відбувається через те, що індексатори по-різному визначають функції лексичних одиниць в тому самому тексті і відповідно можуть приєднувати до однакових лексичних одиниць різні покажчики ролі.
ІПЯ, що використовують покажчики ролі та зв'язку, дозволяють описувати тексти документів та запитів з великою точністю. Однак мови, які мають ці граматичні засоби, надзвичайно складні в експлуатації, вимагають витончених процесів перекладу та пошуку, поступаючись за зручністю та простотою використання більш простим ІПСШ.
5. Граматика логічних операторів заснована на використанні трьох логічних зв'язок І, АБО, НЕ, що дозволяють здійснювати логічне множення, додавання та віднімання лексичних одиниць, тобто здійснювати операції алгебри логіки (бульової алгебри). Оператор означає операцію логічного множення - кон'юнкцію;
оператор АБО служить для позначення логічної суми – диз'юнкції; оператор НЕ дозволяє здійснювати логічне віднімання (заперечення). Оператори мають свої позначення: І - /\, АБО - \/, НЕ-. Вони відображають логічні зв'язки між лексичними одиницями у запиті, наприклад: Антикорозійний захист / Підземний газопровід. Наземний.
Логічні оператори І, АБО, НЕ служать для уточнення обсягів понять, що виражаються лексичними одиницями. Вони використовуються, як правило, тільки при складанні пошукових розпоряджень і визначають стратегію пошуку. З формальної точки зору логічні операції І, АБО, НЕ є граматичним засобом, але фактично їх функція близька до функції, що виконується критерієм смислової відповідності. Крім того, логічні зв'язки І, АБО, не часто служать для утворення нових понять, виражених поєднанням лексичних одиниць, що зближує їх функціонально з покажчиками ролі та покажчиками зв'язку.
1.4. СТВОРЕННЯ ЛЕКСИКО-СЕМАНТИЧНОЇ ОСНОВИ ІПЯ
Розробка будь-якого ІПС, створення його лексико-семантичної основи включає такі основні етапи:1. Відбір лексичних одиниць.
2. Нормалізація лексики.
3. Систематизація та угруповання лексичних одиниць.
4. Побудова класифікаційних схем понять.
5. Організаційне оформлення лексики ІПС.
Відбір лексичних одиниць - найважливіший етап у створенні будь-якого ІПСЯ, оскільки «будівельним матеріалом», з якого будується будь-яка мова. Саме від якості виконання цього етапу багато в чому залежать смислові можливості ІПСЯ, його семантична сила. Цьому етапу обов'язково передує вивчення структури галузі науки чи техніки, мистецтва, через яку створюється ИПЯ. Ось чому до складу розробників ІПЗ зазвичай входять не лише інформаційні працівники, бібліотекарі, бібліографи, лінгвісти, а й фахівці-галузевики.
Займаючись розробкою тієї чи іншої ІПСШ, його творці відбирають до складу лексики не будь-які слова взагалі, а «ключові слова», тобто слова, що несуть у тексті найбільше смислове навантаження. Тому за подальшої характеристиці цього етапу роботи вважатимемо умовно синонімічними поняття «лексична одиниця» та «ключове слово».
Це припущення необхідне з'ясування суті технологічних операцій, виконуваних цьому етапі.
Ключове слово - це повнозначне слово чи словосполучення, що є носієм суттєвої в даному тексті (документі чи запиті) інформації з погляду інформаційного пошуку.
До розряду ключових слів слід віднести насамперед терміни, найважливішими властивостями яких, як відомо, є номінативність (здатність називати предмет), однозначність, точність, відсутність експресії.
Для кожної предметної області можна виділити три групи термінів:
1. Спеціальні терміни, вживані лише у галузі знання, є хіба що її розпізнавальними знаками, символами. Наприклад, за вживанням у промові чи тексті такої групи термінів, як діагноз, гастрит, анестезія, переливання крові чи залягання пласта, антрацит, вугільний кар'єр, прохідка, метаноопасность, ми завжди безпомилково вкажемо відповідну галузь знання.
2. Терміни суміжних галузей знання, "залучені" терміни, що позначають необхідні для даної предметної галузі поняття із суміжних галузей науки та техніки. Вони відбивають найважливішу закономірність розвитку сучасної науки: інтеграцію, взаємопроникнення наукових ідей. Так, у медичній термінології обов'язково використовуються біологічні, хімічні терміни; термінологія гірничої справи активно приваблює лексику геології, кристалографії.
5. Загальнонаукові терміни, що у будь-якій галузі знання, наприклад: метод, аналіз, устаткування, дефект, дослідження, об'єкт тощо.
Розробникам ІПЯ доводиться щоразу вирішувати, якої групи термінів належить те чи інше слово, наскільки доцільно його включення до складу лексики ИПЯ, оскільки пропуск лексичних одиниць тягне у себе неминучі втрати інформації під час пошуку, а зайве розширення словникового складу робить його громіздким, незручним , ускладнює пошук.
Очевидно, що в першу чергу до складу лексики ІПМ, що розробляється, повинні включатися терміни першої групи. Саме вони є ключовими. Відсутність формальних критеріїв значимості чи незначущості термінів другої та третьої груп для конкретного ІПЯ істотно ускладнює етап їх відбору.
Зв'язавши поняття «лексична одиниця» з поняттями «ключове слово» та «термін», доцільно вказати категорії неключових слів, тобто слів, якими можна знехтувати в умовах створення лексико-семантичної основи ІСЯ. До них відносяться службові слова (частки, прийменники, спілки, вигуки); часто вживані загальнонаукові терміни типу проблема, актуальність, значення тощо; терміни, які не стосуються понятійного апарату того розділу науки чи техніки, котрим створюється конкретний ИПЯ. Наприклад, для ІПЗ з бібліотекознавства навряд чи має сенс включати до складу лексики терміни електродвигун, плазма тощо.
Отже, віднесення конкретного терміна до розряду ключових слів залежить від прагматичних міркувань, що визначаються тематичним охопленням створюваного ІПСШ, а також можливостями виникнення запиту, що містить це слово або словосполучення.
Як основні джерела відбору лексичних одиниць можна назвати такі: 1) вже існуючі, тобто раніше розроблені ІПЯ, що мають фіксований словник: таблиці УДК, ББК, списки предметних рубрик, класифікатори, тезауруси і т. п.; 2) термінологічні словники, довідники, ГОСТи, словники тлумачні, енциклопедичні та аналогічні нормативно-довідкові видання; 3) масив документів за тематикою створюваного ІПЗ із хронологічним охопленням у 5-б років (саме за цей період відбувається оновлення термінології), обсягом 3-4 тис. документів. Такий обсяг дозволяє отримати представницький масив лексики, що досить повно характеризує ту галузь знання, за якою створюється ІСЯ; 4) масив запитів, отриманих від споживачів інформації, що містить, як правило, нові терміни. Зазвичай під час розробки ИПЯ ці джерела відбору лексики використовуються одночасно, в комплексі.
Відібрані в результаті аналізу лексичні одиниці утворюють словарь ключових слів – вихідний термінологічний масив. Найважливіша вимога до отриманого словнику - повнота охоплення лексичних одиниць, оскільки основне призначення лексичних одиниць ИПЯ - служити засобом освіти ПІД чи ПП і, зрештою, засобом пошуку інформації.
Нормалізація лексики. Після того, як лексичні одиниці (ключові слова, терміни) відібрані, виникає завдання їхнього одноманітного запису, нормалізації. Строго кажучи, проблема нормалізації вирішується одночасно з відбором лексичних одиниць, проте для зручності розгляду доцільно нормалізацію лексики охарактеризувати як самостійний етап створення лексико-семантичної основи ІСЯ.
Нормалізація лексики реалізується у вигляді двох операцій: 1) поданням ключових слів у однаковій граматичній формі (морфологічний рівень нормалізації лексики); 2) усуненням синонімії та полісемії (семантичний рівень).
Подання ключових слів у однаковій граматичній формі, у свою чергу, складається з наступних основних процедур:
Встановлення уніфікованої форми запису лексичних одиниць (рід, число, відмінок). Як правило, обчислювані іменники рекомендується записувати в називному відмінку множини, нечисленні - в називному відмінку однини: датчики, радіодеталі, документи, але інформація, реле, резонанс.
Прикметники та причастя записуються в називному відмінку множини: лабораторні, інформаційні, попередні. Слід зазначити, що ці правила варіативні та для різних ІПС можуть бути змінені;
Вирішення питання про формулювання ключового слова: запис у вигляді окремого слова (унітерм) чи словосполучення? У першому випадку це будуть окремі слова:
автоматизовані, інформаційні, пошукові системи. У другому – розгорнуті словосполучення: автоматизовані інформаційно-пошукові системи, трави однорічні злакові.
Орієнтація на окремі слова (унітерми) дозволяє досягати значної глибини та детальності індексування, дає змогу вільно маніпулювати елементами пошукових образів. Однак при цьому потрібно розробити складну систему граматичних засобів для запобігання інформаційному шуму. Крім того, механічний поділ багатослівних термінів, що відповідають певним науково-технічним поняттям, неминуче призводить до втрат під час пошуку інформації, зниження точності видачі.
На практиці як єдина лексична одиниця зазвичай використовуються стійкі словосполучення, що виражають цілісні (неподільні) поняття. Проте критеріїв, що дозволяють чітко і однозначно відокремлювати стійкі словосполучення від нестійких, нині немає, а рекомендації мають неформалізований характер. Найчастіше рішення про збереження словосполучення як окремої лексичної одиниці приймається на підставі статистичних даних (спостережень про частоту словосполучення в аналізованому масиві текстів) або за умови, що в даному ІПЯ дуже мала ймовірність використання компонентів словосполучення окремо.
У тому випадку, якщо в розроблюваному ІПЯ вирішено використовувати як лексичні одиниці не лише окремі слова, а й словосполучення, виникає необхідність визначення порядку запису слів у словосполученні. Стосовно словосполучень, що складаються з прикметника і іменника виникає дилема: прямий (бібліотечні фонди, оптичні фільтри) або інвертований (фонди бібліотечні, фільтри оптичні) порядок запису слід використовувати. Із цього приводу також відсутні переконливі та досить формалізовані критерії, що мають універсальний характер. Рішення у цьому питанні приймається індивідуально у кожному даному випадку розробниками ИПЯ.
Для забезпечення економічності та однаковості формулювань лексичних одиниць існують рекомендації про доцільність інвертованої форми запису, що забезпечує висування на перше місце у словосполученні іменника (каталоги алфавітні, хімічні реакції). Проте абсолютизувати принцип інверсії не можна, оскільки найчастіше його використання тягне у себе утворення лексичних одиниць, перше слово яких виконує евристичної функції, чи руйнує загальноприйнятий термін.
Усунення полісемії та омонімії на етапі нормалізації лексики досягається двома способами. Перший, найпростіший спосіб полягає у розгортанні багатозначного слова до словосполучення. Наприклад, мережі: мережі рибальські; мережі бібліотечні; лист: лист паперовий, лист рослини.
Другий спосіб, що називається лексикографічним, пов'язаний з використанням спеціальних обмежувальних або пояснювальних послідів. Для усунення полісемії та омонімії можуть використовуватися такі типи пояснень, що розміщуються в дужках поруч із багатозначним словом:
(відгалуження);
Віднесення слова до відповідної галузі знання: ребро (геометрія), ребро (авіація), ребро (анатомія);
Віднесення слова до відповідної категорії: ємність (предмет), ємність (характеристика), мастило (процес), мастило (матеріал);
Вказівка на відповідне слово родове поняття: танк (резервуар), танк (озброєння);
Вказівки на відповідні об'єкти дії: обробка (харчових продуктів), обробка (інформації).
Систематизація лексики. На цьому етапі необхідно всі відібрані та записані у стандартній формі лексичні одиниці систематизувати, упорядкувати, встановити між ними смислові зв'язки, утворити класи близьких за значенням слів. Через надмірність природної мови у складі отриманого словника ключових слів неминуче матимуть місце слова, що у відносинах еквівалентності, смислової близькості. Тому найважливішим завданням етапу систематизації лексики є встановлення парадигматичних відносин між відібраними лексичними одиницями та побудова класів умовної еквівалентності.
Клас умовної еквівалентності - це сукупність лексичних одиниць, які вважаються умовно синонімічними в цій галузі знання і використовуються в даному ІСЯ як рівнозначні з погляду пошуку інформації. Між лексичними одиницями, які входять до одного класу умовної еквівалентності, можуть бути такі відносини: 1) рівнозначності, тотожності, виражені синонімами; 2) перетину - часткового збігу обсягів понять, тобто відносини, що зв'язує слова, між якими існує асоціативний зв'язок, семантична спорідненість; 3) підпорядкування, т. е. відносини типу «рід-вид», «ціле-частина», «вище-нижче».
Побудова класифікаційних схем понять. Класифікаційна схема поняття – це графічний засіб фіксування парадигматичних зв'язків між поняттями. Її основне призначення – позначення межі того чи іншого поняття, визначення обсягу, змісту та структури поняття, встановлення його зв'язків з іншими поняттями. Розробка класифікаційної схеми включає: виділення найбільш суттєвих ознак поняття як основа поділу; побудова приватних схем, що відбивають взаємозв'язок понять і використовують виділені ознаки. Відповідно до правил формальної логіки розподіл обсягу понять, що здійснюється при побудові класифікаційної схеми, має бути обґрунтованим, взаємовиключним, адекватним за обсягом, безперервним.
Класифікаційні схеми понять дозволяють враховувати дійсні зв'язки, що існують між поняттями, отримувати строго впорядковану систему понять, наочно представляти смислові відносини, що поєднують лексичні одиниці ІПС.
Організаційне оформлення лексики ІПС. Організаційне оформлення лексики - це її графічне, знакове втілення, яке цілком залежить від типу ІПЗ, що розробляється. Залежно від типу створюваного ІПЯ, його функціонального призначення, нормалізовані та систематизовані лексичні одиниці будуть перетворені або в предметні рубрики, або в дескриптори, або в індекси класифікації тощо. класифікації (УДК, ББК, МКИ, Єдина схема класифікації літератури для книговидання в СРСР та ін.), рубрикаторів (Рубрикатор ДАСНТІ, Рубрикатор МСНТІ), класифікаторів (Загальносоюзний класифікатор професій робітників та посад службовців, Загальносоюзний класифікатор галузей , інформаційно-пошукових тезаурусів та ряду інших посібників, що утворюють комплекс лінгвістичних засобів ІПС
Отже, у складі будь-якого ІПС можна виділити логіко-лінгвістичні універсалії, до яких належать алфавіт, лексика, парадигматичні та синтагматичні відносини. У сукупності всі ці елементи становлять свого роду універсальну модель ІПСШ, за допомогою якої можна проводити аналіз як уже існуючих мов, так і мов, які спеціально конструюються для тієї чи іншої бібліотечно-інформаційної системи.
Знання структури ІСЯ дозволяє раціонально організувати технологію розробки нових мов, проводити порівняльний аналіз семантичної сили вже існуючих ІСЯ, здійснювати обґрунтований вибір ІСЯ для вирішення певного кола завдань відповідно до виконуваних ІПЯ функцій.
Приналежність ІПЯ до тієї чи іншої групи чи типу мов становить одну з її найважливіших характеристик. Типологія – це науковий метод, основа якого – розчленування системи об'єктів та їх угруповання за допомогою узагальненої моделі чи типу. Вона використовують із метою порівняльного вивчення істотних ознак, зв'язків, функцій, відносин, рівнів організації об'єктів. Отже, віднесення того чи іншого ІПЗ до певного типу дозволить визначити його найбільш суттєві властивості, розкрити переваги та обмеження у сфері вживання.
Поряд із систематикою і таксономією до основних логічних форм типології відноситься класифікація.
Нині у спеціальній літературі немає єдиної класифікації ИПЯ.
Уявлення про підходи, що склалися до виділення різних типів ІПЯ можна отримати, звернувшись до публікацій, що містять спроби їх упорядкування, типізації за різними ознаками. Саме безліч ознак, які має ІПС, породило різноманіття класифікацій.
Для того щоб дати характеристику основних типів ІПЯ, приймемо як обов'язкове твердження, що вимога віднесення будь-якої мови до того чи іншого типу не повинна виконуватися цілком для всіх без винятку явищ цієї мови, тобто «немає правил без винятку». Таким чином, у подальшому розгляді орієнтуватимемося не на те, яка мова вся, а на те, що для неї найбільш характерно.
посткоординовані та передкоординовані, причому відразу слід підкреслити, що в чистому вигляді ці два типи мов практично не існують, і може йтися лише про переважання характерних рис у тій чи іншій інформаційно-пошуковій мові.
У тому випадку, якщо словниковий склад ІСЯ складається переважно із ізольованих слів та словосполучень, які поєднуються між собою (координуються) тільки в процесі індексування, то такий ІСЯ слід віднести до типу посткоординатних, або координатних, мов. Для з'ясування суті цього мовний принципово важливим є розуміння методу координатного індексування як способу опису сенсу документа з допомогою виявлених у його тексті найбільш значущих, чи ключових, слів. Типовим прикладом мов посткоординатного типу є мова системи «Унітерм», дескрипторна ІПЯ.
Відмінна риса мов передкоординатного типу у тому, що до їх словник входять як окремі слова і словосполучення, а й, переважно, розгорнуті словосполучення і цілі фрази. У таких словосполученнях та фразах слова виявляються пов'язаними (координованими) між собою ще до індексування, тобто.
є, наприклад, УДК, ББК. В основі передкоординатного індексування лежить принцип виявлення тематики всього документа (запиту, факту) загалом та порівняння цієї виявленої тематики із заздалегідь заготовленим (передкоординованим) списком лексичних одиниць ІПЯ, з яких треба вибрати найбільш відповідні за змістом.
Передкоординовані ІПС обслуговують цілий комплекс пошукових завдань. За будь-якої пошукової задачі, коли з цієї сукупності об'єктів потрібно вибрати об'єкти з певними властивостями, виникає питання: як прискорити процедуру пошуку, як скоротити перебір? Одне з найпростіших рішень, яким людство користується з давніх-давен,- розбити всі об'єкти з цієї сукупності на групи таким чином, щоб в одній групі виявилися об'єкти з однаковими властивостями. Іншими словами, йдеться про класифікацію.
Класифікація - це розподіл предметів будь-якого роду на взаємопов'язані класи згідно з найбільш суттєвими ознаками, властивими предметам даного роду і відрізняє їх від предметів інших пологів, при цьому кожен клас займає в системі певне постійне місце і, у свою чергу, ділиться на підкласи. Клас - це сукупність об'єктів, які мають одну або кілька загальних характеристичних ознак. Відмінна, характерна ознака, за якою проводиться розподіл предметів на класи, називається основою поділу.
Одним з найдавніших передкоординованих ІПСШ, що використовуються в бібліотечно-бібліографічній практиці, є класифікаційні мови, або бібліотечно-бібліографічні класифікації. Найбільшого застосування серед них отримали ієрархічні класифікації.
2.1. ІЄРАРХІЧНІ КЛАСИФІКАЦІЇ ЯК ІПЯ: ПРИНЦИПИ
ПОБУДУВАННЯ, СТРУКТУРА
Ієрархічні класифікації - це класифікації, між підрозділами яких існують лише два відносини: ієрархії та підпорядкування. Ієрархія - це ставлення, у якому один клас є підкласом іншого, ширшого класу. Супідрядність - це відношення, яке пов'язує класи, що є підкласами одного ширшого класу, тобто відносини між підкласами одного й того ж класу.Ієрархічна класифікаційна система будується за таким принципом:
вихідна безліч об'єктів класифікації ділиться відповідно до обраної основи поділу на великі угруповання - класи. Потім кожен клас розбивається ряд наступних угруповань - підкласів, які, своєю чергою, розпадаються більш дрібні, поступово конкретизуючи об'єкт чи його властивості.
В результаті класифікаційні угруповання утворюють багаторівневу систему, що гілкується, зазвичай зображується у вигляді деревоподібного графа, блоку-схеми угрупованням, а на «гілках» розташовані класифікаційні поділки, що знаходяться в ієрархічному підпорядкуванні - так звана класифікаційна гілка.
Основними характеристиками ієрархічних класифікацій як ІСЯ є кількість щаблів класифікації (рівнів), глибина та ємність.
Кількість ступенів (рівнів) визначає глибину системи класифікації, яка встановлюється в залежності від необхідного для вирішення завдань числа ознак, що застосовуються при класифікаційному поділі і характеризують властивості об'єктів, що класифікуються, а також від необхідного ступеня конкретизації угруповань.
У різних ІПЯ глибина ієрархії вимірюється по-різному. В УДК вона дорівнює десяти, у Рубрикаторі ДАСНТІ – трьом рівням класифікаційного поділу. Місткість ієрархічної класифікації - це також один із найважливіших показників семантичної сили ІПЯ, що характеризує потужність його словникового складу: в УДК, наприклад, загальна кількість індексів, тобто лексичних одиниць, досягає 250 тис., не рахуючи визначників, а в Рубрикаторі ДАСНТІ той параметр вимірюється 6118 індексами, т.е.
е. ємність цього ІПЯ дуже незначна.
Алфавіт ієрархічних класифікацій за своїм складом може бути цифровим, або змішаним, що включає як цифри, так і літери. В обох випадках до складу алфавіту можуть входити знаки пунктуації (крапка, дефіс, апостроф, двокрапка, кома, коса риса, дужки), спеціальні знаки та символи (знак стрілки, квадрата). До групи ІПС з цифровим алфавітом входять УДК, рубрикатори, класифікатори.
До ІПС із змішаним алфавітом, що включає літери та цифри, відносяться ББК (за винятком варіанта таблиць для масових, а також дитячих та шкільних бібліотек) та Міжнародна класифікація винаходів (МКІ). У таблицях ББК для наукових бібліотек використовуються великі та малі літери кириличного (російського) алфавіту, арабські цифри, знаки пунктуації, спеціальні символи. Крім того, для позначення спеціальних індексів лінгвістичних, хронологічних, територіальних та інших – використовуються літери латинського алфавіту та римські цифри.
У буквено-цифровий алфавіт МКІ входять латинські літери, великі та малі, арабські цифри, знаки пунктуації. Великі латинські букви - від А до Н - позначають вісім основних розділів класифікації; подальші поділу МКІ позначаються арабськими цифрами та малими літерами латинського алфавіту.
У всіх ієрархічних класифікаціях такий елемент алфавіту, як точка, служить для розмежування рівнів ієрархії у структурі індексу.
Структура лексичної одиниці будь-якої з ієрархічних класифікацій має змішаного) поділу системи класифікації зі словесним формулюванням. У таких мовах, як УДК, ББК, МКІ, ЕКЛ, основною лексичною одиницею є класифікаційний індекс та відповідне йому словесне формулювання – класифікаційна рубрика. Лексична одиниця в рубрикаторах називається кодом і супроводжується рубрикою. Класифікатори як основний елемент лексики мають класифікаційне угруповання, що складається з цифрового кодового позначення та його найменування природною мовою. Інакше кажучи, попри різницю у термінології, лексичні одиниці ієрархічних класифікацій мають однакову структуру (див. табл. 2.1).
Характеристика лексики ієрархічних класифікацій буде неповною без визначення поняття класифікаційного індексу та зазначення його різновидів.
Класифікаційний індекс - це умовне позначення поділу будь-якої системи класифікації, до якої належить документ, що бібліографується.
Таблиця 2.1. Структура лексичних ієрархічних одиниць Умовне позначення (план Словесне формулювання (план Індекси основних таблиць класифікації називаються простими, індекси допоміжних таблиць - типовими. Складний індекс - класифікаційний індекс, що складається з комбінації індексу основних таблиць з одним або декількома індексами допоміжних таблиць. Складовий індекс що складається з комбінації двох або декількох індексів, кожен з яких може бути представлений індексом основних таблиць класифікації або складним індексом.
Аналіз словникового складу ієрархічних класифікацій дозволяє виділити його основні характеристики. Вони суть такі.
1. У плані висловлювання лексична одиниця ієрархічної класифікації є умовне (знакове) позначення - індекс, код, а плані змісту - поняття, закріплене в словесної формулюванні. План змісту та план вираження лексичних одиниць у цих ІПСШ не збігаються, отже, ієрархічні класифікації є кодованими ІПЗС. Коди в ієрархічних класифікаціях виконують низку важливих функцій, що забезпечують суттєві переваги цієї групи ІСЯ загалом:
Дозволяють однозначно визначати поняття, виражені будь-яким способом, як окремим словом, словосполученням, і цілою фразою. Словесні еквіваленти кодів (план змісту) забезпечують можливість взаємодії ІПС та людини шляхом кодування та декодування понять;
Дають можливість забезпечити процес індексування зручним для роботи матеріалом - лексичними одиницями якщо не постійною, то принаймні фіксованою довжиною. Наприклад, яким би складним не було поняття в Рубрикаторі ДАСНТІ, якою б довжиною, тобто кількістю слів воно не вимірювалося, код цього поняття не перевищить восьми знаків (включаючи точки як знаки розподілу), наприклад: 55.30 Робототехніка, 55.30.33 Технологічна оснащення, периферійні пристрої та допоміжне обладнання роботів та маніпуляторів. У разі експлуатації автоматизованих бібліотечних систем це властивість має важливе значення, оскільки дозволяє розраховувати обсяги пам'яті ЕОМ при структуруванні баз даних;
Дозволяють оперативніше вести зіставлення результатів індексування документів (ПОДів) та запитів (ПП) в умовах ручного або інтелектуального пошуку інформації. Людина, провідний пошук у масиві закодованих рубрик за закодованим запитом, може діяти досить формалізовано й у результаті досить продуктивно, оскільки не доводиться читати текст кожної рубрики, вдумуючись у те, наскільки вона належить до запиту.
2. Усі ієрархічні класифікації є кодованими ІПЯ, що мають структурований код. Структурованість лексичних одиниць (індексів, кодів, класифікаційних угруповань) проявляється у характері їх позначення: рівні ієрархії розмежовуються точкою, отже, кожна позиція у структурі коду має певний сенс. Очевидною перевагою структурованих кодів є можливість явного вираження парадигматичних відносин, що дозволяє встановити зв'язок між поняттями, полегшити вивчення будь-яких явищ і процесів. Наприклад, лексична одиниця ББК 26.231.153 Мезопауза характеризує якесь невідоме нам поняття. Звернувшись до кодових позначень у таблиці ББК (завдяки структурованості кодів), можна отримати уявлення про ту область знання, де застосовується дане поняття:
3. За способом завдання лексика ієрархічних класифікацій належить до контрольованих ИПЯ, оскільки всі лексичні одиниці задаються і фіксуються у спеціально розроблених словниках-таблицях класифікації, рубрикаторах, класифікаторах тощо. Довільна лексика повідомлень (фактів, документів, запитів) підлягає нормативну лексику із цих словників.
4. Ієрархічні класифікації як ІПЯ мають у своєму розпорядженні другий рівень інтеграції лексики, тому що їх лексичні одиниці можуть складатися не тільки з окремих слів, словосполучень, але і включати до свого складу цілі мовні обороти, речення.
Такі пропозиції найчастіше відносяться до розряду називних. При цьому спостерігається тенденція ускладнення структури звичних Пропозицій у міру просування у структурі ієрархічної класифікації «згори донизу». Конкретизація поняття досягається шляхом логічного перетину вищих понять коїться з іншими, які у ролі класифікаційних ознак. При підйомі по ієрархії вгору, навпаки, структура звичних пропозицій у класифікаційних рубриках, як правило, спрощується, і часто звичні пропозиції «вироджуються» в окремі слова, наприклад, у ББК:
22.317.22 Класична та квантова статистика, обґрунтування статистичної фізики 22.317.2Статистична фізика Термодинаміка та статистична фізика Парадигматичні відносини в ієрархічних класифікаціях виражені двома способами: 1) в ієрархічному способі побудови таблиць та лог; 2) за допомогою довідкового апарату.
Ієрархічний спосіб побудови таблиць передбачає переважання двох видів відносин між поняттями - ієрархії та «підпорядкування. Перед кожним класом у таблицях класифікації перераховуються його основні поділки, що одразу орієнтує нас у схемі класифікації та послідовності її розділів.
Ієрархічність структури, ступінчастий хід від загального до приватного, що характеризує супідрядність понять, наочно відбивається у структурі індексу. Логічно виразний індекс вказує кількість пройдених щаблів класифікації. Кожен новий рівень класифікації автоматично подовжує індекс. Кожен знак праворуч у індексі є субординованим, підлеглим, відбиваючи головне властивість цього ІПЯ - реалізацію відносин ієрархії і соподчинения. Як приклад сільськогосподарської продукції»:
35.8 Кабелі, проводи та шнури міжгалузевого призначення Точність Повнота 35.82.1 Провід монтажний з мідною жилою 35.82.12 Провід монтажний з мідною жилою з полівінілхлоридним Отже, парадигматичні відносини в ієрархічних класифікаціях виражені в ієрархічних класифікаціях. При цьому конкретний вид (сильні, слабкі) парадигматичних відносин у структурі індексу не вказується і зводиться до відносин підпорядкування, ієрархії – «вище-нижче», – та підпорядкування. Чим детальніше індекс, тим більше, конкретніше поняття, що їм виражається.
Крім структури індексу, експліцитне уявлення парадигматичних відносин в ієрархічних класифікаціях здійснюється за допомогою довідкового апарату. Його основне призначення - служити засобом розмежування розділів, що перетинаються за змістом рубрик і відображення поліієрархічних зв'язків.
Іншими словами, засоби довідкового апарату служать для того, щоб показати взаємозв'язок між розділами схеми класифікації, виявити близькі поняття.
Посилочно-довідковий апарат ієрархічних класифікацій як ІПСЯ - це сукупність вказівок, що фіксують зв'язки та розмежування між класифікаційними поділами. До них відносяться примітки, посилання, посилання, посліди.
Примітки – це сукупність вказівок, що пояснюють зв'язки та розмежування між окремими рубриками. Вони уточнюють зміст розділу, говорять про його подальший підрозділ. Наприклад:
Примітка: Питання міжнародної класифікації.
співробітництва з окремих галузей Примітка: Галузі позначати при науках відображаються у відповідних роз- допомоги 0/9, наприклад: 025.4.06:54 ІПЯ у справах наук із закінченням коду ХХ.01.27 з хімії Відсилка дивись - (див.) адресує від можливого місцезнаходження поняття до прийнятого в даному ІПСШ і виключає дублювання рубрик. Посилання вказує на те, що предмет, який тісно пов'язаний з цим розділом, знаходиться не в цьому розділі, а під іншим індексом. Наприклад, в ЕКЛ:
(Музичний театр – див. 49.7, військові оркестри – див. 13.4) 13.4 Збройні сили СРСР 4. Військові паради, церемонії, свята. Військові оркестри.
13.07.27 Соціологія культури 04.51.51 Соціологія культури Посилання відсилання від (відс. від) є зворотним до посилання дивись і ставиться при рубриці, на яку є посилання див.
19. Кіно як засіб масової інформації пропаганди Кіномистецтво В УДК відсилання див. і посилання див. також замінені стрілкою ®, яка змінює свій зміст залежно від положення у вказівці; посилання починається зі стрілки, потім слідує індекс і текст, а посилання починається з тексту, після якого наведена стрілка та індекс, наприклад:
543.4 Оптичні методи аналізу 543.9 Аналіз за допомогою біологічних реакцій Реакція на ферменти тавітаміни ® 577.15/16 (відсилання) Роль, аналогічну до стрілки в УДК, в ББК виконує знак квадрат, показуючи наявність смислових (парадигматичних) зв'язків між поняттями. Наприклад:
85.38 Художнє радіомовлення і телебачення Отже, функції посилання та посилання в реалізації парадигматичних відносин різні: якщо посилання нагадує про існування інших, споріднених за тематикою розділів, тобто розширює область пошуку, то посилання, навпаки, виконує заборонну функцію, попереджаючи поняття не можна позначати цим індексом.
Електронне текстове видання Підготовлено кафедрою Технології та засоби зв'язку Науковий редактор: проф. д-р філ. наук Попова Т. В. Практикум для студентів усіх форм навчання. Практикум містить завдання та вправи, які покликані допомогти студенту освоїти труднощі сучасної російської мови, а також підвищити загальний рівень мовної культури. ©...»
«МІНІСТЕРСТВО ОСВІТИ І НАУКИ РОСІЙСЬКОЇ ФЕДЕРАЦІЇ ФЕДЕРАЛЬНА ДЕРЖАВНА БЮДЖЕТНА ОСВІТА УСТАНОВА БАШКІРСЬКИЙ ДЕРЖАВНИЙ УНІВЕРСИТЕТБА проф. С.М. Усманів 2014р. Програму прийнято на засіданні кафедри російської мови та літератури, методики викладання російської мови та літератури _ зав. кафедрою 2014р. Програма вступного іспиту до аспірантури за напрямом 45.06.01 Мовазнавство та літературознавство (спрямованість...»
«Докінз Р. Егоїстичний ген Річард Докінз - професор Оксфордського університету, автор таких відомих книг, як егоїстичний ген, Сліпий годинникар, Розширений фенотип та ін. У книзі англійського автора представлено один із сучасних підходів до проблеми еволюції. Розглянуто біологічні основи поведінки та її роль у природному доборі. Книгу вирізняє блискучий, захоплюючий стиль викладу. Перше видання було міжнародним бестселером, перекладено 13 мовами і широко використовується у світі...»
«Історія Деградації Абетки Або як ми втратили Образи Буків Томськ - 2012 рік www.dm80.ru 1 Види писемності в давній Русі У сучасній історичній науці прийнято вважати, що до приходу Кирила і Мефодія Слов'яни були Варварами, людьми другого сорту, дикуни у лісі, не мали своєї писемності і відповідно не вміли читати ні писати. Ця загальноприйнята інформація чомусь викликає багато суперечностей із реальними історичними даними та з результатами розкопок на території...»
«Мова і культура: новий погляд 1 Федеральна агенція з освіти Державна освітня установа вищої професійної освіти Поморський державний університет імені М.В. Ломоносова Мова і культура: новий погляд Збірник статей Архангельськ Поморський університет 2009 2 Укладачі та відповідальні редактори: Л.Ю. Щіпіціна, Є.В. Тряпіцина Друкується за рішенням редакційно-видавничої комісії факультету іноземних мов Поморського університету Мова та культура: нова...»
«Книжка Юлія Ковальчук. Спостерігаючи за японцями. Сховані правила поведінки завантажені з jokibook.ru заходьте, у нас завжди багато свіжих книг! Спостерігаючи за японцями. Приховані правила поведінки Ковальчук 2 Книга Юлія Ковальчук. Спостерігаючи за японцями. Сховані правила поведінки завантажені з jokibook.ru заходьте, у нас завжди багато свіжих книг! 3 Книга Юлія Ковальчук. Спостерігаючи за японцями. Сховані правила поведінки завантажені з jokibook.ru заходьте, у нас завжди багато свіжих книг! Юлія Ковальчук Спостерігаючи за...»
«c Субота, 21 березня 2009 року № 19 (1161) Газета міста Ювілейного Московської області Заснована у грудні 1993 року Браво, Букрини! Вітаємо вас, наші читачі! Сьогодні У місті чимало сімей, що складаються з військових та вчених, з вчителів та підприв номері: німателей. І ось з'явилася родина письменників – членами Спілки письменників Росії стали Наталія Андріївна та Валерій Васильович Букрини. Вони – офіцери, багато років живуть у Ювілейному. Їхні книги про Про місто та його мешканців. космосі та ракетниках, написані...»
«Цей електронний документ був завантажений з сайту філологічного факультету БДУ http://www.philology.bsu.by ВСТУП Здатність людини до гармонійного та конструктивного спілкування з іншими людьми, на формування якої спрямований курс риторики, дозволяє встановити та зміцнити ділові та міжособистісні контакти, досягти вищого соціального статусу, авторитетності, самоповаги. Оскільки риторика вивчає технології формування задуму та змісту мови, риторичний розвиток особистості...»
«A.M. Малолітко СТАРОДАВНІ НАРОДИ СИБІРИ ДЕРЖАВНИЙ ОСВІТНИЙ ЗАКЛАД ВИЩОЇ ПРОФЕСІЙНОЇ ОСВІТИ ТОМСЬКИЙ ДЕРЖАВНИЙ УНІВЕРСИТЕТ О.М. МАЛОЛІТКО СТАРОДНІ НАРОДИ СИБІРІ ЕТНІЧНИЙ СКЛАД ПОДАНИМ Т о п о н і м і к і Том I Частина перша ПЕРЕДІСТОРІЯ ЛЮДИНИ ТА МОВИ Видання 2-е, виправлене та доповнене Видавництво Томського університету 14 14 графічних наук Я Баришніков. доктор філологічних наук О.О. Осипова. лікар...»
«ПОРУШЕННЯ ЄДИНОБОЖЖЯ 'Абдуль 'Азіз ар-Райїс1 Нехай зберігає його Аллах! Ми звернулися до автора безпосередньо, а також через шанованих ним людей, з проханням надіслати нам коротку автобіографію, проте він відповів відмовою, сказавши: Хто я такий, щоб мене знали? Головне – поширювати правду із доказами. Писати про себе не хочу – боюсь самовихваляння. Напишіть після смерті...»
«Подарунок молодим Господарам та Господиням. Стара Кухня XIII-XVII ст, або Збірка старих страв, старанно зібрана і переведена з аглицької та інших мов з метою просвітити і нагодувати. 2007 листопад Зміст ВСТУП ПРО ЗБІРНИК ANONIMO VENEZIANO. LIBRO PER CUOCO. ВЕНЕЦІЯ, XIV-XV ст. VI. КИПЛЯТА В ПОХЛИБКУ (CHICKENS WITH BROTH) X. ОЛІЯ З СВІЖОГО СИРУ (BUTTER OF FRESH CHEESE) XII. ЯЇЧНА ПОХЛЕБКА, ПРОСТА, ДОБРА І ДОСЛІДНА (BROTH OF EGGS PURE, GOOD AND PERFECT).10 XXXV. ОМЛЕТ З...»
«ПРОГРАМА З ЛІТЕРАТУРНОГО ЧИТАННЯ для шкіл з російською (рідною) мовою навчання ПОЯСНЮВАЛЬНА ЗАПИСКА Загальна характеристика навчального курсу та його місце в навчальному плані Оскільки мовна діяльність є основним засобом пізнання та комунікації, літературне читання є одним з провідних навчальних предметів. сприяють загальному розвитку, вихованню та соціалізації дитини. Успішність вивчення курсу літературного читання, що входить у предметну область...»
«НА ПІЦІ ВУЛКАНІВ Інформаційне видання державного заповідника Курильський, № 1(6) червень 2014 У ногі милуються шановні читачі, друзі, колеги! Мприродою, але небагато Наша газета На піку вулканів переходить у новий формат і продовжує в цікавій формі живою мовою розповідати на своїх сторінках про неї приймають до серця, і навіть тим, унікальних куточках заповідника, острівних рослин і тварин, про істоту до серця приймає, не найчастіших проблем і багато чого іншого. Як і раніше,..."
«УДК 796 ББК 53.54 О 19 ВАСИЧКІН ВОЛОДИМИР ІВАНОВИЧ Професор Академії здоров'я та екології Санкт-Петербурга, автор книг, довідників, методик лікувального масажу, виданих багатомільйонними тиражами в Росії, країнах СНД та за кордоном. Величезна кількість листів та відгуків читачів, а також особисті бесіди зі слухачами практичних курсів з масажу дозволили автору знову видати цю книгу з деякими доповненнями та примітками. Маючи роботи творців російської школи масажу і...»
Казанський (Приволзький) федеральний університет Наукова бібліотека ім. Н.І. Лобачевського ВИСТАВКА НОВИХ НАДХОДІВ з 26 січня по 3 лютого 2012 року Казань 2012 1 Записи зроблені у форматі RUSMARC з використанням програми Руслан. Матеріал розташований у систематичному порядку за галузями знання, всередині розділів – в алфавіті авторів та назв. З обкладинкою, анотацією та змістом видання можна ознайомитися в електронному каталозі http://www.ksu.ru/lib/index1.php?id=6&idm=0&num=2 2 Зміст...»
«ТЕКСТИ ДЛЯ ЧИТАННЯ ТА БЕСІД ПРО М.В. ЛОМОНОСОВЕ Скоро сам дізнаєшся у школі, Як архангельський мужик За своєю і Божою волею Став розумний і великий. Н.А. Некрасов Літературно-мистецькі твори про Ломоносова, представлені в цьому розділі, можуть бути використані для роботи з дітьми на уроках читання, позакласного читання, історії, що може скласти зміст регіонального компонента початкової школи, а також при проведенні позакласних заходів, на яких учні знайомляться з життям і...»
«АННОТАЦІЯ (зміст) робочої програми навчальної дисципліни з підготовки бакалавра в рамках ФГОС ВПО за напрямом 030900.62 Юриспруденція профіль державно-правової Дисципліна Іноземна мова у сфері юриспруденції входить до базової частини гуманітарного, соціального та економічного циклу напрямку 030900.62 Юриспруденція. Дисципліна реалізується у ЮІ Красноярського державного аграрного університету, кафедрою проф. Комунікацій та...»
«Додаток 3 ОД. Загальноосвітні дисципліни ОДБ Базові загальноосвітні дисципліни ОДБ.01 Анотація програми навчальної дисципліни Іноземна мова Мета та завдання дисципліни Метою освоєння навчальної дисципліни є розвиток умінь іншомовного спілкування у різних сферах та ситуаціях; формування та практичне застосування мовних навичок. Місце дисципліни у структурі ОПОП СПО Дисципліна Іноземна мова відноситься до циклу загальноосвітніх дисциплін. Зміст дисципліни є основою...»
«Міністерство освіти і науки Російської Федерації Федеральна державна бюджетна освітня установа вищої професійної освіти мова та література Благовіщенськ 2011 УМКД розроблений доцентом кафедри російської...»
Інформаційно-пошукові мови
Штучна мова, призначена для формалізованого опису змістового документів, даних, окремих понять або термінів та забезпечення подальшого їх пошуку в інформаційно-пошукових масивах. Формалізація лексики та створення різних ІПС викликано необхідністю усунення "надмірності" і "недостатності" природної мови для цілей інформаційного пошуку, а також ліквідації присутній у ньому синонімії та омонімії, для реалізації "однозначності" інформаційного пошуку.
Інформаційно-пошукова мова(ІПЯ) - штучна мова, що представляє сукупність засобів для опису формальної та змістовної структури для пошуку (шляхом індексування) за запитом користувача.
Структура
- Алфавіт – сукупність певних символів для запису слів та виразів. У багатьох мовах використовуються символи природної мови.
- Лексика - сукупність всіх слів - лексичних одиниць, що використовуються в мові.
Як лексичні одиниці ІПЯ можуть бути використані:
1. слова, фрагменти слів, словосполучення та вираження будь-якої природної мови;
- 2. коди та шифри (цифрові, літерні, буквено-цифрові) словосполучень, слів та виразів, що виступають у ролі імен відповідних класів;
2. Синтаксис – сукупність засобів і способів з'єднання слів у вирази та фрази.
Для впорядкування лексичних одиниць при побудові лексики є парадигматичні відносини, тобто смислові відносини між лексичними одиницями. Ці відносини встановлюються та фіксуються у словнику мови, виходячи з потреб інформаційного пошуку.
Типи та види ІПЯ
Способи завдання лексичних одиниць
- І класифікація
- Контрольовані - мови, словниковий склад яких задається та контролюється за допомогою словників та таблиць. До них відносять різні класифікації. (Універсальна десяткова класифікація, Бібліотечно-бібліографічна класифікація, Класифікація Дьюї).Мова предметних заголовків (рубрик)
- . За підсумками ієрархічної класифікації будують систематичні каталоги. На основі мови предметних рубрик будують предметні каталоги. Алфавітні каталоги – ручний пошук.Дескрипторні ІПЯ
- , а також мова ключових слів – автоматичний пошук.
- Неконтрольовані – лексика не задається словником, а будується на основі вибору термінів природної мови. Такі ІСЯ широко почали застосовувати останнім часом.
- Перерахування всіх лексичних одиниць ІПЗ. Спосіб не потребує великих інтелектуальних зусиль, а процес побудови лексики не можна автоматизувати. Лексика ІПЯ виявляється жорстко фіксованою і в ряді випадків не дозволяє досить точно виразити зміст змісту текстів.
- Перерахування частини лексичних одиниць та завдання правил формування їх інших лексичних одиниць. Займає проміжне становище і щодо інтелектуальних зусиль, і щодо автоматизації процесів.
Завдання правил побудови лексичних одиниць, слів та виразів природної мови. Піддається повної автоматизації, хоча потребує великих інтелектуальних витрат за визначення правил формування лексики. Однак науковий підхід до формування словникового складу робить його досконалішим, забезпечує однаковість та зменшує суб'єктивізм при побудові лексики. III Фасетна класифікація
(Класифікація двокрапкою або класифікація Ранганатана)
- Це сукупність кількох незалежних класифікацій, здійснюваних одночасно з різних підстав, у якій:
- поняття представлені у вигляді перетину ряду ознак (фасетної, див. Фасет структури);
Цей спосіб побудови розроблений індійським вченим та бібліотекознавцем Ш. Р. Ранганатаном («Класифікація двокрапкою», 1933). Основою класифікації є звичне людині віднесення об'єкта до різних категорій (завдання множини та її елементів).
Порядок запису лексичних одиниць
- Некоординируемые мови - які допускають координації своїх лексичних одиниць (немає зв'язку з-поміж них) ні процесі індексування, ні процесі пошуку. (Система розміщення книг у бібліотечному фонді, за інвентарними номерами).
- Координовані ИПЯ - мови, у яких лексичні одиниці зв'язується, координуються між собою чи процесі індексування чи процесі використання.
- Передкоординовані – зв'язки між лексичними одиницями встановлюються перед пошуком.
- Посткоординовані - коли зв'язок між лексичними одиницями встановлюються лише за пошуку.
Типи ІСЯ по сфері (області) застосування
- Комунікативні (загальносистемні), призначені для забезпечення взаємодії між різними (інформаційними, бібліотечними та ін.) системами (у тому числі розподіленими за державною, відомчою чи територіальною належністю).
- Локальні (внутрішні) призначені для використання в рамках окремої системи.
- Зовнішні, що використовуються в інших системах і призначені для взаємодії лише з ними.
Види відносин в ІПЯ
Синтагматичні відносини в ІПЯ- Лінійні відносини між лексичними одиницями ІПЯ, що встановлюються безпосередньо при їх використанні. Спосіб вираження синтагматичних відносин є граматичні засоби, в якості яких виступають: мішечна, позиційна граматика, покажчики ролі, покажчики зв'язку, граматика логічних операторів. Формальним засобом висловлювання синтагматичних відносин є розпізнавальні, знаки розподілу, а також знаки приєднання.
- Мішкова граматика- один із способів вираження синтагматичних відносин в ІСЯ, що полягає в простому перерахуванні лексичних одиниць, що входять в один пошуковий образ або пошукове розпорядження. Порядок проходження лексичних одиниць при цьому значення не має. Мішкова граматика використовується в словникових ІПЯ.
- Позиційна граматика- один із способів вираження синтагматичних відносин в ІСЯ, що полягає встановленні жорсткого порядку проходження лексичних одиниць, що входять в один пошуковий образ. У класифікаційних ІПС виявляється у використанні класифікаційної формули при систематизації та формули предметних рубрик при предметизації, в ІПС координатного типу - у використанні методу стандартних фраз, аспектного методу подання інформації.
- Покажчики ролі- один із способів вираження синтагматичних відносин в ІСЯ, що характеризує логічні зв'язки між лексичними одиницями та уточнює смислову функцію (роль) кожної лексичної одиниці у пошуковому образі. Покажчики ролі використовуються переважно в словникових ІПЯ і створюються стосовно конкретних галузей знання. У класифікаційних ІПС функцію покажчиків ролі виконують, наприклад, загальні визначники точки зору (УДК). Покажчики ролі дозволяють зменшувати обсяг поняття, що позначається лексичною одиницею, що дозволяє забезпечити більшу точність інформаційного пошуку. Виражаються за допомогою букв та цифр.
- Вказівники зв'язку- один із способів вираження синтагматичних відносин в ІСЯ, що вказує на наявність логічного зв'язку між лексичними одиницями та усуває їх хибне поєднання у пошуковому образі. Покажчики зв'язку широко використовуються в словникових ІПЯ та виражаються за допомогою символів, літер або цифр. У класифікаційних ІПЯ функцію покажчиків зв'язку виконує знак квадратних дужок. Вказівники зв'язку дозволяють виключити інформаційний шум та забезпечити точність інформаційного пошуку.
- Граматика логічних операторів- один із способів вираження синтагматичних відносин в ІПЯ, що дозволяє здійснювати логічне множення, додавання та віднімання лексичних одиниць ІПЯ при побудові пошукового розпорядження. Граматика логічних операторів використовують у словникових ИПЯ. Служить для уточнення обсягів понять, що виражаються лексичними одиницями з метою забезпечення більшої точності інформаційного пошуку.
Семантичні відносини- Відносини між поняттями в т.зв. "семантичних мереж". Розрізняють:
- Лінгвістичні (відповідні та взаємовідносини слів у реченні) відношення
- Теоретико-множинні відносини.
- Логічні стосунки.
Парадигматичні відносини в ІПЯ- смислові логічні відносини між лексичними одиницями ИПЯ, які залежать від контексту, у якому використовуються. Розрізняють сильні та слабкі парадигматичні відносини.
Сфера інформаційно-пошукових систем у філології. Інформаційно-дослідницька база даних "Російський Шекспір"
"Інформаційні проекти в галузі філології повинні бути спрямовані на створення інноваційного продукту, наукових інформаційно-телекомунікаційних систем та мереж, уніфікованої системи наукових знань та технологій, на створення деяких елементів штучного інтелекту при побудові експертних систем та баз знань, інформаційних мереж колективного користування з унікальними науковими ресурсами".
Наукові завдання: «Інформаційно-дослідницька база даних «Російський Шекспір»
- створення найбільшої бібліографії на тему «Російський Шекспір», яка включатиме цілий ряд розділів («Переклади творів Шекспіра російською мовою: зібрання творів і збірки, окремі твори», «Критичні роботи, присвячені творчості та життя Шекспіра» (проблема авторства) , критика окремих творів, Шекспір і театр, історія шекспірознавства, Шекспір та зарубіжна література, Шекспір у Росії, Пушкін і Шекспір, пародії на твори і т. д.); теорією перекладу (написання статей та монографій;
- використання Інтернет-ресурсів у викладанні філологічних дисциплін, методики перекладу, історії театру, кінематографа, світової художньої культури, розробка оригінального використання Інтернет-ресурсів у викладанні філологічних дисциплін, методики перекладу, історії театру, кінематографа, світової художньої культури, розробка оригінального спецкурсу .
"Світ Шекспіра" має 3 основні напрямки
- підготовка та здавання в експлуатацію інформаційної системи та web-сайту,
- формування повнотекстового змісту інформаційно-дослідницької бази даних «Російський Шекспір»,
- розробка різноманітних способів перегляду інформації, атрибутного інформаційного пошуку, повнотекстового пошуку з вільної лексики як російською, так і англійською мовою.
Основне значення бази даних
Апробація інформаційно-дослідницької бази даних "Російський Шекспір"
Інформаційно-дослідницька база "Російський Шекспір" є своєрідним інформаційним центром про Вільяма Шекспіра, його твори, проблеми вивчення його творчості. З одного боку, база надає відвідувачеві можливість переглянути зібрані в одному місці твори, мабуть, найвідомішого англійського письменника, а з іншого пропонує відносно широке охоплення робіт різних напрямків, так чи інакше пов'язаних з творчістю У. Шекспіра. На ресурсі представлені переважно тексти вітчизняних дослідників і авторів (що, в принципі, логічно співвідноситься з назвою бази).
Твори У. Шекспіра розташовані тут у різній формі (розділ: «У російських перекладах») залежно від розміру частина з них розташована безпосередньо на сайті (наприклад, сонети, переклад яких представлений у супроводі оригіналу. Таким чином, обидва тексти розміщуються в максимальній доступності ), частина (деякі п'єси) представлена у форматі pdf. Подані переклади належать різним авторам та часу. Найбільш ранні перекладні тексти творів на ресурсі датуються 1899 роком (наприклад, «Гамлет» у пров. А. Кронеберга, «Ромео і Джульєтта» у пров. й у них збережено оригінальний дореволюційний стиль.
В іншому розділі – «У науковій та театральній критиці», представлені переліки наукових монографій дослідників творчості У. Шекспіра, наукових збірників, передмови та вступних статей до видань різного часу, рецензій на книги про письменника та його твори, спектаклі (причому як центральних театрів Росії) , так і малих, провінційних), анотації на видання.
На ресурсі можна знайти творчі роботи на теми шекспірівських творів, а також відбивають сприйняття особистості самого автора (Розділ: «В оригінальній творчості»). Це різні роботи натхненних читачів, шанувальників та просто небайдужих: вірші, малюнки, фото, твори прикладного мистецтва. Тут також представлено творчість сучасників У. Шекспіра та цитати його/з нього/про нього.
Одним із найкорисніших для наукових дослідників творчості У. Шекспіра є розділ «Bibliographia», в якому представлений перелік робіт та творів за такими напрямами: переклади та переробки творів російською мовою з 1748 року, історія шекспірознавства (у тому числі переклади та оцінка драматурга в різні періоди (Освіта) і в різних країнах (США, Західна Європа, Німеччина), російська критика У. Шекспіра XVIII-XIX ст., Проблема авторства, вплив У. Шекспіра на літературу інших країн, У. Шекспір і А. Пушкін, а також художня література і публіцистика (пародії, фейлетони, гуморески за мотивами творів, рецензії на художні твори про письменника). вивчає його творчість задовго після його життя.
Слід зазначити, що це переліки літератури забезпечені вихідними даними, що значно полегшує пошук необхідної информации.Стоит також згадати, що, попри значний обсяг інформації, інтерфейс ресурсу зроблено досить зручним і логічним, що також полегшує роботи з даними, які у базі.
Розробники ставили собі завдання створення великої бібліографії на тему «Російський Шекспір» і впровадження бази у викладання у різних сферах. Звичайно, ресурс вийшов так чи інакше більшою мірою спрямований на філологів та літературознавців. Однак, якщо інформація, скажімо про оцінку виходів і фільмів, буде поповнюватися, то ресурс (як джерело інформації) стане кориснішим і іншим напрямам, в даному випадку театрознавцям та представникам творчих спеціальностей: режисерам, сценаристам та акторам.
1. Ієрархічні класифікації: види класифікацій, їх суть.
2. Аналітико-синтетичні (фасетні) класифікації: загальна характеристика.
Однією із суттєвих ознак класифікаційних систем є спосіб їх побудови, структура. На цей час склалися два основних типи КС: ієрархічні та аналітико-синтетичні (фасетні).
1. Сутність ієрархічних КС полягає у розподілі кожного класу вищого порядку на послідовно підпорядковані класи, причому кожен окремо взятий клас безпосередньо підпорядкований лише одному ширшому класу.
Ієрархічні КС поділяються на два підтипи: перечислювальні та комбінаційні.
ПерелічніНайдавніші класифікації вони виникли в давнину і використовувалися протягом кількох тисячоліть. На першому етапі розвитку перечислювальні системи мали послідовну, нумераційну систему позначень одного (єдиного) низки поділів: 1, 2, 3, …, тобто ще не ієрархічними. Потім класифікації послідовно розвивалися від дихотомічних(у яких кожен клас міг бути розділений лише на два підкласи, наприклад: художня література – вітчизняна, зарубіжна), до багатовимірним(у яких кожен клас міг підрозділятися більш як за однією ознакою). Дихотомія (гр. Dicha на дві частини + tome перетин). Те саме поняття могло бути відображено в декількох класах залежно від аспекту його розгляду. Так виникла і назавжди закріпилася у класифікаціях ієрархічна структура, з'явилися ступінчасті логічні позначення, з'явилися класи та його підрозділи, наприклад: А А1 А2 А3.
В основу побудови перечислювальних КС покладено принцип перерахування: їх укладачі прагнули перерахувати всі теми, поняття, відображені у документах фонду. Типові поняття, тобто. повторювані ознаки змісту та форми документів не виділяли в спеціальні таблиці, вони повторювалися у багатьох розділах і робили таблиці надмірно громіздкими. З іншого боку, перелічувальна класифікація неспроможна охопити всі теми, якими документи є чи з'являться у майбутньому. Тому нині вони обмежені у використанні. Перевагами перелічувальних класифікацій є простота побудови, легкість індексування.
У Росії її перечислювальні КС використовувалися до початку 20 в. при організації фондів, СК у бібліографічних посібниках. До перелічених належали КС, розроблені А.І. Богдановим (1693 - 1766), П.Г. Демидовим (1738 – 1821), А.Н. Оленіним (1763 - 1843), Ф.Ф. Рейсом (1778 - 1852), К.М. Бером (1792 - 1876) та ін бібліотекознавцями.
Єдина з найбільших перелічувальних світових КС, що використовується в даний час, – Класифікація Бібліотеки Конгресу США (КБК), призначена для організації найбільших у світі фондів. 1998 р. їй виповнилося 100 років. Повний комплект таблиць КБК із усіма додатковими випусками становить 158 томів. Жодних скорочених чи спеціалізованих варіантів КБК, як і перекладів не існує. Сучасна КПК має елементи комбінаційної класифікації.
На зміну перечислювальним КС прийшли комбінаційні. КомбінаційніКласифікації характеризуються більш розвиненою структурою. Вони позначилося прагнення впорядкувати, максимально уніфікувати, зменшити обсягом структуру перелічувальних КС. На середину 19 в. дозріло і було реалізовано рішення про можливість виділення понять, що повторюються, в самостійний ряд, що утворює допоміжні таблиці. Серед перших «винахідників» допоміжних таблиць, у яких концентрувалися типові поділу, що повторюються, можна назвати А.Шлеймахера (1787 – 1858), Ч. Кеттера (1837 – 1903), М. Дьюї (1837 – 1903). Спочатку впорядковані переліки понять, що повторюються, вирішили розташовувати в тому відділі КС, де вони використовувалися найбільш активно: перелік мов - у розділі мовознавства, хронологічних понять - в історії, географічних найменувань - в географії. Минуло ще півстоліття і, нарешті, багато понять, загальні багатьом галузей знання, винесли межі основних таблиць – було створено типові розподілу загального застосування (ТДОП).
Винахідниками справді комбінаційної КС вважаються творці Міжнародного бібліографічного інституту в Брюсселі Поль Отле (1868 – 1944) та Анрі Лафонтен (1854 – 1943) – автори УДК.
Відмінна риса комбінаційних КС – наявність двох видів таблиць: основний та допоміжних. Основна таблицяКласифікації - частина класифікаційної таблиці, що включає класифікаційні поділки по всіх галузях знання. Допоміжна таблицякласифікації частина класифікаційної таблиці, виділена зі складу основної класифікаційної таблиці та включає класифікаційні поділки, які використовуються для уточнення та деталізації класів основної класифікаційної таблиці. У ББК допоміжні таблиці називаються таблицями типових поділів і поділяються на дві групи: загального застосування (до них відносяться таблиці загальних, територіальних, етнічних, мовних типових поділів, типових поділів соціальних систем та ін.) та типові поділки спеціального застосування, розташовані всередині тексту основних таблиць . До них відносяться таблиці спеціальних типових поділів та плани розташування. У УДК та ДКД допоміжні таблиці називають таблицями визначників. Вони поділяються на аналогічні групи.
Більшість КС, що застосовуються в даний час, є комбінаційними. У порівнянні з перерахунковими класифікаціями, комбінаційні характеризуються меншим обсягом і одночасно більшою можливістю відображення складних багатоаспектних і понять, що виникають знову.
2. Аналітико-синтетичні класифікації.Отже, в ієрархічній системі існує суворо впорядкована послідовність понять, що передбачає одно-і багатоступінчасті залежності, підпорядковані, підпорядковані та підпорядковані поняття. Ієрархія понять лежить на принципі субординації, підпорядкуванні. Якщо відійти від цього основного принципу, розглядаючи всі поняття як принципово рівноцінні, становище цілком зміниться. Виникне класифікація, у якій кожне поняття може бути координовано з будь-яким іншим. Класифікація, заснована на такому координатному індексуванні, отримала назву аналітико-синтетичної чи фасетної.Структура цього типу КС нерозривно пов'язані з поняттям «категорія» (категорія часу, простору тощо.). Метод розподілу класифікаційних понять відповідно до класифікаційних ознак на окремі категорії – називається категоріальний аналіз. Для кожної предметної області з урахуванням категоріального аналізу розробляється відповідна система категорій. Сукупність всіх термінів і понять, якими оперує та чи інша наука, утворює таблиці категорій, що багатоаспектно відображають зміст документів. Усі поняття, що входять у галузі знання та його підрозділи, групуються за подібними ознаками у спеціальні таблиці – фасети. Усередині фасетів поняття можуть бути розташовані в ієрархічному порядку. Кожен фасет утворюється завдяки поділу з однієї основи. Як і в ієрархічних класифікаціях, кожен поділ аналітико-синтетичної класифікації має індекс.
До аналітико-синтетичних класифікацій, що розробляються в 20 ст. на основі категоріального аналізу, належать «Класифікація двокрапкою» (КД) Ш.Р. Ранганатан, «Бібліографічна класифікація Блісса. Друге видання» (БКБ2). Класифікації забезпечували багатоаспектний пошук інформації. У таких системах кожної предметної області визначається відповідна система категорій. p align="justify"> При класифікуванні літератури індекси складних понять утворюються шляхом комбінування індексів простих понять.
Систематизатор вибирає з груп понять ті, які відповідають за тематикою та змістом аналізованого документа та з'єднує їх певним чином (синтезує). В основі складання складного індексу лежить принцип індексування, закладений у КС Ранганатан за допомогою знака «двокрапка».
Приклад: класифікація літератури за одним із розділів суднобудування – типи та види судів. У класифікації виділено 5 фасетів. Фасети позначені великими літерами, їх підрозділи - арабськими цифрами, поняття з різних фасетів поєднуються двокрапкою.
АПризначення БРайон плавання УТип двигуна ДМатеріал корпуса
1.Транспортні 1.Морські 1.Пароплави 1.Металеві
2.Вантажні 2.Внутрішнього пла- 2.Електроходи 2.Дерев'яні
3.Спортивні 3.Змішаного пла- 3.Теплоходи 3.Пластмасові
Засистематизуємо документ, присвячений спортивним річковим дерев'яним судам: А3: Б2: Д2.
Можливість комбінувати різні ознаки різних фасет дозволяє використовувати фасетні класифікації при систематизації багатоаспектної літератури.
Наприклад, «Робота про температуру крові великої рогатої худоби в умовах альпійського високогір'я в середині літа» може становити інтерес для фізіолога, який досліджує склад крові у людини та тварини у певних умовах, біофізика, який вивчає температурні умови в цілому, зоолога (головний предмет вивчення ), ветеринара та тваринника, що вивчають кліматичну опірність організму тварин.
Аналітико-синтетична класифікація полегшує пошук документів із комплексними та диференційованими темами, поєднуючи однорідні компоненти в один загальний індекс.
В даний час багато ієрархічних класифікацій, таких як ББК, УДК в умовах застосування їх як ІСЯ в автоматизованих інформаційно-пошукових системах набувають якості фасетних класифікацій.
13. Склад, призначення, вимоги до іп. Класифікація дескрипторних іп'я.
Інформаційно-пошукова мова- Штучна мова, створений з метою кращої реалізації основної функції мови комунікативної, тобто функції передачі інформації. В інформаційній мові за рахунок однозначності запису інформації усувається варіантність позначення понять: виключається синонімія та омонімія; діє простіший, ніж у природній мові апарат граматики.
Внутрішня структура мови характеризується такими складовими - лексикою, граматикою та словотвором.
Лексика(Або словниковий склад) - це вся сукупність слів, що входять до складу мови.
Граматика- це система способів і засобів побудови слів і речень у мові, що розглядається. Граматика складається з морфологіїі синтаксису.
Морфологія-- це сукупність які у мові методів і засобів побудови слів.
Синтаксис- це сукупність діючих у мові способів та засобів побудови речень.
Словотвірвизначається як сукупність методів і засобів освіти слів з урахуванням вже існуючих.
Парадигмаминазиваються лексико-семантичні групи слів
ІПЯ - це штучна мова, спеціально сконструйована для зручного (людині) вираження основного змістового документів та запитів з метою подальшого їх зіставлення (системою).
Мови дескрипторного типупідтримують процес індексивання,який полягає у формуванні опису змісту документа як сукупності дескрипторів, що вибираються із заздалегідь створених словників понять або з тексту документа та позначають основні поняття цього документа.
Типи дескрипторних ІПЯ
Дескриптори- це призначені для координатного індексування документів та інформаційних запитів нормативні ключові слова, які за певними правилами відібрано з основного словникового складу тієї чи іншої природної мови та штучно усунуто синонімію, полісемію та омонімію.
Дескрипторною мовоюназивається спеціальний ІПЗ, словниковий склад якого складається з дескрипторів, а граматика, принаймні, зі способу побудови ПІД та пошукових розпоряджень шляхом координації відповідних дескрипторів^
Існують ІПЯ, в яких словосполучення та фрази, що виражають складні поняття двох і більш простих, задані в словнику поряд зі словами, що виражають прості поняття - п редкоординірованні.
для позначення основного змісту документів можна використовувати лише окремі слова, словосполучення та фрази, взяті зі словникового складу цієї мови. передкоординованим мовам органічно властива недостатність словникового складу, отже, і невелика семантична сила. Інший тип, у яких лексичні одиниці (терміни, слова) поєднуються в «пропозиції» (пошукові образи) лише під час індексування документів мул навіть у процесі їх пошуку називаютьсяпосткоордіними.
До індексування лексичні одиниці посткоординованих мов не пов'язані жодними синтагматичними відносинами.
типологія ІПС з погляду їхньої семантичної сили.