О проекте UNISLOVЗа последние сто с лишним лет многочисленные словари русского языка разных типов, в частности, толковые словари - издавались (и продолжают издаваться) типографским способом в виде бумажных книг достаточно большого объема. При этом использовались специфичные для словарей способы представления информации в виде расположенных в алфавитном порядке словарных статей с заголовками (словник) и текстами статей. Для экономии в них использовался мелкий шрифт и содержались различного рода условные обозначения и сокращения. Это было стандартно, но не очень удобно. В современную цифровую эпоху многие словари русского языка конвертированы в электроный вид, позволяющий осуществить онлайн-доступ по сети в интернете. Однако, чаще всего, подобные электронные словари являются лишь копиями соответствующих бумажных оригиналов. Представление словаря в виде html-страниц или PDF-файлов обеспечивает их чтение с компьютера или мобильного устройства, но известные неудобства в пользовании остаются. В нашем проекте UNISLOV сделана попытка реализовать и продемонстрировать альтернативный подход к построению электронных словарей русского языка. Суть которого заключается в создании базы данных, в которой каждое слово (заголовок в словнике, заголовочная единица) получает уникальный цифровой идентификатор (ID), являющийся номером сроки в таблице БД и используемый во всех словарных процедурах вместо самого слова-заголовка. Строка таблицы БД содержит само заголовочное слово, текст его толкования (одно или несколько значений), а также различные атрибуты, относящиеся к данному слову (часть речи, род, вид и т.д.). На основе такой базы данных формируются частные, специализированные словари (например, словарь существительных с подсловарями по родам и т.д.), представляющие собой отсортированные по алфавиту выборки групп слов по определенному критерию, использующему соответствующие атрибуты слов. Общее количество таких словарей в справочнике - несколько десятков . В качестве первичного источника информации при создании базы данных использован "Толково-словообразовательный словарь русского языка" Т.Ф. Ефремовой. Общий объем инфрмации в базе данных, а также толкование и ранжирование слов, в основном, соответствуют указанному "Толковому словарю". В базе данных содержится около 124 тыс. слов-заголовков, имеющих уникальные идентификаторы, общее количество значений слов - примерно 215 тыс. Необходимо учитывать, что словарь Т.Ф. Ефремовой издания 2000 года, основанный на более ранних словарях (видимо, на многотомном академическом словаре), отражает состояние русского языка во второй половине 20-го века, (а в отношении "устаревших" слов - в 19-20 веках), не учитывая неологизмов, появившихся в начале 21-го века. Структура словаряВ словаре-справочнике имеется шесть разделов:
В любом из этих разделов создается список слов, выбранных из БД по определеным критериям. Слово-заголовок является ссылкой, по которой открывается страница с более полной информацией: все значения слова, их толкование, категории, взаимосвязи, ссылки на дополнительные источники. Каждая такая страница (словарная статья) имеет уникальный адрес, который может быть использован в качестве ссылки на неё с любого интернет-ресурса. 1. Раздел АлфавитЭтот раздел представляет собой алфавитный указатель по всем словам, имеющимся в базе данных, т.е. это словарь в классическом представлении. При этом использованы одно-, двух- и трехбуквенные варианты индексации, что позволяет осуществлять навигацию по словарю более удобно и быстро (в отличие от обычно применяемых способов постраничного листания вперед-назад). В процессе навигации алфавитный указатель создается динамически, что позволяет адаптировать его к статистическому распределению начальных букв слов и избежать появления пустых двух- или трехбуквенных индексов. Аналогичным образом функционируют алфавитные указатели других разделов справочника. Примечания. В показанных в этом разделе списках слов некоторые из из заголовочных слов помечены символом *. Такая помета ("нелитературно") означает, что у этого слова-заголовка все значения являются устаревшими или стилистически окрашенными, т.е. такое слово нежелательно использовать в современной литературной письменной речи (кроме специальных случаев). В этом разделе кроме алфавитного указателя можно воспользоваться формой поиска, указав в ней не менее 4-х букв, с которых начинается нужное слово, либо не менее 2-х букв, на которые заканчивается слово. Кроме того, возможен поиск по маске с заменой пропущенных букв точками. 2. Раздел Морфология В этом разделе представлено одиннадцать словарей по частям речи:
В каждом словаре имеется алфавитный указатель, позволяющий выбрать нужный список слов, относящихся к даной части речи. По ссылке из такого списка открывается словарная статья, аналогичная описанной в разделе "Алфавит". Для слов, имеющих значения, отнесенные к разным частям речи, в словарной статье показаны только значения выбранной части речи. В словаре существительных кроме алфавитного указателя есть возможность выбора списка существительных по роду и некоторым другим параметрам. В словаре глаголов кроме алфавитного указателя есть возможность выбора списка глаголов по виду, переходности и безличности.
3. Раздел Морфемика В этом разделе представлено шесть словарей по частям речи:
В каждом словаре имеется алфавитный указатель, позволяющий выбрать нужный список слов, относящихся к даной части речи. По ссылке из такого списка открывается словарная статья, аналогичная описанной в разделе "Алфавит". 4. Раздел Формулы толкования Особенностью толково-словообразовательного словаря Т.Ф. Ефремовой является широкое и последовательное использование формул толкования при описании значений слов в словарных статьях. В нашем проекте использовано около 40 таких формул, относящихся к соответствующим частям речи: В частных словарях по формулам толкования списки слов создаются также по алфавитным указателям, но кроме заголовков в них присутствуют значения слов, раскрываемые через соответствующую формулу. Примечание. В нашей БД использованы формулы, перечисленные в параграфе 4 словаря Т.Ф. Ефремовой, однако существует еще пара десятков подобных формул, которые могут быть обнаружены в словаре в виде шаблонов в словарных статьях. И при необходимости они могут быть проиндексированы и добавлены в БД. 5. Раздел Стилистика В этом разделе представлены словари слов, имеющих значения, относящиеся к устным формам русского языка, со стилистическими, семантическими или иными пометами:
В каждом из таких словарей предусмотрено два варианта сортировки списка: Например, можно показать список (частный словарь) значений глаголов, помеченных как устаревшие. 6. Раздел Статистика В этом разделе представлена словарная статистика, которая отвечает на вопросы: "чего и сколько", "каких и сколько" применительно к словам руского языка. Здесь показаны статистические распределения слов по алфавиту, частям речи и категориям частей речи (для существительных и глаголов). Кроме того, в этом разделе предполагается размещение списков слов, выбранных на основе узкоспециализированных
критериев, в том числе - по запросам пользователей БД. Cловарная статьяЛюбой из созданных словарей представляет собой список слов (заголовков). Каждое слово списка является ссылкой на словарную статью, в которой содержатся тексты с описанием одного или нескольких значений данного слова. В случаях, когда это слово не имеет самостоятельного описательного толкования, а использует формулу толкования либо помечено как "смотри","тоже, что" и т.п., в текст словарной статьи добавляются описания значений отсылочных слов. В общем случае в каждой словарной статье кроме описания значений слова могут содержаться следующие дополнительные ссылки:
Примечания. С любыми вопросами, замечаниями и пожеланиями просьба обращаться на valery@nskhuman.ru Примечание. Автор данного проекта не является специалистом в лингвистике и языкознании, поэтому не судите строго за использование непривычных терминов или другие некорректности в специальной терминологии. |