Форум Поща Карта на сайта Търсене Връзки Контакти
Начало Научна дейност Изследвания Катедра „Компютърна информатика” Технологии на естествените езици    English
Факултет по математика и информатика - Технологии на естествените езици
КОМПЮТЪРНО МОДЕЛИРАНЕ
НА ЕЗИКОВИ СТРУКТУРИ И ПРОЦЕСИ
С ПРИЛОЖЕНИЯ ЗА БЪЛГАРСКИЯ ЕЗИК

 

(научни и приложни резултати, получени
от членове на кат. „Компютърна информатика"
в периода 1988-2007 г.)

Основни научни приноси

Основните научни приноси на екипа от ПУ са в областта на концептуалното и лингвистичното моделиране. Оригиналните приноси могат да се обобщят в следните точки, които представят резултати, постигнати в периода 1989 - 2007 г.:

1. На основата на проведен анализ е уточнена ролята на различни видове мо­дели (когнитивни, концептуални, абстрактни, физически, информационни и компютърни) в процеса на познанието.
2. Създаден е математически модел на понятието предметна области фор­мално са определени редица характерни за ПО елементи.
3. Предложен е общ модел за представяне на езиковите структури и про­цеси в ЕЕ с въвеждането на структурни представяния, аналитични изображения и кон­текстни (евристични) правила за извършване на различните видове анализ и разреша­ване на лингвистичната многозначност.
4. Създаден е модел на краен автомат, който дава възможност за провеждане на контекстния лексикален анализ и решаване на многозначността въз основата на гра­матики, съставени от каскади (които представят всеки тип анализ) и е осъществен прог­рамен прототип.
5. Предложен е общ математически модел на компютърен речник и методика за създаване на системи от компютърни речници с автоматизирано изследване на стандар­тни речници и текстови корпуси.
6. Представени са формален и компютърен модел на морфологичен процесор (с възможности за точен и приближен анализ и синтез) и ефективно осъществяване (специ­ално в случая на ЕЕ от флективен тип), като са експериментирани методи за автоматизи­рано конвертиране на морфологичен речник в други типове компютърни.
7. Съпътстващ резултат е създадената солидна лексикална база от компю­търни речници за БЕ, включваща английско-български речник - с повече от 165 000 реда (лексеми), български синонимен речник - с около 25 000 синонимни гнезда, двус­транна връзка между повече от 50 000 български и английски синонимни редове (в про­цес на верификация), морфологичен речник с повече от 80 000 основни форми и др.
8. Създадени са методи и средства за всички видове анализ на български текс­тове, провеждани с каскадни граматики - сегментиране (с около 100 правила) на лексеми, изречения и абзаци, морфологичен анализ с разрешаване на многозначността (повече от 20 контекстни правила), синтактичен анализ (с унификационна атрибутна гра­матика на БЕ, която съдържа около 2 000 правила) и др.
9. Разработени са статистически методи за автоматична обработка на български текст (стохастичен маркировчик на базата на модели на Марков, синтактичен анализатор и др.).
10. Изследвани са методи за автоматично определяне на лексикални характеристики (ударения, вид на глагола и др.) и за автоматична класификация и обработка на лични имена.
11. Създадени са модели за автоматично изследване на структурата на български текст и извличане на семантични характеристики и конституентни правила от лекси­кални ресурси (стандартни речници и текстови корпуси).
12. Автоматизирано е изградена представителна лексикална база на БЕ с преп­ратки към световната семантична мрежа WordNet (около 50 000 синонимни реда в процес на уточняване и верификация).
13. Моделирани са морфологичен речник и процесите на словоизменение и словооб­разуване чрез специална двойка крайни автомати (двустепенен ацикличен автомат с етикети на крайните състояния, особено ефективни за анализ и синтез на текстове на флективни езици).
14. В областта на семантичния лингвистичен анализ са предложени и успешно експе­риментирани методи за разпознаване на семантични характеристики, мета­понятия и модели на управление на непознати за анализиращата система думи и кон­струкции.
15. Представен е модел за фонетична транскрипция (конвертиране на компю­търни български текстове до редица от фонеми), на основата на който е създадена прог­рамна система за озвучаване на компютърни български текстове, която използва създадена звукова БД (от звукови файлове, представящи българските алофони).

Други резултати, които съпътстват провеждането на изследванията:
а) получаване (вкл. и автоматично) на стотици правила на унификационна атри­бутна граматика на БЕ и на десетки решаващи правила за анализ на компютърен бъл­гарски текст.
б) създаване на прототип на лингвистичен процесор за БЕ под формата на много­целева програмна система за провеждане на лингвистични анализи на каскаден принцип и задаване на контекстни правила в каскадни граматики.
в) автоматизирано изграждане на лингвистична БД и граматика за БЕ, които съ­държат стотици хиляди речникови статии (свързани с фонетика, сегментиране и абреви­ация, лематизация, морфология, словообразуване, синтаксис, семантика и др.), вкл. и осигуряване на връзка с неформалния стандарт в тази област - световната лексикална база WordNet.
г) разработени са компютърни методи и средства за практическа реализация на интерфейси на български език (спец. към системи за обучение), за компютърно подпомогнато езиково обучение, и др.

Създадени методики, средства и лексикални/граматични ресурси

За формално представяне на системата от правила, използвана за компютърно мо­делиране на сегментирането на български текстове, формално се въвеждат повече от 60 понятия като текст, абзац, дума, изречение, цифра, българска дума с малки букви и др.
Сегментирането на входния текст става на два етапа. Най-напред се извличат думи на кирилица и латиница, после се извличат знакове за пунктуация, числа без десетична точка, след което се подават на сортировача на думи (token stapler). Сортировачът оформя комплексни лексеми на базата на правила за синтез. Правилата за синтез са сис­тематизирани в седем групи за: разпознаване на идентификатори на латиница, означа­ващи имена; разпознаване на числа, номера и цифрови означения; разпознаване на бук­вено-цифрови комбинации с букви на кирилица; разпознаване на римски числа; разпоз­наване на собствени имена; намиране на имена в кавички; разпознаване на абревиатури.
Системата за сегментиране на български текстове използва осем основни правила за край на изречения. Предложени са и редица от ев­ристики за извличане на заглавия - заглавията са важен елемент от входния текст, тъй като в тях обикновено се съдържат по-важните (ключови) думи, около които е изградено съдържанието.
Създаден и тестван е прототип на софтуерна система (РЕБУС) за осъществяване на различни видове анализи и трансформации върху компютърни текстове на БЕ, управ­лявана от редица (каскади) граматики (вкл. системи правила и евристики от горния вид).
В ПУ са създадени два морфологични анализатора: BulMorph 1.0 и BulMorph 2.0.
Система BulMorph 1.0 използва речник с над 65 000 основни форми, чрез които се кодират над 1 000 000 словоформи. BulMorph 1.0 включва и процедура за приближен морфологичен анализ на непознати словоформи, които не са в речника.
Методът за морфологичен анализ, който стои в основата на BulMorph 2.0, е основан на идея за иконо­мично представяне на лексикалния корпус на българските словоформи чрез т.нар. шаблони. В резултат пълната морфологична информация за началните 1 500 000 словоформи заема в BulMorph 2.0 по-малко от 1 MB дисково прос­транство. За сравнение, текстовото представяне на същия речник (с пълните морфоло­гични описания) изисква около 106 MB. BulMorph 2.0 се състои от три модула : Анализа­тор (включително морфологиченанализатор на непознати думи), Синтезатор (модул, който генерира възможни форми на думите) и Лематизатор (система за определяне на основната форма на думата). За произволна „позната" словоформа (от изходния корпус) Анализаторът определя основната форма на думата, нейния морфологичен клас и съ­ответстващите й граматически характеристики (род, число, лице, време и др.). При лема­тизацията (извеждането на основната форма) BulMorph 2.0 използва резултати, получени от Анализатора. В някои случаи се извежда повече от една лема (основна форма) за да­дена словоформа. Синтезаторът може да произведе от шаблона и парадигмата на анализираната дума всички словоформи (включително основната). За всяка „позната" форма на дума Анализаторът може да идентифицира основната форма на думата, но­мера на съответния флективен тип (включително каква част на речта е) и съответства­щите й граматични характеристики (род, определеност, число, лице, време и т. н.). При това не се изключват вариантите (морфологична многозначност). В резултат алгоритъмът поражда всички възможни набори от морфологични характеристики, които съответстват на анализираната форма на думата. Морфологична многозначност се среща при 34% от словоформите от началния корпус от 1 500 000 словоформи. Достигнатата скорост на МА е много висока - повече от 150 000 анализирани словоформи в секунда (при 1.6 гигахер­цов процесор).
Скоростта на приближенияанализ е сравнима с тази на точния анализ. За решаване на случите на морфологична многозначност се използват контекстни правила съг­ласно разработена методика.
BulMorph 2.0 предоставя удобни средства и за компютърно моделиране на българ­ското словообразуване. Така например, за всяка произвеждаща българска дума и нейна производна, с помощта на BulMorph 2.0, може да се изведе съответно трансфор­мационно правило. Всяко трансформационно правило се представя от следните еле­менти: а) тип на базовата основа (ядрото на словообразувателната парадигма); б) тип на резултатната основа; в) функционално преобразование на базовата до произвеждащата основа, и г) префикс и суфикс, добавяни към произвеждащата основа.
След прилагане на посочената методика към стандартен словообразувателен реч­ник на БЕ, който съдържа повече от 6 000 произвеждащи основи и над 30 000 техни производни, са получени над 9 400 трансформационни правила. От тях само 10 правила се срещат повече от 100 пъти, не повече от 300 - между 10 и 100 пъти, и над 6 800 правила - само по един път.
Резултат на проведено изследване е компютърна граматика на БЕ, съставена от 1,900 синтактични правила, представени с 67 фразовоструктурни правила, които обхва­щат основни синтактични конструкции в БЕ. В граматиката са описани и възвратните форми, клитиките, конструкциите с модални и фазови глаголи. Проведени експерименти с представената конституентна граматика показват точност 74.5% и 78.28% за анализа на групи NP.

Публикации и софтуерни системи

Резултати, представени в обзора, са приложени в няколко успешни европейски, на­ционални и университетски проекти в областта на концептуалното и лингвис­тично моделиране. Изследванията на лексиката на БЕ и създаването на компютърна семантична мрежа на думи (аналогична на EuroWordNet) за 6 европейски езика (българ­ски, гръцки, румънски, сърбохърватски, турски и чешки) бяха подкрепени от проект BalkaNet (2001 - 2004 г.), финансиран от 5-та рамкова програма за научни изследвания на ЕС в областта на информационните и комуникационни технологии.
По-голямата част от получените резултати са докладвани на национални и универ­ситетски конференции и семинари, а разработките - демонстрирани на различни научни форуми и изложения. Част от резултатите, представени в обзора са представени на международни кон­ференции в Испания (1993), Австрия (1993), Русия (2001, 2002, 2003), Индия (2002), Сло­вакия (2003) и България, а други с успех са използвани и мултиплицирани в междуна­родни и университетски проекти.
Списъкът на публикации по тематиката съдържа повече от 50 заглавия.
Основните резултати и методики в обзора са в основата на редица успешни софтуерни системи: среда за автоматизирано изследване на концептуални и линг­вистични структури ОМИР 1.0, морфологични процесори BulMorph 1.0 и BulMorph 2.0, стохастичен маркировчик на базата на модели на Марков BulTag, модул за автоматично поставяне на ударенията BullStress, системи за анализ на български текстове LINGUA и РЕБУС, система за лингвистично осигу­ряване на говора СЛОГ 1.0, система за корекции в говора ЛОГОПЕД и др.
По тематиката на обзора, до момента са защитили трима докторанти и повече от 60 дипломанти.

Перспективи

Перспективите за развитие на представените подходи, резултати, методи и средства са в две основни направления: лингвистично и компютърно моделиране на БЕ.
1. В областта на лингвистичното моделиране определен интерес представлява решаването на следните задачи:
а) развитие на общия лингвистичен модел с интегриране и на други равнища на анализа, свързани със синтактични и семантични трансформации (напр. логически ана­лиз - за идентифициране на предикати, обекти, логически съюзи и квантори);
б) създаване на модели за структурата и анализа на дискурса, необходими за анализа на свързан текст;
в) обогатяване на моделите с представяне на различни типове отношения и връзки между видовете лингвистични анализи;
г) проектиране и създаване на усъвършенстван модел на система за каскаден ана­лиз на компютърен текст, и др.
2. Важно за приложенията на информационните технологии в нашата страна е ин­тензифицирането на научните изследвания по компютърно моделиране на БЕ и, в част­ност, решаването на следните задачи:
а) развитие на модела на лингвистичен процесор за БЕ, а така също на методиката и средствата за автоматизирано изграждане на необходимите за целта лексикални ре­сурси;
б) създаване на (виртуален) граматичен процесор за БЕ с вградени средства за лингвистичен анализ и поддържане на интегрирана БД от каскадни граматики и разши­рени възможности за лингвистичен анализ;
в) автоматизирано построяване на компютърна граматика на БЕ с цел експери­ментиране и създаване на представителна лексикална база на БЕ и българската грама­тика;
г) свързване на създаваните лексикални бази с тези на други европейски езици (мултилингвистичен подход) с цел виртуалното им оценяване и ползване;
д) приложения на създадените програмни средства и лексикални бази за проекти­ране и създаване на конкретни системи за е-обучение (вкл. на лица със специални образователни потребности), извличане на данни и резюмиране, за класификация на документи, за синтезиране на отговори (вкл. при тестово е-изпитване) и др.

Друго важно направление на изследванията, провеждани в катедрата е в областта на дистанционното обучение, и по-специално по електронно обучение (вж. представения обзор за периода 1981 - 2007 г.)..

*Настоящата версия е изградена чрез Visual C++ 6.0 на платформа Windows XP.


Актуално
Още новини
Архив на новините
© 2009 ФМИ