Ресурси
Начало
Новини
Продукти
Ресурси
Разработки
Образование
За нас
Контакти
Полезни връзки

[Прочети текстаAlt-0]

Ресурси

В рамките на своята дейност Българската асоциация за компютърна лингвистика е създала редица езикови ресурси, необходими за реализацията на приложни продукти. Те включват както информационни материали като лекции и статии, така и електронни бази като корпуси от текстове, фонетични, морфологични и синтактични правила и др. Освен това тези ресурси дават възможност за равностойно участие в бъдещи изследователски и приложни проекти.

Корпус от текстове на български език
Корпусът от текстове на български език беше разработен като част от проекта BalkaNet. Той е създаден по модела на известния корпус на Brown University и се състои от 1000805 думи, извлечени предимно от текстове в електронна форма. При съставянето му строго е спазвано изискването за включване на текстове само от български автори. Корпусът е разделен на 500 текстови единици от 15 различни категории, като всяка единица съдържа около 2000 думи. Може да намерите по-подробно описание на корпуса на английски тук.

Честотен речник на българските словоформи
Честотният речник е създаден чрез анализ на текстове с обем около 30 милиона думи и съдържа приблизително 230 хиляди словоформи. Думите са подредени по честота, като всяка от тях се среща най-малко два пъти в корпуса. Според получената информация най-често използваната дума в българския език е предлогът "на", който се среща 45,29 пъти на хиляда думи, следван от съюза "и" с 30,81.

Лекции на професора по филология Джон Синклер

 Професор Джон Синклер е идеолог на Collins Cobuild Dictionary и водещ специалист по корпусна лингвистика. Лекциите бяха изнесени на семинар от  21 до 24 октомври 2002 г. в Софийския университет "Св. Климент Охридски". Основните акценти в тях са създаването, обработката и анализът на текстове, лексикалната единица и нейната семантика, произходът и създаването на значението, въпросите за речта, както и стилистични проблеми. Повече за тях можете да намерите тук.

Лекции на проф. Макс Зилберщайн,

Проф. Макс Зилберщайн е създател на системата INTEX. Лекциите са предоставени специално на магистърската програма по компютърна лингвистика и цялостно представят възможностите на системата. Можете да заредите пълния им текст тук

Лекции на проф. Kjetil Ra Hauge

Известният българист от университета в Осло и зам. президент на "The Bulgarian Studies Association" проф. Kjetil Ra Hauge изнесе лекция на тема "Корпуси и корпусна лингвистика в Норвегия" в рамките на магистърската програма по компютърна лингвистика. Пълния текст на лекциите може да намерите тук.

Избрани публикации

  • Christian Strohmaier, Christoph Ringlstetter, Klaus U. Schulz and Stoyan Mihov, Lexical postcorrection of OCR-results: The web as a dynamic secondary dictionary? Proceedings of the 7th International Conference on Document Analysis and Recognition ICDAR'03.
  • Tinko Tinchev, Stoyan Mihov, Svetla Koeva, Angel Genov, Logic for WordNet. Annuaire Univ. Sofia, Fac. Math. Inf., vol. 95, 2002 (in print).
  • Klaus U. Schulz, Stoyan Mihov, Fast string correction with Levenshtein automata, IJDAR 5 (2002) 1, 67-85 Paper
  • Stoyan Mihov, Denis Maurel, Direct Construction of Minimal Acyclic Subsequential Transducers, Implementation and Application of Automata, S. Yu, A. Pun (Eds.), LNCS 2088, Springer 2001.
    gzipped postscript (140KB)
  • Светла Коева, Правила за пренасяне части от думите на нов ред, сп. Български език, 2000г., кн.2.
  • Jan Daciuk, Stoyan Mihov, Bruce Watson and Richard Watson, Incremental Construction of Minimal Acyclic Finite State Automata, Computational Linguistics, Volume 26, Issue 1, March 2000. gzipped postscript (58KB)
  • Светла Коева, Граматичен речник на българския език. Описание на концепцията за организация на лингвистичните данни, сп. Български език, 1998г., кн.6.

[НачалоAlt-1] [Новини Alt-2] [ПродуктиAlt-3] [РесурсиAlt-4] [Разработки Alt-5] [ОбразованиеAlt-6] [За насAlt-7] [КонтактиAlt-8] [Полезни връзкиAlt-9]