|
[Прочети текстаAlt-0]
Ресурси В рамките на своята дейност Българската асоциация за компютърна лингвистика е създала редица езикови ресурси, необходими за реализацията на приложни продукти. Те включват
както информационни материали като лекции и статии, така и електронни бази като корпуси от текстове, фонетични, морфологични и синтактични правила и др. Освен това
тези ресурси дават възможност за равностойно участие в бъдещи изследователски и приложни проекти. Корпус от текстове на български език
Корпусът от текстове на български език беше разработен като част от проекта BalkaNet. Той е създаден по модела на известния корпус на Brown University и се състои от 1000805 думи,
извлечени предимно от текстове в електронна форма. При съставянето му строго е спазвано изискването за включване на текстове само от български автори. Корпусът е разделен на
500 текстови единици от 15 различни категории, като всяка единица съдържа около 2000 думи. Може да намерите по-подробно описание на корпуса на английски тук.Честотен речник на българските словоформи
Честотният речник е създаден чрез анализ на текстове с обем около 30 милиона думи и съдържа приблизително 230 хиляди словоформи. Думите са подредени по честота, като
всяка от тях се среща най-малко два пъти в корпуса. Според получената информация най-често използваната дума в българския език е предлогът "на", който се среща 45,29 пъти на хиляда думи, следван от съюза "и" с 30,81.
Лекции на професора по филология Джон Синклер Професор Джон Синклер е идеолог на Collins Cobuild Dictionary и водещ специалист по
корпусна лингвистика. Лекциите бяха изнесени на семинар от 21 до 24 октомври 2002 г. в Софийския университет "Св. Климент Охридски". Основните акценти в тях са създаването,
обработката и анализът на текстове, лексикалната единица и нейната семантика, произходът и създаването на значението, въпросите за речта, както и стилистични проблеми. Повече за тях можете да намерите тук. Лекции на проф. Макс Зилберщайн, Проф. Макс Зилберщайн е създател на системата INTEX. Лекциите са предоставени
специално на магистърската програма по компютърна лингвистика и цялостно представят възможностите на системата. Можете да заредите пълния им текст тук. Лекции на проф. Kjetil Ra Hauge Известният българист от университета в Осло и зам. президент на "The Bulgarian Studies
Association" проф. Kjetil Ra Hauge изнесе лекция на тема "Корпуси и корпусна лингвистика в Норвегия" в рамките на магистърската програма по компютърна лингвистика. Пълния текст на лекциите може да намерите тук. Избрани публикации
Christian Strohmaier, Christoph Ringlstetter, Klaus U. Schulz and Stoyan Mihov, Lexical postcorrection of OCR-results: The web as a dynamic secondary dictionary? Proceedings of the
7th International Conference on Document Analysis and Recognition ICDAR'03.
- Tinko Tinchev, Stoyan Mihov, Svetla Koeva, Angel Genov, Logic for WordNet. Annuaire Univ. Sofia, Fac. Math. Inf., vol. 95, 2002 (in print).
- Klaus U. Schulz, Stoyan Mihov, Fast string correction with Levenshtein automata, IJDAR 5 (2002) 1, 67-85
Paper
- Stoyan Mihov, Denis Maurel, Direct Construction of Minimal Acyclic Subsequential Transducers, Implementation and Application of Automata, S. Yu, A. Pun (Eds.), LNCS 2088, Springer 2001.
gzipped postscript (140KB)
- Светла Коева, Правила за пренасяне части от думите на нов ред, сп. Български език, 2000г., кн.2.
Jan Daciuk, Stoyan Mihov, Bruce Watson and Richard Watson, Incremental Construction of Minimal Acyclic Finite State Automata, Computational Linguistics, Volume 26, Issue 1, March 2000. gzipped postscript (58KB)
Светла Коева, Граматичен речник на българския език. Описание на концепцията за организация на лингвистичните данни, сп. Български език, 1998г., кн.6.
|