|
Reconnaissance automatique des noms figes du coreen avec INTEX Sun-Mee BAE
Institut Gaspard Monge (IGM) Universite de Marne-la-Vallee sbaefr@hanmir.com or sbae@monge.univ-mlv.fr En
vue de la reconnaissance des sequences nominales figees par dictionnaire, nous avons classe celles-ci en trois categories selon les conventions typographiques : noms compacts (NC), noms figes a espacement facultatif
(NFF) et noms figes a espacement obligatoire (NFO). Puisque des formes flechies des sequences nominales figees apparaissent dans les textes coreens, nous avons construit, d'une part, un dictionnaire electronique des NFF
a 45000 entrees et d'autre part, un transducteur des sequences de postpositions nominales avec leur segmentation, et enfin fusionne ces deux ensembles de donnees partir de codes flexionnels associs chaque entre et de la
fonctionnalit de flexion dINTEX.
Dans notre experience, nous avons trouve 6 NFF par Ko de texte a la main, et 2,5 NFF par Ko de texte (soit 41 % de NFF) sont reconnus par la consultation de notre dictionnaire des
formes flechies des NFF. Voici le resultat de notre experience
Type du texte |
Taille du texte |
Nombre de NFFreconnus à la main |
Nombre de NFFreconnus par DELAF (A) |
Nombrede NFF reconnus par DELACF (B) |
Nombrede NFF reconnus (A + B) |
:
| |
Portionreconnue par DELAF et DELACF |
1 : Essai |
100 Ko |
624 |
172 |
90 |
262 |
42 % |
2 : Histoire |
100 Ko |
270 |
154 |
15 |
169 |
63 % |
3 : Société |
100 Ko |
842 |
267 |
7 |
274 |
33 % |
7 : magazine |
100 Ko |
736 |
169 |
9 |
178 |
24 % |
4 : Journal 1 |
100 Ko |
462 |
7 |
270 |
277 |
60 % |
5 : Journal 2 |
100 Ko |
535 |
8 |
265 |
273 |
51 % |
6 : Journal 3 |
100 Ko |
414 |
16 |
192 |
208 |
50 % |
8 : Journal 4 |
100 Ko |
881 |
199 |
53 |
252 |
29 % |
9 : Journal 5 |
100 Ko |
515 |
3 |
386 |
389 |
76 % |
10 : Journal 6 |
100 Ko |
696 |
130 |
66 |
196 |
28 % |
Total |
1 Mo |
5975 |
1125 |
1353 |
2478 |
41 % |
Figure 1. Portion reconnue des NFF par DELAF et DELACF
Notre dictionnaire construit daprs ces mthodes a les avantages suivants par rapport aux systmes prexistants :
(i) Le dictionnaire des formes fléchies de NFF permet la reconnaissance automatique de toutes les variantes de NFF liées à l'espacement
(ii) Le dictionnaire des formes fléchies de NFF permet la segmentation des formes fléchies des NFF en un NFF et une séquence de postpositions nominales
(iii) Le dictionnaire des séquences de postpositions nominales sous forme de graphes permet leur segmentation en postpositions nominales
(iv) Le dictionnaire des NFF sert à la segmentation des séquences nominales libres soudées (v) Le dictionnaire des NFF peut tre tendu en un dictionnaire bilingue pour la traduction automatique
(vi) Chaque entrée du dictionnaire de NFF comporte des codes utiles pour les applications dans le traitement
automatique : codes indiquant un trait sémantique, le statut de nom prédicatif, le nom tête de chaque entrée, l'origine et la catégorie grammaticale
Mapping, filtering and evaluating impact of ambiguous simple words in Portuguese texts
Jorge BAPTISTA Luís FAÍSCAU
jbaptis@ualg.pt faisca@ualg
.pt
This paper deals with ambiguous simple words of Portuguese. Mapping ambiguous words of a language is a preliminary step for devising strategies to deal with ambiguity in automatic lexical analysis of texts.
From the publicly available dictionary for simple words of Portuguese built by the LabEL team 1, it is possible to obtain the full list of ambiguous, different word forms2
, that is, word forms that belong to different categories and/or lemmas. For example, the three DELAF entries associated to the word form capital:capital,capital.A:ms:fs capital,capital.N:fs
capital,capital.N:ms can be reduced to a single line: capital, A/N/N in this list (amb-list). We can consider A/N/N an ambiguity class and say that its ambiguity degree (amb) is 3. There are
less then 200 ambiguity classes, and amb varies from 2 to 6. About 93.52 % of ambiguous forms show amb=2, and
5.87 % amb=2; the remaining ambiguous word forms represent less that 0.6 % of the list. The distribution of word forms by ambiguity classes is very uneven. The larger classes are:
Class # % amb-list
AN 24,318 56.388 %
AV 7,248 16.806 %
NV 6,422 14.891 %
ANV 1,324 3.070 %
VV 1,060 2.457 %
NN 842 1.952 %
ANN 684 1.586 %
NNV 198 0.459 %
Remaining classes 1030 2.388 % With this list one can have a measure of the impact of ambiguous forms over a text and, if the corpus is sufficiently large
to be representative of the language common use, it is also possible to list the ambiguous word forms of the corpus (and their frequency) in order to determine ways of reducing or eliminating ambiguity.
One way of reducing the ambiguity of a text's words is to built lexical filters that will rule out 'exotic' words, that is,
extremely unlikely lexical analysis for certain word forms (Baptista e Faísca 2001). For instance, the indefinite article (feminine) uma
is a very common word in any text. It is ambiguous with several inflected forms of the extremely rare verb umar 3, probably to be found only in dictionaries. Building a filter that eliminates this lexical analysis of the word
form uma would reduce the noise resulting from the dictionary, while keeping silence under strict control4. This can be
done using the word form ambiguity degree (amb) and the frequency information associated to it in a large corpus in order to achieve maximum reduction of the text's ambiguity.
In this paper we present another, complementary approach: we used ambiguity classes to identify different types of
ambiguity that can be systematically added to lexical filters. For example, in the AV ambiguity class, a large number of words correspond to the ambiguity between the plural form of an adjective ending in suffix
vel (Adj-ble) and the second person plural of imperfective past tense: laváveis,lavar.V:I2p laváveis,lavável.A:mp:fp
Now, the use of second person plural verb forms (V:I2p) is disappearing from common use. Removing such ambiguous
verb forms through a filter may be admissible in a number of NLP applications. It would not affect other V:I2p unambiguous verb forms. Error-rate is negligible. We will show other similar cases.
Building filters with formal criteria implies developing tools to customize and redraw filters according to the users
convenience. Looking ahead, we propose to use annotated ambiguity sub-lists to facilitate the assemblage of a filter that may be adapted to the users' needs. 1
http://label.ist.utl.pt/public-resources.html.2 This was done using a PERL program built by M. Silberztein. The resulting list presents about 43,000 different
ambiguous forms, which correspond to 4.846 % of the DELAF different word forms.3 According to the dictionary, this is said about wood that gets to much humidity.4
This requires checking up over a large corpus each word to be filtered.
MACRO - OR MICROSTRUCTURE?Improving the lexical coverage of an electronic dictionary while enriching microstructural information
Xavier Blanco Angels Catena Sandrine Fuentes Xavier.Blanco@uab.es
MariaAngeles.Catena@uab.es Sandrine.Fuentes@uab.esUniversitat Autònoma de Barcelona
It could be said, in a very synthetic manner, that in order to enrich a dictionary, one must perform two types of
operations: compile new linguistic units that are described as lexical entries, and add new information for already
available entries. In other words, one can enrich the macrostructure, or the microstructure, of the dictionary.However, we claim that these two operations are closely interdependent because:
-- on the one hand, a dictionary designed to be used by complex NLP applications necessarily represents lexical units
rather than forms. As far as a lexical unit is a set constituted by a form, a meaning, and a cluster of combinatorial properties, adding an entry implies introducing a certain view of microstructural values;
-- on the other hand, a considerable amount of simple forms are, from a linguistic point of view, not macrostructure, but
microstructure elements. Indeed, for instance, it is not elegant to systematically include as macrostructure elements regular forms such as inabatible, inatractivo, inacostumbrado, inactual, or
reacostumbrar, reaceptar, reacicalar... All these forms do occur in corpora, but it is symptomatic that none of them are listed in dictionaries. It would be unfair
to complain about the incompleteness of these dictionaries, without asking ourselves about the linguistic reasons for this situation.
Besides, an inventory of spanish simple forms must necessarily take into account more than two million forms with clitic pronouns: léeselo, dámelo, acerquémonos...
It does not seem natural to triple the size of the dictionary of Spanish simple forms, when in French for instance, these forms are absent of the simple forms dictionary because there are
conventionally spelled with an hyphen: donne-le-lui. Nevertheless, these forms must absolutely be recognized by the lexical analyzer if one wishes to build real world NLP applications.
The present article focuses on this topic, exposing the manner in which we intend to cope with apparent macrostructural
elements that must, in fact, be generated from microstructural information. The central idea consists in considering these
forms as the product of certain transformational operations on already existing entries. Thus, these simple forms must be
treated in a transformational paradigm of certain lemmas. This approach should have two main advantages: first, it
provides a more elegant description, in the sense that the existing dictionary is not distorted by the inclusion of a
disproportioned number of artificial new entries; second it "forces" linguists to enrich the microstructural information
associated with lexical entries, and improves the coherence of the linguistic description. Obviously, a computational
solution that allows one to recognize automatically these forms in texts during the lexical lookup of the main dictionary is
indispensable. The new INTEX 4.31 morphological functionality "Analyzed tokens" is the main computational tool that allows us to implement this linguistic model.
Les classifieurs temporels en chinois: étude préliminaire Ting-Au, CHENG
(Dept. of Chinese, Translation and Linguistics, City University of Hong Kong, 83 Tat Chee Ave, Kowloon, Hong Kong) ctchengt@cityu.edu.hk
Le chinois, étant une langue a classifier, en comporte trois sortes : classifieurs nominaux, verbaux et temporels. Du
dépouillement d'un corpus de 200 millions de graphèmes chinois il ressort 41 classifieurs temporels (CT), qui constituent
ici notre champs d'enquête. En fonction de la présence ou de l'absence des déterminants numéraux (cardinaux
/ordinaux ; ordinaux marques/non marques), il est dégage une description distributionnelle aux types combinatoires suivants :Type 1, qui n'autorise que l'ajout du cardinal, avec au total 13
Type 2, qui autorise l'ajout du cardinal et de l'ordinal marque, avec au total 12 Type 3, qui autorise l'ajout du cardinal et de l'ordinal non marque, avec au total 1
Type 4, qui autorise l'ajout du cardinal et de l'ordinal marque ou non marque, avec au total 2 Type 5, qui n'autorise que l'ajout de l'ordinal marque, avec au total 3
Type 6, qui autorise l'ajout de l'ordinal marque ou non marque, avec au total 1 Type 7, qui n'autorise que l'ajout de l'ordinal non marque, avec au total 9 L'insertion de ces éléments dans le cadre syntaxique suivant
# N0-CT W0-CT V N1-CT # constitue la base d'une grammaire locale pour les CT chinois.
Lexique-grammaire évolutif de l'acadien avec INTEX
Gisèle Chevalier Sylvia Kasparian Chevalg@umoncton.ca
, kaspars@umoncton.ca Département d'études françaises
Université de Moncton Moncton, N-B, E1A 3E9 Canada
Dans notre communication, nous présenterons les grandes lignes d'un nouveau projet de recherche que nous mettons en
place au LADT (Laboratoire d'Analyse de Données Textuelles) de l'Université de Moncton, en collaboration avec Max
Silberztein. L'objectif de ce projet de recherche est de développer l'outil INTEX pour décrire les parlers acadiens et
chiac, en particulier les transferts linguistiques entre le français acadien et l'anglais d'une part, et d'autre part, les
transferts entre les variétés acadiennes et les variétés qui lui servent de référence, les français hexagonal et québécois.
Notre recherche vise également à faire la synthèse des travaux existants en description de différentes variétés de l'acadien et à consigner les résultats des descriptions anciennes et nouvelles dans INTEX.
Le modèle théorique du Lexique-Grammaire de Maurice Gross à la base du logiciel français d'analyse linguistique
INTEX s'est révélé approprié à une approche comparative pour les expressions figées en français québécois (Labelle
1983 et ss). Nous nous proposons d'étendre l'application d'INTEX à tous les niveaux de description des parlers
acadiens : phénomènes (ortho)graphiques dus aux réalisations multiples de l'oralité et au manque de normalisation des
formes locales; phénonèmes morphologiques, telles les variantes de flexions verbales ou des formes de pronoms (jelle, zeux) ;
phénomènes syntaxiques (la transitivisation, les prépositions en position finale); particularismes lexicaux (expressions figées, dérivations, composition) et mixage de langue (l'incorporation de particules verbales, la
restructuration du SN). La construction du lexique-grammaire informatisé des parlers acadiens (dictionnaires lexico-sémantiques et dictionnaires
de graphes morphosyntaxiques) se fera par l'incorporation progressive des données des ouvrages de consultation
existants (glossaires, dictionnaires), le traitement de textes littéraires, journalistiques, oraux acadiens, la traduction des
données de la recherche existante dans le formalisme d'INTEX et l'intégration de descriptions originales à partir des observations que suscite le traitement de nouveaux corpus.
Dans la première phase du projet, nous prioriserons les questions de désambiguïsation des lexiques français et anglais, la
construction de graphes pour résoudre les problèmes de graphies multiples et de variation morphologique. La deuxième
phase sera consacrée à l'intégration des travaux recensés sur l'acadien et des descriptions qui ressortent à l'application
de nouveaux corpus comme la description de certaines classes de verbes tels les verbes supports (légers) et les constructions avec particules verbales (back, out, up)
en chiac. Dans la troisième phase, nous procéderons à la validation de nos travaux par le traitement de nouveaux corpus de tous genres, et par des vérifications des entrées linguistiques auprès d'informateurs. Notre projet innove parce qu'il soumet des exigences nouvelles à l'outil hautement performant qu'est INTEX, soit le
traitement de corpus oraux et d'états de langues variés et mixtes. Cet outil informatique qui débouchera sur une synthèse
électronique originale des travaux en linguistique acadienne fournira par ailleurs un outil qui fait défaut à la collectivité
scientifique et aux milieux d'éducation, et qui pourra être utilisé pour la reconnaissance automatique de textes littéraires, scientifiques, documentaires écrits ou oraux des variétés acadiennes du Nouveau-Brunswick.
Usage de INTEX pour la construction et la vérification de territoires lexicaux scientifiques historiquement déterminés: la langue de la neurologie de Duchenne de Boulogne à J. –M. Charcot à Jules Dejerine
Liborio Dibattista Seminario di Storia della Scienza – Università di Bari Palazzo Ateneo – Piazza Umberto I – labldiba@tin.it
Dans la pensée de Thomas Kuhn, historien et philosophe des sciences, il y a le penchant à valoriser les langages
scientifiques comme centrales dans la conception large et largement critiquée de paradigme: les révolutions scientifiques
deviennent par conséquent des changements de taxonomie. Cela dit les expressions « lexique et structure lexicale »
signifient, dans le domaine spécifique de la science, un dictionnaire structuré des termes de type qui représente une taxonomie de types naturels.
Cette affirmation méthodologique et l'hypothèse que le clinicien parisien Jean Martin Charcot ait été le fondateur de la
neurologie en discipline scientifique, représentent les bases d'un travail de recherche historiographique – qui, après
quatre ans, vient de se conclure et qui a été objet d'une communication préliminaire à Liège, il y trois ans – où on a utilisé le système INTEX pour repérer dans le corpus des ¥
de Charcot, un dictionnaire spécifique de lemmes neurologiques. Dans le cas spécifique le repérage des lemmes à insérer dans ce dictionnaire a été confié à des critères n'appartenant
pas à la base des données des connaissances scientifiques possédées par le chercheur : on a choisi, par exemple, tous
les mots composés techniques (e.g. « hémiplégie flasque,.N+NA+z3:fs/une » et tous les mots avec le trait d'union. En
plus, après l'individuation de formes verbales typiques du langage de Charcot ( Je <V> avec les occurrences les plus
fréquentes : je crois, j'affirme, je vais désigner sous le nom de...) on a retenu les mots en co-occurrence avec ces formes
verbales. Cela dit on a bâti un « lexique neurologique » (neuros.dic pour les mots simples et neuroc.dic pour les composées) qui compte à peu près 2300 entrées. On a étiqueté ces mots avec le tag
« neuro » et par conséquent on les a ajoutés aux dicos de INTEX. On a successivement recherché les occurrences des lemmes présentes dans ces dicos dans d'autres ouvrages de
neuropathologie du XIX siècle. En particulier on a choisi des specimina tirés de L'Electrisation localisée de Duchenne de Boulogne, écrit en 1855, vingt-cinq ans avant l'acmé de Charcot et de la
Sémiologie nerveuse de Jules Dejerine, un des successeurs de Charcot à la chaire de Clinique des maladies nerveuses, publié en 1914 et qui a constitué jusqu'à 1980 un manuel officiel de science neurologique. INTEX a ainsi montré que le corpus de Duchenne ne présente que 190 lemmes « neurologiques » c'est-à-dire moins d'un dixième du lexique charcotien, tandis qu'on a marqué dans le corpus
de Dejerine presque huit-cent mots avec le tag « neuro ». Par contre on a démontré que la plus part des mots neurologiques de Charcot qui ne passent pas dans la langue de
Dejerine appartiennent à des territoires scientifiques déjà obsolètes à l'époque de Dejerine (hystérie, médicine physiologique à la Broussais, latinismes).
Non seulement une analyse quantitative des lemmes qui passent d'un auteur à l'autre, mais on a réalisé aussi des spéculations sur la qualité de ces mots.
En plus, l'usage même d'un lexique beaucoup plus varié - mis en évidence par les graphiques des outils statistiques de
INTEX (Voy. « OTHERS ») – témoigne la volonté de la part de Charcot, d'une nouvelle taxonomie scientifique,
redondante en tant que proposition originale, qui va se réduire dans l'ouvrage de Dejerine dans une mise en état.
Dans un plus vaste contexte de recherche d'historiographie des sciences, l'usage de INTEX a permis la possibilité d'attribuer à un Auteur l'invention d'un territoire lexicale
relié à la naissance d'une nouvelle spécialité scientifique
Une leçon méthodologique en histoire de la médecine : l'application du système INTEX au texte "Recherches physiologiques sur la vie et la mort
" de Xavier Bichat. Un nouveau moyen d'exploitation de la langue médicale du XVIII siècleLucia di Palo Seminario di Storia della Scienza – Università di Bari
Palazzo Ateneo – Piazza Umberto I – l.dipalo@ria.uniba.it
« Une science ou un art ne commence à être science ou art que quand les connaissances acquises donnent lieu de lui faire une langue ».
C'est le médecin Tarin qui affirme cette proposition, lorsqu'il rédige, en 1751, l'article
« Anatomie » dans le premier volume de l'Encyclopédie de Diderot et d'Alembert.Par ailleurs une des thèses fondamentales concernant le processus de révision et de renouvellement de la médecine de la
fin du XVIII siècle aborde la question de la langue. Xavier Bichat, [1771-1802], avec ses "Recherches physiologiques sur la vie et la mort" représente, à la fin du XVIII
siècle, une médecine, ou mieux une physiologie en pleine transformation. Suivre ses « traces lexicales » veut être un
moyen pour considérer que le statut épistémologique de son renouvellement en inclut un de type lexical. Les étapes fondamentales pour l'analyse computationnelle du lexique des « Recherches »
Opération de pre-editing du corpus : Le corpus a été réduit en machine readable form, corrigé et formatté. On a choisi
de maintenir la graphie originale, opération qui a comporté la successive construction de dictionnaires spécifiques, (d'après la consultation des éditions du Dictionnaire de l'Académie
: 1. Paris, Cognard,1694; 2. Paris, Cognard, 1718; 3. Paris, Cognard, 1740; 4. Paris, Brunet, 1762; 5. Paris, Smits, 1798, 6. Paris, Firmin-Didot, 1835), contenant
toutes les occurrences archaïques présentes dans le texte. Celui-ci préparé on a procédé à l'application du système INTEX. Resultats Préliminaires: Formation de la liste de fréquence des formes du corpus
, ordonnées selon le nombre d'occurrences. Le premier substantif est sang qui compte au total 599 occurrences. Vie (454), cerveau (389), organes
(319), accompagné de sa forme au singulier (169), coeur (315) fonctions (276) mort (232), poumon (228), les adjectifs animale (237) e organique
(183) suivent. Le texte présente une démarche tout à fait singulière : une série de dyades conceptuelles fondent l'organisation du texte sur le modèle de la bipartition des « couples qui se comparent »
Cela dit une étude de proximité syntagmatique, réalisée au moyen de la construction de concordances lemmatisées de
termes significatifs comme par exemple la dyade : organe – fonction a montré le fait que la sphère sémantique et le
réseau de la connotation du terme « organe », par exemple, progressent au fur et à mesure qu'on procède dans le texte. Dans un lexique scientifique qui est en train de devenir spécifique (qui se veut
physiologique), les termes se lient et se coordonnent. L'analyse des termes qui entourent la sphère d'«organe » a été réalisée au moyen d'une concordance
lemmatisée [KWIC = Keyword in context], utilisant le formalisme: <organe>+<texture>+<organisation>+<tissu>,
signalant au logiciel la recherche des séquences textuelles en tant que co-occurrences, éléments contigus de la phrase. Analyse des termes ambigus, non reconnus du système INTEX, construction du
réseau verbal à la base du texte. En admettant que les structures verbales représentent des indices de l'originalité du lexique de l'auteur, on a procédé au
dépouillement de celles précédées du pronom personnel "je" (dont la fréquence s'est montrée très élevée dans le texte)
et des pronoms impersonnels "il" e "on", à travers la construction et l'application du formalisme <je+il+on><MOT>, afin d'avoir la possibilité de classer et surtout répertorier toutes les séquences verbales.
Conjugaison des verbes arabes avec INTEXIbtihal Farawi, GRELIS-LASELDI, Université de Franche-Comté, Besançon
Ce travail s'inscrit dans le projet d'analyse des textes arabes avec INTEX. Comme point de départ de cette recherche
nous aborderons le point morphologique en construisant un dictionnaire des verbes simples. Ce dictionnaire contiendra
environ 10000 verbes arabes avec leur code flexionnel respectif parmi une centaine de formes permettant leur conjugaison automatique dans un dictionnaire de type DELAF.
INTEX as an educational subject in the Master's program of Computational Linguistics at
Sofia University Svetla Koeva Ivelina Stoyanova Svetlozara Lesseva svetla@ibl.bas.bg iva@ibl.bas.bg
zara@ibl.bas.bg Institute for Bulgarian Language In 2001-2002 academic year INTEX was included as part of the curriculum of the master's program in Computational
Linguistics at Sofia University. The students worked on the compilation of a number of dictionaries and FST-s.Dictionaries of compound words with morphological information attached to the entries:
1. Compound nouns – historical events, periods, etc. 2. Compound nouns – personal names of famous people or popular characters in folklore, tales, films, etc.
3. Compound nouns – geographic denominations.
FS Graphs:
1. Graph for delimiting sentence boundaries – with additional embedded graphs for abbreviations.
2. Graph for compound conjunctions. They can be formed by various combinations: preposition+conjunction; conjunction+conjunction; particle+conjunction; the elements can be split by sentence constituents.
System of graphs for identifying analytic verb forms in the indicative in Bulgarian:
1. Morphological dictionary which contains: past participles, forms of the auxiliary verbs for perfect and past perfect, forms of the auxiliary verbs for future tenses.
2. Analysis of all the specific cases of inserting external elements between the parts of the verb form. 3. Graphs of all the forms of the tenses – with additional graphs for the inserted elements.
Some other problems concerning the analytic verb forms:
1. Identifying forms of passive voice. 2. Identifying analytic non-evidential verb forms.
During the current academic year the students will be working on similar tasks. The existing dictionaries will be expanded and new ones will be compiled such as:
1. Dictionaries of lexical and graphic abbreviations divided into types according to the immediate context – end of
sentence, middle of sentence, both types of occurrence, before or after a numeral, after a capital letter.
2. Dictionaries of phraseological units divided into subtypes according to the part of speech of the word which the phraseological unit can be substituted for.
3. Dictionaries of phraseological units classified into subtypes according to the possibility to include, omit or replace a word in the phraseological unit.
4. Dictionaries of toponyms – countries, cities, mountains, rivers, etc.
The individual tasks will include also construction of FST-s similar to or supplementing the ones worked out in the last academic year:
1. For identifying analytic verb forms. 2. For recognizing analytic numerals.
Semantic Relations in INTEX
Svetla Koeva and Stoyan Mihov svetla@bacl.org, stoyan@bacl.org Bulgarian Association for Computational Linguistics
We describe a method and implementation for presenting the synonymy, hyperonymy and meronymy relations into the
INTEX system. The idea is to create specialized semantic dictionaries for the different relations. Those dictionaries are extracted automatically using the WordNet structure and inflectional dictionaries.
WordNet is an electronic lexical thesaurus based on word meanings rather than word forms for the following categories:
nouns, verbs, adjectives and adverbs. The WordNet structure consists of synonymy sets (called synsets), which contain
literals of a given part-of-speech with equal meaning i.e. can be interchanged in a certain context. Synsets can be related
to each other by other semantic relations, such as hyponymy, hyperonymy (between general and more specific
concepts), meronymy (between parts and wholes), anthonymy, and many others. Some of the relations like hyperonymy and meronymy are not symmetric and have an inverse relation.
For each semantic relation we create a specific semantic dictionary. The dictionary consists of pairs of literals in the
corresponding semantic relation. Additionally we have to express in the dictionary all corresponding word forms their synonymy.
We give concrete examples in Bulgarian and English of the use of semantic the INTEX semantic dictionaries for pattern search and semantical concordance creation.
Conversion between Intex and MULTEX-East Morphosyntactic DescriptionCvetana Krstev, Du¥ Tomaz Erjavec, Jozef Stefan Institute, Ljubljana, Slovenia
The need for morphosyntactically annotated resources increases every day, which makes the standardization of the
annotations the major question in the exchange of processed documents. In this article we discuss the relation between
two annotation schemes: scheme that is generated by Intex on the basis of the morphosyntactic codes from Delaf/Delafc
dictionaries and scheme that was suggested in the scope of the MULTEX-East project. This question is particularly
important having in mind the efficiency of Intex in text preprocessing, but also its relative inefficiency in work with large texts.
Both schemes have been successfully applied to a number of languages, including several Slavic languages. Morphosyntactic description (abbr. MSD) developed in the scope of the MULTEX-East project is based on the
exhaustive description of morphological and morphosyntactic features of different languages and establishment of unique
codes for the common features. This scheme is positional: the significance of the particular code is determined by its
position in the string that encodes the morphosyntactic features of some word form. For instance, in the lexicon developed in accordance with MULTEX-East MSD for Slovenian the string: Afcfda(¥has the following meaning: to the simple word form ¥ cleaner) lemma ¥
clean) corresponds, while the associated MSD code has the meaning:POS A - Adjective Type f - qualificative Degree c - comparative
Gender f - feminine Number d - dual Case a - accusative Such a description enables, among other things, (a) the standardized tagging of common categories in several languages,
and (b) the searching system based on the reference to the corresponding position in the MSD-string. For instance, Af-f-- retrieves all the qualificative adjectives in any form of the feminine gender.
The same example could be encoded in the e-dictionaries of DELA form in the following way: ¥
The marker for the part of speech (in this case adjective) is now represented by the inflective class code while the
marker for the adjective type (in this case qualificative) is transferred in the zone of the syntactic and semantic features.
The other markers are in the zone of the codes of inflective categories. In this case, however the order of markers is
irrelevant: the cfda has the same meaning as fdac. The corresponding adjective form is in Serbian DELAF represented as:cyistoj,cyist.A17+PosQ:aefs3g:aefs7g The meaning of codes is as follows: a positive
e indefinite f feminine s singular 3, 7 dative, resp. locative g neutral in respect to animatness
In this paper we discuss the possibility to translate on coding scheme to another. Particularly, the possibility of use of finite transducers incorporated in Intex in process of conversion is investigated. Toma¥MULTEXT-East Morphosyntactic Specification for Slavic Languages, Proc. of workshop "Morphological Processing
of Slavic Languages", EACL'03, Budapest, April 13, 2003 Tomaz Erjavec, Roger Evans, Nancy Ide, and Adam Kilgarriff. 2000. The Concede Model for Lexical Databases. In LREC'00, pages 355--362, Paris. ELRA.
Tomaz Erjavec (ed.). 2001. Specifications and Notation for MULTEXTEast Lexicon Encoding. MULTEXTEast Report, Concede Edition D1.1F/Concede, Jožef Stefan Institute, Ljubljana. http://nl.ijs.si/ME/V2/msd/
Le module grec d'INTEX : Etat de l'art. Tita Kyriacopoulou tita@frl.auth.gr Rania Voskaki rvoskaki@hotmail.com
Anastasia Yannacopoulou nastasia@univ-mlv.fr Université Aristote de Thessalonique
Université de Marne-la-Vallée
Lors de cette présentation nous décrirons le module grec d'INTEX, que nous développons depuis 3 ans à l'Université
Aristote de Thessalonique. A l'heure actuelle il inclut des dictionnaires électroniques comportant :
- 60 000 noms simples,
- 12 000 verbes,
- 30 000 adjectifs,
- 7 000 adverbes simples et composés,
- 28 000 noms composés,
- 50 000 noms propres
- 2 000 noms de pays
- 1000 mots grammaticaux simples et composés
ainsi que quelques grammaires de désambiguïsation (concernant les cas, les pronoms, etc.). D'autres travaux sont actuellement en cours concernant : - Les proverbes
- Les adverbes composés - Les noms prédicatifs - Les verbes (lexique-grammaire) Nous parlerons plus particulièrement des mots élidés et des mots contractés.
Xavier Lepetit, Institut d'Études Romanes, Université de Copenhague, lepetit@hum.ku.dk L'importance des schémas de réalisation lexicale dans le TAL : le cas de l'expression du mouvement Le traitement automatique du langage a développé des outils pour traiter les niveaux morphologique et syntaxique du
langage. Le niveau morphologique ne pose aujourd'hui plus de problème et le niveau syntaxique est en voie d'être
maîtrisé, mais en voie seulement. Les descriptions sémantiques du langage sont rares et ne sont pas toujours conçues dans l'optique d'être appliquées en TAL, et elles ne sont donc pas toujours facilement formalisables.L'étape sémantique reste cependant la clé d'une désambiguïsation plus performante et d'une production automatique qui
tienne aussi compte du message à véhiculer et non seulement de règles syntaxiques censées fonctionner en dehors de tout contexte.
Pour preuve de l'importance de ces paramètres, je présenterai des données authentiques de production langagière orale.
Ces données sont des verbalisations d'une bande dessinée muette connue sous le nom de « Frog story » (Berman, R.A., Slobin, I. (1994). Relating events in narative: a crosslinguistic developmental study
, LEA publishers, Hillsdale, New Jersey.). Les données langagières sont produites dans une langue germanique et dans une langue romane : le danois et le français.
L'analyse des données met en lumière différentes stratégies quant à l'expression du mouvement. Certaines composantes
sémantiques ont tendance à être réalisées dans un certain type d'élément morphosyntaxique dans une langue alors que
c'est un autre type d'élément morphosyntaxique qui est chargé de véhiculer les composantes sémantiques similaires dans
l'autre langue : c'est ce qu'on appelle deux schémas de réalisation lexicale différents (Talmy, L. (1985). "Lexicalization patterns: semantic structure in lexical forms", in T. Shopen (Ed):
Language typology and syntactic description, Cambridge University Press). Ces faits contrastifs montrent à quel point syntaxe et sémantique sont liées et que le traitement de l'un des domaines
implique le traitement de l'autre pour parvenir à une analyse automatique fiable des données langagières.
L'analyse révèle aussi un phénomène intéressant : vu que telle ou telle composante sémantique est réalisée de façon
prototypique par tel ou tel élément morphosyntaxique et vu qu'il y a une différence de fréquence d'emploi des différents
éléments morphosyntaxiques selon leur rôle plus ou moins central dans la prédication, certaines composantes
sémantiques de l'expression du mouvement seront statistiquement plus ou moins exprimées, ou exprimées plus ou moins
implicitement, selon la langue dans laquelle la narration sera faite. Une composante sémantique réalisée par le verbe dans
une langue aura de grande chance d'être exprimée, alors que si cette même composante est exprimée par un élément qui
n'est pas obligatoire pour former une prédication dans une autre langue, un complément adverbial par exemple, les
locuteurs auront la possibilité de laisser implicite cet élément et de ne pas l'exprimer, comme on peut le voir dans les
deux exemples suivants, où l'ajout d'une indication de manière de se déplacer peut paraître jusqu'à être redondante à l'oreille d'un francophone :
A bird flew into the room. / Un oiseau est entré dans la pièce (en volant). Ces différents schémas de réalisation lexicale doivent être répertoriés et formalisés afin d'être intégrés à un traitement
automatique du langage couvrant les trois niveaux morphologique, syntaxique et sémantique des langues naturelles.
A renewed Portuguese module for INTEX 4.31Cristina Mota LabEL (CAUTL/IST) and Linguateca Av. Rovisco Pais I 1049-001 Lisboa, Portugal cristina@label.ist.utl.pt
The last INTEX version 4.31 presents several new powerful functionalities, in particular a new morphological parser.
The aim of our presentation is to describe a renewed Portuguese module optimized using this enhanced morphological
parser. Three major problems will be addressed: (i) the generation of diminutive, augmentative and superlative forms
from accented base forms (tábua/ tabuinha (board/little board); rápido/rapidíssimo (pale/very pale)) ; (ii) the recognition
of derived forms resulting from productive derivational processes (tapar/destapar (cover/uncover); possível/possivelmente (possible/possibly)); (iii) the analysis of modified verbal and clitic forms (Nós comprámos um
livro (We bought a book); Nós comprámo-lo (We bought it)).
Application of INTEX in refinement and validation of Serbian WordNet Ivan Obradovi¥Gordana Pavlovi¥ ana KrstevUniversity of Belgrade
WordNet (WN), inspired by research in the field of psycholinguistics and initially developed for the English language, is a
semantic network containing explicitly coded descriptions of semantic relations (Fellbaum, 1998). The experience gained
in the development of English WN led to the development of comparative databases for other languages (within the
EuroWordNet project for several EU languages, and then within the BalkaNet project, targeted mainly at Balkan languages). The organization of the WN semantic network is based on a grouping of synonyms into synsets -
representing network nodes. The nodes are interconnected by arcs that describe particular semantic relations
(hyperonymy, hyponymy, antonymy etc.) In general, every synset is accompanied by a gloss - an example that illustrates
the meaning of the concept represented by the synset. The semantic network itself is an XML-document with a precisely established set of entities.
The Serbian version of WN has been developed starting from the base concepts of the English WN, and using existing
English/Serbian dictionaries in paper form. Synset elements are represented by elements of the DELAS or DELAC
dictionaries without any additional morphosyntactic information. Lexical meanings in Serbian have been coded with reference to the dictionary (RMS-MH, 1967).
In the WN - semantic network built for Serbian in such a way - several problems could be identified when the semantic
relations were verified on a Serbian corpus. Among them, the most important is the lack of a more precise description of
conditions the lexemes from one synset need to fulfill to be regarded as synonyms (in terms of the possibility of their
mutual replacement). Using the bootstrap method (Gross, 2000) it is possible to refine both existing synsets and relations
among them. In this paper we illustrate this procedure. For a given lexeme INTEX graphs containing synsets comprising
this lexeme are constructed automatically, followed by appropriate glosses. These graphs are then applied to the corpus
in order to validate the synset. The procedure can lead either to an addition of new lexemes to the synset or elimination
of existing ones, or to a more precise description of the conditions for the appearance of the lexeme in the synset then it is presently the case. Fellbaum, C. (ed), 1998. WordNet: An Electronic Lexical Database,. MIT Press, Cambridge, MA.
Gross, Maurice. 2000. A Bootstrap method for Constructing Local Grammars. In: Bokan, Neda (Ed.): Proceedings of the Symposium "Contemporary Mathematics"
, Faculty of Mathematics, University of Belgrade. 229-250. RMS-MH, 1967. Re¥
, vol. 1-6, Novi Sad-Zagreb: Matica Srpska, Matica Hrvatska,
Dictionary of toponyms in Serbian Gordana Pavlovi¥ Du¥
Cvetana Krstev University of Belgrade
Analysis of daily newspapers by the Intex system, using lexical resources developed for Serbian, results in a class of
unrecognized words consisting predominantly of proper names, either personal names or geographical notions. On the
other side, a class of typical queries submitted to search engines contains elements of precisely this lexical level. Thus
improvement of retrieval performances depends on availability of lexical resources describing proper names.
Based on the Prolintex dictionary (Maurel, 1999), a dictionary delas-top for Serbian has been constructed consisting of
simple words corresponding to toponyms, hydronyms and oronyms. Sources for the first version were (a) atlas used in geography education in Serbia and (b) official register of inhabited places in former Yugoslavia.
For proper names collected in such a way orthographical variations are described, as well as names of inhabitants
including pejorative names (if such exist) and the corresponding possessive and relational adjectives. For example, a dictionary of type DELAS includes the following entries: Pariz,N Paris
pariski,A+PosQ Parisian (belonging or relating to Paris) Parizxanin,Nm Parisian (a man who comes from Paris) Parizxaninov,A+Pos Parisian's
(belonging to a man that comes from Paris) Parizxanka,Nf Parisian (a woman who comes from Paris) Parizxankin,A+Pos Parisian's (belonging to a woman who comes from Paris) parizxanski,A+PosQ in the way of Parisians Each entry is supplied with syntactic and semantic attributes according to Prolintex system's coding, e.g., Pariz,N+PGgr+IsoFR
Parizxaninov,A+Poss+Hum+IsoFR Inflection classes for simple words are taken from the Delaf system for Serbian and a portion of the DELAF-type
dictionary has been generated. Examples of complex queries over a daily newspapers corpus are presented in the paper.
Further system development includes description of compound toponyms (e.g., Novi Sad) as well as development of
local grammars describing relationships between toponyms and different ways in which they group together. For example, Yugoslavia is - ex-YU + SRJ +SCg +... Balkan's part, etc.
Denis Maurel, Odile Piton (1999): Un dictionnaire de noms propres pour INTEX: Les noms propres géographiques, Linguisticae Investigationes, tome XXII, 1998-1999 (Volume spécial: Cédrick Fairon (éd.):
Anallyse lexicale et syntaxiques : Le système INTEX), John Benjamin Publishing Company, Amsterdam/Philadelphia; pp. 279-290
LIKES : une station d'ingenierie linguistique pour la creation determinologie et d'ontologie ROUSSELOT, Françcois
LIKES une station d'ingenierie linguistique orientee creation de terminologie et d'ontologie: ressemblances et differences
avec INTEX. LIKES a ete realisee au depart pour analyser des corpus en vue de rechercher des candidats termes. LIKES travaille sans aucun dictionnaire
pour trouver des segments repetes, cette technique est facilement transportable d'une langue à l'autre pour toutes les langues non agglutinantes.(anglais , français, espagnol, bulgare, roumain, mais pas allemand).
Une autre fonctionnalite interessante de LIKES est l'aide à la recherche de schema morpho syntaxiques indices de la
presence de relations. Le programme, à partir d'une liste de contextes censes avoir des regularites , aide à construire un automate qui va effectuer la recherche.
Likes possede un outillage d'automates transducteurs dans la philosophie d'INTEX. Les etiquettes des automates peuvent être des lettres aussi peut-on facilement effectuer des recherches avec des
sequences de caracteres comportant à la fois des mots et des sous-mots. LIKES possede egalement une interface d'aide à la gestion d'une terminologie appuyee sur une hierachie conceptuelle.
Les segments repetes fournissent des candidats termes qui sont ensuite examines et eventuellement promus au rang de termes.
Chaque ensemble de termes synonymes est lie à un concept. Les concepts sont organises en une hierarchie.
Tout element repertories par LIKES, mot, candidat-terme, terme permet d'acceder aux contextes (phrases) de ses
occurrences. LIKES pour l'instant ne traite que des testes ASCII, mais sera etendu aux textes HTML, XML et pdf.
LIKES est totalement libre (programme et sources) pour une utilisation academique, pour la nouvelle version en cours, la compatibilite avec les formats INTEX est à l'ordre du jour.
NOOJ: A Cooperative Object Oriented Architecture for NLP
Max Silberztein LASELDI, Université de Franche-Comté
I present the new NOOJ linguistic development environment (v. 0.1), which will integrate all of the INTEX 4.32
functionalities in the short term. While NOOJ shares a lot with INTEX, its architecture is radically different and will allow
me to solve numerous linguistic problems that can not yet be satisfactorily solved with INTEX. The most important features of NOOJ are:
-- NOOJ's architecture is Object Oriented. In consequence, it will be easy to adapt NOOJ to new applications, or to build new language modules, even with radically new properties
-- NOOJ abandons the 2-level architecture of INTEX and offers all its functionalities in a single hierarchy of
components. Moreover, the classes and methods used by NOOJ will be published, so that any programmer will be able to access all of NOOJ functionalities from any other program (e.g. Microsoft Office can connect to NOOJ) -- NOOJ is now adapted to the parsing of large corpora made of a large number of file texts, rather than a single ANSI file. In consequence, NOOJ will easily be adapted to Internet applications.
Jean-Marie Viprey
LASELDI (Laboratoire de Sémio-Linguistique, Didactique, Informatique) EA 2281 Université de Franche-Comté (Besançon) 30 rue Mégevand F25030 Besançon Cedex
jean-marie.viprey@univ-fcomte.fr DIATAG_INTEX : CONVIVIALITE D'ETIQUETAGE DES AMBIGUS RESIDUELS CONCEPTION D'OUTILS STATISTIQUES DE CONTROLE Nous avons développé, sous ®Microsoft ®VisualBasic, un prototype de notre projet ®DiaTag (DIAlogic TAGging),
dont les objectifs et la conception générale ont été présentés aux 5èmes Journées Intex 2002 à Marseille (Viprey). Ce
module a été mis en ligne en Mars 2003 sur le site de téléchargement d'Intex et de ses ressources à l'Université de Franche-Comté.
L'utilisateur se voit présenter l'ensemble des cas résiduels (ambiguïtés non levées par transducteurs), aussi bien pour les
composés (présentés par ordre décroissant de longueur en mots simples) que pour les formes simples (présentées par
fréquence décroissante pour les plus fréquentes, puis par types d'ambiguïtés). Les cas sont présentés en concordance,
avec des cases à cocher alignées sur celle-ci, correspondant par codes couleurs aux diverses solutions possibles proposées.
Ce module sera très précieux croyons-nous pour parachever l'étiquetage de corpus en vue d'analyses textuelles en aval.
Nous souhaitons le présenter et le soumettre à critique, mais surtout esquisser les développements ultérieurs nécessaires.
Notamment, bien que l'environnement ait été déjà rationalisé et ergonomisé, les prises de décision restent soumises à une
forte pression empirique et aux aléas des sessions. Nous nous proposons donc d'instaurer des outils de contrôle visant
globalement à enregistrer et à synthétiser les décisions antérieurement prises, cas par cas, de manière à pouvoir alerter
l'utilisateur à propos de décisions apparemment contraires à la tendance consolidée et au-delà à constituer des banques d'expérience pouvant servir à la constitution assistée des futurs transducteurs.
Cela pourra aussi bien se faire à propos de séquences littérales individuelles qu'à propos de types de concurrences
d'étiquettes, et aussi bien dans l'environnement d'un utilisateur particulier qu'à l'échelle, pourquoi pas, de toute une communauté d'utilisateurs pour une langue donnée.
Description par automate des adverbes de date du grec moderneStavroula Voyatzi Université de Marne-la-Vallée voyagi@frl.auth.gr L'objectif de la présente communication est de décrire syntaxico-sémantiquement l'ensemble des adverbes de date du
grec en vue de leur traitement dans le système, INTEX. Dans un premier temps, nous réaliserons la description syntaxico-sémantique des adverbes de date, en distinguant : les adverbes de temps
¥+ ¥+ ¥ + ¥) ¥ (Iro est partie (hier + le 15 mai 2002 + mardi soir + à la nuit noire) pour Paris)les phrases prépositionnelles comportant des noms caractéristiques Ntps
¥
(Iro est partie avant la dernière semaine de mai pour Paris) les propositions subordonnées temporelles ¥ (Iro est partie pour Paris dès que son frère est rentré de son travail)
Ensuite, toutes ces formes seront représentées par des transducteurs finis dans le but de constituer une grammaire locale des adverbes de date. |