Abstract Texts
Home
News
Products
Resources
Research
Education
Information
Contact
Links

Íà áúëãàðñêè

Reconnaissance automatique des noms figes du coreen avec INTEX
Sun-Mee BAE
Institut Gaspard Monge (IGM)
Universite de Marne-la-Vallee
sbaefr@hanmir.com or
sbae@monge.univ-mlv.fr


En vue de la reconnaissance des sequences nominales figees par dictionnaire, nous avons classe celles-ci en trois categories selon les conventions typographiques : noms compacts (NC), noms figes a espacement facultatif (NFF) et noms figes a espacement obligatoire (NFO). Puisque des formes flechies des sequences nominales figees apparaissent dans les textes coreens, nous avons construit, d'une part, un dictionnaire electronique des NFF a 45000 entrees et d'autre part, un transducteur des sequences de postpositions nominales avec leur segmentation, et enfin fusionne ces deux ensembles de donnees partir de codes flexionnels associs chaque entre et de la fonctionnalit de flexion dINTEX.

Dans notre experience, nous avons trouve 6 NFF par Ko de texte a la main, et 2,5 NFF par Ko de texte (soit 41 % de NFF) sont reconnus par la consultation de notre dictionnaire des formes flechies des NFF. Voici le resultat de notre experience

Type du texte

Taille du texte

Nombre de NFF

reconnus à la main

Nombre de NFF

reconnus par DELAF (A)

Nombre

de NFF

reconnus

par

DELACF

(B)

Nombre

de NFF

reconnus

(A + B)

:

 

Portion

reconnue

par DELAF et DELACF

1 : Essai

100 Ko

624

172

90

262

42 %

2 : Histoire

100 Ko

270

154

15

169

63 %

3 : Société

100 Ko

842

267

7

274

33 %

7 : magazine

100 Ko

736

169

9

178

24 %

4 : Journal 1

100 Ko

462

7

270

277

60 %

5 : Journal 2

100 Ko

535

8

265

273

51 %

6 : Journal 3

100 Ko

414

16

192

208

50 %

8 : Journal 4

100 Ko

881

199

53

252

29 %

9 : Journal 5

100 Ko

515

3

386

389

76 %

10 : Journal 6

100 Ko

696

130

66

196

28 %

Total

1 Mo

5975

1125

1353

2478

41 %

Figure 1. Portion reconnue des NFF par DELAF et DELACF

Notre dictionnaire construit daprs ces mthodes a les avantages suivants par rapport aux systmes prexistants :

(i) Le dictionnaire des formes fléchies de NFF permet la reconnaissance automatique de toutes les variantes de NFF liées à l'espacement
(ii) Le dictionnaire des formes fléchies de NFF permet la segmentation des formes fléchies des NFF en un NFF et une séquence de postpositions nominales
(iii) Le dictionnaire des séquences de postpositions nominales sous forme de graphes permet leur segmentation en postpositions nominales
(iv) Le dictionnaire des NFF sert à la segmentation des séquences nominales libres soudées
(v) Le dictionnaire des NFF peut tre tendu en un dictionnaire bilingue pour la traduction automatique
(vi) Chaque entrée du dictionnaire de NFF comporte des codes utiles pour les applications dans le traitement automatique : codes indiquant un trait sémantique, le statut de nom prédicatif, le nom tête de chaque entrée, l'origine et la catégorie grammaticale


Mapping, filtering and evaluating impact of ambiguous simple words in Portuguese texts

Jorge BAPTISTA                                         Luís FAÍSCAU

jbaptis@ualg.pt                                           faisca@ualg .pt

 

This paper deals with ambiguous simple words of Portuguese. Mapping ambiguous words of a language is a preliminary step for devising strategies to deal with ambiguity in automatic lexical analysis of texts.

From the publicly available dictionary for simple words of Portuguese built by the LabEL team1, it is possible to obtain the full list of ambiguous, different word forms2 , that is, word forms that belong to different categories and/or lemmas. For example, the three DELAF entries associated to the word form capital:

capital,capital.A:ms:fs

capital,capital.N:fs

capital,capital.N:ms

can be reduced to a single line:

capital, A/N/N

in this list (amb-list). We can consider A/N/N an ambiguity class and say that its ambiguity degree (amb) is 3. There are less then 200 ambiguity classes, and amb varies from 2 to 6. About 93.52 % of ambiguous forms show amb=2, and 5.87 % amb=2; the remaining ambiguous word forms represent less that 0.6 % of the list. The distribution of word forms by ambiguity classes is very uneven. The larger classes are:

Class                         #         % amb-list
AN                      24,318        56.388 %
AV                        7,248        16.806 %
NV                        6,422        14.891 %
ANV                     1,324          3.070 %
VV                        1,060          2.457 %
NN                           842          1.952 %

ANN                        684          1.586 %
NNV                        198          0.459 %

Remaining classes 1030          2.388 %

With this list one can have a measure of the impact of ambiguous forms over a text and, if the corpus is sufficiently large to be representative of the language common use, it is also possible to list the ambiguous word forms of the corpus (and their frequency) in order to determine ways of reducing or eliminating ambiguity.

One way of reducing the ambiguity of a text's words is to built lexical filters that will rule out 'exotic' words, that is, extremely unlikely lexical analysis for certain word forms (Baptista e Faísca 2001). For instance, the indefinite article (feminine) uma is a very common word in any text. It is ambiguous with several inflected forms of the extremely rare verb umar3, probably to be found only in dictionaries. Building a filter that eliminates this lexical analysis of the word form uma would reduce the noise resulting from the dictionary, while keeping silence under strict control4. This can be done using the word form ambiguity degree (amb) and the frequency information associated to it in a large corpus in order to achieve maximum reduction of the text's ambiguity.

In this paper we present another, complementary approach: we used ambiguity classes to identify different types of ambiguity that can be systematically added to lexical filters. For example, in the AV ambiguity class, a large number of words correspond to the ambiguity between the plural form of an adjective ending in suffix  vel (Adj-ble) and the second person plural of imperfective past tense:

laváveis,lavar.V:I2p

laváveis,lavável.A:mp:fp

Now, the use of second person plural verb forms (V:I2p) is disappearing from common use. Removing such ambiguous verb forms through a filter may be admissible in a number of NLP applications. It would not affect other V:I2p unambiguous verb forms. Error-rate is negligible. We will show other similar cases.

Building filters with formal criteria implies developing tools to customize and redraw filters according to the users convenience. Looking ahead, we propose to use annotated ambiguity sub-lists to facilitate the assemblage of a filter that may be adapted to the users' needs.

1 http://label.ist.utl.pt/public-resources.html.

2 This was done using a PERL program built by M. Silberztein. The resulting list presents about 43,000 different ambiguous forms, which correspond to 4.846 % of the DELAF different word forms.

3 According to the dictionary, this is said about wood that gets to much humidity.

4 This requires checking up over a large corpus each word to be filtered.


MACRO - OR MICROSTRUCTURE?

Improving the lexical coverage of an electronic dictionary

while enriching microstructural information

Xavier Blanco Angels Catena Sandrine Fuentes

Xavier.Blanco@uab.es MariaAngeles.Catena@uab.es Sandrine.Fuentes@uab.es

Universitat Autònoma de Barcelona

 

It could be said, in a very synthetic manner, that in order to enrich a dictionary, one must perform two types of operations: compile new linguistic units that are described as lexical entries, and add new information for already available entries. In other words, one can enrich the macrostructure, or the microstructure, of the dictionary.

However, we claim that these two operations are closely interdependent because:

-- on the one hand, a dictionary designed to be used by complex NLP applications necessarily represents lexical units rather than forms. As far as a lexical unit is a set constituted by a form, a meaning, and a cluster of combinatorial properties, adding an entry implies introducing a certain view of microstructural values;

-- on the other hand, a considerable amount of simple forms are, from a linguistic point of view, not macrostructure, but microstructure elements. Indeed, for instance, it is not elegant to systematically include as macrostructure elements regular forms such as inabatible, inatractivo, inacostumbrado, inactual, or reacostumbrar, reaceptar, reacicalar... All these forms do occur in corpora, but it is symptomatic that none of them are listed in dictionaries. It would be unfair to complain about the incompleteness of these dictionaries, without asking ourselves about the linguistic reasons for this situation.

Besides, an inventory of spanish simple forms must necessarily take into account more than two million forms with clitic pronouns: léeselo, dámelo, acerquémonos... It does not seem natural to triple the size of the dictionary of Spanish simple forms, when in French for instance, these forms are absent of the simple forms dictionary because there are conventionally spelled with an hyphen: donne-le-lui. Nevertheless, these forms must absolutely be recognized by the lexical analyzer if one wishes to build real world NLP applications.

The present article focuses on this topic, exposing the manner in which we intend to cope with apparent macrostructural elements that must, in fact, be generated from microstructural information. The central idea consists in considering these forms as the product of certain transformational operations on already existing entries. Thus, these simple forms must be treated in a transformational paradigm of certain lemmas. This approach should have two main advantages: first, it provides a more elegant description, in the sense that the existing dictionary is not distorted by the inclusion of a disproportioned number of artificial new entries; second it "forces" linguists to enrich the microstructural information associated with lexical entries, and improves the coherence of the linguistic description. Obviously, a computational solution that allows one to recognize automatically these forms in texts during the lexical lookup of the main dictionary is indispensable. The new INTEX 4.31 morphological functionality "Analyzed tokens" is the main computational tool that allows us to implement this linguistic model.


Les classifieurs temporels en chinois: étude préliminaire
Ting-Au, CHENG
(Dept. of Chinese, Translation and Linguistics, City University of Hong Kong, 83 Tat Chee Ave, Kowloon, Hong Kong)

ctchengt@cityu.edu.hk

Le chinois, étant une langue a classifier, en comporte trois sortes : classifieurs nominaux, verbaux et temporels. Du dépouillement d'un corpus de 200 millions de graphèmes chinois il ressort 41 classifieurs temporels (CT), qui constituent ici notre champs d'enquête. En fonction de la présence ou de l'absence des déterminants numéraux (cardinaux /ordinaux ; ordinaux marques/non marques), il est dégage une description distributionnelle aux types combinatoires suivants :

Type 1, qui n'autorise que l'ajout du cardinal, avec au total 13

Type 2, qui autorise l'ajout du cardinal et de l'ordinal marque, avec au total 12

Type 3, qui autorise l'ajout du cardinal et de l'ordinal non marque, avec au total 1

Type 4, qui autorise l'ajout du cardinal et de l'ordinal marque ou non marque, avec au total 2

Type 5, qui n'autorise que l'ajout de l'ordinal marque, avec au total 3

Type 6, qui autorise l'ajout de l'ordinal marque ou non marque, avec au total 1

Type 7, qui n'autorise que l'ajout de l'ordinal non marque, avec au total 9

L'insertion de ces éléments dans le cadre syntaxique suivant

# N0-CT W0-CT V N1-CT #

constitue la base d'une grammaire locale pour les CT chinois.


Lexique-grammaire évolutif de l'acadien avec INTEX

Gisèle Chevalier                          Sylvia Kasparian

Chevalg@umoncton.ca ,                      kaspars@umoncton.ca

Département d'études françaises

Université de Moncton

Moncton, N-B, E1A 3E9

Canada

 

Dans notre communication, nous présenterons les grandes lignes d'un nouveau projet de recherche que nous mettons en place au LADT (Laboratoire d'Analyse de Données Textuelles) de l'Université de Moncton, en collaboration avec Max Silberztein. L'objectif de ce projet de recherche est de développer l'outil INTEX pour décrire les parlers acadiens et chiac, en particulier les transferts linguistiques entre le français acadien et l'anglais d'une part, et d'autre part, les transferts entre les variétés acadiennes et les variétés qui lui servent de référence, les français hexagonal et québécois. Notre recherche vise également à faire la synthèse des travaux existants en description de différentes variétés de l'acadien et à consigner les résultats des descriptions anciennes et nouvelles dans INTEX.

Le modèle théorique du Lexique-Grammaire de Maurice Gross à la base du logiciel français d'analyse linguistique INTEX s'est révélé approprié à une approche comparative pour les expressions figées en français québécois (Labelle 1983 et ss). Nous nous proposons d'étendre l'application d'INTEX à tous les niveaux de description des parlers acadiens : phénomènes (ortho)graphiques dus aux réalisations multiples de l'oralité et au manque de normalisation des formes locales; phénonèmes morphologiques, telles les variantes de flexions verbales ou des formes de pronoms (jelle, zeux) ; phénomènes syntaxiques (la transitivisation, les prépositions en position finale); particularismes lexicaux (expressions figées, dérivations, composition) et mixage de langue (l'incorporation de particules verbales, la restructuration du SN).

La construction du lexique-grammaire informatisé des parlers acadiens (dictionnaires lexico-sémantiques et dictionnaires de graphes morphosyntaxiques) se fera par l'incorporation progressive des données des ouvrages de consultation existants (glossaires, dictionnaires), le traitement de textes littéraires, journalistiques, oraux acadiens, la traduction des données de la recherche existante dans le formalisme d'INTEX et l'intégration de descriptions originales à partir des observations que suscite le traitement de nouveaux corpus.

Dans la première phase du projet, nous prioriserons les questions de désambiguïsation des lexiques français et anglais, la construction de graphes pour résoudre les problèmes de graphies multiples et de variation morphologique. La deuxième phase sera consacrée à l'intégration des travaux recensés sur l'acadien et des descriptions qui ressortent à l'application de nouveaux corpus comme la description de certaines classes de verbes tels les verbes supports (légers) et les constructions avec particules verbales (back, out, up) en chiac. Dans la troisième phase, nous procéderons à la validation de nos travaux par le traitement de nouveaux corpus de tous genres, et par des vérifications des entrées linguistiques auprès d'informateurs.

Notre projet innove parce qu'il soumet des exigences nouvelles à l'outil hautement performant qu'est INTEX, soit le traitement de corpus oraux et d'états de langues variés et mixtes. Cet outil informatique qui débouchera sur une synthèse électronique originale des travaux en linguistique acadienne fournira par ailleurs un outil qui fait défaut à la collectivité scientifique et aux milieux d'éducation, et qui pourra être utilisé pour la reconnaissance automatique de textes littéraires, scientifiques, documentaires écrits ou oraux des variétés acadiennes du Nouveau-Brunswick.


Usage de INTEX pour la construction et la vérification de territoires lexicaux scientifiques historiquement déterminés: la langue de la neurologie de Duchenne de Boulogne à J. –M. Charcot à Jules Dejerine

Liborio Dibattista

Seminario di Storia della Scienza – Università di Bari

Palazzo Ateneo – Piazza Umberto I – labldiba@tin.it

 

Dans la pensée de Thomas Kuhn, historien et philosophe des sciences, il y a le penchant à valoriser les langages scientifiques comme centrales dans la conception large et largement critiquée de paradigme: les révolutions scientifiques deviennent par conséquent des changements de taxonomie. Cela dit les expressions « lexique et structure lexicale » signifient, dans le domaine spécifique de la science,  un dictionnaire structuré des termes de type qui représente une taxonomie de types naturels.

Cette affirmation méthodologique et l'hypothèse que le clinicien parisien Jean Martin Charcot ait été le fondateur de la neurologie en discipline scientifique, représentent les bases d'un travail de recherche historiographique – qui, après quatre ans, vient de se conclure et qui a été objet d'une communication préliminaire à Liège, il y trois ans – où on a utilisé le système INTEX pour repérer dans le corpus des ¥ de Charcot, un dictionnaire spécifique de lemmes neurologiques.

Dans le cas spécifique le repérage des lemmes à insérer dans ce dictionnaire a été confié à des critères n'appartenant pas à la base des données des connaissances scientifiques possédées par le chercheur : on a choisi, par exemple, tous les mots composés techniques (e.g.  « hémiplégie flasque,.N+NA+z3:fs/une » et tous les mots avec le trait d'union. En plus, après l'individuation de formes verbales typiques du langage de Charcot ( Je <V> avec les occurrences les plus fréquentes : je crois, j'affirme, je vais désigner sous le nom de...) on a retenu les mots en co-occurrence avec ces formes verbales. Cela dit on a bâti un « lexique neurologique » (neuros.dic pour les mots simples et neuroc.dic pour les composées) qui compte à peu près 2300 entrées. On a étiqueté ces mots avec le tag « neuro » et par conséquent on les a ajoutés aux dicos de INTEX.

On a successivement recherché les occurrences des lemmes présentes dans ces dicos dans d'autres ouvrages de neuropathologie du XIX siècle. En particulier on a choisi des specimina tirés de L'Electrisation localisée de Duchenne de Boulogne, écrit en 1855, vingt-cinq ans avant l'acmé de Charcot et de la Sémiologie nerveuse de Jules Dejerine, un des successeurs de Charcot à la chaire de Clinique des maladies nerveuses, publié en 1914 et qui a constitué jusqu'à 1980 un manuel officiel de science neurologique.

INTEX a ainsi montré que le corpus de Duchenne ne présente que 190 lemmes « neurologiques » c'est-à-dire moins d'un dixième du lexique charcotien, tandis qu'on a marqué dans le corpus de Dejerine presque huit-cent mots avec le tag « neuro ».

Par contre on a démontré que la plus part des mots neurologiques de Charcot qui ne passent pas dans la langue de Dejerine appartiennent à des territoires scientifiques déjà obsolètes à l'époque de Dejerine (hystérie, médicine physiologique à la Broussais, latinismes).

Non seulement une analyse quantitative des lemmes qui passent d'un auteur à l'autre, mais on a réalisé aussi des spéculations sur la qualité de ces mots.

En plus, l'usage même d'un lexique beaucoup plus varié - mis en évidence par les graphiques des outils statistiques de INTEX (Voy. « OTHERS ») – témoigne la volonté de la part de Charcot, d'une nouvelle taxonomie scientifique, redondante en tant que proposition originale, qui va se réduire dans l'ouvrage de Dejerine dans une mise en état.

Dans un plus vaste contexte de recherche d'historiographie des sciences, l'usage de INTEX a permis la possibilité d'attribuer à un Auteur l'invention d'un territoire lexicale relié à la naissance d'une nouvelle spécialité scientifique


Une leçon méthodologique en histoire de la médecine : l'application du système INTEX au texte "Recherches physiologiques sur la vie et la mort " de Xavier Bichat. Un nouveau moyen d'exploitation de la langue médicale du XVIII siècle

Lucia di Palo

Seminario di Storia della Scienza – Università di Bari

Palazzo Ateneo – Piazza Umberto I – l.dipalo@ria.uniba.it

 

« Une science ou un art ne commence à être science ou art que quand les connaissances acquises donnent lieu de lui faire une langue ». C'est le médecin Tarin qui affirme cette proposition, lorsqu'il rédige, en 1751, l'article « Anatomie » dans le premier volume de l'Encyclopédie de Diderot et d'Alembert.

Par ailleurs une des thèses fondamentales concernant le processus de révision et de renouvellement de la médecine de la fin du XVIII siècle aborde la question de la langue.

Xavier Bichat, [1771-1802], avec ses "Recherches physiologiques sur la vie et la mort" représente, à la fin du XVIII siècle, une médecine, ou mieux une physiologie en pleine transformation. Suivre ses « traces lexicales » veut être un moyen pour considérer que le statut épistémologique de son renouvellement en inclut un de type lexical.

Les étapes fondamentales pour l'analyse computationnelle du lexique des « Recherches »

Opération de pre-editing du corpus : Le corpus a été réduit en machine readable form, corrigé et formatté. On a choisi de maintenir la graphie originale, opération qui a comporté la successive construction de dictionnaires spécifiques, (d'après la consultation des éditions du Dictionnaire de l'Académie  : 1. Paris, Cognard,1694; 2. Paris, Cognard, 1718; 3. Paris, Cognard, 1740; 4. Paris, Brunet, 1762; 5. Paris, Smits, 1798, 6. Paris, Firmin-Didot, 1835), contenant toutes les occurrences archaïques présentes dans le texte. Celui-ci préparé on a procédé à l'application du système INTEX.

Resultats Préliminaires: Formation de la liste de fréquence des formes du corpus , ordonnées selon le nombre d'occurrences. Le premier substantif est sang qui compte au total 599 occurrences. Vie (454), cerveau (389), organes (319), accompagné de sa forme au singulier (169), coeur (315) fonctions (276) mort (232), poumon (228), les adjectifs animale (237) e organique (183) suivent. Le texte présente une démarche tout à fait singulière : une série de dyades conceptuelles fondent l'organisation du texte sur le modèle de la bipartition des « couples qui se comparent » Cela dit une étude de proximité syntagmatique, réalisée au moyen de la construction de concordances lemmatisées de termes significatifs comme par exemple la dyade : organe – fonction a montré le fait que la sphère sémantique et le réseau de la connotation du terme « organe », par exemple, progressent au fur et à mesure qu'on procède dans le texte. Dans un lexique scientifique qui est en train de devenir spécifique (qui se veut physiologique), les termes se lient et se coordonnent. L'analyse des termes qui entourent la sphère d'«organe » a été réalisée au moyen d'une concordance lemmatisée [KWIC = Keyword in context], utilisant le formalisme: <organe>+<texture>+<organisation>+<tissu>, signalant au logiciel la recherche des séquences textuelles en tant que co-occurrences, éléments contigus de la phrase.

Analyse des termes ambigus, non reconnus du système INTEX, construction du réseau verbal à la base du texte. En admettant que les structures verbales représentent des indices de l'originalité du lexique de l'auteur, on a procédé au dépouillement de celles précédées du pronom personnel "je" (dont la fréquence s'est montrée très élevée dans le texte) et des pronoms impersonnels "il" e "on", à travers la construction et l'application du formalisme <je+il+on><MOT>, afin d'avoir la possibilité de classer et surtout répertorier toutes les séquences verbales.


Conjugaison des verbes arabes avec INTEX

Ibtihal Farawi, GRELIS-LASELDI, Université de Franche-Comté, Besançon

 

Ce travail s'inscrit dans le projet d'analyse des textes arabes avec INTEX. Comme point de départ de cette recherche nous aborderons le point morphologique en construisant un dictionnaire des verbes simples. Ce dictionnaire contiendra environ 10000 verbes arabes avec leur code flexionnel respectif parmi une centaine de formes permettant leur conjugaison automatique dans un dictionnaire de type DELAF.


INTEX as an educational subject in the Master's program of Computational Linguistics at Sofia University

     Svetla Koeva          Ivelina Stoyanova          Svetlozara Lesseva

svetla@ibl.bas.bg          iva@ibl.bas.bg                zara@ibl.bas.bg

Institute for Bulgarian Language

 

In 2001-2002 academic year INTEX was included as part of the curriculum of the master's program in Computational Linguistics at Sofia University. The students worked on the compilation of a number of dictionaries and FST-s.

Dictionaries of compound words with morphological information attached to the entries:

    1. Compound nouns – historical events, periods, etc.

    2. Compound nouns – personal names of famous people or popular characters in folklore, tales, films, etc.

    3. Compound nouns – geographic denominations.

FS Graphs:

    1. Graph for delimiting sentence boundaries – with additional embedded graphs for abbreviations.

    2. Graph for compound conjunctions. They can be formed by various combinations: preposition+conjunction; conjunction+conjunction; particle+conjunction; the elements can be split by sentence constituents.

System of graphs for identifying analytic verb forms in the indicative in Bulgarian:

    1. Morphological dictionary which contains: past participles, forms of the auxiliary verbs for perfect and past perfect, forms of the auxiliary verbs for future tenses.

    2. Analysis of all the specific cases of inserting external elements between the parts of the verb form.

    3. Graphs of all the forms of the tenses – with additional graphs for the inserted elements.

Some other problems concerning the analytic verb forms:

    1. Identifying forms of passive voice.

    2. Identifying analytic non-evidential verb forms.

During the current academic year the students will be working on similar tasks. The existing dictionaries will be expanded and new ones will be compiled such as:

    1. Dictionaries of lexical and graphic abbreviations divided into types according to the immediate context – end of sentence, middle of sentence, both types of occurrence, before or after a numeral, after a capital letter.

    2. Dictionaries of phraseological units divided into subtypes according to the part of speech of the word which the phraseological unit can be substituted for.

    3. Dictionaries of phraseological units classified into subtypes according to the possibility to include, omit or replace a word in the phraseological unit.

    4. Dictionaries of toponyms – countries, cities, mountains, rivers, etc.

The individual tasks will include also construction of FST-s similar to or supplementing the ones worked out in the last academic year:

    1. For identifying analytic verb forms.

    2. For recognizing analytic numerals.


Semantic Relations in INTEX

Svetla Koeva and Stoyan Mihov

svetla@bacl.org, stoyan@bacl.org

Bulgarian Association for Computational Linguistics

 

We describe a method and implementation for presenting the synonymy, hyperonymy and meronymy relations into the INTEX system. The idea is to create specialized semantic dictionaries for the different relations. Those dictionaries are extracted automatically using the WordNet structure and inflectional dictionaries.

WordNet is an electronic lexical thesaurus based on word meanings rather than word forms for the following categories: nouns, verbs, adjectives and adverbs. The WordNet structure consists of synonymy sets (called synsets), which contain literals of a given part-of-speech with equal meaning i.e. can be interchanged in a certain context. Synsets can be related to each other by other semantic relations, such as hyponymy, hyperonymy (between general and more specific concepts), meronymy (between parts and wholes), anthonymy, and many others. Some of the relations like hyperonymy and meronymy are not symmetric and have an inverse relation.

For each semantic relation we create a specific semantic dictionary. The dictionary consists of pairs of literals in the corresponding semantic relation. Additionally we have to express in the dictionary all corresponding word forms their synonymy.

We give concrete examples in Bulgarian and English of the use of semantic the INTEX semantic dictionaries for pattern search and semantical concordance creation.


Conversion between Intex and MULTEX-East Morphosyntactic Description

Cvetana Krstev, Du¥

Tomaz Erjavec, Jozef Stefan Institute, Ljubljana, Slovenia

 

The need for morphosyntactically annotated resources increases every day, which makes the standardization of the annotations the major question in the exchange of processed documents. In this article we discuss the relation between two annotation schemes: scheme that is generated by Intex on the basis of the morphosyntactic codes from Delaf/Delafc dictionaries and scheme that was suggested in the scope of the MULTEX-East project. This question is particularly important having in mind the efficiency of Intex in text preprocessing, but also its relative inefficiency in work with large texts.

Both schemes have been successfully applied to a number of languages, including several Slavic languages.

Morphosyntactic description (abbr. MSD) developed in the scope of the MULTEX-East project is based on the exhaustive description of morphological and morphosyntactic features of different languages and establishment of unique codes for the common features. This scheme is positional: the significance of the particular code is determined by its position in the string that encodes the morphosyntactic features of some word form. For instance, in the lexicon developed in accordance with MULTEX-East MSD for Slovenian the string:

Afcfda(¥

has the following meaning: to the simple word form ¥cleaner) lemma ¥ clean) corresponds, while the associated MSD code has the meaning:

POS A - Adjective

Type f - qualificative

Degree c - comparative

Gender f - feminine

Number d - dual

Case a - accusative

Such a description enables, among other things, (a) the standardized tagging of common categories in several languages, and (b) the searching system based on the reference to the corresponding position in the MSD-string. For instance, Af-f-- retrieves all the qualificative adjectives in any form of the feminine gender.

The same example could be encoded in the e-dictionaries of DELA form in the following way:

¥

The marker for the part of speech (in this case adjective) is now represented by the inflective class code while the marker for the adjective type (in this case qualificative) is transferred in the zone of the syntactic and semantic features. The other markers are in the zone of the codes of inflective categories. In this case, however the order of markers is irrelevant: the cfda has the same meaning as fdac. The corresponding adjective form is in Serbian DELAF represented as:

cyistoj,cyist.A17+PosQ:aefs3g:aefs7g

The meaning of codes is as follows:

a positive

e indefinite

f feminine

s singular

3, 7 dative, resp. locative

g neutral in respect to animatness

In this paper we discuss the possibility to translate on coding scheme to another. Particularly, the possibility of use of finite transducers incorporated in Intex in process of conversion is investigated.

Toma¥MULTEXT-East Morphosyntactic Specification for Slavic Languages, Proc. of workshop "Morphological Processing of Slavic Languages", EACL'03, Budapest, April 13, 2003

Tomaz Erjavec, Roger Evans, Nancy Ide, and Adam Kilgarriff. 2000. The Concede Model for Lexical Databases. In LREC'00, pages 355--362, Paris. ELRA.

Tomaz Erjavec (ed.). 2001. Specifications and Notation for MULTEXTEast Lexicon Encoding. MULTEXTEast Report, Concede Edition D1.1F/Concede, Jožef Stefan Institute, Ljubljana.

http://nl.ijs.si/ME/V2/msd/


Le module grec d'INTEX : Etat de l'art.

Tita Kyriacopoulou tita@frl.auth.gr

Rania Voskaki rvoskaki@hotmail.com

Anastasia Yannacopoulou nastasia@univ-mlv.fr

Université Aristote de Thessalonique

Université de Marne-la-Vallée

 

Lors de cette présentation nous décrirons le module grec d'INTEX, que nous développons depuis 3 ans à l'Université Aristote de Thessalonique. A l'heure actuelle il inclut des dictionnaires électroniques comportant :

  • 60 000 noms simples,
  • 12 000 verbes,
  • 30 000 adjectifs,
  • 7 000 adverbes simples et composés,
  • 28 000 noms composés,
  • 50 000 noms propres
  • 2 000 noms de pays
  • 1000 mots grammaticaux simples et composés

ainsi que quelques grammaires de désambiguïsation (concernant les cas, les pronoms, etc.).

D'autres travaux sont actuellement en cours concernant :

- Les proverbes

- Les adverbes composés

- Les noms prédicatifs

- Les verbes (lexique-grammaire)

Nous parlerons plus particulièrement des mots élidés et des mots contractés.


Xavier Lepetit, Institut d'Études Romanes, Université de Copenhague, lepetit@hum.ku.dk

L'importance des schémas de réalisation lexicale dans le TAL : le cas de l'expression du mouvement

 

Le traitement automatique du langage a développé des outils pour traiter les niveaux morphologique et syntaxique du langage. Le niveau morphologique ne pose aujourd'hui plus de problème et le niveau syntaxique est en voie d'être maîtrisé, mais en voie seulement. Les descriptions sémantiques du langage sont rares et ne sont pas toujours conçues dans l'optique d'être appliquées en TAL, et elles ne sont donc pas toujours facilement formalisables.

L'étape sémantique reste cependant la clé d'une désambiguïsation plus performante et d'une production automatique qui tienne aussi compte du message à véhiculer et non seulement de règles syntaxiques censées fonctionner en dehors de tout contexte.

Pour preuve de l'importance de ces paramètres, je présenterai des données authentiques de production langagière orale. Ces données sont des verbalisations d'une bande dessinée muette connue sous le nom de « Frog story » (Berman, R.A., Slobin, I. (1994). Relating events in narative: a crosslinguistic developmental study , LEA publishers, Hillsdale, New Jersey.). Les données langagières sont produites dans une langue germanique et dans une langue romane : le danois et le français.

L'analyse des données met en lumière différentes stratégies quant à l'expression du mouvement. Certaines composantes sémantiques ont tendance à être réalisées dans un certain type d'élément morphosyntaxique dans une langue alors que c'est un autre type d'élément morphosyntaxique qui est chargé de véhiculer les composantes sémantiques similaires dans l'autre langue : c'est ce qu'on appelle deux schémas de réalisation lexicale différents (Talmy, L. (1985). "Lexicalization patterns: semantic structure in lexical forms", in T. Shopen (Ed): Language typology and syntactic description, Cambridge University Press).

Ces faits contrastifs montrent à quel point syntaxe et sémantique sont liées et que le traitement de l'un des domaines implique le traitement de l'autre pour parvenir à une analyse automatique fiable des données langagières.

L'analyse révèle aussi un phénomène intéressant : vu que telle ou telle composante sémantique est réalisée de façon prototypique par tel ou tel élément morphosyntaxique et vu qu'il y a une différence de fréquence d'emploi des différents éléments morphosyntaxiques selon leur rôle plus ou moins central dans la prédication, certaines composantes sémantiques de l'expression du mouvement seront statistiquement plus ou moins exprimées, ou exprimées plus ou moins implicitement, selon la langue dans laquelle la narration sera faite. Une composante sémantique réalisée par le verbe dans une langue aura de grande chance d'être exprimée, alors que si cette même composante est exprimée par un élément qui n'est pas obligatoire pour former une prédication dans une autre langue, un complément adverbial par exemple, les locuteurs auront la possibilité de laisser implicite cet élément et de ne pas l'exprimer, comme on peut le voir dans les deux exemples suivants, où l'ajout d'une indication de manière de se déplacer peut paraître jusqu'à être redondante à l'oreille d'un francophone :

A bird flew into the room. / Un oiseau est entré dans la pièce (en volant).

Ces différents schémas de réalisation lexicale doivent être répertoriés et formalisés afin d'être intégrés à un traitement automatique du langage couvrant les trois niveaux morphologique, syntaxique et sémantique des langues naturelles.


A renewed Portuguese module for INTEX 4.31

Cristina Mota

LabEL (CAUTL/IST) and Linguateca

Av. Rovisco Pais I

1049-001 Lisboa, Portugal

cristina@label.ist.utl.pt

 

The last INTEX version 4.31 presents several new powerful functionalities, in particular a new morphological parser.

The aim of our presentation is to describe a renewed Portuguese module optimized using this enhanced morphological parser. Three major problems will be addressed: (i) the generation of diminutive, augmentative and superlative forms from accented base forms (tábua/ tabuinha (board/little board); rápido/rapidíssimo (pale/very pale)) ; (ii) the recognition of derived forms resulting from productive derivational processes (tapar/destapar (cover/uncover); possível/possivelmente (possible/possibly)); (iii) the analysis of modified verbal and clitic forms (Nós comprámos um livro (We bought a book); Nós comprámo-lo (We bought it)).


Application of INTEX in refinement and validation of Serbian WordNet

Ivan Obradovi¥

Gordana Pavlovi¥ana Krstev

University of Belgrade

 

WordNet (WN), inspired by research in the field of psycholinguistics and initially developed for the English language, is a semantic network containing explicitly coded descriptions of semantic relations (Fellbaum, 1998). The experience gained in the development of English WN led to the development of comparative databases for other languages (within the EuroWordNet project for several EU languages, and then within the BalkaNet project, targeted mainly at Balkan languages). The organization of the WN semantic network is based on a grouping of synonyms into synsets - representing network nodes. The nodes are interconnected by arcs that describe particular semantic relations (hyperonymy, hyponymy, antonymy etc.) In general, every synset is accompanied by a gloss - an example that illustrates the meaning of the concept represented by the synset. The semantic network itself is an XML-document with a precisely established set of entities.

The Serbian version of WN has been developed starting from the base concepts of the English WN, and using existing English/Serbian dictionaries in paper form. Synset elements are represented by elements of the DELAS or DELAC dictionaries without any additional morphosyntactic information. Lexical meanings in Serbian have been coded with reference to the dictionary (RMS-MH, 1967).

In the WN - semantic network built for Serbian in such a way - several problems could be identified when the semantic relations were verified on a Serbian corpus. Among them, the most important is the lack of a more precise description of conditions the lexemes from one synset need to fulfill to be regarded as synonyms (in terms of the possibility of their mutual replacement). Using the bootstrap method (Gross, 2000) it is possible to refine both existing synsets and relations among them. In this paper we illustrate this procedure. For a given lexeme INTEX graphs containing synsets comprising this lexeme are constructed automatically, followed by appropriate glosses. These graphs are then applied to the corpus in order to validate the synset. The procedure can lead either to an addition of new lexemes to the synset or elimination of existing ones, or to a more precise description of the conditions for the appearance of the lexeme in the synset then it is presently the case.

 

Fellbaum, C. (ed), 1998. WordNet: An Electronic Lexical Database,. MIT Press, Cambridge, MA.

Gross, Maurice. 2000. A Bootstrap method for Constructing Local Grammars. In: Bokan, Neda (Ed.): Proceedings of the Symposium "Contemporary Mathematics" , Faculty of Mathematics, University of Belgrade. 229-250.

RMS-MH, 1967. Re¥ , vol. 1-6, Novi Sad-Zagreb: Matica Srpska, Matica Hrvatska,


Dictionary of toponyms in Serbian

Gordana Pavlovi¥

Du¥

Cvetana Krstev

University of Belgrade

 

Analysis of daily newspapers by the Intex system, using lexical resources developed for Serbian, results in a class of unrecognized words consisting predominantly of proper names, either personal names or geographical notions. On the other side, a class of typical queries submitted to search engines contains elements of precisely this lexical level. Thus improvement of retrieval performances depends on availability of lexical resources describing proper names.

Based on the Prolintex dictionary (Maurel, 1999), a dictionary delas-top for Serbian has been constructed consisting of simple words corresponding to toponyms, hydronyms and oronyms. Sources for the first version were (a) atlas used in geography education in Serbia and (b) official register of inhabited places in former Yugoslavia.

For proper names collected in such a way orthographical variations are described, as well as names of inhabitants including pejorative names (if such exist) and the corresponding possessive and relational adjectives. For example, a dictionary of type DELAS includes the following entries:

Pariz,N Paris

pariski,A+PosQ Parisian (belonging or relating to Paris)

Parizxanin,Nm Parisian (a man who comes from Paris)

Parizxaninov,A+Pos Parisian's (belonging to a man that comes from Paris)

Parizxanka,Nf Parisian (a woman who comes from Paris)

Parizxankin,A+Pos Parisian's (belonging to a woman who comes from Paris)

parizxanski,A+PosQ in the way of Parisians

Each entry is supplied with syntactic and semantic attributes according to Prolintex system's coding, e.g.,

Pariz,N+PGgr+IsoFR

Parizxaninov,A+Poss+Hum+IsoFR

Inflection classes for simple words are taken from the Delaf system for Serbian and a portion of the DELAF-type dictionary has been generated. Examples of complex queries over a daily newspapers corpus are presented in the paper.

Further system development includes description of compound toponyms (e.g., Novi Sad) as well as development of local grammars describing relationships between toponyms and different ways in which they group together. For example, Yugoslavia is - ex-YU + SRJ +SCg +... Balkan's part, etc.

Denis Maurel, Odile Piton (1999): Un dictionnaire de noms propres pour INTEX: Les noms propres géographiques, Linguisticae Investigationes, tome XXII, 1998-1999 (Volume spécial: Cédrick Fairon (éd.): Anallyse lexicale et syntaxiques : Le système INTEX), John Benjamin Publishing Company, Amsterdam/Philadelphia; pp. 279-290


LIKES : une station d'ingenierie linguistique pour la creation de

terminologie et d'ontologie

ROUSSELOT, Françcois

 

LIKES une station d'ingenierie linguistique orientee creation de terminologie et d'ontologie: ressemblances et differences avec INTEX. LIKES a ete realisee au depart pour analyser des corpus en vue de rechercher des candidats termes. LIKES travaille sans aucun dictionnaire

pour trouver des segments repetes, cette technique est facilement transportable d'une langue à l'autre pour toutes les langues non agglutinantes.(anglais , français, espagnol, bulgare, roumain, mais pas allemand).

Une autre fonctionnalite interessante de LIKES est l'aide à la recherche de schema morpho syntaxiques indices de la presence de relations. Le programme, à partir d'une liste de contextes censes avoir des regularites , aide à construire un automate qui va effectuer la recherche.

Likes possede un outillage d'automates transducteurs dans la philosophie d'INTEX.

Les etiquettes des automates peuvent être des lettres aussi peut-on facilement effectuer des recherches avec des sequences de caracteres comportant à la fois des mots et des sous-mots.

LIKES possede egalement une interface d'aide à la gestion d'une terminologie appuyee sur une hierachie conceptuelle. Les segments repetes fournissent des candidats termes qui sont ensuite examines et eventuellement promus au rang de termes.

Chaque ensemble de termes synonymes est lie à un concept. Les concepts sont organises en une hierarchie.

Tout element repertories par LIKES, mot, candidat-terme, terme permet d'acceder aux contextes (phrases) de ses occurrences. LIKES pour l'instant ne traite que des testes ASCII, mais sera etendu aux textes HTML, XML et pdf. LIKES est totalement libre (programme et sources) pour une utilisation academique, pour la nouvelle version en cours, la compatibilite avec les formats INTEX est à l'ordre du jour.


NOOJ: A Cooperative Object Oriented Architecture for NLP

Max Silberztein

LASELDI, Université de Franche-Comté

 

I present the new NOOJ linguistic development environment (v. 0.1), which will integrate all of the INTEX 4.32 functionalities in the short term. While NOOJ shares a lot with INTEX, its architecture is radically different and will allow me to solve numerous linguistic problems that can not yet be satisfactorily solved with INTEX. The most important features of NOOJ are:

-- NOOJ's architecture is Object Oriented. In consequence, it will be easy to adapt NOOJ to new applications, or to build new language modules, even with radically new properties

-- NOOJ abandons the 2-level architecture of INTEX and offers all its functionalities in a single hierarchy of components. Moreover, the classes and methods used by NOOJ will be published, so that any programmer will be able to access all of NOOJ functionalities from any other program (e.g. Microsoft Office can connect to NOOJ)

-- NOOJ is now adapted to the parsing of large corpora made of a large number of file texts, rather than a single ANSI file. In consequence, NOOJ will easily be adapted to Internet applications.


Jean-Marie Viprey

LASELDI (Laboratoire de Sémio-Linguistique, Didactique, Informatique)

EA 2281 Université de Franche-Comté (Besançon)

30 rue Mégevand F25030 Besançon Cedex

jean-marie.viprey@univ-fcomte.fr

DIATAG_INTEX : CONVIVIALITE D'ETIQUETAGE DES AMBIGUS RESIDUELS

CONCEPTION D'OUTILS STATISTIQUES DE CONTROLE

 

Nous avons développé, sous ®Microsoft ®VisualBasic, un prototype de notre projet ®DiaTag (DIAlogic TAGging), dont les objectifs et la conception générale ont été présentés aux 5èmes Journées Intex 2002 à Marseille (Viprey). Ce module a été mis en ligne en Mars 2003 sur le site de téléchargement d'Intex et de ses ressources à l'Université de Franche-Comté.

L'utilisateur se voit présenter l'ensemble des cas résiduels (ambiguïtés non levées par transducteurs), aussi bien pour les composés (présentés par ordre décroissant de longueur en mots simples) que pour les formes simples (présentées par fréquence décroissante pour les plus fréquentes, puis par types d'ambiguïtés). Les cas sont présentés en concordance, avec des cases à cocher alignées sur celle-ci, correspondant par codes couleurs aux diverses solutions possibles proposées.

Ce module sera très précieux croyons-nous pour parachever l'étiquetage de corpus en vue d'analyses textuelles en aval. Nous souhaitons le présenter et le soumettre à critique, mais surtout esquisser les développements ultérieurs nécessaires.

Notamment, bien que l'environnement ait été déjà rationalisé et ergonomisé, les prises de décision restent soumises à une forte pression empirique et aux aléas des sessions. Nous nous proposons donc d'instaurer des outils de contrôle visant globalement à enregistrer et à synthétiser les décisions antérieurement prises, cas par cas, de manière à pouvoir alerter l'utilisateur à propos de décisions apparemment contraires à la tendance consolidée et au-delà à constituer des banques d'expérience pouvant servir à la constitution assistée des futurs transducteurs.

Cela pourra aussi bien se faire à propos de séquences littérales individuelles qu'à propos de types de concurrences d'étiquettes, et aussi bien dans l'environnement d'un utilisateur particulier qu'à l'échelle, pourquoi pas, de toute une communauté d'utilisateurs pour une langue donnée.


Description par automate des adverbes de date du grec moderne

Stavroula Voyatzi

Université de Marne-la-Vallée

voyagi@frl.auth.gr

 

L'objectif de la présente communication est de décrire syntaxico-sémantiquement l'ensemble des adverbes de date du grec en vue de leur traitement dans le système, INTEX.

Dans un premier temps, nous réaliserons la description syntaxico-sémantique des adverbes de date, en distinguant :

les adverbes de temps

¥+ ¥+ ¥ + ¥) ¥

(Iro est partie (hier + le 15 mai 2002 + mardi soir + à la nuit noire) pour Paris)

les phrases prépositionnelles comportant des noms caractéristiques Ntps  

¥

(Iro est partie avant la dernière semaine de mai pour Paris)

les propositions subordonnées temporelles

¥

(Iro est partie pour Paris dès que son frère est rentré de son travail)

Ensuite, toutes ces formes seront représentées par des transducteurs finis dans le but de constituer une grammaire locale des adverbes de date.

[Home] [News] [Products] [Resources] [Research] [Education] [Information] [Contact] [Links]