Papers by Tanara Zingano Kuhn
Slovenščina 2.0: Empirične, Aplikativne in Interdisciplinarne Raziskave, Nov 13, 2019
This paper is a minireview of the current status of monolingual lexicography in Brazil. Firstly, ... more This paper is a minireview of the current status of monolingual lexicography in Brazil. Firstly, a brief contextualization of the origins of Brazilian Portuguese dictionary-making is provided. Then, an account of contemporary monolingual dictionaries is given and a more detailed overview on print, digital, spelling, and school dictionaries is presented. Next, research into dictionary use is reviewed. Finally, the perception among the Brazilians with regards to corpora and use of crowdsourcing in lexicography is discussed.

Slovenščina 2.0, 2022
One way to stimulate the use of corpora in language education is by making pedagogically appropri... more One way to stimulate the use of corpora in language education is by making pedagogically appropriate corpora, labeled with different types of problems (sensitive content, offensive language, structural problems). However, manually labeling corpora is extremely time-consuming and a better approach should be found. We thus propose a combination of two approaches to the creation of problem-labeled pedagogical corpora of Dutch, Estonian, Slovene and Brazilian Portuguese: the use of games with a purpose and of crowdsourcing for the task. We conducted initial experiments to establish the suitability of the crowdsourcing task, and used the lessons learned to design the Crowdsourcing for Language Learning (CrowLL) game in which players identify problematic sentences, classify them, and indicate problematic excerpts. The focus of this paper is on data preparation, given the crucial role that such a stage plays in any crowdsourcing project dealing with the creation of language learning resources. We present the methodology for data preparation, offering a detailed presentation of source corpora selection, pedagogically oriented GDEX configurations, and the creation of lemma lists, with a special focus on common and language-dependent decisions. Finally, we offer a discussion of the challenges that emerged and the solutions that have been implemented so far.

Entrepalavras, Fortaleza, 2022
O presente trabalho tem como objetivo apresentar o desenho de uma
aplicação1 de Mobile-assisted V... more O presente trabalho tem como objetivo apresentar o desenho de uma
aplicação1 de Mobile-assisted Vocabulary Learning (MAVL) em Português como Língua Estrangeira (PLE) destinada a aprendentes chineses, a UVA. O conteúdo do desenho é baseado em investigações sobre ensino-aprendizagem de vocabulário em língua estrangeira (NATION, 1990, 2000; MA, 2006, 2009; BEATTY, 2010a; BEATTY, 2010b; JIANG, 2000) e na adaptação das estratégias de O’Malley e Chamot (1990)
e Oxford (1990a). Além disso, o processo de aprendizagem na aplicação baseia-se em diversos estudos no âmbito da
aprendizagem assistida por tecnologia (GOODFELLOW, 2006; LAUFER et
al., 2000; GROOT, 2000). Na UVA, pretende-se dar conta da realidade da
aprendizagem de vocabulário de língua portuguesa e dos hábitos e necessidades no uso de aplicações de MAVL dos
aprendentes chineses. Para isso, foi aplicado um inquérito2 a 133 aprendentes chineses, cujos resultados nos ofereceram informação imprescindível para um desenho da aplicação mais adequado ao público-alvo. A estrutura da UVA consiste em cinco módulos: Escolha de Vocabulário a aprender; Aprendizagem de Vocabulário
(subdividido em três etapas: dedução, consolidação e retomada); Dicionário; Administração de Aprendizagem e Campo Social. Trata-se de um recurso inédito que busca facilitar e flexibilizar

Proceedings of EURALEX 2020 Conference, Volume II. Komotini: SynMorPhoSe Lab, Democritus University of Thrace, v.2., 2021
Corpora are valuable sources for the development of language learning materials (e.g., books, gra... more Corpora are valuable sources for the development of language learning materials (e.g., books, grammars, dictionaries, exercises), because they contain language as produced in natural contexts. Even though corpora are getting larger, mainly due to crawling data from the web, their pedagogical use remains rather challenging. Not all texts are appropriate for language learning or teaching purposes as they can potentially contain sensitive or offensive content, in addition to exhibit structural problems, errors, among other problems. Corpus cleaning for pedagogical purposes is however a very time-consuming task if done manually. In this paper we present a new and more effective method for creating problem-labelled pedagogical corpora for a group of languages, namely Portuguese, Serbian, Slovene, Dutch and Estonian, by means of crowdsourcing. First, we report on an experiment aimed at verifying the adequacy of crowdsourcing as a technique for corpus labelling. We then outline the lessons learned and discuss how these have led us to explore an alternative way of compiling pedagogical corpora through gamification.

DELTA: Documentação de Estudos em Lingüística Teórica e Aplicada, 2020
O presente estudo tem como objetivo descrever os desafios e soluções encontrados na compilação do... more O presente estudo tem como objetivo descrever os desafios e soluções encontrados na compilação do Corpus de Português Escrito em Periódicos - CoPEP, que contém aproximadamente 40 milhões de palavras, é equilibrado entre as variedades português brasileiro e português europeu em número de palavras e cobre seis grandes áreas de conhecimento. Primeiramente, apresentaremos o contexto de criação do CoPEP, qual seja, a elaboração de um dicionário on-line de português para universitários, para o qual serviu como fonte primária de obtenção de evidências linguísticas. Assim, foram as características desse projeto lexicográfico que informaram os critérios de criação do desenho do CoPEP e as consequentes tomadas de decisão. A seguir, descreveremos a metodologia de aquisição de dados, com foco especial nos desafios enfrentados e nas soluções encontradas. Terminaremos com a descrição da fase final de compilação, na qual aplicamos uma série de procedimentos para obtenção de equilíbrio.
Revista Virtual de Estudos da Linguagem - ReVEL, 2020
A área de Português como Língua Adicional (PLA) tradicionalmente abarca questões relativas à educ... more A área de Português como Língua Adicional (PLA) tradicionalmente abarca questões relativas à educação4 e políticas linguísticas5 envolvendo o português para falantes de outras línguas, ou seja, em contextos em que não é a língua de socialização inicial do estudante/examinando ou de determinada comunidade. Neste artigo, apresentamos uma introdução à área de PLA por meio da discussão de algumas variações terminológicas no que tange ao próprio nome da área no Brasil, bem como da breve exploração de públicos e contextos em que profissionais de PLA podem atuar em termos de ensino, avaliação, pesquisa, produção técnico-científica e políticas linguísticas.
Revista Virtual de Estudos da Linguagem - ReVEL, 2020
A professora Marisa Mendonça inicia esta entrevista com a história da constituição da área de PLA... more A professora Marisa Mendonça inicia esta entrevista com a história da constituição da área de PLA em Moçambique. Em seguida, oferece uma apresentação das características sócio-históricas, linguísticas e culturais do continente africano de modo a contextualizar as especificidades e os desafios ali encontrados em relação ao ensino e à aprendizagem de PLA. Também reflete sobre o papel do IILP para a área de PLA e compartilha sua opinião especializada quanto ao que entende ser essencial para um currículo de formação inicial e continuada de professores de PLA, destacando os principais desafios e problemáticas para a área de PLA no futuro. Por fim, nos deixa indicações de leituras para interessados em ingressar nessa área de estudos.
Slovenščina 2.0, 2019
Zingano Kuhn, Tanara: State-of-the-art on monolingual lexicography for Brazil (Brazilian Portugue... more Zingano Kuhn, Tanara: State-of-the-art on monolingual lexicography for Brazil (Brazilian Portuguese). Slovenščina 2.0, 7 (1): 98-112. This paper is a minireview of the current status of monolingual lexicography in Brazil. Firstly, a brief contextualization of the origins of Brazilian Portuguese dictionary-making is provided. Then, an account of contemporary monolingual dictionaries is given and a more detailed overview on print, digital, spelling, and school dictionaries is presented. Next, research into dictionary use is reviewed. Finally, the perception among the Brazilians with regards to corpora and use of crowdsourcing in lexicography is discussed.
International Journal of Lexicography
Examples have always been an important part of a dictionary entry. As Rundell and Atkins (2008: 4... more Examples have always been an important part of a dictionary entry. As Rundell and Atkins (2008: 454) point out, ‘you sometimes find that an entry is almost incomprehensible without its examples.’ This argument is strengthened by the recent findings of Frankenberg-Garcia (2012, 2014) that several corpus examples can sometimes be even more useful than the definition. ... Selecting examples is a great challenge to lexicographers, not only because they need to find examples that meet criteria of a good dictionary example (criteria may differ depending on the target users) but also because the sources of examples, i.e. corpora, are getting larger and larger, nowadays containing several billion words or more, and it is inconceivable that...

International Journal of Lexicography, 2018
The article presents the results of a survey on dictionary use in Europe, focusing ongeneral mon... more The article presents the results of a survey on dictionary use in Europe, focusing ongeneral monolingual dictionaries. The survey is the broadest survey of dictionaryuse to date, covering close to 10,000 dictionary users (and non-users) in nearly thirtycountries. Our survey covers varied user groups, going beyond the students andtranslators who have tended to dominate such studies thus far. The survey wasdelivered via an online survey platform, in language versions specific to each targetcountry. It was completed by 9,562 respondents, over 300 respondents per countryon average. The survey consisted of the general section, which was translated andpresented to all participants, as well as country-specific sections for a subset of 11countries, which were drafted by collaborators at the national level. The present re-port covers the general section.

Journal of Portuguese Linguistics, 2019
The objective of this PhD project was to propose the design of an online corpus-driven dictionary... more The objective of this PhD project was to propose the design of an online corpus-driven dictionary of Portuguese for university students (DOPU), aimed at both speakers of Portuguese as a mother tongue and as an additional language and covering Brazilian and European Portuguese varieties. For that, the highly innovative semi-automated approach to dictionary-making (Gantar, Kosem and Krek 2016) was adopted, which involves automatic extraction of data from the corpus and import into dictionary writing system. As a method that had never been applied for lexicographical projects of the Portuguese language, it was necessary to experiment the approach for the first time. Thus, all the required pre-requisites were newly developed, namely, a corpus of academic texts, sketch grammar, GDEX configuration, and a specially-tailored procedure for automatic extraction of data. The experiment indicated that not only can this approach be successfully used as a means to provide lexical content for the design of DOPU, but it can also be beneficial to other lexicographical projects of Portuguese.

Proceedings of Euralex 2018, 2018
The Pluricentric Corpus of the Portuguese Language (CPLP Corpus) aims to provide comparable corpo... more The Pluricentric Corpus of the Portuguese Language (CPLP Corpus) aims to provide comparable corpora for the national varieties of the countries where Portuguese is an official language, making it possible to undertake corpus-based comparisons among the varieties of these countries. It is intended as a publicly available corpus for comparative linguistics and language resource development, but furthermore constitutes one of the pillars of the Vocabulário Ortográfico Comum da Língua Portuguesa (VOC), the official spelling dictionary for Portuguese. The headword list in VOC is partly derived from lexicographic tradition, which is to date based almost exclusively on the European and Brazilian varieties, and partly made up of words retrieved from the CPLP corpus, many of them included for the first time in official language resources for Portuguese. This double inclusion route aims at presenting an integral (i.e., non-contrastive) and increasingly balanced perspective on all the varieties. This paper describes the general design of the corpus, the challenges faced in its development, as well as the way it was used in the compilation of VOC.

Slovenšcina 2.0: empirical, applied and interdisciplinary research, 2016
This paper presents the development of a new sketch grammar designed specifically for CoPEP, a ne... more This paper presents the development of a new sketch grammar designed specifically for CoPEP, a newly compiled 40-million corpus comprising texts from academic journals, tagged with Freeling v3, the default tagger available in the Sketch Engine for corpora of Portuguese. We first provide an overview and evaluation of existing sketch grammars for Portuguese, followed by a detailed description of the development of a new sketch grammar, and the presentation of some of the problems encountered. We conclude by summarizing the main findings, highlighting important implications, and offering suggestions for further improvement of the sketch grammar. More accurate and varied word sketch results than those offered by the current default sketch grammar indicate that our sketch grammar can be used for advanced lexicographic tasks such as automatic extraction of lexical data from CoPEP, the methodology of knowledge acquisition planned for the compilation of a dictionary of Portuguese for university students. Moreover, this new sketch grammar can be used with any other corpus of Portuguese tagged with Freeling v3, which makes it an important resource for lexicographic and corpus linguistic research of the Portuguese language.
BELT - Brazilian English Language Teaching Journal, 2015
Os dicionários monolíngues para aprendizes de uma língua adicional se diferenciam dos dicionários... more Os dicionários monolíngues para aprendizes de uma língua adicional se diferenciam dos dicionários de língua geral por, em regra, buscarem não só facilitar a compreensão textual mas também auxiliar na produção de textos. O Oxford Learner's Dictionary of Academic English (doravante, OLDAE), tratando-se de um dicionário para aprendizes estrangeiros (como já indica seu nome), apresenta essa característica, porém, com o diferencial de que a descrição da língua aqui em pauta tem uma especificação: é o inglês usado em contexto acadêmico.
Initial study in lexical-textual statistics that aims at collecting data to support the construct... more Initial study in lexical-textual statistics that aims at collecting data to support the construction of a basic controlled vocabulary (CV) to be a reference for writing definitions in a Portuguese learner’s dictionary. We used vocabulary frequency data from Brazilian popular newspapers and we also analyzed three different corpora. After comparing the most frequent words of each source, we evaluated the use of CVs to prepare a set of test entries. The results demonstrate the proper use of these corpora for the composition of a CV and the relevance of statistical linguistics for its compilation.

Proceedings of Euralex 2012, 2012
The present PhD project intends to collaborate with the designing of a monolingual online diction... more The present PhD project intends to collaborate with the designing of a monolingual online dictionary for intermediate-level learners of Brazilian Portuguese as an additional language. Considering that the development of such a reference work involves the investigation of a series of theoretical-methodological aspects, this research will be narrowed down to one specific issue: the use of simplified Portuguese language patterns in the writing of the definitions. Therefore, the steps to be taken entail a thorough bibliographical review on lexicographical definitions for monolingual learners' dictionaries and the use of defining vocabulary for their writing; Brazilian Portuguese corpus research in order to compile a defining vocabulary list (DVL); and tests with learners to verify which kind of definitionsthose which were written with or without the use of DVLis better for the user. Since pedagogical (meta)lexicography regarding Brazilian Portuguese as an Additional Language (BPAL) is to a fairly large degree still incipient, especially when compared to what has been done in the area of English as a Foreign Language (EFL), this project is expected to give substantial contribution to new knowledge.
Proceedings of ASIALEX 2011, 2011
Atas do IIISIMELP: A formação de novas gerações de falantes de português no mundo, 2011
Papers by Tanara Zingano Kuhn
aplicação1 de Mobile-assisted Vocabulary Learning (MAVL) em Português como Língua Estrangeira (PLE) destinada a aprendentes chineses, a UVA. O conteúdo do desenho é baseado em investigações sobre ensino-aprendizagem de vocabulário em língua estrangeira (NATION, 1990, 2000; MA, 2006, 2009; BEATTY, 2010a; BEATTY, 2010b; JIANG, 2000) e na adaptação das estratégias de O’Malley e Chamot (1990)
e Oxford (1990a). Além disso, o processo de aprendizagem na aplicação baseia-se em diversos estudos no âmbito da
aprendizagem assistida por tecnologia (GOODFELLOW, 2006; LAUFER et
al., 2000; GROOT, 2000). Na UVA, pretende-se dar conta da realidade da
aprendizagem de vocabulário de língua portuguesa e dos hábitos e necessidades no uso de aplicações de MAVL dos
aprendentes chineses. Para isso, foi aplicado um inquérito2 a 133 aprendentes chineses, cujos resultados nos ofereceram informação imprescindível para um desenho da aplicação mais adequado ao público-alvo. A estrutura da UVA consiste em cinco módulos: Escolha de Vocabulário a aprender; Aprendizagem de Vocabulário
(subdividido em três etapas: dedução, consolidação e retomada); Dicionário; Administração de Aprendizagem e Campo Social. Trata-se de um recurso inédito que busca facilitar e flexibilizar
aplicação1 de Mobile-assisted Vocabulary Learning (MAVL) em Português como Língua Estrangeira (PLE) destinada a aprendentes chineses, a UVA. O conteúdo do desenho é baseado em investigações sobre ensino-aprendizagem de vocabulário em língua estrangeira (NATION, 1990, 2000; MA, 2006, 2009; BEATTY, 2010a; BEATTY, 2010b; JIANG, 2000) e na adaptação das estratégias de O’Malley e Chamot (1990)
e Oxford (1990a). Além disso, o processo de aprendizagem na aplicação baseia-se em diversos estudos no âmbito da
aprendizagem assistida por tecnologia (GOODFELLOW, 2006; LAUFER et
al., 2000; GROOT, 2000). Na UVA, pretende-se dar conta da realidade da
aprendizagem de vocabulário de língua portuguesa e dos hábitos e necessidades no uso de aplicações de MAVL dos
aprendentes chineses. Para isso, foi aplicado um inquérito2 a 133 aprendentes chineses, cujos resultados nos ofereceram informação imprescindível para um desenho da aplicação mais adequado ao público-alvo. A estrutura da UVA consiste em cinco módulos: Escolha de Vocabulário a aprender; Aprendizagem de Vocabulário
(subdividido em três etapas: dedução, consolidação e retomada); Dicionário; Administração de Aprendizagem e Campo Social. Trata-se de um recurso inédito que busca facilitar e flexibilizar
Ao longo de 17 capítulos, o livro traz reflexões sobre políticas e práticas em português como língua pluricêntrica, o ensino de PLA para fins e públicos específicos, a reflexão linguística, a formação de professores, o uso de textos literários em aulas de PLA e o exame Celpe-Bras. Trata-se de uma obra que procura contribuir para que o debate acerca do uso do conceito “português como língua pluricêntrica” siga ampliando a compreensão da complexidade de fatores envolvidos na nomeação das línguas com as quais se trabalha e nas possíveis implicações de seu uso.
published by Lexical Computing CZ s.r.o., Brno, Czech Republic
Sintra, October 2019
ISSN 2533-5626
de reflexões e orientações da linguística, enquanto ciência da linguagem,
mas também de ferramentas de processamento de linguagem natural ou linguística
computacional, que podem servir para desenvolver tarefas de análise de
corpora, geração e sumarização de textos, tradução, parafraseamento, entre outros.
Trata-se de publicação de referência que reúne 33 verbetes, escritos por reputados especialistas em diversas áreas do conhecimento e 17 depoimentos de consagrados escritores, artistas e intelectuais que revelam a importância da cultura brasileira em sua formação como artífices da palavra em língua portuguesa.
Organizadores Alexandre Pilati | Nelson Viana