Vypisujeme praxe! Hledáme stážisty i stipendisty, zejména na ruční kontroly automatických morfologických anotací na korpusu Chroma, příp. i na přepis pro vznikající korpus ChroMat. Kontaktujte nás 🙂
Hledáme dítě k novému nahrávání! Pro nové nahrávání hledáme rodinu s jedním prvorozeným dítětem. Děťátku by mělo být mezi 12 až 24 měsíci a mělo by teprve začínat s vlastní produkcí řeči (říkat pouze jednoslovné výpovědi). Máte-li zájem se do našeho nahrávání zapojit, ozvěte se nám!
Půjčujeme do rodin kamery a diktafony a necháváme nahrávat komunikaci malých dětí s jejich rodiči.
V každé rodině necháváme nahrávat dlouhodobě v pravidelných intervalech a získáváme tak obrázek o jazykovém vývoji daného dítěte, ale i o tom, jak na něj mluví dospělí.
Nahrávky přepisujeme a přepisy anonymizujeme. Děti pak mají v přepisech pseudonymy a další citlivé údaje se odstraňují nebo nahrazují pseudoúdaji.
Anonymní přepisy zveřejňujeme, aby je mohl analyzovat každý, kdo má zájem. Sami dál pracujeme na novějších verzích korpusů (např. s morfologickou anotací) i na jejich analýzách.
Pro přepis používáme systém CHAT, standardní formát přepisu mluvené komunikace vyvinutý speciálně pro potřeby přepisu dětské řeči, publikovaný poprvé v roce 1990 a od té doby pravidelně a často aktualizovaný (MacWhinney, 2000). Úplný manuál CHATu je velice obsáhlý a je přímo určený k tomu, aby si z něj každý výzkumník vybral jen ty prvky, které potřebuje pro svůj záměr. Při přepisu pro CoCzeFLA tak pracujeme s vlastní verzí Manuálu (v3.0 – nejnovější; v2.0; v1.0) a speciálně se zaměřujeme na anotaci (1) dysfluencí v řeči (opakování, falešných začátků, sebeoprav), (2) citoslovcí, (3) morfologických inovací, chyb a idiosynkratických výrazů. Používáme také několik vlastních kódů v nadstavbě nad základním systémem CHATu, a to kódy pro speciální užití citoslovcí ve funkci predikátu (uděláš ham?), v nominální funkci (podívej, támhle je hafhaf.) a v atributivní funkci (pozor, ta pánev je auau!) a kód pro výskyt cizích slov (podívej, to je bunny.). Tyto jmenované jevy tedy v přepisu anotuje ručně přímo přepisující. Naopak lemmatizace a další morfologická anotace korpusů není úkolem přepisujících, a provádí se následně (viz níže).
Kromě Manuálu máme pro přepisující, ale i pro badatele k dispozici stručný přehled všech používaných kódů. V něm si zájemci dohledají jak kódy užívané při aktuální práci na přepisech pro ChroMat, tak i kódy ve stavu, v jakém jsou užité v již publikovaných verzích korpusu Chroma.
Věk dětí je vždy uváděn ve formátu R;MM(.DD).
Každou nahrávku vždy přepíše jedna vyškolená osoba a předá ji druhé osobě ke kontrole. Zkontrolovaná verze se vrací zpět k původnímu přepisujícímu, který ji znovu přečte, dočistí a vytvoří finální verzi. Na závěr projde přepis formální automatickou kontrolou v programu CLAN, který si rozumí s formátem CHAT a má pro tento účel speciální funkci.
Reference:
MacWhinney, B. (2000). The CHILDES project: Tools for analyzing talk. 3rd edition. Mahwah, NJ: Lawrence Erlbaum Associates.
Od verze 2023.04 korpusu Chroma jsou CoCzeFLA korpusy morfologicky anotované a umožňují tak automatické vyhledávání podle lemmat, slovních druhů nebo konkrétních morfologických kategorií. Anotace vychází z automatické analýzy provedené pomocí nástroje MorphoDiTa. Výstup z MorphoDiTy je následně transformován do %mor řádku vyhovujícího přepisovacímu systému CHAT a analyzovatelného pomocí softwaru CLAN. Formát %mor řádku je k vidění níže v ukázce anotovaného přepisu Julie (korpus Chroma). Automatická anotace dětských řádků korpusu Chroma byla kompletně ručně zkontrolována, zatímco řádky dospělých jsou prozatím ponechány v automatické verzi. Z toho vyplývají případné odlišnosti v anotaci, např. hodiny na dětském řádku v ukázce níže jsou anotované jako n:pt, pomnožné substantivum, na řádku MOT nikoliv.
Detailní informace k morfologické anotaci CoCzeFLA a jejímu formátu jsou k dispozici v Uživatelském manuálu.
a
a
a
*CHI: +< je tam hodiny [*] .
%mor: v|být-3&SG&ind&pres&akt&impf-err adv:pro|tam n:pt|hodiny-1&PL&F .
%pho: je tam hodiny .
%err: je = jsou .
(…)
*MOT: jsou tam hodiny .
%mor: v:aux/cop|být-3&PL&ind&pres&akt&impf adv:pro|tam n|hodina-1&PL&F .
%pho: jsou tam hodiny .
%com: opravuje CHI .
*CHI: jsou tam .
%mor: v|být-3&PL&ind&pres&akt&impf adv:pro|tam .
%pho: sou tam .
Jádro týmu Korpusů rané češtiny tvoří koordinátorky, doktorandky FF UK, Anna Chromá a Klára Matiasovitsová. V pozici zkušenějšího konzultanta figuruje od počátku projektu docent Filip Smolík. V klíčové oblasti přepisu a revizí se projekt aktuálně může opřít o dvě zkušené a dlouhodobě spolupracující pregraduální studentky FF UK Markétu Baslovou a Kateřinu Šimkovou; a tři šikovné nováčky rovněž z řad studujících na FF UK Jana Pince, Leonu Strakovou a Štěpánku Tvrdíkovou (zaškolené na přelomu let 2021/22). Mezi přepisující do nedávna patřila i doktorandka FF UK Jolana Kohoutková, která se momentálně věnuje pouze omezeně revidování a jinak je spoluřešitelkou Klářina projektu START. Spoluřešiteli tohoto projektu jsou i další doktorandi FF UK Jakub Sláma a Petra Čechová.