Korpus - zbiór tekstów służący
badaniom lingwistycznym
, np. określaniu częstości występowania form
wyrazowych
, konstrukcji
składniowych
, kontekstów w jakich pojawiają się dane
wyrazy
. Korpusy językowe znalazły szerokie zastosowanie we współczesnej
leksykografii
. Są też wykorzystywane jako zbiory danych uczących i testowych w metodach
uczenia maszynowego
stosowanych w przetwarzaniu języków naturalnych.
Niektóre korpusy bywają określane mianem zrównoważonych - oznacza to, że próbki tekstu do korpusu wybrane zostały według specjalnego klucza, tak by zapewnić pożądane proporcje pomiędzy różnymi stylami czy okresami powstawania tekstów. Przykładem korpusu zrównoważonego może być korpus Słownika Frekwencyjnego Polszczyzny Współczesnej (obecnie znany także jako korpus polszczyzny
lat sześćdziesiątych XX wieku
), składający się w równych częściach (po 10000 próbek) z tekstów popularnonaukowych, drobnych wiadomości prasowych,
publicystyki
,
prozy
artystycznej i
dramatu
artystycznego.
Przez
korpus równoległy
rozumiemy taki zbiór tekstów, w którym każdy tekst ma swój odpowiednik w co najmniej jednym innym języku. Teksty w takim korpusie mogą być zestawione (
ang.
aligned), np. na poziomie akapitu lub zdania.
Linki zewnętrzne