Najveću pažnju mi je privuklo gotovo stidljivo predavanje dr Rajne Dragičević Neki rezultati korpusne lingvistike u nastavi srpskog jezika, 59. republičkog zimskog seminara 2018 – Društva za srpski jezik i književnost Srbije. Umesto bilo kakvog komentara (jer ko sam ja da sudim) samo iznosim podatke o jeziku našem maternjem, nasušnom.

Ovo je sa Matematičkog fakulteta:  Ideja o formiranju korpusa savremenog srpskog/srpskohrvatskog jezika potiče iz 1978. godine. Ovu godinu je obeležila 1. jugoslovenska konferencija o kompjuterskoj obradi lingvističkih podataka (kasnije: ROJP), održana zahvaljujući entuzijazmu Milana Šipke [1]. Kao prvi korak u razvoju korpusa bio je konstruisan sistem AURORA [2] koji je generisao konkordance i različite vrste indeksa za zadati tekst, a čije su performanse bile uporedive sa vodećim sistemom toga doba, sistemom COCOA. U Matematičkom institutu je 1981. godine formiran projekat pod nazivom Matematička i računarska lingvistika čiji je jedan od ciljeva bio formiranje korpusa savremenog srpskog jezika. Ovaj projekat je u periodu 1981. – 1985. finansiralo Ministarstvo za nauku Republike Srbije. Skromni rezultati ovog projekta, kako zbog tehnoloških ograničenja, tako i zbog nejasne koncepcije formiranja korpusa, su ipak omogućili prve rezultate koji su obeležili osamdesete godine [3], [4], [5], [6]. Neki od rezultata iz ovog perioda su:

  1. prva kolekcija testova u digitalnom obliku koja se sastojala prvenstveno od literarnih tekstova, udžbenika i stručne literature;
  2. prvi eksperimenti u morfološkom generisanju srpskohrvatskog;
  3. prva istraživanja na području korpusne lingvistike (analize jezika udžbenika, jezika zakona, itd);
  4. uspostavljanje kontakata sa vodećim evropskim istraživačima sa područja korpusne lingvistike, posebno sa Volfgangom Tojbertom (Wolfgang Teubert, tada IdS, Mannheim) i grupom profesora Petera Sgala sa Karlovog univerziteta u Pragu, kao i istraživačima iz Zagreba (SRCE, Filozofski fakultet) i Ljubljane (Institut „Jožef Stefan“).

Zanimljivo je da su u ovom periodu, koristeći sistem AURORA, sastavljeni i obrađeni prvi paralelni korpusi (srpsko-slovenački podjezika uputstava za lekove, srpsko-hrvatsko-slovenački na uzorku saveznih zakona, englesko-srpski sa područja informatike). Takođe, već 1989. je bio pripremljen srpski prevod standarda o SGML-u.

Uključivanjem u projekat Evropskog saveta Jezičke industrije proširen je krug evropskih laboratorija sa kojima je sarađivala Grupa za jezičke tehnologije sa Matematičkog fakulteta Univerziteta u Beogradu. Posebno bliski kontakti su uspostavljeni sa laboratorijom LADL profesora Morisa Grosa u oblasti razvoja leksičkih resursa u obliku sistema elektronskih rečnika [7]. Razvoj metoda izgradnje i obrade korpusa je, pak, bio pomognut kroz projekat TELRI I/II Evropske unije kojim je rukovodio prof. Volfgang Tojbert. Zahvaljujući ovoj saradnji, uprkos odsustvu finansijskih sredstava, formirani su resursi koji su omogućili stvaranje ovih korpusa.

Postavljanje korpusa na veb je konačno omogućeno formiranjem projekta Interakcija teksta i rečnika koji finansira Ministarstvo za nauku, tehnologiju i razvoj Republike Srbije počev od 2002. godine.

SrpKor2013 je korpus veličine 122 miliona korpusnih reči. 

Ovo je od SANU i Matice srpske:

Rečnik SANURečnik srpskohrvatskog književnog i narodnog jezika

Ovo je najveći opisni rečnik savremenog srpskog jezika – u njemu je za sada obrađeno više od 200 hiljada reči iz književnog i narodnog jezika. Poslednja obrađena reč je glagol očarati. Izdavač Rečnika srpskohrvatskog književnog i narodnog jezika je Institut za srpski jezik Srpske akademije nauka i umetnosti. Do sada je objavljeno 18 tomova ovog rečnika: prva knjiga objavljena je 1959. godine, a osamnaesta 2010. godine. Pretpostavlja se da će Rečnik SANU kada bude bio završen imati oko 30 tomova i oko pola miliona reči. Rečnici koji imaju više od deset tomova u srpskoj leksikografiji nazivaju se tezaurusi.

Rečnik Matice srpske I-VIRečnik srpskohrvatskoga književnog jezika

Rečnik Matice srpske sastoji se od 6 tomova: prva knjiga objavljena je 1967, a šesta 1976. godine. Prvi i drugi tom ovog rečnika objavile su zajedno Matica srpska i Matica hrvatska, a ostale tomove (od trećeg do šestog) izdala je Matica srpska. Ovaj rečnik spada u rečnike srednjeg obima, a u njemu je obrađeno oko 150 hiljada reči iz savremenog srpskog književnog jezika.

RSJRečnik srpskoga jezika

Ovo je jednotomni rečnik srpskog jezika koji je izdala Matica srpska 2007. godine. Nastao je skraćivanjem Rečnika Matice srpske i u njemu je obrađeno oko 85 hiljada reči. Leksikografi su se stvarajući ovaj rečnik oslanjali na RMS, ali su težili ka tome da u rečnik unesu i novu leksiku (budući da je poslednji tom RMS objavljen 1976, a RSJ 2007. godine). Ovaj rečnik je najsavremeniji rečnik srpskoga jezika.

Miroslav Nikolić – Obratni rečnik srpskoga jezika (2000)

U ovom rečniku lekseme su poređane na neuobičajen način. Naime, umesto da  su prvo date one reči koje počinju slovom A, u ovom rečniku se najpre navode one koje se završavaju slovom A. Dakle, reči u ovom rečniku su uazbučene počevši od finalnog slova. Ovaj rečnik veoma je značajan za tvorbu reči, jer se u njemu lako može doći do leksema koje imaju isti završetak.

Predrag Piper, Rajna Dragićević, Marija Stefanović – Asocijativni rečnik srpskoga jezika (2005)

Asocijativnom rečniku srpskoga jezika lekseme su organizovane i popisane od stimulusa ka reakciji. Naime, koristeći asocijativne testove, autori rečnika su prkupili 800 različitih asocijacija na 600 zadatih leksema-stimulusa. 2011. godine objavljen je i Obratni asocijativni rečnik srpskoga jezika u kojem su verbalne asocijacije poređane od reakcije ka stimulusu, dakle suprotno od onoga kako su date u Asocijativnom rečniku (2005). Ovi asocijativni rečnici mogu se koristiti u proučavanju stereotipa, u komparativnim semantičkim istraživanjima, a značajna su i za enolingvistička, sociolingvistička, psiholingvistička, kulturološka i dr. istraživanja.

Ukoliko ne razumemo neku reč iz stranog jezika, potražićemo je u nekom od rečnika stranih reči:
Abdulah Škaljić – Turcizmi u srpskohrvatskom jeziku (1966);
Milan Vujaklija – Leksikon stranih reči i izraza (1991);
Vera Vasić, Tvrtko Prćić, Gordana Najgebauer – Do you speak anglosrpski? Rečnik novijih anglicizama (2001);
Bratoljub Klaić – Rječnik stranih riječi (1968);
Ivan Klajn i Milan Šipka – Veliki rečnik stranih reči i izraza (2006).

Kada nas zanima poreklo neke reči, koristićemo Etimologijski rječnik hrvatskoga ili srpskoga jezika (1971– 1974) Petra  Skoka.

U tumačenju frazeologizma pomoći će nam Frazeološki rječnik hrvatskoga ili srpskoga jezika Josipa Matešića ili Frazeološki rečnik srpskog jezika Đorđa Otaševića.

Ukoliko se bavimo tvorbenim pitanjima srpskoga jezika, koristićemo Obratni rečnik srpskoga jezika ili Semantičko-derivacioni rečnik.

Ako tražimo sinonime određene reči, naći ćemo ih u rečniku sinonima Miodraga Lalevića (Sinonimi i srodne reči srpskohrvatskog jezika).

Zainteresuje li nas neka nova reč, možemo je potražiti u nekom od rečnika novih reči:
Jovan Ćirilov – Novi rečnik novih reči (1991);
Ivan Klajn – Rečnik novih reči (1992);
Đorđe Otašević – Rečnik novih i nezabeleženih reči (1999).

U otkrivanju značenja nekih žargonizama, može nam pomoći npr. Dvosmerni rečnik srpskog žargona i žargonu sličnih reči i izraza Dragoslava Andrića.

Pomenuti rečnici predstavljaju osnovni korpus za leksikološka istraživanja. U zavisnosti od toga koji nas leksički sloj zanima, možemo koristiti neki od navedenih rečnika.

Literatura:
Dragićević, R. (2007). O Jednotomniku i povodom njegaRečnik srpskog jezika, Novi Sad: Matica srpska, 2007. Književnost i jezik, LIV 3-4, str. 407-412.
Dragićević, R. (2009). Predavanja u okviru predmeta Uvod u leksikografiju. Beograd: Filološki fakultet Univerziteta u Beogradu.
Dragićević, R. (2010). Leksikologija srpskog jezika. Beograd: Zavod za udžbenike i nastavna sredstva.

Najveći, rečnik SANU ima sakupljenih 200.000 reči.