Wat is corpus-linguïstiek?

Een paar decennia geleden over automatiseringlinguïstisch onderzoek waar wetenschappers alleen maar van konden dromen. Het werk werd handmatig gedaan, een groot aantal studenten werd aangetrokken, er was een grote kans op een fout "vanwege onvoorzichtigheid", en het belangrijkste was dat dit allemaal veel, veel tijd kostte.

Met de ontwikkeling van computertechnologie is gewordenhet is mogelijk om onderzoek een orde van grootte sneller uit te voeren, en tegenwoordig is de corpuslinguïstiek een van de veelbelovende richtingen in de studie van taal. Het belangrijkste kenmerk is het gebruik van grote hoeveelheden tekstuele informatie, geconsolideerd in een enkele database, speciaal gemarkeerd en aangeduid als een corpus.

Vandaag zijn er veelcorpuses gecreëerd voor verschillende doeleinden, op basis van verschillende taalmaterialen, die miljoenen tot tientallen miljarden lexicale eenheden omvatten. Deze richting wordt als veelbelovend erkend en toont significant succes bij het bereiken van toegepaste en onderzoeksdoelen. Professionals die zich op de een of andere manier bezighouden met natuurlijke taal, worden geadviseerd zich vertrouwd te maken met corpus-teksten, tenminste op een basisniveau.

De geschiedenis van de corpus-taalkunde

De vorming van deze richting is verbonden metde oprichting in de Verenigde Staten van het Brown Corps in de vroege jaren 60 van de vorige eeuw. De verzameling teksten bestond uit slechts 1 miljoen woordvormen en vandaag zou een corpus van een dergelijk volume volledig niet concurrerend zijn. Dit is grotendeels te wijten aan het tempo van de ontwikkeling van computertechnologie, evenals de groeiende vraag naar nieuwe onderzoeksbronnen.

In de jaren 90 werd de corpus-linguïstiek gevormdin een volledige en onafhankelijke discipline werden verzamelingen teksten gecompileerd en gemarkeerd voor een tiental talen. Tijdens deze periode, bijvoorbeeld, werd het British National Corpus gemaakt voor 100 miljoen woordgebruik.

Met de ontwikkeling van dit gebied van taalkunde,het aantal teksten wordt meer en meer (en bereikt miljarden woordenschateenheden), en de opmaak wordt steeds diverser. Tegenwoordig is het in de internetruimte mogelijk om corpus van geschreven en mondelinge spraak te vinden, meertalig en educatief, gericht op artistieke of academische literatuur, evenals vele andere variëteiten.

Wat is het lichaam

Lichaamstypes in corpus-taalkunde kunnen zijngepresenteerd om verschillende redenen. Het is intuïtief duidelijk dat de basis voor classificatie kan zijn de taal van teksten (Russisch, Duits), de toegangsmodus (open source, gesloten, commercieel), het genre van bronmateriaal (fictie, documentaire, academisch, publicisme).

Een interessante manier is de generatiematerialen die mondelinge meningsuiting vertegenwoordigen. Aangezien de opzettelijke opname van een dergelijke toespraak kunstmatige omstandigheden zou creëren voor de respondenten en het resulterende materiaal niet "spontaan" genoemd kon worden, ging de moderne corpuslinguïstiek de andere kant op. De vrijwilliger is uitgerust met een microfoon en gedurende de dag worden alle gesprekken opgenomen waaraan hij deelneemt. De omringende mensen kunnen natuurlijk niet weten dat ze in de loop van het dagelijkse gesprek bijdragen aan de ontwikkeling van de wetenschap.

Later ontvangen audio-opnamen worden opgeslagen in de bank.gegevens en vergezeld van gedrukte tekst over het type afschrift. Zo wordt de markup die nodig is om het lichaam van alledaagse spraak te creëren, mogelijk.

toepassing

Waar het gebruik van taal mogelijk is, is het gebruik van corpusteksten ook mogelijk. Het doel van de toepassing van corpusmethoden in de taalkunde kan zijn:

Oprichting van tonaliteitsbepalende programma's die actief worden gebruikt in de politiek en het bedrijfsleven om positieve en negatieve feedback van kiezers en klanten te volgen.
Het informatiesysteem verbinden met woordenboeken en vertalers om hun prestaties te verbeteren.
Een verscheidenheid aan onderzoekstaken die bijdragen aan het begrijpen van de structuur van de taal, de geschiedenis van zijn ontwikkeling en voorspellingen van zijn verandering in de nabije toekomst.
Ontwikkeling van informatie-extractiesystemen op basis van morfologische, syntactische, semantische en andere kenmerken.
Optimalisatie van verschillende taalsystemen, etc.

Gebruik van gebouwen

De broninterface is vergelijkbaar met een normale zoekmachine.systeem en vraagt de gebruiker om een woord of een combinatie van woorden in te voeren om in de informatiebank te zoeken. Naast het exacte vraagformulier, kunt u de uitgebreide versie gebruiken, waarmee u tekstuele informatie over vrijwel alle taalkundige criteria kunt vinden.

De reden voor het zoeken kan zijn:

behorende tot een bepaalde groep van spraakgedeelten;
grammaticale tekens;
semantiek;
stilistische en emotionele kleuren.

Bovendien kunt u zoekcriteria voor combinerenwoordreeksen: bijvoorbeeld, om alle voorkomens van een werkwoord in de tegenwoordige tijd, eerste persoon, enkelvoud, gevolgd door het voorzetsel "in" en het zelfstandig naamwoord in het accusatief geval te vinden. De oplossing van zo'n eenvoudige taak kost de gebruiker enkele seconden en vereist slechts een paar muisklikken in de opgegeven velden.

Creatieproces

De zoekopdracht zelf kan zowel voor alle subcorpussen worden uitgevoerd, als voor één specifiek geselecteerd, afhankelijk van de behoeften bij het bereiken van een bepaald doel:

De eerste stap is om te bepalen in welke teksten zal zijnbasis behuizing. Voor praktische doeleinden worden vaak journalistieke, krantenmaterialen en internetcommentaren gebruikt. Een breed scala van corpustypen wordt gebruikt in onderzoeksprojecten, maar de teksten moeten worden geselecteerd voor een gemeenschappelijke basis.
De resulterende set van teksten is voorverwerkt, fouten zijn gecorrigeerd, indien aanwezig, een bibliografische en extralinguïstische beschrijving van de tekst is voorbereid.
Alle niet-tekstuele informatie is geëlimineerd: grafieken, afbeeldingen, tabellen worden verwijderd.
Er is een selectie van tokens, meestal met woorden, voor de verdere verwerking ervan.
Tenslotte wordt morfologische, syntactische en andere opmaak van de verkregen verzameling elementen uitgevoerd.

Het resultaat van alle uitgevoerde bewerkingen iseen syntactische structuur met een reeks elementen erover verdeeld, voor elk waarvan een deel van spraak, grammaticale en in sommige gevallen semantische kenmerken zijn gedefinieerd.

Uitdagingen bij het bouwen van behuizingen

Het is belangrijk om dat te begrijpen om de zaak te krijgenhet is niet genoeg om veel woorden of zinnen samen te stellen. Aan de ene kant moet de verzameling teksten in evenwicht zijn, dat wil zeggen dat ze verschillende soorten teksten vertegenwoordigen in bepaalde verhoudingen. Aan de andere kant moet de inhoud van het lichaam speciaal worden gemarkeerd.

De eerste vraag is opgelost door overeenstemming: bijvoorbeeld, 60% van de literaire teksten is opgenomen in de collectie, 20% van de documentaire teksten, een bepaald percentage wordt gegeven aan de schriftelijke presentatie van mondelinge toespraak, wetgevingshandelingen, wetenschappelijke werken, enz. Er is vandaag geen perfect recept voor een uitgebalanceerd lichaam.

De tweede vraag gaat over inhoudsopmaak,moeilijker opgelost. Er zijn speciale programma's en algoritmen die worden gebruikt om automatisch teksten te markeren, maar ze geven geen honderd procent resultaat, ze kunnen fouten veroorzaken en handmatige verfijning vereisen. De mogelijkheden en problemen bij het oplossen van dit probleem worden gedetailleerd beschreven in V.P. Zakharovs werk over de corpuslinguïstiek.

De opmaak van de tekst wordt op verschillende niveaus uitgevoerd, die we hieronder opsommen.

Morfologische markering

Van school herinneren we dat in het Russischer zijn verschillende delen van spraak, en elk van hen heeft zijn eigen kenmerken. Een werkwoord heeft bijvoorbeeld categorieën van neiging en spanningen die een zelfstandig naamwoord niet heeft. Een native speaker, zonder aarzeling, neigt zelfstandige naamwoorden en vervoegt werkwoorden, maar handarbeid is niet geschikt om een corpus van 100 miljoen woorden te markeren. Alle noodzakelijke bewerkingen zullen in staat zijn om de computer uit te voeren, maar hiervoor moet het worden aangeleerd.

Morfologische markeringen zijn nodig omde computer "verstond" elk woord als een deel van spraak dat bepaalde grammaticale kenmerken heeft. Aangezien een aantal reguliere regels in het Russisch (zoals in elke andere taal) werken, is het mogelijk om een automatische procedure voor morfologische analyse te bouwen door een aantal algoritmen in de machine te investeren. Er zijn echter uitzonderingen op de regels, evenals verschillende complicerende factoren. Dientengevolge is pure computeranalyse vandaag verre van ideaal, en geeft zelfs 4% van de fouten een waarde van 4 miljoen woorden op een lichaam van 100 miljoen eenheden, wat handmatige verfijning vereist.

Dit probleem wordt gedetailleerd beschreven door het boek "Corpus Linguistics" van V. P. Zakharov.

Syntaxismarkering

Parsing of parsing isprocedure die de relatie van woorden in een zin definieert. Met behulp van een reeks algoritmen wordt het mogelijk om in de tekst het onderwerp, het predikaat, de toevoegingen, verschillende wendingen van spraak te bepalen. Om erachter te komen welke woorden in de reeks het belangrijkste zijn en welke afhankelijk zijn, kunnen we efficiënt informatie uit de tekst extraheren en de machine trainen om alleen de informatie van interesse af te geven in reactie op een zoekopdracht.

Corpuslinguïstieklaboratoria aan Russische universiteiten

Overigens gebruiken moderne zoekmachineshierdoor, om specifieke cijfers te produceren in plaats van lange teksten als antwoord op relevante verzoeken zoals: "hoeveel calorieën in een appel" of "de afstand van Moskou tot St. Petersburg". Om echter de basisprincipes van het beschreven proces te begrijpen, moet u zich vertrouwd maken met de 'Inleiding tot Corpus Linguistics' of een ander basishandboek.

Semantische opmaak

De semantiek van een woord is, in eenvoudige termen, hetbetekent. Een breed toepasbare benadering in semantische analyse is het toekennen van tags aan een woord, wat aangeeft dat het bij een reeks semantische categorieën en subcategorieën hoort. Dergelijke informatie is waardevol voor het optimaliseren van tekstalgoritmen voor analyse van tonaliteit, automatische samenvatting en andere taken met corpus-taalkunde.

Er zijn een aantal "wortels" van de boom,abstracte woorden representeren met een zeer brede semantiek. Terwijl deze boom vertakt, worden knooppunten gevormd die steeds meer specifieke lexicale elementen bevatten. Het woord 'schepsel' kan bijvoorbeeld worden geassocieerd met begrippen als 'man' en 'dier'. Het eerste woord zal zich blijven vertakken in verschillende beroepen, termen van verwantschap, nationaliteit en de tweede - in klassen en soorten dieren.

Het gebruik van informatie-zoeksystemen

Reikwijdte van Corpus Linguisticsbestrijken een breed scala van activiteiten. De cases worden gebruikt voor het compileren en corrigeren van woordenboeken, het maken van automatische vertaalsystemen, samenvatten, feiten ophalen, tonaliteit bepalen en andere tekstverwerking.

Bovendien worden dergelijke bronnen actief gebruikt.in de studie van de talen van de wereld en de mechanismen van het functioneren van de taal als geheel. Toegang tot grote hoeveelheden eerder voorbereide informatie draagt bij aan de snelle en uitgebreide studie van trends in de ontwikkeling van talen, de vorming van neologismen en stabiele spraakomkeringen, veranderingen in de waarden van lexicale eenheden, enz.

Omdat het werken met dergelijke grote hoeveelheden gegevens automatisering vereist, is er tegenwoordig een nauwe interactie tussen computer- en corpus-taalkunde.

Nationaal Corpus van de Russische taal

Dit corpus (afgekort als NCRF) bevat een aantal subcorpussen waarmee de bron kan worden gebruikt om een breed scala aan taken op te lossen.

De materialen in de basis van de NCRF zijn onderverdeeld in:

over de publicatie in de media van de jaren 90 en 2000, zowel binnenlandse als buitenlandse;
spraakopnamen;
accentologisch gemarkeerde teksten (dat wil zeggen met stressmarkeringen);
dialect spraak;
poëtische werken;
materialen met syntaxisopmaak, etc.

Het informatiesysteem bevat ook subcorpussen met parallelle vertalingen van werken uit het Russisch in het Engels, Duits, Frans en vele andere talen (en vice versa).

Ook in de database is er een gedeelte van historische teksten,het vertegenwoordigen van geschreven taal in het Russisch in verschillende perioden van zijn ontwikkeling. Er is ook een trainingskorps, dat voor buitenlandse burgers nuttig kan zijn bij het beheersen van de Russische taal.

Het nationale corpus van de Russische taal omvat 400 miljoen lexicale eenheden en loopt in veel opzichten voor op een aanzienlijk deel van de corpussen van Europese talen.

prospects

Feit voor het herkennen van deze richtingveelbelovend is de aanwezigheid van laboratoria voor corpuslinguïstiek aan Russische universiteiten, evenals in buitenlandse universiteiten. Met het gebruik en onderzoek in het kader van de informatiezoekmiddelen die worden overwogen, is de ontwikkeling van een aantal gebieden op het gebied van geavanceerde technologieën en vraag-antwoordsystemen met elkaar verbonden, maar dit is hierboven besproken.

Verdere ontwikkeling van corpus-taalkundevoorspeld op alle niveaus, variërend van technisch, in termen van de introductie van nieuwe algoritmen die het proces van het zoeken en verwerken van informatie optimaliseren, de mogelijkheden van computers uitbreiden, RAM vergroten en eindigen met alledaagse, aangezien gebruikers steeds meer manieren vinden om dit soort bronnen in het dagelijks leven en werk te gebruiken .

Tot slot

In het midden van de vorige eeuw werd 2017 gepresenteerdeen verre toekomst waarin ruimtevaartuigen door het universum reizen en robots al het werk voor mensen doen. In werkelijkheid is de wetenschap rijk aan 'witte vlekken' en worden wanhopige pogingen gedaan om vragen te beantwoorden die de mensheid al eeuwenlang zorgen baren. Vragen over het functioneren van de taal vormen hier een eervolle plaats, en corpus- en computerlinguïstiek kunnen ons helpen deze te beantwoorden.

Het verwerken van grote hoeveelheden gegevens maakt dit mogelijkdetecteer patronen die voorheen niet beschikbaar waren, voorspel de ontwikkeling van bepaalde taalkenmerken, volg de formatie van woorden bijna in realtime.

Op een praktisch wereldwijd niveau kunnen casco'sbijvoorbeeld beschouwd als een potentieel hulpmiddel voor het beoordelen van het publieke sentiment - het internet is een continu bijgewerkte database van verschillende teksten die door echte gebruikers zijn gemaakt: commentaren en recensies, artikelen en vele andere vormen van spraak.

Bovendien draagt het werken met behuizingen bijde ontwikkeling van dezelfde technische hulpmiddelen die betrokken zijn bij het zoeken naar informatie, ons bekend bij Google of Yandex, machinevertaling, elektronische woordenboeken.

Het is veilig om te zeggen dat corpuslinguïstiek slechts de eerste stappen zet, en zich snel zal ontwikkelen in de nabije toekomst.

</ p>>