FormasyonOkullar ve üniversiteler

Corpus Dilbilim nedir?

Sadece on yıllar önce dilsel araştırma otomatik hale getirmek için, bilim adamları sadece hayal olabilir. iş en önemlisi önemli bir olasılık "dikkatsiz" hatalar var, bu öğrencilerin çok sayıda çekiyor elle yapılıyordu edildi ve - tüm bu uzun, çok uzun zaman aldı.

Bilgisayar teknolojisinin gelişmesi daha hızlı büyüklük sırasına araştırma yapmak mümkün hale gelir ve bugün olan ile dil konusunda en umut verici yönleri biri derlem dilbilim olduğunu. Başlıca özelliği özel bir şekilde tek bir veritabanına metin bilgisi, büyük miktarlarda bilginin kullanımı ve belirgin vücudu aradı.

Bugüne kadar sözcük birimlerinin onlarca milyar milyonlarca kapsayan çeşitli dilsel malzemenin temelinde farklı amaçlar ile oluşturulan birçok bina vardır. Bu yönde umut verici olarak tanınan ve uygulama ve araştırma amaçlı yolunda önemli bir ilerleme göstermektedir edilir. Uzmanlar, öyle ya doğal dil ile bir başka işlem, en azından temel düzeyde metinleri vücuda hakkında bilgi almak için tavsiye edilir.

Korpus dilbilim Tarihçesi

Bu eğilimin oluşması geçen yüzyılın başlarında 60-ler Brown vücuduna Birleşik Devletleri'nin yaratılması kaynaklanmaktadır. toplama kelime formlarının hepsi 1 milyon metinleri içerir ve bugün bu boyutta vücut tamamen rekabetsiz olurdu. Bu bilgisayar teknolojisinin gelişim hızı, hem de yeni araştırma kaynaklarının artan ihtiyaca paralel kaynaklanıyor.

Korpus dilbilim tam ve bağımsız bir disiplin içine çıkan 90'lı yıllarda metinler koleksiyonu hazırlanmıştır ve onlarca dil için işaretlenmiş. Bu dönemde örneğin, İngiliz Ulusal Corpus 100 milyon belirteçleri yaratıldı.

dilbilim bu alanda gelişmesiyle birlikte, metin hacimleri daha fazla hale gelmektedir (ve sözlük birimlerin milyarlarca ulaşabilir) ve düzen daha çeşitli hale geliyor. Bugüne kadar, internet alan yazılı karkas bulundu ve dili, çok dilli ve öğrenme odaklı sanatsal veya akademik literatürü yanı sıra diğer birçok türün söylenebilir.

konut nelerdir

Vücut dilbilim Vücut tipleri çeşitli nedenlerle sağlanabilir. Sezgisel, sınıflandırma için temel (Rusça, Almanca) bir metin dilini, (ticari açık kaynak, kapalı,) erişim modu, kaynak materyal (kurmaca, belgesel, akademik, Gazetecilik) genresini olabilir.

İlginç yolu konuşulan dilin malzemeleri üretir. Böyle konuşma kasıtlı kayıt katılımcılar için yapay bir ortam oluşturmak için, ve elde edilen malzeme "spontane" olarak adlandırılan alınamadığından, çağdaş korpus dilbilim başka bir yol gitti. Bir gönüllü, mikrofon bulunan ve gün boyunca İştirak ettiği bütün konuşmaları, kaydını üretilir. İnsanlar etrafında, tabii ki, gündelik konuşma sırasında bilimin gelişmesine katkıda bulunduğunu bilmiyor olabilir.

Daha sonra veritabanında saklanan kaydını almış ve baskılı metin transkript türü eşlik eder. Böylece, oral günlük konuşma konut oluşturmak için gerekli olası biçimlendirme olur.

uygulama

Mümkün dil kullanımı ve belki binalar metinler kullanımı. Yöntemler olabilir dilbilim gövdeyi uygulamak:

  • anahtarını belirleyen bir program oluşturma, yaygın sırasıyla seçmenler ve müşterilerin olumlu ve olumsuz tepkilerin takip etmek için siyaset ve iş kullanılmaktadır.
  • sözlükler ve çevirmenler bağlantı bilgi sistemi performanslarını artırmak için.
  • dil biriminin, yakın gelecekte değişikliklerin kendi gelişimi ve tahmini tarihini anlamada katkı araştırma görevleri çeşitli.
  • Morfolojik, yapısal, anlamsal ve diğer özellikleri dayalı bilgi erişim sistemlerinin geliştirilmesi.
  • Farklı dil sistemi ve diğerlerinin Optimizasyonu.

Binaların Kullanım

Benzer kaynak tipik arama motoru ile arayüz ve bilgi tabanı aramak için kelimelerin bir sözcük veya kombinasyonunu girmesini ister. Dışında tam sorgu hemen her dilsel kriterlere metinsel bilgiyi bulmanızı sağlar gelişmiş versiyonunu kullanabilirsiniz oluştururlar.

Arama tabanı çekebilir:

  • konuşma parçaları belli bir grup üye;
  • dilbilgisi özellikleri;
  • semantik;
  • üslup ve duygusal boyama.

Ayrıca "in" edatı ve -i halinde isimden sonra gelen tekil şimdiki zaman, ilk kişiye, fiilin tüm tekrarlamalarını bulmak için, örneğin, kelime sırası için arama kriterleri birleştirebilirsiniz. Böyle basit bir göreve çözüm kullanıcıya birkaç saniye sürer ve belirtilen alanlarda sadece birkaç fare tıklaması gerektirir.

oluşturma işlemi

Arama kendisi bütün subcorpus üzerinde gerçekleştirilebilir ve bir spesifik olarak, seçilen belirli bir hedefe ulaşmada ihtiyaçlarına bağlı olarak:

  1. İlk adım, bir durum için bir temel oluşturan metin tanımlamaktır. Pratik amaçlar için, sık sık gazetecilik, haberler, çevrimiçi yorum kullanılır. araştırma projesi paket tiplerinde çeşitli kullanılmasıdır, ancak metin bazı ortak zemine göre seçilmelidir.
  2. ön muamelelere tabi metinlerin çıkan toplanması, metnin bibliyografik ve ekstra dilbilimsel açıklama ile hazırlanan, varsa hatalarının düzeltilmesi yoktur.
  3. olmayan tüm metinsel bilgiyi elimine edilir: grafik, resim, tablo temizler.
  4. daha sonraki işlemler için, tipik olarak, konuşma olan jeton, bir ayırma mi.
  5. Son olarak, bu elementlerin elde morfolojik sözdizimsel ve diğer işaretler çok sayıda gerçekleştirilebilir.

Bazı durumlarda, semantik öznitelikleri, konuşma, gramer kısmını tanımlanır ve her biri elemanları, bir çok, içinde dağıtılmış bir sözdizimsel yapı ile yapılan tüm işlemler sonucu.

binalar oluşturmada zorluklar

O vücut için birlikte kelime veya cümle grubu koymak için yeterli değildir anlamak önemlidir. Bir yandan, metinlerin bir koleksiyon, yani dengeli olması belli oranlarda farklı metin türlerini temsil etmelidir. Diğer taraftan - muhafazanın muhtevası özel bir şekilde aralıklı olmalıdır.

İlk sorun bir anlaşmayla çözüldü: örneğin, koleksiyonunda edebi metinlerin% 60, belgesel% 20 içeren, belirli bir yüzdede mükemmel tarifi dengeli vücut bugün yok konuşulan dil, mevzuat, bilimsel eserler, vb yazılı temsilini verilir ...

içerik düzenini ilgilendiren ikinci soru, zorlu çözmek. Orada özel programlar ve otomatik metin işaretleme için kullanılan algoritmalar, ancak bozulmalara neden olabilir, mükemmel bir sonuç verir ve manuel yeniden işlemeyi gerektirmez. bu sorun ile ilgili fırsatlar ve zorluklar korpus dilbilim bir kağıt V. P. Zaharova ayrıntılı olarak açıklanmıştır.

Metin biçimlendirme aşağıda listesi çeşitli düzeylerde en uygulanmaktadır.

morfolojik etiketleme

Okuldan, biz Rus dilinde, konuşmanın farklı bölümleri olduğunu unutmayın ve bunların her biri kendi özellikleri vardır. Örneğin, fiil eğim kategorilerini ve zaman hiçbir i vardır. çekinmeden anadili isimler ve eşlenik fiiller düşer, ancak 100 milyon gövdesini işaretlemek için. çalışmayacaktır el emeği belirteçleri. o öğretti gereken bunun için gerekli tüm işlemler, ancak, bilgisayar yürütebilirsiniz.

Morfolojik etiketleme, bilgisayar belirli gramer özelliklere sahip konuşmanın belli bir parçası olarak her kelime "anlama" olmalıdır. Rus (ve başka bir dil) düzenli kurallar bir dizi faaliyet olduğundan, algoritmaların bir dizi arabada yatırım, morfolojik analiz için otomatik bir prosedür oluşturmak mümkündür. Ancak, kural, yanı sıra çeşitli komplike faktörlere istisnaları vardır. Sonuç olarak, bugün net bilgisayar analizleri ideal olmaktan uzak olduğunu ve hatta% 4 hatası 4 milyon değerine verir. manuel yeniden işlemeyi gerektiren 100 milyon. Birimlerin vücudunda Kelimeler.

Ayrıntılı kitap sorunu Zaharova V. P. "Corpus Dilbilim" açıklar.

sözdizimsel ek açıklama

Ayrıştırma veya ayrıştırma - Bir cümledeki kelimelerin ilişkiyi belirleyen bir prosedür. algoritmaları bir dizi kullanarak konu, yüklem, eklemeler, konuşmanın birden dönüşleri metnini belirlemek mümkündür. Ana dizisi ve hangi hangi kelimeleri öğrenin - bağımlı, etkili bir metin bilgileri elde eder ve bir arama isteğine yanıt olarak bizi ilgilendiren tek bilgi vermek için makineyi öğretmek.

Bu arada, modern arama motorları gibi ilgili sorulara cevap olarak belirli numaralar yerine uzun metinleri vermek için kullanabilir ya da "kaç kalori bir elma içinde" "St. Petersburg Moskova'dan mesafeye." Ancak, ya da diğer temel öğretici "Corpus Dilbilim Giriş" danışmak ihtiyacı tarif sürecin hatta temellerini anlamak için.

anlamsal biçimlendirme

Kelimenin semantik - Basitçe, anlam vardır. onun anlamsal kategoriler ve alt kategoriler kümesine aittir yansıtan bir kelime ilişkilendirme etiketlerinin anlamsal çözümleme, büyük oranda uygulanmaktadır yaklaşım. Bu tür bilgiler algoritmaları metin tonu, otomatik özetleme ve korpus dilbilim diğer görevleri yöntemlerini analiz optimize etmek için değerlidir.

çok geniş bir semantik ile soyut bir kelime temsil eden ağacın "kökü", bir dizi vardır. ağaç düğümleri bir kolu oluşturulur, daha fazla ve daha özel sözcük elemanları ihtiva etmektedir. Örneğin, kelime "yaratık" "insan" ve "hayvan" gibi kavramlar ile ilişkili olabilir. sınıflar ve hayvanların türlerine - ilk kelime farklı meslekler, akrabalık terimleri, milliyet, ikincisi içine dal devam edecektir.

bilgi erişim sistemlerinin kullanımı

Korpus dilbilim kullanım alanları çeşitli faaliyet alanlarını kapsamaktadır. Muhafazaları sözlüklerin hazırlanması ve düzeltilmesi için kullanılır, otomatik çeviri sistemlerini, gerçekleri almak şerh tonu ve diğer metin işleme belirleyen oluşturun.

Buna ek olarak, bu tür kaynaklar aktif dünya dillerinde ve genel olarak dilin işleyen mekanizmaların çalışmada kullanılmıştır. Önceden hazırlanmış büyük boyutlu bilgilerin erişim geliştirme dillerinin eğilimlerin hızlı ve kapsamlı bir eğitimi mümkün kılıyor ve istikrarlı oluşum neolojizm konuşma hızı değişimi sözcük birimleri ve diğerlerini değer verir.

Verilerin bu kadar büyük miktarda iş otomasyonu gerektirdiğinden, bugün bilgisayar ve korpus dilbilim arasındaki yakın etkileşim yoktur.

Rus Milli Corpus

Bu durum, (kısaltılmış NKRYA) görevleri geniş bir çeşitliliği için bir kaynak kullanımına izin veren subcorpus bir dizi içerir.

veritabanında malzemeler NKRYA ayrılır:

  • yerli ve yabancı medyanın 90'ların ve 2000'lerin, içinde yayınlara;
  • konuşma kayıt;
  • aktsentologicheski metinleri işaretli (yani, stres işaretleri);
  • ağız konuşma;
  • şiir;
  • yapısal ve diğer işaretlerin olan malzemeler.

Ayrıca bilgi İngilizce, Almanca, Fransızca ve diğer birçok dilleri (ve tersi) Rusça'dan eserlerin paralel çevirileri Subcorpus içerir.

Ayrıca veritabanında gelişiminin farklı dönemlerde Rusça yazılmış konuşma temsil tarihsel metin bir bölüm vardır. Rus diline egemen yabancı vatandaşlar için yararlı olabilir bir eğitim gövde, de bulunmaktadır.

Rus Milli Corpus 400 milyon sözcük birimlerini içermektedir, ve önümüzdeki Avrupa organlarının dillerinin önemli bir kısmının çok yönden.

umutları

Bu eğilimin tanınması lehine Aslında yabancı, hem de Rus üniversitelerde laboratuvar korpus dilbilim vaat mevcudiyetidir. bu bilgi ve arama kaynaklarının çerçevesinde kullanılması ve araştırma ile yüksek teknolojilerin, soru-cevaplama sistemleri alanında belirli alanlarda gelişmesini de beraberinde getirir ancak yukarıda ele alınmıştır.

kullanıcıların günlük kaynağın bu tür kullanımı giderek daha fazla yolu vardır çünkü korpus dilbilim daha da geliştirilmesi, teknik dan ve bilgisayarları güçlendirici, arama ve bilgi işlem süreçlerini optimize yeni algoritmalar, daha RAM uygulanması bakımından ve tüketiciye kadar uzanan her düzeyde tahmin ediliyor yaşam ve çalışma.

Sonuç olarak

uzay gemileri evrende seyahat ve robotlar insanlar için tüm çalışmaları yapmak nerede, 2017 yılında son yüzyılın ortalarında, uzak bir gelecek gibi görünüyordu. Aslında, bilim "beyaz noktalar" ve rahatsız yüzyıllardır insanlığın soruları cevaplamak için umutsuz girişimleri yapma doludur. Dilin işleyen Sorular burada onurlu bir yer işgal ve kabine ve bilişimsel dilbilim onlara cevap için bize yardımcı olabilir.

Büyük veri kümelerinin işlenmesi neredeyse gerçek zamanlı olarak kelimelerin oluşumunu izlemek için özel dil özelliklerinin gelişimini tahmin, daha önce erişilemeyen, desenleri tespit edebilir.

Pratik bir düzeyde, küresel muhafazaları kamu ruh değerlendirmek için potansiyel bir araç olarak, örneğin, görülebilir - İnternet gerçek kullanıcılar tarafından oluşturulan sürekli güncellenen günlük olarak çeşitli metinler geçerli: yorumlar ve incelemeler ve makaleleri ve konuşmanın diğer birçok formları bu.

Buna ek olarak, organları ile çalışma bilgi alma katılan aynı donanım, gelişmesine katkıda biz hizmet "Google" veya "Yandex" makine çevirisi, elektronik sözlükler aşinadır.

Biz güvenle korpus dilbilim sadece ilk adımlarını yapar iddia edebilir ve yakın gelecekte gelişecek.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 tr.birmiss.com. Theme powered by WordPress.