Skip to main content
LibreTexts - Ukrayinska

10: Текст

  • Page ID
    92367
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Як уже згадувалося неодноразово, лінгвістичні корпуси за своєю природою складаються з словоформ, тоді як інші рівні мовного представлення не представлені, якщо не будуть додані відповідні анотації. У письмових корпусах є один рівень, крім лексичного, який є (або може бути) безпосередньо представлений: текст. Добре побудовані лінгвістичні корпуси зазвичай складаються (зразки з) окремих текстів, метаінформація яких (автор, назва, оригінальне місце і контекст публікації тощо) відомі. Існує значна частина корпусно-лінгвістичних досліджень, заснованих на конструкціях, які поєднують дві за своєю суттю представлені змінні\(\mathrm{Word}\) (\(\mathrm{Form}\)) і\(\mathrm{Text}\); такі конструкції можуть стосуватися виникнення слів в окремих текстах або, що більш типово, з появою слів у кластерах текстів, що належать до одного мовного розмаїття (визначається темою, жанром, функцією тощо).

    Тексти, звичайно, виробляються ораторами, і залежно від того, скільки і яка інформація про цих ораторів доступна, ми також можемо кластерувати тексти відповідно до демографічних змінних, таких як діалект, соціально-економічний статус, стать, вік, політична чи релігійна приналежність тощо (як ми це робили у багатьох прикладів у попередніх розділах). У цих випадках кількісна корпусна лінгвістика по суті є варіантом соціолінгвістики, що відрізняється головним чином тим, що лінгвістичні явища, на які вона приділяє найбільше уваги, не обов'язково є найбільш центральними для соціолінгвістичних досліджень загалом.