Skip to main content
LibreTexts - Ukrayinska

3.2: Дані про дані

  • Page ID
    37089
    • Anonymous
    • LibreTexts
    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Цілі навчання

    • Метою цього розділу є висвітлення різниці між первинними та вторинними джерелами даних та розуміння важливості метаданих та стандартів даних.

    Розглянемо наступний файл, розділений комами:

    місто, сонце, темп, прецип

    Лос-Анджелес, 300, 70, 10

    Лондонська, 50, 55, 40

    Сінгапурська, 330, 80, 60

    Дивлячись на вміст файлу, ми бачимо, що він містить дані про міста Лос-Анджелес, Лондон та Сінгапур. Як зазначалося, кожне поле або атрибут відокремлено комою, а файл також містить рядок заголовка, який повідомляє нам про дані, що містяться в кожному стовпці. Або це так? До чого відноситься колонка «сонце»? Це кількість сонячних днів цього року, минулого року, щорічно чи коли? А як щодо «темп»? Чи відноситься це до середньої денної, вечірньої або річної температури? З цього приводу, як вимірюється температура? За Цельсієм? За Фаренгейтом? Кельвін? Стовпець «precip», ймовірно, відноситься до опадів, але знову ж таки, які одиниці або часові рамки для таких заходів і даних? Нарешті, звідки взялися ці дані? Хто їх збирав, коли збирали і з якою метою?

    Дивно думати, що такий невеликий текстовий файл може привести до такої кількості питань. Тепер давайте продовжимо приклад до файлу зі ста записами на десять змінних, тисяча записів на сто змінних або ще краще, десять тисяч записів на тисячу змінних. Через цей досить простий приклад виникає ряд загальних, але центральних проблем, пов'язаних з даними. Такі проблеми варіюються від відносно приземлених угод про іменування, які використовуються для ідентифікації окремих записів (тобто рядків) та відрізнення одного поля (тобто стовпця) від іншого, до питання надання документації про те, які дані включені до певного файлу; коли дані були зібрані; для якої мети дані, які будуть використані; хто їх збирав; і, звичайно, звідки взялися дані?

    Попередній простий текстовий файл ілюструє, як ми не можемо і не повинні сприймати дані та інформацію як належне. Він також виділяє дві важливі поняття щодо джерела даних та вмісту файлів даних. Що стосується джерел даних, то дані можна помістити в одну з двох різних категорій. Перша категорія називається первинними даними. Первинні дані відносяться до даних, які збираються безпосередньо або з перших вуст. Наприклад, якщо ви хотіли вивчити мінливість місцевих температур у травні місяці, і ви записували температуру опівдні щодня в травні, ви б будували первинний набір даних. І навпаки, вторинні дані стосуються даних, зібраних кимось іншим або якоюсь іншою стороною. Наприклад, коли ми працюємо з переписом або економічними даними, зібраними та розповсюдженими урядом, ми використовуємо вторинні дані.

    Кілька факторів впливають на рішення, що стоїть за побудовою та використанням первинних наборів даних порівняно з вторинними наборами даних. Серед найважливіших факторів є витрати, пов'язані зі збором даних з точки зору грошей, доступності та часу. Фактично, етап збору та інтеграції даних більшості проектів геоінформаційних систем (ГІС) часто є найбільш трудомістким. Іншими словами, пошук, отримання та складання даних, які будуть використовуватися для проекту ГІС, незалежно від того, чи збираєте ви дані самостійно або використовуєте вторинні дані, дійсно може зайняти більшу частину вашого часу. Звичайно, залежно від мети, доступності та потреби, може не знадобитися побудова абсолютно нового набору даних (тобто первинного набору даних). У світлі величезних обсягів даних та інформації, які є загальнодоступними, наприклад, через Інтернет, економія витрат і часу використання вторинних даних часто компенсує будь-які переваги, пов'язані зі збором первинних даних.

    Тепер, коли ми маємо базове розуміння різниці між первинними та вторинними даними, а також обґрунтування кожного, як ми можемо знайти потрібні нам дані та інформацію? Як зазначалося раніше, нам доступний неймовірно великий і зростаючий обсяг даних та інформації, і виконання онлайн-пошуку «даних про вирубку лісів» поверне сотні, якщо не тисячі - результатів. Щоб подолати ці дані та інформаційне перевантаження, нам потрібно звернутися до... ще більшої кількості даних. Зокрема, ми шукаємо особливий вид даних, який називається метаданими. Просто визначені метадані - це дані про дані. На одному рівні рядок заголовка у простому текстовому файлі, подібний до тих, які обговорювалися в попередньому розділі, аналогічний метаданим. Рядок заголовка містить дані (наприклад, імена та мітки) про наступні рядки даних.

    Однак самі рядки заголовків можуть потребувати додаткового пояснення, як показано раніше. Крім того, при роботі з декількома наборами даних або пошуку через кілька наборів даних може бути досить утомливо в кращому випадку або неможливо в гіршому випадку відкрити кожен файл, щоб визначити його вміст і зручність використання. Введіть метадані. Сьогодні багато файлів, зокрема вторинні набори даних, постачаються з файлом метаданих. Ці файли метаданих містять такі елементи, як загальні описи вмісту файлу, визначення різних термінів, що використовуються для ідентифікації записів (рядків) та полів (полів), діапазон значень полів, якість або надійність даних та вимірювань, спосіб збору даних, коли дані були зібрані, і хто збирав дані. Хоча не всі дані супроводжуються метаданими, легко зрозуміти і зрозуміти, чому метадані є важливими та цінними при пошуку вторинних даних, а також при побудові первинних даних, які можуть бути спільними в майбутньому.

    Так само, як прості файли бувають всіх форм, розмірів і форматів, так і метаданих. Оскільки кількість та доступність даних та інформації збільшуються з кожним днем, метадані відіграють вирішальну роль у розумінні всього цього. Клас метаданих, які нас найбільше турбують при роботі з ГІС, називається геопросторовими метаданими. Як випливає з назви, геопросторові метадані - це дані про географічні та просторові дані. За даними Федерального комітету з географічних даних (FGDC) у Сполучених Штатах (див. http://www.fgdc.gov), «геопросторові метадані використовуються для документування географічних цифрових ресурсів, таких як файли ГІС, геопросторові бази даних та зображення Землі. Запис геопросторових метаданих включає основні елементи каталогу бібліотеки, такі як назва, анотація та дані публікації; географічні елементи, такі як географічний ступінь та інформація про проекцію; та елементи бази даних, такі як визначення міток атрибутів та значення домену атрибутів». Визначення геопросторових метаданих стосується поліпшення прозорості, коли мова йде про дані, а також сприяння стандартам. Знайдіть кілька хвилин, щоб вивчити та вивчити вміст файлу геопросторових метаданих, який відповідає FGDC тут.

    Як правило, стандарти стосуються широко пропагованих, прийнятих і дотримуються правил і практики. Враховуючи діапазон та мінливість даних та джерел даних, визначення загального потоку для пошуку та розуміння вмісту будь-якого заданого файлу може бути проблемою. Подібно до того, як правила граматики та математики забезпечують основи для спілкування та числових обчислень, відповідно, метадані забезпечують подібні рамки для роботи з даними та інформацією з різних джерел та обміну ними.

    Центральним моментом метаданих є те, що вони полегшують обмін даними та інформацією. У контексті великих організацій, таких як уряди, обмін даними та інформацією може усунути надмірність та підвищити ефективність. Крім того, доступ до даних та інформації сприяє інтеграції різних даних, які можуть покращити аналіз, інформувати рішення та формувати політику. Роль, яку метадані - і, зокрема, геопросторові метадані - відіграють у світі ГІС, є критичною та пропонує величезні переваги з точки зору економії витрат та часу. Саме обмін, широке поширення та інтеграція різних географічних та негеографічних даних та інформації, що забезпечуються метаданими, призводять до деяких найцікавіших та переконливих інновацій у ГІС та ширшому співтоваристві геопросторових інформаційних технологій. Що ще важливіше, широкий доступ, розповсюдження та обмін географічними даними та інформацією мають важливі соціальні витрати та переваги та дають кращий аналіз та більш обґрунтовані рішення.

    Ключові виноси

    • Первинні дані стосуються даних, отриманих шляхом прямого спостереження або вимірювання, а вторинні дані стосуються даних, зібраних іншою стороною.
    • Збір даних є одним з найбільш трудомістких аспектів будь-якого проекту ГІС.
    • Метадані — це дані про дані та сприяють обміну даними, поширенню та інтеграції.

    ВПРАВИ

    1. Які витрати та переваги використання первинних даних замість вторинних даних?
    2. Зверніться до веб-сайту Федерального комітету з географічних даних (http://www.fgdc.gov) та детально опишіть, яку інформацію слід включити до файлу метаданих. Чому метадані та стандарти важливі?