3.1: Дані та інформація
- Page ID
- 37113
Цілі навчання
- Метою цього розділу є визначення та опис даних та інформації та того, як вони організовані у файли для використання в середовищі обчислювальної та геоінформаційної системи (ГІС).
Щоб зрозуміти, як ми переходимо від аналогових до цифрових карт, почнемо з будівельних блоків та основ геоінформаційної системи (ГІС), а саме даних та інформації. Як уже зазначалося неодноразово, ГІС зберігає, редагує, обробляє та представляє дані та інформацію. Але що саме таке дані? А що саме таке інформація? Для багатьох терміни «дані» і «інформація» відносяться до одного і того ж. Для наших цілей корисно провести розмежування між ними. Як правило, дані стосуються фактів, вимірювань, характеристик або ознак об'єкта інтересу. Для вас граматичні наклейки там, зверніть увагу, що «дані» є множинною формою «datum». Наприклад, ми можемо зібрати всі види даних про всі види речей, як довжина райдужної форелі в потоці Колорадо, кількість вегетаріанців на Алясці, діаметр стовбурів червоного дерева в бразильському тропічному лісі, студентські бали на останньому середньостроковому періоді ГІС, висота гірських вершин в Непалі, глибина снігу в австрійських Альпах, або кількість людей, які користуються громадським транспортом, щоб дістатися до роботи в Лондон.
Після того, як дані вводяться в контекст, використовуються для відповіді на питання, розташовані в аналітичних рамках або використовуються для отримання інформації, вони стають інформацією. Для наших цілей інформація просто посилається на знання цінності, отриманої шляхом збору, інтерпретації та/або аналізу даних. Хоча комп'ютер не потрібно збирати, записувати, маніпулювати, обробляти або візуалізувати дані, або обробляти їх в інформацію, інформаційні технології можуть бути дуже корисними. Наприклад, комп'ютери можуть автоматизувати повторювані завдання, ефективно зберігати дані з точки зору простору та витрат, і, звичайно, надавати цілий ряд інструментів для аналізу даних від електронних таблиць до ГІС. Більше того, це той факт, що неймовірна кількість даних, які збираються кожен день супутниками, сканерами продуктів продуктових магазинів, датчиками руху, датчиками температури та оператором мобільного телефону, щоб назвати лише декілька, не було б можливим без допомоги та інновацій інформаційних технологій.
Оскільки це текст про ГІС, корисно також визначити географічні дані. Як і загальні дані, географічні або просторові дані стосуються географічних фактів, вимірювань або характеристик об'єкта, які дозволяють нам визначити його розташування на поверхні землі. Такі дані включають, але не обмежуються, координатами широти та довготи визначних місць, вуличних адрес, поштових індексів, політичних кордонів і навіть назви визначних місць. Важливо також відзначити і знову підкреслити різницю між географічними даними та даними атрибутів, про яку йшлося у розділі 2 «Анатомія карти». Якщо географічні дані стосуються визначення місця розташування об'єкта, що цікавить, дані атрибутів стосуються його негеографічних ознак та характеристик.
Щоб проілюструвати різницю між географічними та атрибутивними даними, подумайте про свій будинок, де ви виросли або де ви зараз живете. У контексті цієї дискусії ми можемо пов'язати з ним як географічні, так і атрибути дані. Наприклад, ми можемо визначити місцезнаходження вашого будинку різними способами, наприклад, за допомогою адреси вулиці, назв вулиць найближчого перехрестя, поштового індексу, де знаходиться ваш будинок, або ми можемо використовувати глобальну систему позиціонування з підтримкою пристрою для отримання координат широти та довготи. Важливим є те, що географічні дані дозволяють нам визначити місце розташування об'єкта (тобто вашого будинку) на поверхні землі.
Крім географічних даних, які визначають місцезнаходження вашого будинку, є дані атрибутів, які описують різні якості вашого будинку. Такі дані включають, але не обмежуються кількістю спалень і ванних кімнат у вашому домі, незалежно від того, чи є у вашому будинку центральне тепло, рік, коли ваш будинок був побудований, кількість мешканців, і чи є басейн чи ні. Ці дані атрибутів багато говорять нам про ваш будинок, але відносно мало про те, де він знаходиться.
Не тільки корисно розпізнавати та розуміти, як географічні та атрибути дані відрізняються та доповнюють один одного, але це також має центральне значення при вивченні та використанні ГІС. Оскільки ГІС вимагає та інтегрує ці два різних типи даних, можливість розрізняти географічні та атрибути дані є першим кроком у організації вашої ГІС. Крім того, можливість визначити, які види даних вам потрібні, врешті-решт допоможе у впровадженні та використанні ГІС. Найчастіше, і в епоху та контексті інформаційних технологій дані та інформація, обговорювані до цих пір, є матеріалами комп'ютерних файлів, які знаходяться в центрі уваги наступного розділу.
Файли та формати...
Коли ми збираємо дані про ваш будинок, тропічні ліси або що-небудь, насправді, нам зазвичай потрібно розмістити їх кудись. Хоча ми можемо писати цифри та міри на звороті конверта або записати їх на аркуші паперу, якщо ми хочемо оновити, поділитися, проаналізувати або зіставити їх на карту в майбутньому, часто корисно записувати їх у цифровій формі, щоб комп'ютер міг їх прочитати. Хоча ми не будемо турбувати себе бітами та байтами обчислень, необхідно обговорити деякі основні елементи обчислень, які є актуальними та необхідними при навчанні та роботі з ГІС.
Одним з найбільш поширених елементів роботи з комп'ютерами і самої обчислювальної техніки є файл. Файли на комп'ютері можуть містити будь-яку кількість речей від складного набору інструкцій (наприклад, комп'ютерної програми) до списку цифр і букв (наприклад, адресної книги). Крім того, комп'ютерні файли бувають різних розмірів і типів. Однією з підказок, яку ми можемо використовувати, щоб відрізнити один файл від іншого, є розширення файлу. Розширення файлу відноситься до букв, які слідують за крапкою («.») після назви файлу. Таблиця 3.1 містить деякі найбільш поширені розширення файлів і типи файлів, з якими вони пов'язані.
Таблиця 3.1
| ім'я файла.txt | Простий текстовий файл |
| ім'я файлу.doc | Документ Microsoft Word |
| ім'я файлу.pdf | Портативний формат документів Adobe |
| ім'я файлу.jpg | Стиснутий файл зображення |
| ім'я файлу.tif | Формат зображення з тегами |
| ім'я.html | Мова розмітки гіпертексту (використовується для створення веб-сторінок) |
| ім'я файлу.xml | Розширювана мова розмітки |
| ім'я файлу.zip | Запакований/стиснутий архів |
Деякі комп'ютерні програми можуть вміти читати або працювати лише з певними типами файлів, тоді як інші більш вмілі читати кілька форматів файлів. Те, що ви зрозумієте, коли почнете більше працювати з інформаційними технологіями, зокрема ГІС, є те, що важливо знайомство з різними типами файлів. Навчання перетворенню або експорту одного типу файлу в інший також є дуже корисним і цінним навиком для отримання. У зв'язку з цим можливість розпізнавати та знати, як ідентифікувати різні та незнайомі типи файлів, безсумнівно, підвищить ваш рівень володіння комп'ютерами та ГІС.
З численних типів файлів, які існують, одним з найпоширеніших і широко доступних файлів є простий текст, звичайний текст або просто текстовий файл. Прості текстові файли можна широко читати програмами обробки текстів, програмами електронних таблиць та баз даних, а також веб-браузерами. Часто закінчуються розширенням «.txt» (тобто filename.txt), текстові файли не містять спеціального форматування (наприклад, напівжирний, курсив, підкреслення) і містять лише буквено-цифрові символи. Іншими словами, зображення або складна графіка погано підходять для текстових файлів. Текстові файли, однак, ідеально підходять для запису, обміну та обміну даними, оскільки більшість комп'ютерів та операційних систем можуть розпізнавати та читати прості текстові файли за допомогою програм, званих текстовими редакторами.
Коли текстовий файл містить дані, які організовані або структуровані певним чином, його іноді називають плоским файлом (але розширення файлу залишається незмінним, тобто .txt). Як правило, плоскі файли організовані в табличному форматі або рядок за рядком. Іншими словами, кожен рядок або рядок файлу містить один і тільки один запис. Отже, якщо ми зібрали вимірювання висоти на трьох людей, Тіма, Джейка та Гаррі, файл може виглядати приблизно так:
| Ім'я | Висота |
|---|---|
| Тім | 6'1» |
| Джейк | 5'9» |
| Гаррі | 6'2» |
Кожному ряду відповідає один і тільки один запис, спостереження або випадок. Є два інших важливих елементи, які слід знати про цей файл. По-перше, зауважте, що перший рядок не містить жодних даних; скоріше, він надає опис даних, що містяться в кожному стовпці. Коли перший рядок файлу містить такі дескриптори, його називають рядком заголовка або просто заголовком. Стовпці в плоскому файлі також називаються полями, змінними або атрибутами. «Висота» - це атрибут, поле або змінна, які нас цікавлять, а спостереження або випадки в нашому наборі даних - «Тім», «Джейк» та «Гаррі». Коротше кажучи, рядки призначені для записів; стовпці - для полів.
Другим невидимим, але критичним елементом для файлу є пробіли між кожним стовпцем або полем. У прикладі виглядає так, ніби пробіл відокремлює стовпець «ім'я» від стовпця «висота». Однак при найближчому розгляді зверніть увагу на те, як вирівнюються початкові значення стовпця «висота». Якщо для відокремлення кожного стовпця використовувався один пробіл, стовпчик висоти не буде вирівняний. У цьому випадку використовується табуляція для відокремлення стовпців кожного рядка. Символ, який використовується для поділу стовпців у плоскому файлі, називається роздільником або роздільником. Хоча будь-який символ може бути використаний як роздільник, найпоширенішими роздільниками є табуляція, кома та один пробіл. Нижче наведені приклади кожного.
| Розмежовані табуляцією | Однією розділеною простором | Розмежовані комами |
|---|---|---|
| Ім'я Висота | Ім'я Висота | Ім'я, Висота |
| Тім 6.1 | Тім 6.1 | Тіма, 6.1 |
| Джейк 5.9 | Джейк 5.9 | Джейка, 5.9 |
| Гаррі 6.2 | Гаррі 6.2 | Гаррі, 6.2 |
Знання роздільника для плоского файлу важливо, оскільки це дозволяє нам ефективно та без помилок розрізняти та відокремлювати стовпці. Іноді такі файли посилаються їх роздільником, наприклад, файлом «значень, розділених комами» або файлом, розділеним табуляцією.
При записі і роботі з географічними даними застосовується один і той же загальний формат. Рядки зарезервовані для записів, або у випадку географічних даних, розташування та стовпці або поля використовуються для атрибутів або змінних, пов'язаних з кожним місцем розташування. Наприклад, наступний плоский файл, розділений табуляцією, містить дані для трьох місць (тобто країн) та трьох атрибутів або характеристик кожної країни (тобто населення, мови, континенту), як зазначено заголовком.
| Країна | Населення | Мова | Континент |
|---|---|---|---|
| Франція | 65 000 000 | Французький | Європа |
| Бразилія | 192 000 000 | Португальська | Південна Америка |
| Австралія | 22 000 000 | Англійська мова | Австралія |
Файли, подібні до представлених тут, є будівельними блоками різних таблиць, діаграм, звітів, графіків та інших візуалізацій, які ми бачимо кожен день в Інтернеті, у друкованому вигляді та на телебаченні. Вони також є ключовими компонентами карт та географічних уявлень, створених ГІС. Однак рідко, якщо коли-небудь, ви будете працювати з одним і тільки одним файлом або типом файлу. Найчастіше, і особливо при роботі з ГІС, ви будете працювати з декількома файлами. Таке угруповання декількох файлів називається базою даних. Оскільки файли в базі даних можуть бути різних розмірів, форм і навіть форматів, нам потрібно розробити певний тип системи, який дозволить нам працювати, оновлювати, редагувати, інтегрувати, обмінюватися та відображати різні дані в базі даних. Таку систему прийнято називати системою управління базами даних (СУБД). Бази даних і СУБД настільки важливі для ГІС, що пізніша глава присвячена їм. Наразі достатньо пам'ятати, що типи файлів схожі на морозиво - вони бувають різних смаків. У світлі такого розмаїття розділ 3.2 «Дані про дані» детально описує деякі ключові питання, які необхідно враховувати при отриманні та роботі з даними та інформацією для ГІС.
Ключові виноси
- Дані стосуються конкретних фактів, вимірювань або характеристик об'єктів і явищ, що представляють інтерес.
- Інформація відноситься до знань про цінність, яка отримується в результаті аналізу даних.
Вправи
- У чому різниця між даними та інформацією?
- Які відмінності між просторовими та атрибутивними даними?
- Визначте кожен з файлів у таблиці 3.1 відповідно до їх розширення.
- Пошук і завантаження трьох різних простих текстових або плоских файлів. Відкрийте їх у текстовому процесорі та програмі електронних таблиць. Використовуйте функцію пошуку та заміни, щоб змінити роздільники (наприклад, від коми до табуляцій або навпаки).
- Бюро перепису населення США поширює геопросторові дані у вигляді файлів TIGER. Які вони бувають?
- Визначте ресурси та веб-сайти в Інтернеті, які можуть допомогти вам зрозуміти розширення файлів.
