3.3: Пошук даних
- Page ID
- 37088
Цілі навчання
- Метою цього розділу є виявлення та оцінка ключових міркувань при пошуку даних.
Тепер, коли ми маємо базове розуміння даних та інформації, де ми можемо знайти такі дані та інформацію? Хоча пошук в Інтернеті, безумовно, придумає безліч джерел та типів даних, полювання на відповідні та корисні дані часто є складним та ітераційним процесом. Тому, перш ніж перейти в Інтернет та завантажити перше, що з'являється з веб-пошуку, корисно сформувати наш пошук даних з наступними питаннями та міркуваннями:
- Яке саме призначення даних? Враховуючи той факт, що світ плаває у величезній кількості даних, сформулювання того, чому нам потрібен (або чому нам не потрібен) певний набір даних, спростить пошук корисних та релевантних даних. З цією метою, чим конкретніше ми можемо бути щодо призначення необхідних даних, тим ефективніше буде наш пошук даних. Наприклад, якщо ми зацікавлені в розумінні і вивченні економічного зростання, корисно визначити як часові, так і географічні масштаби. Іншими словами, за які часові періоди (наприклад, 1850—1900) та інтервали (наприклад, щоквартально, щорічно) нас цікавлять і на якому рівні аналізу (наприклад, національний, регіональний, державний)? Часто наявність даних, а точніше, відсутність відповідних даних змусить нас змінити мету або сферу нашого початкового питання. Чітка мета дасть більш ефективний пошук даних і дозволить нам швидко прийняти або відкинути різні набори даних, з якими ми можемо зіткнутися.
- Друге питання, яке нам потрібно задати собі, - які дані вже існують і до яких даних ми вже маємо доступ? Перш ніж шукати нові дані, завжди корисно провести інвентаризацію даних, які ми вже маємо. Такі дані можуть бути з попередніх проектів або аналізів, або від колег і однокласників, але ключовим моментом тут є те, що ми можемо заощадити багато часу і сил, використовуючи дані, якими ми вже володіємо. Крім того, визначаючи те, що ми маємо, ми отримуємо краще розуміння того, що нам потрібно. Наприклад, хоча ми вже можемо мати дані перепису (тобто дані атрибутів), нам можуть знадобитися оновлені географічні дані, які містять межі штатів або округів США.
- Далі нам потрібно оцінити і оцінити витрати, пов'язані зі збором даних. Витрати на збір даних виходять за рамки фінансових витрат. Так само важливими, як фінансові витрати на дані є ті, які передбачають ваш час. Адже час - це гроші. Час та енергія, які ви витрачаєте на збір, пошук, очищення та форматування даних, - це час та енергія, відняті від аналізу даних. Залежно від термінів, часових обмежень та результатів, важливо навчитися керувати своїм часом під час пошуку даних.
- Нарешті, формат даних, який потрібен, має вирішальне значення. Хоча багато програм можуть читати багато форматів даних, є деякі типи даних, які можуть бути прочитані лише деякими програмами та деякими програмами, які вимагають певних форматів даних. Розуміння того, які формати даних ви можете використовувати і ті, які ви не можете допомогти у пошуку даних. Наприклад, одна з найпоширеніших форм даних геоінформаційної системи (ГІС) називається шейп-файлом. Не всі програми ГІС можуть читати або використовувати шейп-файли, але може знадобитися перетворення в або з шейп-файлу або будь-якого іншого формату. Отже, як зазначалося раніше, чим більше форматів даних, з якими ми знайомі, тим краще ми будемо шукати дані, оскільки ми матимемо розуміння не тільки того, що ми можемо використовувати, але і які перетворення форматів потрібно буде зробити, якщо це необхідно.
Всі ці питання мають однакове значення, і можливість відповісти на них допоможе в більш ефективному та ефективному пошуку даних. Очевидно, що існує кілька інших міркувань, що стоять за пошуком даних, і, зокрема, даних ГІС, але перераховані тут забезпечують початковий шлях до успішного пошуку даних.
Оскільки інформаційні технології розвиваються, а також збираються та розподіляються все більше даних, збільшуються різні форми даних, які можна використовувати з ГІС. Як правило, і, як обговорювалося раніше, ГІС використовує та інтегрує два типи даних: географічні дані та дані атрибутів. Іноді джерелом як географічних, так і атрибутивних даних є одне в одному. Наприклад, Бюро перепису населення США (http://www.census.gov) розподіляє файли географічних кордонів (наприклад, рівень перепису, рівень округу, рівень штату), а також пов'язані з ними дані атрибутів (наприклад, населення, расова/етнічна приналежність, дохід). Більше того, такі дані доступні у вільному доступі безкоштовно. Багато в чому дані перепису населення США є винятковими: вони безкоштовні і всеосяжні. Якби всі дані були безкоштовними і всеосяжними!
Очевидно, що кожен пошук даних буде відрізнятися залежно від мети, але дані урядів, як правило, мають хороше покриття та забезпечують точку відліку, з якої інші дані можна додавати, порівнювати та оцінювати. Незалежно від того, чи потрібні вам дані супутникових знімків Національного управління з аеронавтики та космічного простору (http://www.nasa.gov) або дані про землекористування Геологічної служби США (http://www.usgs.gov), такі урядові джерела, як правило, є надійними, авторитетними та послідовними. Ще одним ключовим елементом більшості державних даних є те, що вони є вільним доступом для громадськості. Іншими словами, не стягується жодної плати за використання або отримання даних. Дані, які можна використовувати безкоштовно, прийнято називати загальнодоступними даними.
На відміну від загальнодоступних даних, існує безліч джерел приватних або службових даних. Основна відмінність між публічними та приватними даними полягає в тому, що перші, як правило, безкоштовні, а другі повинні бути придбані за певну плату. Крім того, часто існують обмеження щодо перерозподілу та розповсюдження власних наборів даних (тобто обмін придбаними даними не допускається). Знову ж таки, залежно від предмета, власницькі дані можуть бути єдиним варіантом. Ще однією причиною використання власних даних є те, що дані можуть бути відформатовані та очищені відповідно до ваших потреб. Компроміс між фінансовими витратами та зекономленим часом - це той, який необхідно серйозно враховувати та оцінювати при роботі з термінами.
Пошук даних, і зокрема даних, які вам потрібні, часто є найбільш трудомістким аспектом будь-якого проекту, пов'язаного з ГІС. Тому дуже важливо спробувати визначити та уточнити ваші вимоги та потреби в даних - від часових та географічних масштабів даних до необхідних форматів - якомога чіткіше та якомога раніше. Таке визначення та чіткість принесуть дивіденди при пошуку правильних даних, що, в свою чергу, дасть кращий аналіз та обґрунтовані рішення.
КЛЮЧ ВИНОС
- Перш ніж шукати дані, задайте собі наступні питання: Навіщо потрібні дані? На якому масштабі часу мені потрібні дані? В якому географічному масштабі я хочу отримати дані? Які дані вже існують? В якому форматі потрібні дані?
ВПРАВИ
- Визначте п'ять можливих джерел даних про валовий внутрішній продукт (ВВП) для країн Африки.
- Визначте два джерела географічних даних (файли кордонів) для Африки.
- Які географічні дані надає Організація Об'єднаних Націй?
