4: Дані та бази даних

Last updated
Save as PDF

Page ID: 103913

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

Цілі навчання

Після успішного завершення цієї глави ви зможете:

описати відмінності між даними, інформацією та знаннями;
визначити термін бази даних і визначити кроки до її створення;
описати роль системи управління базами даних;
описати характеристики сховища даних; і
визначити інтелектуальний аналіз даних і описати його роль в організації.

Вступ

Ви вже познайомилися з першими двома компонентами інформаційних систем: апаратним і програмним забезпеченням. Однак ці два компоненти самі по собі не роблять комп'ютер корисним. Уявіть, якби ви включили комп'ютер, запустили текстовий процесор, але не змогли зберегти документ. Уявіть, якби ви відкрили музичний плеєр, але не було музики для відтворення. Уявіть, що ви відкриваєте веб-браузер, але веб-сторінок не було. Без даних апаратні та програмні засоби не дуже корисні! Дані є третім компонентом інформаційної системи.

Дані, інформація та знання

Дані - це необроблені біти та фрагменти інформації без контексту. Якби я вам сказав: «15, 23, 14, 85», ви б нічого не навчилися. Але я б дав вам дані.

Дані можуть бути кількісними або якісними. Кількісні дані - це числові, результат вимірювання, підрахунку або будь-якого іншого математичного розрахунку. Якісні дані носять описовий характер. «Рубіново-червоний», колір Ford Focus 2013 року, є прикладом якісних даних. Число також може бути якісним: якщо я скажу вам, що моє улюблене число - 5, це якісні дані, оскільки це описові, а не результат вимірювання чи математичного розрахунку.

Самі по собі дані не такі корисні. Щоб бути корисним, йому потрібно надати контекст. Повертаючись до наведеного вище прикладу, якби я сказав вам, що «15, 23, 14 та 85» - це кількість студентів, які зареєструвалися для майбутніх занять, це буде інформація. Додавши контекст - що цифри представляють кількість учнів, які реєструються для конкретних класів - я перетворив дані в інформацію.

Після того, як ми розмістили наші дані в контекст, агрегували та проаналізували їх, ми можемо використовувати їх для прийняття рішень для нашої організації. Можна сказати, що таке споживання інформації виробляє знання. Ці знання можна використовувати для прийняття рішень, встановлення політики та навіть сприяння інноваціям.

Останнім кроком вгору по інформаційних сходах є крок від знань (знаючи багато про тему) до мудрості. Можна сказати, що хтось має мудрість, коли він може об'єднати свої знання та досвід, щоб отримати більш глибоке розуміння теми. Часто потрібно багато років, щоб розвинути мудрість на ту чи іншу тему, і вимагає терпіння.

Приклади даних

Майже всі програмні програми вимагають даних, щоб зробити щось корисне. Наприклад, якщо ви редагуєте документ у текстовому процесорі, наприклад Microsoft Word, документ, над яким ви працюєте, є даними. Програмне забезпечення для обробки текстів може маніпулювати даними: створювати новий документ, дублювати документ або змінювати документ. Деякі інші приклади даних: музичний файл MP3, відеофайл, електронна таблиця, веб-сторінка та електронна книга. У деяких випадках, наприклад, з електронною книгою, у вас може бути лише можливість читати дані.

Бази даних

Метою багатьох інформаційних систем є перетворення даних в інформацію з метою отримання знань, які можуть бути використані для прийняття рішень. Для цього система повинна вміти приймати дані, ставити дані в контекст та надавати інструменти для агрегування та аналізу. База даних призначена саме для таких цілей.

База даних - це організований збір супутньої інформації. Це організована колекція, оскільки в базі даних всі дані описуються і пов'язані з іншими даними. Вся інформація в базі даних також повинна бути пов'язаною; для управління непов'язаною інформацією слід створювати окремі бази даних. Наприклад, база даних, яка містить інформацію про студентів, також не повинна містити інформацію про ціни акцій компанії. Бази даних не завжди цифрові — наприклад, картотека може вважатися формою бази даних. Для цілей цього тексту ми будемо розглядати лише цифрові бази даних.

Реляційні бази даних

Бази даних можуть бути організовані різними способами, і, таким чином, приймати різні форми. Найпопулярнішою формою бази даних сьогодні є реляційна база даних. Популярними прикладами реляційних баз даних є Microsoft Access, MySQL і Oracle. Реляційна база даних - це та, в якій дані організовані в одну або кілька таблиць. Кожна таблиця має набір полів, які визначають характер даних, що зберігаються в таблиці. Запис - це один екземпляр набору полів у таблиці. Щоб візуалізувати це, подумайте про записи як рядки таблиці, а поля як стовпці таблиці. У наведеному нижче прикладі ми маємо таблицю інформації про учня, причому кожен рядок представляє студента, а кожен стовпець представляє одну частину інформації про учня.

Рядки та стовпці в таблиці

У реляційній базі даних всі таблиці пов'язані одним або декількома полями, так що можна з'єднати всі таблиці в базі даних через поля, які вони мають спільне. Для кожної таблиці одне з полів ідентифікується як первинний ключ. Цей ключ є унікальним ідентифікатором для кожного запису в таблиці. Щоб допомогти вам зрозуміти ці терміни далі, давайте пройдемо процес проектування бази даних.

Проектування бази даних

Припустимо, університет хоче створити інформаційну систему для відстеження участі в студентських клубах. Після опитування кількох людей команда дизайнерів дізнається, що мета впровадження системи полягає в тому, щоб краще зрозуміти, як університет фінансує клуби. Це буде досягнуто шляхом відстеження того, скільки членів кожен клуб має і наскільки активні клуби. З цього команда вирішує, що система повинна стежити за клубами, їх членами та їх подіями. Використовуючи цю інформацію, команда конструкторів визначає, що необхідно створити такі таблиці:

Клуби: це буде відстежувати назву клубу, президента клубу та короткий опис клубу.
Студентам: ПІБ студента, електронна пошта, рік народження.
Членство: ця таблиця буде співвідносити студентів з клубами, що дозволяє нам мати будь-якого студента приєднатися до декількох клубів.
Події: ця таблиця буде відстежувати, коли клуби зустрінуться і скільки студентів з'явилося.

Тепер, коли команда дизайнерів визначила, які таблиці створити, їм потрібно визначити конкретну інформацію, яку буде містити кожна таблиця. Для цього потрібно ідентифікувати поля, які будуть в кожній таблиці. Наприклад, назва клубу буде одним із полів у таблиці «Клуби». Ім'я та Прізвище будуть полями в таблиці Студенти. Нарешті, оскільки це буде реляційна база даних, кожна таблиця повинна мати спільне поле хоча б з однією іншою таблицею (іншими словами: вони повинні мати зв'язок один з одним).

Щоб правильно створити цей зв'язок, для кожної таблиці повинен бути обраний первинний ключ. Цей ключ є унікальним ідентифікатором для кожного запису в таблиці. Наприклад, у таблиці Студенти можна використовувати прізвище учнів як спосіб однозначно ідентифікувати їх. Однак більш ніж імовірно, що деякі студенти поділять прізвище (наприклад, Родрігес, Сміт або Лі), тому слід вибрати інше поле. Адреса електронної пошти студента може бути хорошим вибором для первинного ключа, оскільки адреси електронної пошти унікальні. Однак первинний ключ не може змінитися, тому це означатиме, що якщо студенти змінили свою адресу електронної пошти, нам доведеться видалити їх з бази даних, а потім повторно вставити їх - не приваблива пропозиція. Наше рішення полягає в тому, щоб створити значення для кожного учня - ідентифікатор користувача - який буде діяти як первинний ключ. Ми також зробимо це для кожного з студентських клубів. Це рішення досить поширене і є причиною того, що у вас так багато ідентифікаторів користувачів!

Ви можете побачити остаточний дизайн бази даних на малюнку нижче:

Схема бази даних студентських клубів

Завдяки такому дизайну ми не тільки маємо спосіб організувати всю інформацію, необхідну нам для задоволення вимог, але ми також успішно поєднали всі таблиці разом. Ось як можуть виглядати таблиці бази даних з деякими вибірковими даними. Зверніть увагу, що таблиця членства має єдину мету дозволити нам пов'язати кількох студентів з кількома клубами.

Таблиця студентських клубів з вибірковими даними

Студентська таблиця з вибірковими даними

Нормалізація

При розробці бази даних однією важливою концепцією, яку слід розуміти, є нормалізація. Простіше кажучи, нормалізувати базу даних означає спроектувати її таким чином, що: 1) зменшує дублювання даних між таблицями і 2) надає таблиці якомога більше гнучкості.

У проектуванні бази даних студентських клубів команда дизайнерів працювала над досягненням цих цілей. Наприклад, для відстеження членства, простим рішенням, можливо, було створити поле Учасники в таблиці Клуби, а потім просто перерахувати імена всіх членів там. Однак така конструкція означатиме, що якщо студент приєднався до двох клубів, то його інформацію доведеться вводити вдруге. Натомість дизайнери вирішили цю проблему, використовуючи дві таблиці: Студенти та Членство.

У цьому дизайні, коли студент приєднується до свого першого клубу, ми спочатку повинні додати студента до таблиці Студентів, де вводяться їх ім'я, прізвище, адреса електронної пошти та рік народження. Це доповнення до таблиці Студенти створить студентський квиток. Тепер ми додамо новий запис, щоб позначити, що учень є членом певного клубу. Це досягається шляхом додавання запису зі студентським посвідченням та ідентифікатором клубу в таблиці членства. Якщо цей студент приєднується до другого клубу, нам не потрібно дублювати запис імені, електронної пошти та року народження студента; натомість нам потрібно лише зробити ще один запис у таблиці членства другого клубу та студентського посвідчення.

Дизайн бази даних студентських клубів також дозволяє легко змінювати дизайн без серйозних змін у існуючій структурі. Наприклад, якщо команді дизайнерів було запропоновано додати функціональність до системи для відстеження радників викладачів до клубів, ми могли б легко досягти цього, додавши таблицю консультантів факультету (подібно до таблиці студентів), а потім додавши нове поле до таблиці «Клуби», щоб тримати ідентифікатор консультанта факультету.

Типи даних

При визначенні полів в таблиці бази даних ми повинні дати кожному полю тип даних. Наприклад, поле Рік народження - це рік, тому воно буде числом, тоді як Ім'я буде текстом. Більшість сучасних баз даних дозволяють зберігати кілька різних типів даних. Деякі з найбільш поширених типів даних наведено тут:

Текст: для зберігання коротких нечислових даних, як правило, менше 256 символів. Конструктор баз даних може визначити максимальну довжину тексту.
Номер: для зберігання чисел. Зазвичай існує кілька різних типів чисел, які можна вибрати, залежно від того, наскільки великим буде найбільше число.
Так/Ні: спеціальна форма типу числових даних, яка (зазвичай) довжиною в один байт, з 0 для «Ні» або «False» та 1 для «Yes» або «True».
Дата/час: спеціальна форма типу числових даних, яку можна інтерпретувати як число або час.
Валюта: спеціальна форма типу числових даних, яка форматує всі значення з показником валюти і двома знаками після коми.
Текст абзацу: цей тип даних дозволяє використовувати текст довше 256 символів.
Об'єкт: цей тип даних дозволяє зберігати дані, які неможливо ввести за допомогою клавіатури, наприклад зображення або музичний файл.

Є дві важливі причини того, що ми повинні правильно визначити тип даних поля. По-перше, тип даних повідомляє базі даних, які функції можна виконувати з даними. Наприклад, якщо ми хочемо виконувати математичні функції з одним з полів, ми повинні обов'язково повідомити базі даних, що поле є числовим типом даних. Так що, якщо у нас є, скажімо, поле зберігання рік народження, ми можемо відняти число зберігається в цьому полі з поточного року, щоб отримати вік.

Друга важлива причина визначення типу даних полягає в тому, щоб для наших даних було виділено належну кількість місця для зберігання. Наприклад, якщо поле First Name визначено як тип даних text (50), це означає, що для кожного імені, яке ми хочемо зберегти, виділяється п'ятдесят символів. Однак навіть якщо ім'я довжиною всього п'ять символів, буде виділено п'ятдесят символів (байтів). Хоча це може здатися не великою справою, якщо наша таблиця в кінцевому підсумку містить 50 000 імен, ми виділяємо 50* 50,000 = 2500,000 байт для зберігання цих значень. Можливо, доцільно зменшити розмір поля, щоб ми не витрачали місце для зберігання.

Бічна панель: Різниця між базою даних та електронною таблицею

Багато разів, вводячи концепцію баз даних для студентів, вони швидко вирішують, що база даних майже така ж, як електронна таблиця. Зрештою, електронна таблиця зберігає дані організовано, використовуючи рядки та стовпці, і виглядає дуже схоже на таблицю бази даних. Це непорозуміння виходить за межі класу: електронні таблиці використовуються як заміна баз даних у всіх типах ситуацій щодня, у всьому світі.

Справедливості заради, для простого використання електронна таблиця може замінити базу даних досить добре. Якщо простий список рядків і стовпців (одна таблиця) - це все, що потрібно, то створення бази даних, ймовірно, є надмірним. У нашому прикладі студентських клубів, якщо нам потрібно було лише відстежувати список клубів, кількість членів та контактну інформацію для президента, ми могли б піти з однієї електронної таблиці. Однак необхідність включення списку подій та імен учасників буде проблематичною, якщо відстежувати за допомогою електронної таблиці.

Коли кілька типів даних повинні бути змішані між собою, або коли відносини між цими типами даних складні, то електронна таблиця - не найкраще рішення. База даних дозволяє пов'язати дані з декількох суб'єктів (таких як студенти, клуби, членство та події) разом у одне ціле. Хоча електронна таблиця дозволяє визначити, які види значень можуть бути введені в її осередки, база даних надає більш інтуїтивні та потужні способи визначення типів даних, які потрапляють у кожне поле, зменшуючи можливі помилки та полегшуючи аналіз.

Хоча це не добре для заміни баз даних, електронні таблиці можуть бути ідеальними інструментами для аналізу даних, що зберігаються в базі даних. Пакет електронних таблиць може бути підключений до певної таблиці або запиту в базі даних і використовується для створення діаграм або аналізу цих даних.

Мова структурованих запитів

Як тільки у вас є база даних, розроблена і завантажена з даними, як ви будете робити щось корисне з нею? Основним способом роботи з реляційною базою даних є використання Structured Query Language, SQL (вимовляється «продовження» або просто зазначено як S-Q-L). Майже всі програми, які працюють з базами даних (наприклад, системи управління базами даних, розглянуті нижче) використовують SQL як спосіб аналізу та маніпулювання реляційними даними. Як випливає з назви, SQL - це мова, яка може використовуватися для роботи з реляційною базою даних. Від простого запиту даних до складної операції оновлення, SQL є основою програмістів та адміністраторів баз даних. Щоб дати вам смак того, як може виглядати SQL, ось кілька прикладів використання нашої бази даних студентських клубів.

Наступний запит буде отримати список імені та прізвища президентів клубу:

SELECT "First Name", "Last Name" FROM "Students" WHERE "Students.ID" = "Clubs.President"

Наступний запит створить список кількості студентів у кожному клубі, перераховуючи назву клубу, а потім кількість членів:

SELECT "Clubs.Club Name", COUNT("Memberships.Student ID") FROM "Clubs" LEFT JOIN "Memberships" ON "Clubs.Club ID" = "Memberships.Club ID"

Поглиблений опис роботи SQL виходить за рамки цього вступного тексту, але ці приклади повинні дати вам уявлення про силу використання SQL для маніпулювання реляційними даними. Багато пакетів баз даних, таких як Microsoft Access, дозволяють візуально створити запит, який ви хочете побудувати, а потім генерувати SQL-запит для вас.

Інші типи баз даних

Модель реляційної бази даних є найбільш часто використовуваною моделлю бази даних сьогодні. Однак існує багато інших моделей баз даних, які забезпечують різні сильні сторони, ніж реляційна модель. Ієрархічна модель бази даних, популярна в 1960-х і 1970-х роках, об'єднала дані в ієрархію, дозволяючи батьківський/дочірній зв'язок між даними. Документоорієнтована модель дозволила забезпечити більш неструктуроване зберігання даних шляхом розміщення даних у «документах», якими потім можна було б маніпулювати.

Мабуть, найцікавішою новою розробкою є концепція NoSQL (від словосполучення «не тільки SQL»). NoSQL виникла через необхідність вирішення проблеми масштабних баз даних, що поширюються на кілька серверів або навіть по всьому світу. Щоб реляційна база даних працювала належним чином, важливо, щоб лише одна людина могла одночасно маніпулювати фрагментом даних, концепцією, відомою як блокування записів. Але з сьогоднішніми масштабними базами даних (подумайте Google і Amazon) це просто неможливо. База даних NoSQL може працювати з даними більш вільним способом, дозволяючи більш неструктурованому середовищі, передаючи зміни даних з плином часу на всі сервери, які є частиною бази даних.

Системи управління базами даних

Знімок екрана системи управління базами даних Open Office

На комп'ютері база даних виглядає як один або кілька файлів. Для того, щоб дані в базі даних були прочитані, змінені, додані або видалені, програмна програма повинна отримати доступ до них. Багато програмних додатків мають таку здатність: iTunes може читати свою базу даних, щоб дати вам список своїх пісень (і грати пісні); програмне забезпечення вашого мобільного телефону може взаємодіяти зі списком контактів. Але як щодо додатків для створення або управління базою даних? Яке програмне забезпечення ви можете використовувати для створення бази даних, зміни структури бази даних або просто зробити аналіз? Це мета категорії програмних додатків під назвою системи управління базами даних (СУБД).

Пакети СУБД зазвичай надають інтерфейс для перегляду та зміни дизайну бази даних, створення запитів та розробки звітів. Більшість таких пакетів призначені для роботи з певним типом бази даних, але, як правило, сумісні з широким спектром баз даних.

Наприклад, Apache OpenOffice.org Base (див. знімок екрана) можна використовувати для створення, зміни та аналізу баз даних у форматі open-database (ODB). СУБД Microsoft Access використовується для роботи з базами даних у власному форматі Microsoft Access Database. І Access, і Base мають можливість читати і записувати в інші формати баз даних, а також.

Microsoft Access і Open Office Base є прикладами систем управління персональними базами даних. Ці системи в основному використовуються для розробки та аналізу однокористувацьких баз даних. Ці бази даних не призначені для спільного використання в мережі або в Інтернеті, а замість цього встановлюються на конкретному пристрої і працюють з одним користувачем одночасно.

Корпоративні бази даних

База даних, яка може бути використана лише одним користувачем одночасно, не збирається задовольняти потреби більшості організацій. Оскільки комп'ютери стали мережевими і тепер приєднуються по всьому світу через Інтернет, з'явився клас бази даних, доступ до якого можуть отримати два, десять або навіть мільйон людей. Ці бази даних іноді встановлюються на одному комп'ютері для доступу групи людей в одному місці. Інший раз вони встановлюються на декількох серверах по всьому світу, призначені для доступу мільйонів. Ці реляційні пакети корпоративних баз даних будуються та підтримуються такими компаніями, як Oracle, Microsoft та IBM. MySQL з відкритим вихідним кодом також є базою даних підприємства.

Як зазначалося раніше, модель реляційної бази даних погано масштабується. Термін масштаб тут відноситься до бази даних стає все більшим і більшим, розподіляється на більшій кількості комп'ютерів, підключених через мережу. Деякі компанії прагнуть надати масштабні рішення для баз даних, перейшовши від реляційної моделі до інших, більш гнучких моделей. Наприклад, Google зараз пропонує App Engine Datastore, який заснований на NoSQL. Розробники можуть використовувати App Engine Datastore для розробки додатків, які отримують доступ до даних з будь-якої точки світу. Amazon.com пропонує кілька служб баз даних для корпоративного використання, включаючи Amazon RDS, який є службою реляційних баз даних, і Amazon DynamoDB, корпоративне рішення NoSQL.

Великі дані

Нове модне слово, яке останнім часом привертає увагу бізнесу, - це великі дані. Термін відноситься до таких масово великих наборів даних, що звичайні інструменти баз даних не мають обчислювальної потужності для їх аналізу. Наприклад, Walmart повинен обробляти понад мільйон транзакцій клієнтів щогодини. Зберігання та аналіз такої кількості даних не під силу традиційним інструментам управління базами даних. Розуміння найкращих інструментів та методів управління та аналізу цих великих наборів даних є проблемою, яку намагаються вирішити уряди та підприємства.

Бічна панель: Що таке метадані?

Під терміном метадані можна розуміти «дані про дані». Наприклад, при погляді на одне зі значень року народження в таблиці Студенти самі дані можуть бути «1992″. Метаданими про це значення буде назва поля Рік народження, час останнього оновлення та тип даних (ціле число). Іншим прикладом метаданих може бути музичний файл MP3, як показано на зображенні нижче; така інформація, як довжина пісні, виконавця, альбом, розмір файлу і навіть обкладинка альбому, класифікуються як метадані. Коли розробляється база даних, створюється «словник даних» для зберігання метаданих, визначаючи поля та структуру бази даних.

Сховище даних

Оскільки організації почали використовувати бази даних як центральну частину своєї діяльності, необхідність повного розуміння та використання даних, які вони збирають, стає все більш очевидною. Однак безпосередньо аналіз даних, необхідних для щоденних операцій, не є гарною ідеєю; ми не хочемо оподатковувати операції компанії більше, ніж нам потрібно. Крім того, організації також хочуть аналізувати дані в історичному сенсі: Як дані, які ми маємо сьогодні, порівнюються з тим самим набором даних цього разу минулого місяця чи минулого року? З цих потреб і виникло поняття сховища даних.

Концепція сховища даних проста: витягти дані з однієї або декількох баз даних організації і завантажити їх в сховище даних (яке саме по собі є іншою базою даних) для зберігання і аналізу. Однак виконання цього поняття не таке вже й просте. Сховище даних повинно бути спроектовано так, щоб воно відповідало наступним критеріям:

Він використовує неопераційні дані. Це означає, що сховище даних використовує копію даних з активних баз даних, які компанія використовує в своїх повсякденних операціях, тому сховище даних повинно регулярно, за розкладом витягувати дані з існуючих баз даних.
Дані є варіантами часу. Це означає, що всякий раз, коли дані завантажуються в сховище даних, він отримує мітку часу, яка дозволяє проводити порівняння між різними періодами часу.
Дані стандартизовані. Оскільки дані в сховищі даних зазвичай надходять з декількох різних джерел, можливо, що дані не використовують однакові визначення або одиниці. Наприклад, в нашій таблиці подій в нашій базі даних Студентських клубів наведено дати подій у форматі mm/dd/yyyy (наприклад, 01.10.2013). Таблиця в іншій базі даних може використовувати формат yy/mm/dd (наприклад, 13/01/10) для дат. Для того, щоб сховище даних збігалося з датами, потрібно було б узгодити стандартний формат дати і всі дані, завантажені в сховище даних, повинні бути перетворені для використання цього стандартного формату. Цей процес називається витягування-трансформація-навантаження (ETL).

Існує дві початкові школи думки при проектуванні сховища даних: знизу вгору і зверху вниз. Підхід «знизу вгору» починається зі створення невеликих сховищ даних, які називаються мартами даних, для вирішення конкретних бізнес-проблем. Оскільки ці марти даних створюються, їх можна об'єднати у велике сховище даних. Підхід «зверху вниз» передбачає, що ми повинні почати зі створення загальнокорпоративного сховища даних, а потім, у міру виявлення конкретних бізнес-потреб, створити менші вітрини даних зі сховища даних.

Процес сховища даних (зверху вниз)

Переваги сховищ даних

Організації знаходять сховища даних досить вигідними по ряду причин:

Процес розробки сховища даних змушує організацію краще розуміти дані, які вона зараз збирає, і, що не менш важливо, які дані не збираються.
Сховище даних забезпечує централізоване уявлення про всі дані, що збираються по всьому підприємству, і забезпечує засіб для визначення даних, які є суперечливими.
Після того, як всі дані будуть визначені як послідовні, організація може генерувати одну версію істини. Це важливо, коли компанія хоче повідомити про себе послідовну статистику, таку як дохід або кількість співробітників.
Маючи сховище даних, знімки даних можуть бути зроблені з часом. Це створює історичний запис даних, що дозволяє проводити аналіз тенденцій.
Сховище даних надає інструменти для об'єднання даних, які можуть надавати нову інформацію та аналіз.

Інтелектуальний аналіз даних

Інтелектуальний аналіз даних - це процес аналізу даних для пошуку раніше невідомих тенденцій, закономірностей та асоціацій для прийняття рішень. Як правило, інтелектуальний аналіз даних здійснюється за допомогою автоматизованих засобів проти надзвичайно великих наборів даних, таких як сховище даних. Деякі приклади інтелектуального аналізу даних включають:

Аналіз продажів з великої продуктової мережі може визначити, що молоко купується частіше на наступний день після дощів у містах з населенням менше 50 000.
Банк може виявити, що заявники на позику, банківські рахунки яких показують певні моделі депозитів та зняття коштів, не є хорошими кредитними ризиками.
Бейсбольна команда може виявити, що колегіальні бейсболісти з конкретними статистичними даними в ударі, пітчинг, і fielding зробити для більш успішних гравців вищої ліги.

У деяких випадках проект інтелектуального аналізу даних починається з урахуванням гіпотетичного результату. Наприклад, продуктова мережа може вже мати деяке уявлення про те, що моделі покупки змінюються після дощу і хочуть глибше зрозуміти, що саме відбувається. В інших випадках немає припущень, і програма інтелектуального аналізу даних запускається проти великих наборів даних, щоб знайти закономірності та асоціації.

Проблеми конфіденційності

Зростаюча потужність інтелектуального аналізу даних викликало занепокоєння у багатьох, особливо в області конфіденційності. У сучасному цифровому світі стає простіше, ніж будь-коли, брати дані з розрізнених джерел і поєднувати їх для проведення нових форм аналізу. Насправді навколо цієї технології виникла ціла галузь: брокери даних. Ці фірми поєднують загальнодоступні дані з інформацією, отриманою від уряду та інших джерел, щоб створити величезні сховища даних про людей та компанії, які вони потім можуть продавати. Ця тема буде розглянута набагато докладніше в главі 12 — главі про етичні проблеми інформаційних систем.

Бізнес-аналітика та бізнес-аналітика

Маючи в своєму розпорядженні такі інструменти, як зберігання даних та інтелектуальний аналіз даних, підприємства вчаться використовувати інформацію на свою користь. Термін бізнес-аналітика використовується для опису процесу, який організації використовують для збору даних, які вони збирають, та аналізу їх в надії отримати конкурентну перевагу. Окрім використання даних зі своїх внутрішніх баз даних, фірми часто купують інформацію у брокерів даних, щоб отримати велике уявлення про свої галузі. Бізнес-аналітика - це термін, який використовується для опису використання внутрішніх даних компанії для вдосконалення бізнес-процесів та практик.

Управління знаннями

Закінчуємо главу обговоренням концепції управління знаннями (КМ). Всі компанії накопичують знання протягом свого існування. Деякі з цих знань записуються або зберігаються, але не організовано. Значна частина цих знань не записана; натомість вони зберігаються всередині керівників своїх співробітників. Управління знаннями - це процес формалізації захоплення, індексації та зберігання знань компанії, щоб отримати вигоду з досвіду та розуміння, які компанія захопила за час свого існування.

Резюме

У цьому розділі ми дізналися про роль, яку відіграють дані та бази даних в контексті інформаційних систем. Дані складаються з дрібних фактів та інформації без контексту. Якщо ви даєте контекст даних, то у вас є інформація. Знання отримують, коли інформація споживається і використовується для прийняття рішень. База даних - це організований збір супутньої інформації. Реляційні бази даних є найбільш широко використовуваним типом бази даних, де дані структуровані в таблиці і всі таблиці повинні бути пов'язані один з одним за допомогою унікальних ідентифікаторів. Система управління базами даних (СУБД) - це програмний додаток, який використовується для створення та управління базами даних, і може мати форму персональної СУБД, використовуваної однією людиною, або СУБД підприємства, які можуть використовуватися декількома користувачами. Сховище даних - це особлива форма бази даних, яка бере дані з інших баз даних на підприємстві і організовує їх для аналізу. Інтелектуальний аналіз даних - це процес пошуку закономірностей та взаємозв'язків у великих масивах даних. Багато підприємств використовують бази даних, сховища даних та методи інтелектуального аналізу даних, щоб виробляти бізнес-аналітику та отримати конкурентну перевагу.

Навчальні питання

У чому різниця між даними, інформацією та знаннями?
Поясніть своїми словами, як компонент даних відноситься до апаратних і програмних компонентів інформаційних систем.
У чому різниця між кількісними даними і якісними даними? В яких ситуаціях число 42 можна вважати якісними даними?
Які характеристики реляційної бази даних?
Коли використання персональної СУБД має сенс?
У чому різниця між електронною таблицею та базою даних? Перерахуйте три відмінності між ними.
Опишіть, що означає термін нормалізація.
Чому важливо визначити тип даних поля при проектуванні реляційної бази даних?
Назвіть базу даних, з якою ви часто взаємодієте. Якими були б деякі з імен полів?
Що таке метадані?
Назвіть три переваги використання сховища даних.
Що таке інтелектуальний аналіз даних?

вправи

Перегляньте дизайн бази даних студентських клубів раніше в цьому розділі. Переглядаючи наведені списки типів даних, які типи даних ви б присвоїли кожному з полів у кожній з таблиць. Яку довжину ви б присвоїли текстовим полям?
Завантажте Apache OpenOffice.org і скористайтеся інструментом бази даних, щоб відкрити файл «Student Clubs.odb», доступний тут. Приділіть деякий час, щоб дізнатися, як змінити структуру бази даних, а потім подивитися, чи можете ви додати необхідні елементи для підтримки відстеження викладачів, як описано в кінці розділу Нормалізація в главі. Ось посилання на документацію «Початок роботи».
Використовуючи Microsoft Access, завантажте файл бази даних вичерпної статистики бейсболу з сайту Seanlahman.com. (Якщо у вас немає Microsoft Access, ви можете завантажити скорочену версію файлу тут, сумісну з Apache Open Office). Перегляньте структуру таблиць, включених до бази даних. Придумайте три різні експерименти з інтелектуального аналізу даних, які ви хотіли б спробувати, і поясніть, які поля в яких таблицях доведеться аналізувати.
Проведіть оригінальні дослідження та знайдіть два приклади інтелектуального аналізу даних. Підсумуйте кожен приклад, а потім напишіть про те, що спільного у двох прикладів.
Провести окремі незалежні дослідження процесу бізнес-аналітики. Використовуючи принаймні два наукові або практичні джерела, напишіть двосторінковий документ, що дає приклади того, як використовується бізнес-аналітика.
Провести незалежні дослідження новітніх технологій, що використовуються для управління знаннями. Використовуючи принаймні два наукові або практичні джерела, напишіть двосторінковий документ з прикладами програмних додатків або нових технологій, що використовуються в цій галузі.