Skip to main content
LibreTexts - Ukrayinska

14.2: Розуміння пошуку

  • Page ID
    9990
    • Anonymous
    • LibreTexts
    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Цілі навчання

    Після вивчення цього розділу ви зможете зробити наступне:

    1. Зрозумійте механіку пошуку, включаючи те, як Google індексує Інтернет та ранжирує його органічні результати пошуку.
    2. Вивчіть інфраструктуру, яка керує Google, і як її масштаб і складність пропонують ключові конкурентні переваги.

    Перш ніж зануритися в те, як фірма заробляє гроші, давайте спочатку розберемося, як працює основний сервіс Google, пошук.

    Виконайте пошук (або запит) у Google або іншій пошуковій системі, і результати, які ви побачите, називаються професіоналами галузі як органічний або природний пошук. Пошукові системи використовують різні алгоритми визначення порядку органічної видачі пошуку, але в Google метод називається PageRank (трохи грає на словах, він ранжує веб-сторінки, і спочатку був розроблений співзасновником Google Ларрі Пейджем). Google не приймає гроші за розміщення посилань в органічній видачі пошуку. Натомість результати PageRank є своєрідним конкурсом популярності. Веб-сторінки, на яких більше сторінок посилаються на них, ранжуються вище.

    Малюнок 14.4

    Запит до «Toyota Prius» запускає органічні результати пошуку, розташовані зверху та праворуч рекламою спонсорських посилань. Знімок екрана зазначеного пошуку.

    Запит до «Toyota Prius» запускає органічні результати пошуку, розташовані зверху та праворуч рекламою спонсорських посилань.

    Процес поліпшення органічних результатів пошуку сторінки часто називають пошуковою оптимізацією (SEO). SEO став критичною функцією для багатьох маркетингових організацій, оскільки якщо сторінки фірми не знаходяться у верхній частині результатів пошуку, клієнти можуть ніколи не виявити її сайт.

    Google трохи розпливчастий щодо специфіки саме того, як PageRank був вдосконалений, частково тому, що багато хто намагався грати в систему. Окрім вхідних посилань, органічні результати пошуку Google також враховують ще двісті інших сигналів, а команда з якості пошуку фірми невпинно аналізує поведінку користувачів на предмет підказки про те, як налаштувати систему для підвищення точності (Levy, 2010). Менш скрупульозні намагалися створити серію фіктивних веб-сайтів, всі посилаючись на сторінки, які вони намагаються просувати (це називається шахрайством посилань, і Google активно працює, щоб розкрити та закрити такі зусилля). Ми знаємо, що посилання з деяких веб-сайтів мають більшу вагу, ніж інші. Наприклад, посилання з веб-сайтів, які Google вважає «впливовими», та посилання з більшості веб-сайтів «.edu», мають більшу вагу в розрахунках PageRank, ніж посилання з сайтів «.com».

    Павуки і боти і сканери - О, мій!

    Виконуючи пошук через Google або іншу пошукову систему, ви насправді не шукаєте в Інтернеті. Що насправді відбувається, це те, що основні пошукові системи роблять те, що становить копію Інтернету, зберігаючи та індексуючи текст онлайн-документів на власних комп'ютерах. Індекс Google розглядає понад один трильйон URL-адрес (Wright, 2009). У верхньому правому куті запиту Google показано, наскільки швидко може відбуватися пошук (у наведеному вище прикладі рейтинги з понад восьми мільйонів результатів, що містять термін «Toyota Prius», були доставлені менш ніж за дві десяті секунди).

    Щоб створити ці масові індекси, пошукові фірми використовують програмне забезпечення для сканування Інтернету та розкриття стільки інформації, скільки вони можуть знайти. Це програмне забезпечення називається кількома різними назвами - програмні роботи, павуки, веб-сканери - але всі вони в значній мірі працюють однаково. Для того, щоб зробити свої веб-сайти видимими, кожна онлайн-фірма надає список усіх загальнодоступних, названих серверів у своїй мережі, відомих як служба доменних імен (DNS) списки. Наприклад, Yahoo! має різні сервери, які можна знайти за адресою http://www.yahoo.com, sports.yahoo.com, weather.yahoo.com, finance.yahoo.com тощо. Павуки починаються з першої сторінки на кожному публічному сервері і переходять по кожному доступному посиланню, обходячи веб-сайт, поки всі сторінки не будуть розкриті.

    Google буде сканувати часто оновлювані сайти, такі як ті, якими керують новинні організації, так часто, як кілька разів на годину. Рідко оновлювані, менш популярні сайти можуть бути переіндексовані лише кожні кілька днів. Метод, який використовується для сканування Інтернету, також означає, що якщо веб-сайт не є першою сторінкою на загальнодоступному сервері або не пов'язаний з іншою публічною сторінкою, він ніколи не буде знайдений 1. Також зверніть увагу, що кожна пошукова система також пропонує сторінку, де ви можете представити свій веб-сайт для індексації.

    Хоча пошукові системи показують вам, що вони знайшли на своїй копії вмісту Інтернету; натискання результатів пошуку направить вас на фактичний веб-сайт, а не на копію. Але іноді ви натиснете результат лише для того, щоб виявити, що веб-сайт не відповідає тому, що знайшла пошукова система. Це трапляється, якщо веб-сайт був оновлений до того, як ваша пошукова система мала можливість переіндексувати зміни. У більшості випадків ви все одно можете підтягнути копію сторінки пошукової системи. Просто натисніть посилання «Кешування» під результатом (термін кеш відноситься до тимчасового простору зберігання, що використовується для прискорення обчислювальних завдань).

    Але що робити, якщо ви хочете, щоб вміст на вашому веб-сайті залишався поза межами індексації та кешування пошукових систем? Організації створили набір стандартів, щоб зупинити сканування павука, і всі комерційні пошукові системи погодилися дотримуватися цих стандартів. Один із способів - поставити рядок HTML-коду, невидимо вбудований у веб-сайт, який повідомляє всім роботам програмного забезпечення припинити індексацію сторінки, припинити переходити за посиланнями на сторінці або припинити пропонувати старі архіви сторінок у кеші. Користувачі не бачать цього коду, але комерційні веб-сканери роблять. Для тих, хто знайомий з HTML-кодом (мовою, що використовується для опису веб-сайту), команда, щоб зупинити веб-сканери від індексації сторінки, переходу за посиланнями та лістингу архівів кешованих сторінок виглядає наступним чином:

    ⟨МЕТА ІМ'Я = ВМІСТ «РОБОТІВ» = «НЕМАЄ ІНДЕКСУ, НЕМАЄ СЛІДУ, НЕМАЄ АРХІВУ» ⟩

    Існують і інші методи, щоб тримати павуків поза, теж. Адміністратори веб-сайтів можуть додати спеціальний файл (називається robots.txt), який надає аналогічні вказівки щодо того, як програмне забезпечення для індексації має ставитися до веб-сайту. І багато вмісту лежить всередині «темної павутини», або за корпоративними брандмауерами, або недоступним для тих, хто не має облікового запису користувача - подумайте про приватні оновлення Facebook, які ніхто не може побачити, якщо вони не ваш друг - все це поза досяжністю Google.

    Що потрібно, щоб запустити цю річ?

    Сергій Брін і Ларрі Пейдж почали Google лише з чотирьох очищених комп'ютерів (Liedtke, 2008). Але через десятиліття інфраструктура, яка використовується для живлення пошукового суверена, піднялася до того моменту, коли вона зараз є найбільшою у своєму роді у світі (Carr, 2006). Google не розкриває кількість серверів, які він використовує, але за деякими оцінками, він працює над 1.4 мільйонами серверів у більш ніж десятку так званих серверних ферм по всьому світу (Katz, 2009). У 2008 році фірма витратила 2,18 мільярда доларів на капітальні витрати, а центри обробки даних, сервери та мережеве обладнання з'їдали основну частину цієї вартості 2. Створення масових серверних ферм для індексації постійно зростаючого Інтернету - це тепер вартість допуску для будь-якої фірми, яка хоче конкурувати на ринку пошуку. Це явно вже не гра для двох аспірантів, які працюють з гаража.

    Контейнерний центр обробки даних Google

    (натисніть, щоб подивитися відео)

    Здійсніть віртуальну екскурсію по одному з дата-центрів Google.

    Розмір цієї інвестиції не тільки створює бар'єр для входу, він впливає на прибутковість галузі, а лідер ринку Google користується величезною економією масштабу. Фірми можуть витратити таку ж суму на створення серверних ферм, але якщо Google має майже 70 відсотків цього ринку (і зростає), тоді як пошук Microsoft залучає менше однієї сьомої трафіку, який, на вашу думку, користується кращою віддачею інвестицій?

    Апаратні компоненти, які живлять Google, не особливо особливі. У більшості випадків фірма використовує такі процесори Intel або AMD, жорсткі диски низького класу та мікросхеми оперативної пам'яті, які ви знайдете в настільному ПК. Ці компоненти розміщені в стійкових серверах товщиною близько 3,5 дюймів, причому кожен сервер містить два процесори, вісім слотів пам'яті та два жорсткі диски.

    У деяких випадках Google монтує стійки цих серверів всередині контейнерів стандартного розміру, кожен з яких має цілих 1160 серверів на коробку (Shankland, 2009). Даний центр обробки даних може мати десятки цих контейнерів, заповнених сервером, всі пов'язані між собою. Надмірність - це назва гри. Google припускає, що окремі компоненти регулярно виходять з ладу, але жоден збій не повинен переривати операції фірми (роблячи установку, яку вундеркінди називають відмовостійкою). Якщо щось зламається, технік може легко поміняти його заміною.

    Кожна компоновка ферми серверів також була ретельно розроблена з акцентом на зниження енергоспоживання та вимог до охолодження. А спеціальне програмне забезпечення фірми (більша частина його побудована на продуктах з відкритим вихідним кодом) дозволяє всьому цьому обладнанню працювати як найбільший у світі мережевий комп'ютер.

    Веб-пошук - це завдання, особливо добре підходить для масово паралельної архітектури, використовуваної Google та її конкурентами. Для аналогії того, як це працює, уявіть, що працюючи поодинці, потрібно спробувати знайти ту чи іншу фразу в стосторінковому документі (це зусилля одного сервера). Далі уявіть, що ви можете розподілити завдання по п'яти тисячам чоловік, давши кожному з них окреме речення для сканування (це багатосерверна сітка). Ця різниця дає вам уявлення про те, як пошукові фірми використовують величезну кількість серверів і поділ і володарюйте підхід grid обчислень, щоб швидко знайти голки, які ви шукаєте в стозі сіна Інтернету. (Докладніше про грід-обчислення див. Розділ 5 «Закон Мура: швидкі, дешеві обчислення та що це означає для менеджера», а докладніше про ферми серверів див. Розділ 10 «Програмне забезпечення в потоці: мінлива хмарність, а іноді і безкоштовно».)

    Малюнок 14.5

    Пристрій пошуку Google

    Google Search Appliance - це апаратний продукт, який фірми можуть придбати для запуску пошукової технології Google в межах конфіденційності та безпеки брандмауера організації.

    Google навіть продасть вам трохи своєї технології, щоб ви могли керувати власним маленьким Google в будинку, не ділившись документами з рештою світу. Лінія пошукових пристроїв Google - це сервери, встановлені на стійці, які можуть індексувати документи на веб-сайті корпорації, навіть вказуючи пароль та доступ до безпеки на основі кожного документа. Продаж обладнання не є великим бізнесом для Google, і інші постачальники пропонують подібні рішення, але пошукові прилади можуть бути життєво важливими інструментами для юридичних фірм, інвестиційних банків та інших організацій, багатих документами.

    Споттінг трендів за допомогою Google

    Google не тільки дає вам результати пошуку, він дозволяє побачити сукупні тенденції в тому, що шукають його користувачі, і це може дати потужну інформацію. Наприклад, відстежуючи тенденції пошуку симптомів грипу, веб-сайт Google Flu Trends може визначити спалахи на один-два тижні швидше, ніж Центри з контролю та профілактики захворювань (Bruce, 2009). Хочете вийти за межі грипу? Сервіси Google Trends та Insights for Search дозволяють будь-кому досліджувати тенденції пошуку, розбиваючи аналіз за регіонами, категоріями (зображення, новини, продукт), датою та іншими критеріями. Кмітливі менеджери можуть використовувати ці та подібні інструменти для аналізу конкуренції, порівнюючи фірму, її бренди та її конкурентів.

    Малюнок 14.6

    Google Insights for Search може бути корисним інструментом для аналізу конкуренції та виявлення тенденцій. На наведеній вище діаграмі показано порівняння (протягом дванадцяти місяців та географічно) інтересу пошуку за термінами Wii, Playstation та Xbox.

    Google Insights for Search може бути корисним інструментом для аналізу конкуренції та виявлення тенденцій. На наведеній вище діаграмі показано порівняння (протягом дванадцяти місяців та географічно) інтересу пошуку за термінами Wii, Playstation та Xbox.