Ми побачили в главі 8, що орієнтованість на слова більшості тіл та інструментів доступу до корпусу вимагає певного ступеня винахідливості при вивченні структур, більших за слово. Це не створює особливих проблем для морфології на основі тіла, яка вивчає структури, менші за слово. Морфологія корпусу здебільшого стосується розподілу афіксів, і отримання всіх входжень афіксів правдоподібно починається з пошуку всіх рядків, потенційно містять цей афікс. Ми могли б отримати всі випадки -ness, наприклад, з таким запитом, як\(\langle\text{[word=".+ness(es)?"%c]}\rangle\). Відкликання цього запиту буде близьким до 100 відсотків, оскільки всі слова, що містять суфікс -ness, закінчуються в рядку ness, за яким слід рядок es у випадку множини. Залежно від токенізації корпусу, цей запит може пропустити випадки, коли слово, що містить суфікс -ness, є першою частиною дефісированої сполуки, наприклад, корисность-рейтинг або зміна свідомості; ми могли б змінити запит на щось подібне,\(\langle\text{[word=".+ness(es)?(--.+=)?"%c]}\rangle\) якщо ми вважаємо, що включення цих випадків до нашої вибірки має вирішальне значення. Точність такого запиту, як правило, не буде 100 відсотків, оскільки він також буде отримувати слова, які випадково закінчуються рядком, вказаним у нашому запиті - у випадку -ness, це будуть такі слова, як свідок, гувернантка або назви місць на кшталт Інвернесс. Ступінь точності буде залежати від того, наскільки унікальним є рядок у нашому запиті для відповідного афікса; для -ness та -ity це досить висока, оскільки є лише кілька слів, які поділяють один і той же рядок випадково (приклади, як тільки що згадані для -ness та words як місто і жалість для -ity), для суфікса типу -ess ('жіноча жива сутність») це досить низько, як запит, як\(\langle\text{[word=".+ess(es)?"%c]}\rangle\) буде також отримати всі слова з суфіксами -ness і -less, а також багато слів, чий стовбур закінчується в есс, як процес, успіх, прес, доступ, адреса, плаття, вгадати і багато іншого.
Однак після того, як ми витягли і, при необхідності, вручну очистили наш набір даних, ми стикаємося з проблемою, яка не представляє себе при вивченні лексики або граматики: сам факт, що афікси відбуваються не самостійно, а завжди як частини слів, деякі з яких (наприклад, wordform-centerendess у першому реченні цієї глави) були створені продуктивно на льоту для певної мети, тоді як інші (наприклад, винахідливість в тому ж реченні) є умовленими лексичними елементами, які перераховані в словниках, хоча теоретично вони є результатом 9 Морфологія приєднання афікс до відомого стебла (як і інген-, також зустрічається в геніальному і, заплутано, його майже антонім винахідливий). Ми повинні мати на увазі різницю між цими двома видами слів при побудові морфологічних дослідницьких конструкцій; оскільки два види не завжди чітко помітні, це складніше, ніж здається. Крім того, той факт, що афікси завжди виникають як частини слів, має наслідки для того, як ми можемо і повинні їх рахувати; в кількісному корпус-лінгвістиці це найважливіший момент, тому я обговорю це досить детально, перш ніж ми звернемося до наших тематичних досліджень.