В 2009 году было проведено исследование, которое показало, что в глубокой паутине находится в 500 раз больше документов, чем доступно через поисковые системы. Конечно, к этим цифрам следует относиться с осторожностью. Например, существует проблема с различением разных представлений одного и того же материала в базах данных. Но тем не менее, цифры поражают воображение, и неэффективность современных поисковых систем просто шокирует.
В глубокой паутине находятся веб-страницы, которые никак не связаны с другими — например, страницы, динамически создаваемые по запросам к базам данных. В глубокой паутине также находятся сайты, доступ к которым открыт только для зарегистрированных участников. Поисковые системы используют специальные роботы (англ. web crawler), которые переходят по гиперссылкам и индексируют содержимое веб-страниц, на которых они оказываются. Обыкновенно такие роботы не направляют запросы к базам данных (за исключением случаев, когда запрос помещается в отдельную гиперссылку на странице). Вот почему огромная часть Всемирной паутины оказывается «на глубине», скрытой от взоров поисковых систем.
Невидимый интернет существует в силу целого ряда причин, среди которых – причины как технического, так и организационного характера. Некоторые ресурсы могут быть индексированы поисковыми машинами с технической точки зрения, но те попросту пока что не успели обнаружить содержимое страницы. Некоторые виды контента не индексируются поисковыми машинами потому, что «пауки» сознательно настроены так, чтобы игнорировать те или иные ресурсы. Некоторые страницы имеют такой формат, который пока не поддерживается поисковыми машинами.
Глубокий веб по объемам превышает обычный в 400-500 раз. Поисковые роботы индексируют примерно 16 процентов от всего веб-контента. Глубокий веб более качественный (в среднем в три раза качественнее обычного). И еще глубокий веб растет быстрее всего. По мнению разных авторов к Видимому Интернету относится порядка 20-30% содержимого Сети. Самые смелые источники называют цифру не более 50%. Таким образом, можно утверждать, что Невидимый Интернет – это основная часть ресурсов, доступных онлайн. Размер Невидимой части Русского сегмента интернета превышает в 20 раз его Видимую часть и составляет более 25 млрд. страниц.