Информация в словарном контексте


 

В июле 1945 г. американский ученый Ваннавер Буш сформулировал очередную задачу ученой общественности – необходимость создания единой базы знаний, несистематизированное количество которых человечество уже не могло эффективно использовать. Решением проблемы должна была стать новая технология хранения и обработки данных, позволяющая организовать бесчисленные библиотечные томы, списки и отдельные публикации научных работ в едином и доступном архиве. Таким образом, Буш впервые представил концепцию гипертекстовой компьютерной системы для избирательного поиска информации с возможностью интерактивных переходов между связанными по тематике документами. Предметная реализация этой идеи в эпоху компьютерных сетей стала настоящей Меккой для двух поколений программистов.

Единицы знаний

По теории Буша идея хранения, систематизации и поиска знаний (документов,справочных данных, библиотечных томов и фотографий)основывалась на принципах организации различных научных дисциплин в отдельных категориях, каталогах и рубриках. С 1938 г. ученый разрабатывал прототип автоматизированной поисковой системы, занимаясь опытами с  дифференциальным анализатором(первым аналоговым компьютером), который был способен решать сложные уравнения с восемнадцатью независимыми переменными. Модель вычислительной машины изобретателя, занимавшая по размерам целую комнату, была построена под его руководством в 1930 г.

Доводы о необходимости создания удобной системы управления большими массивами информации, изложенные Бушем в статье «Как мы можем думать» были представлены научным кругам в журнале The Atlantic Monthly в 1945 г. Большинство ученых в то время были единодушны с автором, отметившим в своих трудах, что количество публикаций в разных источниках увеличивается с гораздо большей скоростью, чем темпы обработки и применения этих знаний на практике. Причем любую представляющую ценность для науки информацию необходимо постоянно сохранять, упорядочивать и самое главное – обсуждать. Будучи председателем Национального комитета оборонных исследований США (National Defense Research Committee, NDRC), Ваннавер Буш предложил технологию создания поисковой системы на основе управляемых микрофиш и фотосчитываемого точечного кода. Доступные в предвоенные годы технологии для сокращения физических объемов хранилищ документальной информации основывались на микрофишах – записанных на специальной пленке микрофильмов. Поэтому система виртуально безграничной, быстрой, надежной, расширяемой, ассоциативной системы хранения и выдачи информации, которую ученый назвал «Memex», предполагала весьма многообещающие перспективы. Согласно концепции Буша в текстах документов должны выделяться особые поля-ссылки, которые способны мгновенно привести читателя к нужным главам, темам, рисункам и описаниям без необходимости перебора целого древа закладок.

Гипрмедиа в режиме онлайн

В 1958 г. после запуска первого советского искусственного спутника Земли в Министерстве Обороны США создали Управление Перспективного Планирования Научно-исследовательских работ (ARPA). В ходе реализации стратегических целей правительства – установления господства США в военных и технических отраслях – с 1963 по 1969 г. целый ряд ученых нового отдела занимался разработкой технологии передачи информации посредством компьютерной сети ARPANet. Увы, сети для обмена зашифрованными данными оказались недостаточно надежными носителями стратегической информации, а сама идея создания управляемого виртуального архива стала вожделенной мечтой компьютерных специалистов.

В 1965 г. сын знаменитой голливудской актрисы Селесты Холм, американский социолог и философ Тэодор Нельсон впервые ввел в употребление понятие «гиперсреда» или «гипермедиа» (hypermeia). Ученый и общественный деятель представлял персональный компьютер будущего как легкодоступную систему, обращение с интерфейсом которой было понятным даже ребенку. Разработанный в 1960 г. проект Нельсона «Xanadu» основывался на принципах доступности и представлял собой систему для хранения и поиска текста, в которой были введены взаимосвязи разрозненных документов и «окна» для постоянного добавления «новых маршрутов» к материалам. Название собственной разработки ученый позаимствовал из поэмы Кольриджа «Кубла Хан». Потратив на проект «Xanadu» большую часть своей жизни, Нельсон преследовал цель перевода всей мировой литературы в режим он-лайн. Тем ни менее, гипертекстовая система «Xanadu» не получила дальнейшего развития. Нельсон при этом подробно описал собственные идеи в 1974г. в книгах «Computer Lib», «Dream Machines», а в 1981г. в издании «Literary Machines».

Теория индексации и «золотые суслики»

В числе отцов-основателей современных поисковых систем компьютерных сетей в начале 90-ых годов был профессор Корнельского университета Герард Салтон. Созданная его научной группой система работы с информацией SMART (Salton’s Magic Automatic Retriever of Text) обладала передовыми моделями поиска, которые применяются в некоторых современных поисковых машинах по сей день. Описания большинства проектов и результатов исследований ученый опубликовал в книге «Теория индексации». Первые опыты с системой автоматической генерации структурированных текстовых ссылок (гиперссылок) Салтона начались с автоматизации работы с энциклопедией, которая содержала около 25000 статей и порядка 800000 текстовых документов из различных предметных областей. В тоже время гиперссылки были известны компьютерным специалистам из Стэнфордского университета еще в 1968 г. В то время изобретатель компьютерной мыши Дуглас Энгелбарт демонстрировал, как, щелкая кнопкой привычного манипулятора по определенным словам в компьютерной программе, можно выводить на экран новые страницы текста.

Вслед за разработкой Герарда Салтона собственную действующую систему поиска для относительно немногочисленной в то время армии пользователей сетей предложил канадский студент Алан Эмтедж. За четыре года до создания «всемирной паутины» изобретательный молодой человек из монреальского университета Макгилла (McGill) продемонстрировал возможности поисковой системы «Арчи» (Archie), принцип работы которой основывался на индексации FTP-архивов и обеспечении быстрого доступа к отдельным файлам. Пользователи «Archie» (изначально он назывался «Archives») имели возможность искать информацию через e-mail-запросы, подключаясь напрямую к серверу либо с помощью веб-интерфейсов. Система Алана Эмтеджа осуществляла поиск разбросанной по сети информации, основываясь на совпадении в названиях файлов с поисковыми запросами, и представляла собой обширную пополняемую базу данных о файлах, доступных через сервис FTP. И хотя создание глобальной сети в привычном для современников виде еще не существовало, Archie стал необыкновенно популярным среди пользователей, интерфейсы компьютеров которых были вплетены в ARPANet. Итогом успешного почина поисковой сетевой технологии Эмтеджа стала созданная группой System Computing Services при университете Невады система Veronica, которая осуществляла поиск документов в обычном текстовом формате. Вслед за ней появился еще один интерфейс для поиска информации – Jughead. Примечательно, что оба «поисковика» Veronica и Jughead работали с документами, пересылаемыми через другую поисковую систему Gopher(«Золотые суслики»), созданную  Полом Линднером и Марком МакКахилом  в 1991 г. Названная в честь талисмана университета Миннесоты(Golden Gophers), поисковая машина вполне оправдала свое название. Образно выражаясь, Gopher прорывал ходы к другим «сусликам», установленным в компьютерах по всему миру, собирая данные в иерархические группы меню, в котором пользователи могли искать интересующие их документы.

Web-бродяга Меттью Грея

В феврале 1993 г. Марк Андрессен, сотрудник Национального Центра Суперкомпьютерных приложений США, (NCSA) закончил начальную версию программы визуализации гипертекста Mosaic под UNIX. Программа Андрессена имела удобный графический интерфейс и стала прототипом современных браузеров. В тоже время заслуги по единению гипертекстовых систем и Интернета принадлежат создателю «всемирной паутины» Тиму Бернерсу-Ли. Используя методы, схожие с механизмами системы Enquire, он представил миру знакомую любому современнику систему WorldWideWeb, которая обеспечила доступ к связанным между собой документам, расположенным на различных компьютерах в сети. Позже Тим усовершенствовал ее до NeXTSTEP и разработал первый веб-сервер, названный «httpd»,(«HyperText Transfer Protocol daemon»). Первым веб-сайтом при этом был ресурс интрасети компании CERN, в которой работал Тим Бернерс Ли — http://info.cern.ch, запущенный 6 августа 1991г.

В 90-е годы проекты новых поисковых машин появлялись на безграничных просторах интернет буквально один за другим. Однако не всем из них удалось завоевать признание пользователей. Изобретатель первой поисковой машины в веб-ориентированной компьютерной сети Меттью Грей в 1993 г. задался целью измерить размеры виртуального пространства. Будучи студентом Массачусетского технологического института, Грей представил собственную программную разработку в одной из курсовых работ. Изобретение представляло собой программу из ряда так называемых «Web-бродяг» (или «бродилок» – crawler), написанную на языке программирования Perl. При этом в том же году была анонсирована созданная на ее основе поисковая система Wandex. Практически одновременно с запуском проекта Меттью Грея, английский программист Мартин Костер представил «поисковик» Aliweb (Archie Like Indexing for the Web).  Причем ALIWEB, помимо основных функций, позволял владельцам сайтов подавать заявки на индексацию в поисковых машинах.

Костер к тому же опубликовал первый фундаментальный обзор поисковых машин, в котором сервисы поиска информации впервые были названы роботами. Согласно реализованной концепции британского ученого поисковый робот ALIWEB с помощью «бродилки» и «паука» самостоятельно просматривал страницы World Wide Web, индексируя и анализируя их содержимое. Другими словами он выделял ключевые слова и заголовки, а затем накапливал и помещал в базы необходимые для обработки запросов метаданные. Сходные принципы взяли на вооружение многие сервисы поиска информации. При этом важными качественными преимуществами «поисковиков» стали разработки механизмов, которые позволяют максимально точно соответствовать пользовательским ожиданиям, а также обеспечивать достоверность предоставляемых по запросу ссылок. Именно вокруг этих качеств в середине 90-ых годов разгорелась конкурентная борьба.

В 1994 г. компьютерная общественность получила возможность испытать новую поисковую машину Lycos, представленную проектной группой под руководством Майкла Модлина из Университета Карнеги — Меллона. Через год была зарегистрирована компания Lycos Web Search Engine. Примечательно, что признанный в январе 1995 г. самым мощным механизмом хранения данных интерфейсов WWW, сервис Lycos  предлагал такие услуги как процент совпадения результатов с запросами, список ключевых слов, по которым осуществлялся отбор, и другие полезные сервисы. Название поисковой машины при этом было позаимствовано из биологии. Слово Lycosidae, от которого образовалось название проекта, олицетворяет семейство пауков-«волков», ведущих бродячий образ жизни( тарантулы и др.). И тем ни менее, проект Модлина оказался не таким успешным как ставшие популярными в начале нового века системы Yahoo, Google, МСН и AOL. Впрочем, в период с 1993 по 1997 г. в сети периодически анонсировались яркие поисковые проекты, которые впоследствии либо были переориентированы на локальных пользователей либо стали специализированными базами данных.

В 1993 г.  шесть студентов Стэнфорда продемонстрировали сервис для поиска информации Excite. В 1994 г. была анонсирована сеть, бывшая изначально частью поискового консорциума MCC в Университете Техаса в Остине. В этом же году вышла программа WebCrawler – первая поисковая машина, способная  индексировать полный текст веб-сайтов. В 1995 г. ученые из исследовательской лаборатории корпорации Digital Equipment  продемонстрировали поисковую машину AltaVista с целью показа возможностей нового семейства серверов Alpha. Созданный на ее основе сервис, уже мог обрабатывать сложные запросы, в том числе на китайском, японском и корейском языках. В 1998 г. компания Microsoft лицензировала систему AltaVista для использования в собственном сервисе MSN, а сам сервис поиска популярен и сегодня.

Несмотря на количество поисковых машин, многие из которых ориентированы на целевую аудиторию, наибольшую популярность завоевали Yahoo, Google и МСН. В  русскоязычном интернете  признание получили сервисы Яндекс, Рамблер и Апорт. При поиске информации эти машины учитывают морфологию русского языка. Примечательно, что разработанный в 1994 г. в Стэнфорде студентами Дэвидом Фило и Дженри Янгом проект Yahoo начинался с создания каталога любимых веб-сайтов. Как видимо по этой причине содержащий интегрированный сервис поиска портал Yahoo стал своего рода виртуальным культурно-информационным центром, особенно популярным в Кремниевой Долине.

Создателям поисковой машины Google аспирантами Стэндфордского университета Лари Пейджем и Сергеем Брином в 1998 г. удалось построить систему с наиболее ревалентным алгоритмом поиска и дружелюбным пользовательским интерфейсом. Механизмы поиска информации в этом сервисе способны  анализировать содержание каждой web-страницы целиком, а также шрифт и месторасположение всех запрашиваемых слов. В тоже время, поиск совершенных механизмов для ориентирования в дебрях всемирной паутины не прекращается  и поныне. И если создание базы данных, всего лишь дело времени, то создание интеллектуального робота, способного понять человека – задача не их легких.

автор:Сергей Покровский

Мой блог находят по следующим фразам

 
 
Статья прочитана 372 раз(a).
 
Еще из этой рубрики:
 
Здесь вы можете написать комментарий к записи "Информация в словарном контексте"

Войти, чтобы написать отзыв.

Архивы
Наши партнеры
Стильные Угги в Киеве
Читать нас
Связаться с нами
Для предложений о размещении авторских материалов на сайте воспользуйтесь формой «+Добавить новость». В случае перепечатки материалов активная ссылка на ресурс обязательна. Всегда рады сотрудничеству!