Търсене на информация в Интернет
19.03.2009 – 16:23Основните протоколи, използвани в Интернет не притежават достатъчно количество вградени функции за търсене на информация. Протоколът HTTP е добър само за преглеждане на Web страници, но не и за търсене. От друга страна информацията в Интернет се увеличава лавинообразно и понастоящем има вече милиарди документи, като тяхното съдържание непрекъснато се променя и обновява. Основният проблем се състои във факта, че никога не е съществувала цялостна система за обновяване на такъв голям обем информация. За да може да се структурира съхраняваната в Интернет информация и за да може да бъде достъпна за потребителите са създадени специални инструменти за търсене (search tools) или машини за търсене (search engines), наричани още търсачки.
Средствата за търсене се стараят да открият източници, които съдържат определени ключови думи, зададени от потребителя. Те преглеждат съдържанието, заглавието или URL на източника. Търсачката връща като резултат Web страница, която съдържа URL, заглавието и кратко описание на всеки източник. Най-общо всяко средство за търсене работи на базата на следния механизъм :
- Отваря се началната страница на средството за търсене в Web браузъра.
- Въвеждат се ключовите думи за търсене и се щраква върху бутона Enter.
- Средството за търсене връща Web страница, която съдържа първата група Интернет източници, отговарящи на въведените ключови думи.
- При наличие на отговарящ URL се щраква върху неговата хипервръзка за отваряне на този източник в Web браузъра. Продължава се по аналогичен начин с другите източници от върнатата от търсачката първоначална Web страница с намерени резултати.
Средствата за търсене се разделят на два основни вида - предметен указател (search index), и директория (search directory). Обикновено средствата за търсене от тип предметен указател се състоят от три елемента:
- Агент (паяк (spider) или кроулер (crawler)), който се движи по мрежата и събира информация.
- База данни, която съдържа цялата информация, събирана от паяците.
- Машина за търсене, която потребителите използват като интерфейс за взаимодействие с базата данни.
Средствата за търсене от тип паяк представляват специални програми, които при своето движение в Интернет се занимават с извличане на страници, от които вземат хипервръзките и автоматически индексират информацията, която намират за изграждане на база данни (фиг.2.4.1). Всяка машина за търсене има собствено множество правила, определящо начина на събиране на документи. Някои проследяват всяка намерена хипервръзка на намерената страница, а след това изследват всяка хипервръзка от новите страници, други проследяват само по-важните страници. Агентите извличат и индексират различна по вид информация. Някои индексират всяка отделна дума от документа, други индексират най-важните 100 думи, големина на документа, броя на думите в него, наименование, заглавие и подзаглавие и др. Видът на индекса определя как да бъде реализиран механизмът на търсене и как да се интерпретира получената информация. Кроулерите преглеждат само заглавието на страниците и връщат само първата хипервръзка.
Средствата за търсене от тип директория не сканират Интернет за откриването на определени Web страници. Те разчитат на отделните потребители да изпратят URL и кратко описание, които директорията каталогизира и поставя в определен йерархичен порядък. Дадена директория може да се претърсва, а също така може да се преглежда самата йерархична структура, за да се види какво съдържа. За откриване на съществуващата в Интернет информация се зарежда началната страница на машината за търсене и се запълва форма, детайлизираща необходимата информация. Могат да се използват ключови думи, дати и други критерии, които трябва да съответстват на критериите, използвани от агентите при индексиране на информацията, която те са намерили при своето движение по Интернет. Базата данни започва да търси съответствие на подадена заявка на основата на информацията от запълнената форма и извежда съответните документи, подготвени от базата данни, като тя използва специален механизъм за подреждане на документите,определящ реда, по който намерените документи ще се извеждат. Различните машини за търсене използват различни методи за подреждане, но най-често използваните са :
- Количество на думите от заявка в текстовото съдържание на документа.
- Местоположение на търсените думи в документа.
- Значение на думата, спрямо която се определя общото съответствие с останалите думи в документа.
- Времето на съществуване на страницата в базата данни.
- Индекс на цитируемост, определящ броя хипервръзки, регистрирани в базата данни към тази страница от други страници.
Отделните машини за търсене осъществяват по различен начин извеждането на намерената информация. Някои показват само намерените хипервръзки, други извеждат хипервръзката с първите няколко изречения от намерения документ, или пък заглавието на документа заедно с хипервръзката. Независимо от богатите възможности на машините за търсене, трябва да се спазват някои правила за еднозначно, ефикасно и бързо търсене на необходимата информация в Интернет.
- Търсенето трябва да бъде конкретно. Общо формулиран въпрос към машината за търсене ще изведе много намерени страници, така че намирането на необходимата ще бъде силно затруднено. Например, ако трябва да се търси “научно-фантастичен филм”, не трябва просто да се въведе думата “филм” което би извело информация за всички жанрове филми.
- Могат да се използват синоними. Те разширяват диапазона на търсене на необходимите документи, в случай че не се намери съответствие с дадена дума.
- Желателно е използването на заградени в кавички фрази. Ако е необходимо да се намери конкретна фраза, тя трябва да се загради в кавички, за да се постигне пълно съответствие при търсенето.
- При необходимост трябва да се използват главни букви. Повечето от машините за търсене различават малки и главни букви. Ако се използват само малки букви, тогава при търсене не се прави разлика между малки и главни букви. Ако е зададена поне една главна буква, тогава съвпадението трябва да е пълно.
- Трябва добре да се познават възможностите на самите машини за търсене Желателно е по-обстойното запознаване с възможностите на използваните търсачки, които подробно са обяснени в тяхната помощна информация (help).
В много случаи е препоръчително използването на булеви заявки за търсене на информация в Интернет, тъй като използването им прави търсенето по-конкретно Потребителят почти не контролира функционирането на машината за търсене и особено начина, по който тя комбинира думите, по които трябва да се извърши търсенето.
Сходни статии:
- Уеб дизайн и изработка на сайтове, Интернет бизнес и провалиТоп заблуди в Мрежата и Интернет бизнеса Заблуда номер 1 Вече излязоха толкова много програми за изработка на сайт, защо да не си направя сам такъв и да си спестя...
- Сключване на договори по ИнтернетЗа мнозина търговци Интернет вече е истинска революция в техните начинания. Той им дава достъп до огромен брой потребители без ограничение на тяхното местонахождение. Това е една от причините много...
- Връзки към резултати от търсене на търсещи машини? Защо не!Замисляли ли сте се понякога за резултатите, които връщат машините за търсене в Интернет и наличието им на връзки към Вашия уеб сайт? Защо да не експериментираме с тази идея...
- Интернет като търговска средаДо скоро бизнесът и рекламата се осъществяваха с помощта на хартия, писалка и срещи лице-в-лице между участниците. Независимо от областта на бизнеса той се правеше във физическото пространство - срещи,...
- Интернет маркетинг и бизнес планиране - преди да започнетеWorld Wide Web ( “WWW” или просто “Уеб”) е огромна глобална система, която е изградена от свързани помежду си хипертекстови документи, която пък от своя страна работи през друга мрежа,...