Какво представлява търсачката, как работи?

18.05.2019

През последните години услугите на Google и Yandex влязоха в живота ни. В тази връзка, много вероятно се чудя какво търсачката? По-просто казано, това е софтуерна система, предназначена за търсене на информация в World Wide Web. Резултатите от него обикновено се представят под формата на списък, често наричани страници с резултати от търсенето (SERP). Информацията може да бъде комбинация от уеб страници, изображения и други типове файлове. Някои търсачки съдържат и информация, достъпна в бази данни или в отворени директории.

какво е търсачка

За разлика от уеб директории, които се поддържат само от собствените си редактори, търсачките също така съдържат информация в реално време, използвайки алгоритъма в уеб търсачка.

История на

Самите търсачки се появиха пред World Wide Web - през декември 1990 година. Първата такава услуга се нарича Арчи и той търси команди за съдържанието на FTP файловете.

Какво представлява търсачката в интернет? До септември 1993 г. световната мрежа беше напълно индексирана ръчно. Имаше списък с уеб сървъри, редактирани от Тим ​​Бърнърс-Лий, който беше хостван на уеб сървъра на CERN. Тъй като все повече и повече сървъри станаха онлайн, горепосочената услуга не успя да обработи такива количество информация.

Google търсачка

Една от първите търсачки, базирана на уеб търсенето, беше WebCrawler, която беше пусната през 1994 година. За разлика от предшествениците си, той позволява на потребителите да търсят всяка дума на всяка уеб страница. Този алгоритъм е станал стандарт за всички основни търсачки. Това е и първото решение, широко известно на обществеността. През 1994 г. стартира и услугата Lycos, която по-късно се превръща в основен търговски проект.

Малко след това се появиха много търсачки и тяхната популярност се увеличи значително. Сред тях са Magellan, Excite, Infoseek, Inktomi, Northern Light и AltaVista. Yahoo! е един от най-популярните начини за намиране на интересни уеб страници, но алгоритъмът му за търсене работи в собствената си уеб директория, а не в страници с пълния текст. Търсещите информация могат също да разглеждат каталога, а не да търсят по ключова дума.

Търсачката на Yandex

Нов етап на развитие

Google прие идеята за продажба на заявки за търсене през 1998 г., започвайки с малка фирма goto.com. Тази стъпка оказва значително влияние върху SEO бизнеса, който в крайна сметка се превръща в една от най-печелившите дейности в интернет.

Около 2000 г. търсачката на Google стана широко известна. Компанията е постигнала по-добри резултати за много търсения чрез иновации, наречени PageRank. Този итеративен алгоритъм оценява уеб страниците въз основа на техните връзки към други сайтове и страници, въз основа на предпоставката, че добри или желани източници често се споменават от други. Google също поддържа минималистичен интерфейс за своята търсачка. Напротив, много от конкурентите са изградили търсачка в уеб портала. Всъщност Google стана толкова популярен, че се появиха измамни двигатели като Mystery Seeker. Днес има много регионални версии на тази услуга, по-специално търсачката Google.ru, предназначена за руско-говорещи потребители.

google ru търсачка

Как работят тези услуги?

Как е класирането и представянето на резултатите? Какви са търсачките по отношение на алгоритъм за действие? Те получават информация чрез уеб обхождане от сайт на сайт. Робот или "паяк" проверява стандартното име на файла robots.txt, адресирано до него, преди да изпрати определена информация за индексиране. Фокусът е върху много фактори, като заглавия, съдържание на страници, JavaScript, каскадни таблици със стилове (CSS), както и стандартен HTML код за съдържание или метаданни в HTML мета тагове.

Индексирането означава свързване на думи и други дефинируеми символи, намерени на уеб страници с техните имена на домейни и HTML базирани полета. Асоциациите се създават в общодостъпна база данни, достъпна за заявки за търсене в мрежата. Искането от потребителя може да бъде с една дума. Индексът помага за намиране на информация, свързана с заявката, възможно най-бързо.

Някои от методи за индексиране и кеширането са търговски тайни, докато уеб обхождането е прост процес на систематично посещение на всички сайтове.

Между посещенията на робота, кешираната версия на страницата (част или цялото съдържание, необходимо за показването му), съхранена в работната памет на търсачката, бързо се изпраща до искащия потребител. Ако посещението е закъсняло, търсачката може просто да действа като уеб прокси. В този случай страницата може да се различава от индексите за търсене. Кешираният източник показва версията, чиито думи са индексирани, така че може да е полезно, ако действителната страница е била изгубена.

търсачките на русия

Архитектура на високо ниво

Обикновено потребителят въвежда заявка за търсене под формата на няколко ключови думи. Индексът вече има имената на сайтовете, съдържащи тези ключови думи, и те се показват веднага. Истинското натоварване е да създадете уеб страници, които са списък с резултати от търсенето. Всяка страница в целия списък трябва да се оценява според информацията в индексите.

В този случай горният елемент на резултата изисква търсене, възстановяване и маркиране на фрагменти, които показват контекста на съвпадащите ключови думи. Това е само част от обработката на всяка уеб страница в резултатите от търсенето, а други страници (до нея) изискват по-голямата част от тази допълнителна обработка.

В допълнение към простото намиране на ключови думи, търсачките предлагат свои собствени GUI или управлявани от командите оператори и параметри за търсене, за да подобрят резултатите.

Те осигуряват необходимите контроли за потребителя чрез обратна връзка, чрез филтриране и претегляне при прецизиране на желаните данни, като се вземат предвид първоначалните страници на първите резултати от търсенето. Например, от 2007 г. насам Google.com разреши полученият списък да бъде филтриран по дата, като кликнете върху „Покажи инструментите за търсене“ в най-лявата колона на оригиналната страница с резултати и след това изберете желания период от време.

Руски търсачки

Вариант на заявката

Повечето търсачки поддържат използването на логическите оператори AND, OR и NOT, за да помогнат на крайните потребители да прецизират заявката. Някои оператори са предназначени за литерали, които позволяват на потребителя да прецизира и разшири условията за търсене. Роботът търси думи или фрази по същия начин като въведените команди. Някои търсачки предлагат функция за разширено търсене, която позволява на потребителите да определят разстоянието между ключовите думи.

Съществува и концептуално-базирано търсене, при което изследванията включват използването на статистически анализ на страници, съдържащи думи или фрази, които търсите. В допълнение, заявките на естествен език позволяват на потребителя да въведе въпрос в същата форма, която той би поискал от човек (най-типичният пример е ask.com).

Полезността на търсачката зависи от релевантността на резултата от резултата. Може да има милиони уеб страници, които съдържат определена дума или фраза, но някои от тях може да са по-подходящи, популярни или авторитетни от други. Повечето търсачки използват методи за класиране, за да осигурят най-добри резултати.

Как търсачката решава кои страници са най-подходящи за заявката и в какъв ред се показват откритите източници, варира значително от един робот на друг. Тези методи също се променят с времето, тъй като се променя използването на интернет и развитието на новите технологии.

Какво е търсачка: видове

Има два основни вида търсачка. Първата е система от предварително дефинирани и йерархично подредени ключови думи, с които хората я масово програмират. Втората е система, която генерира “инвертиран индекс” чрез анализиране на намерените текстове.

промоция в търсачките

Повечето търсачки са търговски услуги, подкрепени от рекламни приходи, и по този начин някои от тях позволяват на рекламодателите да имат рейтинг в показаните резултати за определена такса. Услугите, които не приемат пари в класирането, печелят пари, като пускат контекстни реклами до показваните сайтове. Днес промоцията в търсачките е една от най-печелившите печалби в мрежата.

Какви услуги са най-често срещани?

Google е най-популярната търсачка в света с пазарен дял от 80,52% към март 2017 година.

Пълният рейтинг на най-често срещаните услуги (с пазарен дял от повече от 1%) изглежда така:

  • Google - 80.52%
  • Бинг - 6.92%
  • Baidu - 5,94%
  • Yahoo! - 5,35%

Търсачките на Русия и страните от Източна Азия

В Русия и някои страни в Източна Азия Google не е най-популярната услуга. Сред руските потребители, търсачката на Yandex има водеща популярност (61,9%) в сравнение с Google (28,3%). В Китай Baidu е най-популярната услуга. Южна Корея - Портал за търсене - Naver се използва за 70% от процента онлайн търсене в страната. Също така Yahoo! в Япония и Тайван е най-популярният инструмент за намиране на точните данни.

Други добре познати руски търсачки са Mail и Rambler. С началото на развитието на Рунета те бяха широко разпространени, но сега загубиха голяма част от позициите си.

Ограничения и критерии за търсене

Въпреки че търсачките са програмирани да класират уебсайтовете въз основа на известна популярност и значимост, емпиричните проучвания сочат различни политически, икономически и социални критерии за избор на информацията, която предоставят. Тези предубеждения могат да са пряк резултат от икономическите (например компании, които рекламират търсачката, може също да станат по-популярни в редовните резултати от търсенето) и политически процеси (например, изтриване на резултатите от търсенето в съответствие с местните закони). Така че Google няма да показва някои неонацистки обекти във Франция и Германия, където отричането на Холокоста е незаконно.

Християнски, ислямски и еврейски търсачки

Глобалният растеж на интернет и електронните медии в мюсюлманския свят през последното десетилетие подтикна ислямските привърженици в Близкия изток и азиатския субконтинент да се опитат да създадат свои собствени търсачки и филтрирани портали, които ще позволят на потребителите да извършват сигурно търсене.

Тези услуги съдържат филтри, които допълнително класифицират уебсайтовете като „халал“ или „харам“ въз основа на настоящата експертна интерпретация на „Закона за исляма“.

Порталът ImHalal се появи онлайн през септември 2011 г., а Halalgoogling - през юли 2013 г. Те използват харам филтри на базата на алгоритми от Google и Bing.

Други религиозно ориентирани търсачки са Jewgle (еврейска версия на Google), както и Christian SeekFind.org. Те филтрират сайтове, които отричат ​​или унижават вярата им.