quinta-feira, 22 de novembro de 2012

Como funciona um mecanismo de busca?


O que é um Search Engine?

Por definição, um motor de busca na Internet é um sistema de recuperação de informação, que nos ajuda a encontrar informações sobre a World Wide Web. World Wide Web é o universo de informações em que esta informação é acessível na rede. Ele facilita o compartilhamento global de informações. Mas WWW é visto como um banco de dados não-estruturados. Está a tornar-se em crescimento exponencial loja enorme de informação. Busca de informações na web é, portanto, uma tarefa difícil. Há uma necessidade de ter uma ferramenta para gerenciar, filtrar e recuperar essas informações oceânica. Um motor de busca serve esse propósito.

Como funciona um mecanismo de busca?

* Motores de busca da Internet são os motores de busca da web que busca e recuperar informações na web. A maioria deles usa rastreador arquitetura indexador. Eles dependem de seus módulos de rastos. Crawlers também referida como aranhas são pequenos programas que navegam na web.

Crawlers * são dadas um conjunto inicial de URLs cujas páginas se recuperar. Eles extrair os URLs que aparecem nas páginas indexadas e dar essa informação para o módulo de controle de rastreador. O módulo rastreador decide quais as páginas que visitar seguinte e dá suas URLs de volta para os indexadores.

* Os temas abordados pelos motores de busca diferentes variam de acordo com os algoritmos que eles usam. Alguns motores de busca são programados para pesquisar sites sobre um determinado tema, enquanto os indexadores em outros podem estar visitando sites como possível.

* O módulo de controle de rastreamento pode usar o gráfico de ligação de um rastreamento anterior ou pode usar os padrões de uso para ajudar na sua estratégia de rastreamento.

* O módulo indexador extrai as palavras formam cada página que visita e registra sua URL. Isso resulta em uma tabela grande que dá uma lista de URLs que apontam para páginas onde cada palavra ocorre. A tabela lista as páginas, que foram cobertos no processo de rastreamento.

* Um módulo de análise de coleta é outra parte importante da arquitetura do motor de busca. Ele cria um índice de utilidade. Um índice de utilidade pode proporcionar o acesso a páginas de um determinado comprimento ou páginas que contêm um certo número de imagens sobre eles.

* Durante o processo de rastreamento e indexação, um motor de busca armazena as páginas que ele recupera. Eles são armazenados temporariamente em um repositório página. Os motores de busca manter um cache de páginas que visitam para recuperação que acelera de páginas já visitadas.

* O módulo de consulta de um motor de busca recebe usuários de pesquisa pedidos de formulários em forma de palavras-chave. O ranking classifica módulo os resultados.

* A arquitetura indexador rastreador tem muitas variantes. Ele é modificado na arquitetura distribuída de um motor de busca. Essas arquiteturas motor de pesquisa consistem em coletores e corretores. Coletores coletar informações de indexação de servidores web, enquanto os corretores de dar o mecanismo de indexação e a interface de consulta. Corretores atualizar os índices com base em informações recebidas de coletores e outros corretores. Eles podem filtrar informações. Muitos motores de busca de hoje usar esse tipo de arquitetura.

Mecanismos de busca e ranking da página

Quando enviar uma consulta a um motor de pesquisa, os resultados são exibidos em uma ordem particular. A maioria de nós tendem a visitar as páginas na ordem superior e ignorar aqueles que estão além dos primeiros. Isso é porque nós consideramos as páginas principais poucos a ter mais relevância para a nossa consulta. Então, todos interessados ​​em priorizando suas páginas no 10 primeiro de um motor de busca.

As palavras especificadas na interface de consulta de um motor de busca são as palavras-chave, que são procurados pelos motores de busca. Eles apresentam uma lista de páginas relevantes para as palavras-chave consultados. Durante este processo, os motores de busca recuperar essas páginas, que têm freqüentes ocorrências de palavras-chave. Eles procuram inter-relações entre palavras-chave. A localização de palavras-chave é também considerada enquanto ranking páginas que os contenham. Palavras-chave que ocorrem nos títulos da página ou no URLs recebem maior peso. Uma página com links que apontam para que o torna mais popular. Se muitos outros sites um link para uma página, ele é considerado valioso e mais relevante.

Há realmente um algoritmo de classificação que cada motor de busca usa. O algoritmo é uma fórmula computadorizado concebido para combinar páginas relevantes com uma consulta do usuário. Cada motor de busca pode ter um algoritmo diferente ranking, que analisa as páginas do banco de dados de motores para determinar respostas relevantes às nossas pesquisas. Diferente de busca de informação índice de motores de forma diferente. Isso leva ao fato de que uma consulta particular antes de colocar dois motores de busca distintas podem buscar páginas em ordens diferentes ou pode recuperar páginas diferentes. Tanto a palavra-chave, bem como a popularidade do Web site são factores que determinam a relevância. Click-through popularidade de um site é outro fator determinante de sua classificação. Esta popularidade é a medida de quantas vezes o site é visitado.

Webmasters tentar enganar os algoritmos motor de busca para aumentar as fileiras de seus sites. Os truques incluem home page altamente preenchimento de um site com palavras-chave ou o uso de meta-tags para enganar estratégias de busca ranking do motor. Mas os motores de busca são inteligentes o suficiente! Eles mantêm a rever os seus algoritmos e programas contra seus sistemas de forma que nós, como pesquisadores não cair em práticas ilegais.

Se você é um pesquisador sério, entendo que até mesmo as páginas além dos primeiros na lista pode ter conteúdo sério. Mas a certeza sobre motores de busca bons. Eles sempre trazer-lhe páginas altamente relevantes na ordem de cima!...

Nenhum comentário:

Postar um comentário