Notas para ALD

N

O propósito da Indexação é a construção de uma representação de um documento de forma apropriada a fazer parte de uma base de dados (se electrónica ou em cartões não é relevante)

Os procedimentos de indexação identificam os assuntos (subject matter) tratados no documento.

Os termos usados na indexação serão frequentemente seleccionados de um vocabulário controlado (system vocabulary), que tanto pode ser predeterminado como pode ser livre (retirados do próprio documento)

Estas actividades descritivas criam representações do documento.

Os utilizadores da base de dados usá-la-ão para satisfazer necessidades de informação.

Para o efeito têm de converter a necessidade de informação numa estratégia de pesquisa (pode ter um só termos ou múltiplas equações/formulas)

Termos como relevância e pertinência são frequentemente usados para referir termos “úteis”. Um item pertinente | relevante | útil é aquele que contribui para satisfazer a necessidade de informação.

Figura 2, página 4:
Em cada base de dados, para cada necessidade de informação específica, haverá muitos mais itens que não satisfazem a necessidade que itens que a satisfazem.

Imagine-se uma necessidade de informação para a qual existem 11 itens úteis numa base de dados.

Ao realizar a pesquisa que recuperaram-se 57 itens, dos quais apenas 6 itens são úteis e 51 não são úteis: O ratio de itens úteis para itens recuperados ( 6 / 51 ) é o ratio de precisão.

O ratio que expressa a dimensão dos itens úteis encontrados perante a totalidade de itens úteis existentes é o “recall ratio”, neste caso 6 /11.

É objecto da qualidade de indexação e da formação de utilizadores que este ratio atinja 100/100, ou seja que todos os itens úteis existentes sejam encontrados, e que o ratio de precisão ( inverso do ratio de ruído ) seja 0/100, ou seja que nenhum item inútil seja recuperado.

Quanto maior a base de dados menos tolerável é o baixo nível de precisão

Mas o problema é que as taxas têm significados diferentes conforme a dimensão da base: do ponto de vista do utilizador é admissível processar 51 recuperados para obter 6 úteis; no entanto é altamente trabalhosa a peneira de 60 úteis em 510 recuperados ( no entanto as pessoas parecem muito felizes com o google).

Portanto quanto maior o universo de informação menos tolerável é a baixa taxa de precisão.

Nota VIP: Recall mede a capacidade de recuperar itens úteis, precisão é a capacidade de evitar itens inúteis.

Para cada universo estes ratios vão variar conforme a cobertura da base de dados (cobertura sobre as necessidade de informação do utilizador) politica e prática de indexação, politica e prática de abstracting, qualidade do vocabulário controlado usado para a indexação e por fim da qualidade da estratégia de pesquisa.

Daqui seria possível discutir se apesar de ser dúbio que uma qualquer interface eleve a qualidade da pergunta se são é melhor que deixar o utilizador entregue à bicharada.

Boa indexação é defenível pragmaticamente como o método de indexação que permite que um item seja recuperado de uma base de dados quando é relevante para uma necessidade de informação e que não seja recuperado se não for relevante.

Comentar

Por 85

Artigos recentes

Comentários recentes

Thank you for your upload

WordPress Appliance - Powered by TurnKey Linux