Zoekt en gij zult vinden
Sturgeon's wet: negentig procent van alles is
troep
Informatie zoeken op Internet? Een aantal organisaties
en bedrijven bieden de helpende hand. Nico Poppelier heeft een
vergelijkend onderzoek gehouden onder de diverse `search engines',
waarvan hier het resultaat bekend wordt gemaakt.
De kunst is dus die tien procent te vinden. De wet van Sturgeon [1]
is zo mogelijk nog beter toepasbaar dan de wet van Murphy, en in
het geval van het Internet en in het bijzonder het World Wide Web
is het een duidelijk geval van de spijker op de spreekwoordelijke
kop slaan! Gelukkig zijn er diensten die een gebruiker kunnen
helpen in haar zoektocht naar nuttige informatie. In dit artikel
besteed ik aandacht aan zoekdiensten op het Internet, om precies te
zijn: zoekdiensten op het World Wide Web (WWW, kortweg Web).
Internet wordt nog steeds door sommigen beschouwd als een `netwerk
voor techneuten door techneuten' waar `de hoeveelheid signaal ten
opzichte van de ruis lager dan ooit' is [2]. En het is ook waar dat
een eigen pagina op het Web voor veel organisaties, maar ook voor
steeds meer individuele gebruikers, een soort post-modern
visitekaartje is. Zoals iedere hond tegen bomen plast om zijn
terrein af te bakenen lijken Internet-gebruikers ook `hun eigen
stuk' van het Internet te willen afpalen [3].
Het informatiegehalte van dergelijke pagina's is doorgaans laag,
maar ze worden wel steeds talrijker. En tch kun je op het Web
zinvolle informatie vinden ... als je tenminste weet hoe je moet
zoeken. Er zijn daarbij ruwweg drie zoek-strategieën te
onderscheiden: bladeren (in vakliteratuur meestal aangeduid als
`browsen'), navigeren en `termzoeken' (een niet bestaand woord dat
ik in dit artikel gebruik om zoeken in enge zin aan te duiden; zie
verderop). In de praktijk zie je dat gebruikers deze
zoekstrategieën afwisselen om hun doel te bereiken.
Bladeren of `browsen' is een soort grasduinen door een
informatie-verzameling. Je beweegt over het algemeen ongericht en
zonder duidelijk vooropgezet plan door de informatie-verzameling en
laat je leiden door invallen en toevallige ontdekkingen. In een
(niet-digitale) bibliotheek zou dit neerkomen op door de diverse
afdelingen lopen, met de vinger langs schappen gaan en af en toe
een boek inkijken.
Navigeren is een gerichtere vorm van bewegen door een
informatie-verzameling, waarbij je gebruik maakt van
gestructureerde aanwijzingen van uiteenlopende aard, bijvoorbeeld
kaarten van landen of werelddelen. Navigeren in een bibliotheek zou
neerkomen op het volgen van de bordjes naar een bepaalde afdeling,
en het gebruiken van de nummers van kasten en boeken om een
informatiebron (boek) te vinden.
Zoeken (in enge zin) of wat ik in dit artikel `termzoeken' noem is
ook een gerichte vorm van zoeken in algemene zin, omdat je een
omschrijving hebt van datgene wat je zoekt, in de vorm van een
vraag of een of meer trefwoorden. In een bibliotheek kun je zoeken
met behulp van de diverse kaartenbakken (op titel, op auteur, op
thema, etc.) al dan niet in digitale vorm.
In dit artikel concentreer ik me op hulpmiddelen voor het
termzoeken naar informatie op het World Wide Web. Professioneel
opgezette zoekdiensten worden tegenwoordig gezien als goede
kandidaten voor commerciële exploitatie. America Online, een
Amerikaanse online-dienst die ook Internet-aansluiting biedt, heeft
de volgende bedrijven opgekocht: WAIS Inc., dat de commerciële
versie van WAIS ontwikkelde en aan klanten verkocht, de door
computerboekenuitgever O'Reilly ontwikkelde `gouden gids' voor het
Internet Global Network Navigator en WebCrawler [4].
Twee belangrijke begrippen bij het termzoeken in een bepaalde
informatieverzameling zijn precision en recall. Recall is een maat
voor hoeveel documenten uit de verzameling een zoekactie oplevert;
precision is een maat voor hoe relevant de opgeleverde documenten
zijn voor de door de gebruiker gestelde zoekvraag. Meestal leveren
zoekdiensten voldoende treffers op als resultaat van een
zoekopdracht, zeker de zoekdiensten op het Internet; hun recall is
dus doorgaans voldoende. Maar de precisie is daarbij meestal
bedroevend, want er worden teveel treffers opgeleverd op
zoekvragen, de informatie over iedere treffer is niet altijd
voldoende om het kaf van het koren te scheiden, en de getalsmatige
relevantie-scores zijn niet altijd betrouwbaar.
Voor het World Wide Web zijn de diverse zoekdiensten, aan de hand
van de methode waarop ze documenten vergaren, in twee belangrijke
categorieën onder te brengen: spinnen [5,6] en Archie-achtigen,
oftewel systemen met oogsters en makelaars [7,8].
Spinnen
Spinnen lopen zelf het Web af en volgen links om hun kennis van het
Web, een soort `kaart' van het Web, te vergroten. Van iedere
Web-locatie, iedere Web-server, worden een of meer documenten
opgehaald en ge&ieuml;ndexeerd. Op de diverse manieren waarop je
documenten kunt indexeren kom ik later nog terug. Voor de
toepassing van spinnen is geen afspraak nodig met beheerders van
Web-locaties, maar spinnen kunnen voor veel overlast zorgen door
van servers alle documenten op te vragen, zonder rekening te houden
met het tijdstip van de dag, de bezettingsgraad van de server in
kwestie, of de drukte van de route tussen het `nest' van de spin en
de server in kwestie.
Voorstanders van het gebruik van spinnen, waaronder natuurlijk hun
makers, zeggen dat het extra gebruik van de soms overbezette
servers en de verbindingen ertussen goedgemaakt wordt doordat veel
gebruikers de index raadplegen en zodoende hun eigen zoektocht
verkorten. Tegenstanders van het gebruik van spinnen zijn te vinden
onder de beheerders van grote documentverzamelingen, die vinden dat
hun server overmatig belast wordt en er alles aan doen om spinnen
te weren. Er is een soort gedragscode voor spinnen, ontworpen door
Martijn Koster van het Britse Nexor, maar het is niet zeker of alle
bouwers van spinnen zich daaraan houden [9].
Oogsters en makelaars
De Archie-achtigen, zoals bijvoorbeeld ALIWEB en Harvest,
verzamelen indexen die door de beheerders van Web-servers zelf zijn
klaargemaakt. Het nadeel is dat er afspraken moeten worden gemaakt
met de beheerders over wanneer, waarvan en hoe ze in-dexen aanmaken
en hoe die beschikbaar moeten worden gemaakt. Het voordeel is dat
de server in kwestie kan worden gïndexeerd op een gunstig moment
en dat de drukke verbindingen in het Internet niet meer worden
belast dan nodig om de index te versturen naar de centrale
bewaarplaats. Bovendien kan de beheerder vaak beter uitmaken welke
documenten relevant zijn en welke minder relevant.
Harvest is eigenlijk geen zoekdienst, maar een kant-en-klaar
softwarepakket dat gebruikt kan worden om indexen te oogsten met
een oogster (`harvester') en die aan te bieden aan een makelaar
(`broker'), die de diverse indexen die hij ontvangt verwerkt tot
een geïntegreerde index die hij inbouwt in een zoek-service. Op de
home-pagina van Harvest vind je een verwijzing naar een
informatiemakelaar die een kleine catalogus heeft van 45.000
Web-documenten; de interface hiervan is echter teleurstellend en
het aantal geïndexeerde documenten is natuurlijk niet interessant
genoeg.
Indexen raadplegen
De manier waarop indexen worden gebouwd en vervolgens geraadpleegd
om een zoekvraag te beantwoorden, verschilt van geval tot geval.
Een bekende manier om een documentverzameling te indexeren is
file-inversie. Hierbij wordt een lijst aangelegd van alle woorden
in alle documenten; eventueel worden frequent voorkomende woorden,
zoals lidwoorden, uit een zogeheten `stoplijst', verwijderd. Van
ieder woord wordt vastgelegd in welke documenten en op welke
posities dit voorkomt.
WebCrawler, een van de bekendste spinnen van dit moment, werkt als
volgt: ieder gevangen document wordt opgebroken in een verzameling
woorden uit de titel en uit de inhoud van het document. Woorden uit
een stoplijst worden vooraf verwijderd. Ieder woord krijgt een
gewichtsfactor die het quotiënt is van de frequentie van het woord
in het document en de frequentie van het woord in een bepaald
kennisdomein. Bij een zoekopdracht gebruikt WebCrawler het systeem
dat bekend staat als vector-space query model [5], waarbij
zoekvragen en documenten worden gemodelleerd als vectoren in een
abstracte informatieruimte. De documenten die dicht bij de
zoekvraag liggen, in een bepaalde, wiskundig te definieren
betekenis, worden geacht relevant te zijn voor die zoekvraag.
Lycos' methode wordt geheim gehouden, maar de relevantie van een
document wordt mede bepaald door het aantal keer dat ernaar wordt
verwezen vanuit andere documenten. Waarschijnlijk gebruikt men (of
gaat men gebruiken) de software van het Canadese bedrijf OpenText,
evenals Yahoo! [10,11]. In een aantal gevallen wordt ook gebruik
gemaakt van WAIS. In zijn eenvoudigste vorm hakt WAIS de zoekvraag
in woorden op een manier die vergelijkbaar is met WebCrawler.
Daarna wordt de relevantie-score van een document berekend uit de
frequenties van de zoektermen in het document en het aantal woorden
in het document.
Evaluatie
De volgende zoekdiensten zijn aan de tand gevoeld in het
onderzoekje dat de basis vormt voor dit artikel (zie ook tabel 1):
Yahoo!, Lycos, Infoseek, OpenText Web Index, WebCrawler, Magellan,
infoMarket Search, Galaxy, ALIWEB en WWWW.
Een aantal andere diensten heb ik met opzet buiten het onderzoek
gehouden. JumpStation staat op het punt van verdwijnen omdat de
maker geen tijd heeft voor het project. RBSE, een van de eerste
spinnen op het Web, heeft een spartaanse interface, biedt geen
zoekopties, en moet worden gezien als een prototype in het kader
van het Repository Based Software Engineering Project. De Global
On-Line Directory was tijdens het onderzoek onbereikbaar; de GNA
Meta-Library was moeilijk bereikbaar en is volgens diverse bronnen
niet up-to-date. Deze lijst van zoekdiensten is ongetwijfeld
onvolledig; raadpleeg http://www.cwi.nlcusi.html en
http://cuiwww.unige.ch/meta-index.html voor meer suggesties.
Tabel 1 : Onderzochte zoekdiensten
| Naam |
Host |
URL |
| Yahoo! |
Yahoo |
http://www.yahoo.com |
| Lycos |
Lycos Inc. |
http://www.lycos.com |
| Web Index |
OpenText |
http://www.opentext.com |
| Infoseek |
McKinley |
http://www.infoseek.co |
| WebCrawler |
AOL |
http://webcrawler.co |
| Magellan |
McKinley |
http://www.mckinley.com |
| infoMarket Search |
IBM |
http://www.infomkt.ibm.com |
| Galaxy |
Tradewave |
http://galaxy.einet.net/www/www.html |
| ALIWEB |
Nexor |
http://www.nexor.co.uk/public/aliweb/aliweb.htm |
| WWW Worm |
Univ.Colorado |
http://www.cs.colorado.edu/home/mcbryan/WWWW.html |
Er werd in het onderzoekje gekeken naar het interface, de
zoekmogelijkheden, de respons in het algemeen en in het bijzonder
het aantal treffers en de relevantie ervan voor de door mij gekozen
zoekopdrachten. Als zoekopdrachten (zoektermen) heb ik gekozen:
Winsock, Eudora, Elsevier, boeddhisme (eigenlijk het Engelse woord:
`buddhism'), Wild Palms en Twin Peaks. WinSock is een pakket
waarmee men onder andere Internet-applicaties kan maken die werken
onder Microsoft Windows; het doel van deze opdracht is onder meer
om uit te vinden waar je de nodige software kunt ophalen of kopen.
Eudora is een populair mail-pakket voor de Apple Macintosh en
Microsoft Windows; sommige zoekdiensten hebben er moeite mee om de
Web-server van Qualcomm, de makers van Eudora te vinden. Elsevier
(eigenlijk de wetenschappelijke tak: Elsevier Science) heeft Web-,
gopher- en ftp-servers, en is de uitgever van de proceedings van de
eerste en tweede Europese WWW-conferenties. Over boeddhisme wordt
veel geschreven; een interessante informatiebron is te vinden aan
de Australian National University (ANU). Wild Palms en Twin Peaks
zijn twee opmerkelijke Amerikaanse TV-series, van respectievelijk
Oliver Stone en David Lynch. Over Twin Peaks is veel geschreven op
het Web en in News, maar de kunst is de werkelijk relevante Web- en
ftp-servers te vinden. Over Wild Palms is weinig te vinden, maar er
zijn een paar relevante documenten; helaas slagen weinig
zoekdiensten erin deze op te leveren. Mijn beoordeling van de
resultaten van de zoekopdrachten heb ik weergegeven in tabel 2.
Het zou mogelijk zijn geweest meer criteria te hanteren of meer dan
zes zoekopdrachten, maar met het oog op de beschikbare tijd heb ik
dit niet gedaan. Ten aanzien van het interface en de respons nog
dit: mijn beoordeling van beide is vanzelfsprekend subjectief. Alle
zoekdiensten werden echter steeds geraadpleegd rond hetzelfde
tijdstip van de dag, namelijk tussen 12 en 1 uur Nederlandse tijd
op werkdagen. In de volgende paragrafen geef ik korte
beschrijvingen van de onderzochte zoekdiensten.
Tabel 2: Resultaten van zoekopdrachten
(++=goed, +=voldoende, 0=matig, -=onvoldoende, --=slecht)
| Dienst |
Winsock |
Eudora |
Elsevier |
Buddhism |
Wild Palms |
Twin Peaks |
Totaal |
| Yahoo! |
+ |
+ |
+ |
+ |
-- |
+ |
+ |
| Lycos |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
| Infoseek |
+ |
+ |
0 |
+ |
+ |
+ |
+ |
| Web Index |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
| WebCrawler |
0 |
- |
0 |
+ |
- |
+ |
0 |
| Magellan |
+ |
+ |
- |
+ |
-- |
+ |
0 |
| infoMarket Search |
|
|
|
|
|
|
|
| Galaxy |
+ |
0 |
0 |
+ |
0 |
0 |
0 |
| ALIWEB |
- |
-- |
-- |
+ |
-- |
-- |
- |
| WWW Worm |
+ |
+ |
+ |
+ |
-- |
+ |
+ |
Yahoo!
Yahoo! is `Yet Another Hierarchical Officious Oracle', een gratis
te gebruiken index van rond de 150.000 Web-pagina's, gesorteerd in
meer dan 10.000 categorieen. Het systeem is in april 1994 opgezet
door twee studenten aan de universiteit van Stanford in de
Verenigde Staten. Yahoo! gebruikt een speciaal ontworpen database
en HTTP-server op een aantal Unix-systemen; hun verbinding met
Internet is T3, dat wil zeggen 45 Mbs; dit alles is mogelijk
dankzij sponsoring van Netscape Communications en onder andere ook
MasterCard International. Met zijn 150.000 geoogste Web-pagina's
beslaat Yahoo! slechts een fractie van de totale inhoud van het
Web, namelijk tussen de 1 en 3 procent, afhankelijk van de groei
van het Web en de groei van Yahoo! Toch wordt het door veel
gebruikers als een van de meer volledige gidsen beschouwd; maar
lees de volgende paragraaf over de claims van de makers van Lycos.
Yahoo! vergaart zijn informatie door (1) aanmelding van pagina's
door de eigenaren, (2) door vondsten van de medewerkers van Yahoo!
en (3) door met robots te zoeken naar nieuwe aankondigingen.
Het interface is wat je kunt noemen `cool', met name vanwege de
aardige grafische vormgeving. Tijdens de test was de respons goed.
De treffers worden overzichtelijk weergegeven en met dermate veel
informatie per treffer dat het niet al te moeilijk is het kaf van
het koren te scheiden. Een andere fraaie voorziening binnen Yahoo
is de rubrieken-index, die 14 hoofdrubrieken biedt en daarachter
honderden deel-rubrieken. Deze rubrieken-index is even goed als of
misschien zelfs wel beter dan die van de Global Network Navigator.
Yahoo is daarmee een fraai voorbeeld van een zoekdienst die twee
zoekstrategieen aan zijn gebruikers aanbiedt.
Zoekopties zijn: Boolean and of or, zoeken op hele woorden of
substrings, wel of niet onderscheid tussen hoofdletters en kleine
letter (case sensitivity) en het aantal treffers dat moet worden
getoond.
Yahoo! vond over het algemeen relevante tot zeer relevante
treffers. Bij `Eudora' werd inderdaad de home-pagina van Qualcomm
opgeleverd. Yahoo! vond ook de proceedings van de Web-conferenties,
maar helaas niet de weinige Web-documenten over Wild Palms.
Lycos
Lycos begon als een eenvoudige spin-dienst op de universiteit van
Carnegie-Mellon in de VS, en is nu in handen van het bedrijf Lycos
Inc. De bedoeling is dat deze zoekdienst gratis blijft, doordat
inkomsten worden verkregen uit advertenties en het in licentie
geven van de onderliggende technieken, waarop de makers patenten
hebben aangevraagd. Onder andere Microsoft heeft een
niet-exclusieve licentie op deze technieken.
Lycos pakt van ieder document dat het ontdekt de eerste 20% of 20
regels (welke van de twee het kleinst is), de eerste tweehonderd
tekens van de header en een groep van 100 woorden die statistisch
het meest relevant zijn voor het document. De naam Lycos is
afkomstig van de latijnse naam voor de familie van de wolfspinnen,
de Lycosa, die 's nachts op jacht gaan naar voedsel. Het
Lycos-systeem bestaat namelijk uit een groep spinnen die nu al
miljoenen documenten hebben `gevangen' en per dag meer dan 50.000
nieuwe of gewijzigde documenten meebrengen naar hun `nest'.
Bovendien hebben gebruikers al meer dan 100.000 pagina's aangemeld.
Lycos biedt momenteel waarschijnlijk de omvangrijkste catalogus
voor het Internet. Naar eigen opgave van de makers bevatte de index
van Lycos in augustus 1995 meer dan 10 miljoen documenten, waarvan
8 miljoen op het Web en de rest op gopher- of ftp-servers. Als deze
getallen betrouwbaar zijn - en ik was niet in staat ze te
verifieren - gaat het hier om 90% van het totale Web, en tegen het
eind van 1995 ongeveer 98%. Hun naaste concurrent Web Index beslaat
`slechts' 13%.
Het interface is iets minder speels, maar zeker niet minder fraai
en bruikbaar dan die van Yahoo! Heel fraai is de balk met
wisselende advertenties. De res-pons was tijdens de test goed; niet
verwonderlijk, want klanten worden verdeeld over een totaal van 12
servers die tegelijkertijd in de lucht zijn! Het resultaat van
iedere zoekopdracht wordt weergegeven als een overzichtelijke lijst
van treffers, met een bruikbare relevantie-score en een door het
systeem zelf gemaakte korte samenvatting van het document -
uitstekend om zelf te bepalen met welk document je je zoektocht
vervolgt. Zoekopties omvatten: aantal treffers per scherm; zoeken
op alle termen tegelijk, of 1, 2, 3, ... termen uit de opdracht;
korte, normale of lange uitvoer; en de mate van relevantie van
documenten: `loose', `fair', `good', `close' of `strong'.
Ook Lycos presteerde zeer goed bij de zoekopdrachten, maar miste de
proceedings van de Web-conferenties. Lycos vond wel de treffers
over Wild Palms, tussen veel pagina's over `wild' en `wilderness',
en vond ook documenten over Twin Peaks in het Duits en het Fins.
Infoseek
Nieuwe gebruikers kunnen zich aanmelden bij Infoseek (formulier
invullen, op een knop drukken) en krijgen dan $14.95 om te besteden
aan n maand standaard abonnement en zoekopdrachten. Een standaard
abonnement kost $9.95 per maand, dus je houdt $5 over om te zoeken.
Infoseek's zoekdienst hanteert een zoektaaltje met een syntax die
je even moet bestuderen voor betere resultaten. De dienst biedt een
keuze uit twee dozijn informatie-collecties. Ik heb me beperkt tot
de catalogus van WWW-pagina's, voor een eerlijke vergelijking met
de concurrentie. Je kunt een maximum ouderdom van documenten
instellen bij de zoekopties. Het interface is eenvoudig; de
presentatie van treffers is eenvoudig en matig informatief. Met
name de rangschikking naar relevantie kan beter. De respons van de
dienst was redelijk.
De treffers op de zoekopdrachten waren over het algemeen voldoende;
bij Elsevier werden echter de WWW-proceedings gemist, en bij Wild
Palms werden sommige, maar niet alle relevante documenten gevonden.
Web Index
De Web Index van OpenText bevat rond 1 miljoen Web-pagina's, met
985 miljoen woorden tekst en meer dan 15 miljoen hyperlinks. In de
meest recente update werden 74000 nieuwe pagina's toegevoegd en
werden 22000 pagina's verwijderd of vervangen door nieuwere.
Het interface van Web Index is eenvoudig. De zoek-opties zijn:
eenvoudig zoeken, Booleaans zoeken, Booleaans zoeken met gewichten;
in welke velden moeten zoektermen worden gezocht: titel,
samenvatting, hele document, URL-tekst. De presentatie van treffers
is overzichtelijk en informatief. Als je teveel treffers krijgt,
wordt vanzelf de mogelijkheid geboden de opdracht aan te passen (te
verfijnen).
De treffers op de zoekopdrachten waren over het algemeen voldoende:
bij Eudora werd Qualcomm gevonden, bij Elsevier ook de
WWW-proceedings en ook Wild Palms vormde geen probleem.
WebCrawler
WebCrawler is een zoeksysteem waarin meer dan 600.000 Web-sites
zijn geïndexeerd, en dat wekelijks plusminus 9 miljoen
zoekopdrachten krijgt. De spin waaraan het systeem zijn naam
ontleent wandelt ook op zijn eigen manier het Web af, wat betekent
dat hij steeds meer kennis krijgt over de kaart van het Web. De
spin gebruikt hierbij een algoritme dat bekend staat als
breadth-first, wat inhoudt dat hij zoveel mogelijk in de breedte
werkt, dus zoveel mogelijk Web-servers probeert te vinden; de spin
probeert dus niet een server tot in alle uithoeken door te spitten.
Het voordeel van deze aanpak is dat de fractie bezochte
Web-locaties relatief hoog is, maar het nadeel is dat de enkele
documenten die de spin per locatie meeneemt niet altijd even
relevant zijn voor de informatie-collectie die op die locatie wordt
aangeboden.
Het is de bedoeling ruimte te geven aan adverteerders zodat de
dienstverlening aan klanten kosteloos kan blijven. De sponsors
zouden zijn: AT&T, American Airlines en Netscape. Net voor de zomer
werd WebCrawler overgenomen door America Online (AOL) [12]. Sinds
eind september 1995 is de home-pagina echter niet bijgewerkt, en er
lijkt nog geen sprake te zijn van advertentieruimte, in
tegenstelling tot bijvoorbeeld Lycos.
Het interface is eenvoudig. Zoekopties zijn: alle woorden in
opdracht (and) of minstens n woord in de opdracht (or). De
presentatie van de treffers is beduidend minder informatief dan bij
Yahoo! of Lycos; de gebruiker krijgt niet meer dan het tekstdeel
van een Web-link en een maat voor de relevantie die niet erg
accuraat overkomt (althans niet in de hier uitgevoerde test).
De resultaten van de zoekopdrachten waren matig tot goed: Qualcomm
werd niet gevonden, evenmin als de juiste pagina's over Wild Palms
(wat WebCrawler als relevant opleverde over deze TV-serie was zelfs
volstrekt irrelevant!)
Magellan
Deze relatief onbekende zoekdienst is opgezet door de McKinley
Group in Sausalito (Californie, VS). Magellan bevat een catalogus
van 80.000 Web-locaties en andere informatiebronnen op het
Internet. Van deze locaties hebben 20.000 n tot vier sterren, in
een classificatie
la Michelin. De toegevoegde waarde van deze
zoekdienst bestaat uit een algemene beschrijving van ieder document
en natuurlijk de sterren. Dit laatste onderscheidt Magellan van de
concurrenten als Lycos en Yahoo! Vier belangrijke criteria bij de
toekenning van de sterren zijn: dekking, organisatie, recentheid en
navigatie. De zoekdienst wordt bovendien aangevuld met een
rubrieken-index, zij het dat deze niet zo diepgaand is als die van
Yahoo! Critici zeggen dat de toekenning van sterren inconsistent en
aan de hoge kant is. Van de echte Michelin zegt men ook wel dat de
sterren inconsistent worden toegekend, maar dat daar de waardering
systematisch aan de hoge kant is zul je niet veel mensen horen
zeggen.
De gebruikte zoek-software is Personal Library System (net als bij
America Online). Het gebruik is gratis; inkomsten komen uit
advertenties. Catalogus en zoeksysteem worden ook beschikbaar
gesteld aan bijvoorbeeld WorldNet, de Internet-service van AT&T.
Yahoo! en Lycos zijn al verder ontwikkeld, maar Magellan is zeker
een interessante concurrent.
De vormgeving van de diverse pagina's, zoekpagina,
resultaatpagina's, documentatie, is zeer fraai. Je kunt kiezen uit
eenvoudig zoeken en geavanceerd zoeken; in het laatste geval kun je
kiezen uit diverse opties, zoals gewoon zoeken of conceptueel
zoeken (uitleg ontbreekt); gebruik van Booleaanse operatoren en
reguliere expressies; minimum aantal sterren; korte, normale of
lange beschrijving per treffer; rubrieken waarin documenten mogen
voorkomen. Relevantie wordt bepaald uit de frequentie van de
zoektermen en de afstand waarop ze in de tekst voorkomen. De eerste
treffers die worden opgeleverd komen allemaal uit de Web-locaties
die een of meer sterren hebben; als de gebruiker wil, kan Magellan
verder zoeken in de niet-geclassificeerde bronnen. De lijsten met
treffers zijn informatief en worden overzichtelijk gepresenteerd.
De resultaten van de zoekopdrachten waren goed; Elsevier was echter
een moeilijke opdracht want er kwam slechts weinig relevants terug.
Over Wild Palms kon Magellan ook niets vinden, maar Twin Peaks was
geen probleem.
infoMarket Search
Bij deze door IBM aangeboden zoekdienst, die tot eind 1995 gratis
was, is registratie verplicht, net als bij Infoseek. Registratie
bestaat uit het invullen van een tamelijk lang formulier, waarop je
een login-naam, wachtwoord en allerhande persoonlijke gegevens moet
invullen. Bovendien moet je een persoonlijke `frase' opgeven, die
gebruikt wordt als je de helpdesk belt met het verzoek je
wachtwoord of andere gegevens te wijzigen.
Het interface is eenvoudig en kan best worden verbeterd. Aangeboden
wordt: het CIA World Factbook, COMTEX, de database Disclosure SEC,
de Open Text Web Index, een index van Usenet News, maar ook
Magellan en Yahoo! Een zoekopdracht kan plaatvinden over een of
meer van de indexen, naar keuze van de gebruiker. Stopwoorden als
`in' of `de' worden uit de opdracht verwijderd. De resultaten
worden voorzien van een relevantie-score. De res-pons van
infoMarket is redelijk. De presentatie van treffers is maar net
iets beter dan die van WebCrawler; ook dit kan zeker beter. Ik heb
niet de zes zoekopdrachten uitgeprobeerd, omdat deze zoekdienst
geen eigen catalogus aanbiedt, en ik dus treffers zou krijgen van
Yahoo!, Open Text Web Index en Magellan.
Galaxy
Deze zoekdienst van Tradewave Corporation, voorheen EINet, makers
van Web-clients voor Windows en Macintosh, is gebaseerd op WAIS.
Zoekopties: and of or; korte, normale of lange uitvoer; zoeken in
hele tekst, uitsluitend titel of uitsluitend de tekst van URL's.
Het interface is eenvoudig en het resultaat van een zoekopdracht
bevat informatieve samenvattingen van ieder gevonden document. De
relevantie-scores zijn eveneens informatief.
De resultaten van de zoekopdrachten zijn in orde, maar niet
schokkend. Bij Elsevier ontbreken de bekende proceedings. Wild
Palms levert niets op en Twin Peaks onvoldoende.
ALIWEB
ALIWEB staat voor `Archie-like indexing voor het Web'. Het idee
achter ALIWEB is dat beheerders van informatiebronnen
beschrijvingen toevoegen aan iedere Web-pagina in een vooraf
vastgelegd standaard formaat, waarna ze de pagina's aanmelden bij
een of meer ALIWEB-locaties. ALIWEB bouwt uit deze gegevens zelf
een index op. Het systeem is min of meer onstaan als reactie op de
ontwikkeling en toepassing van spinnen (zoekrobots), nu veruit het
populairste systeem voor het verzamelen van Web-pagina's. Voor dit
artikel maakte ik gebruik van de dienst zoals die door het Britse
bedrijf Nexor wordt aangeboden. Het interface is eenvoudig en
biedt de volgende opties: zoeken in delen van het document
(`fielded search'), te weten titel van document, omschrijving van
document, trefwoorden voor document; wel of niet onderscheid tussen
hoofdletters en kleine letters; zoeken op substrings, hele woorden
of met reguliere expressies.
De resultaten van de zoekopdrachten zijn teleurstellend: Winsock
levert niet het gezochte, Eudora ook niet (Qualcomm is onvindbaar);
Elsevier levert geen treffers; in plaats van pagina's over Wild
Palms vindt ALIWEB uitsluitend pagina's over `wild' en
`wilderness'; Twin Peaks is volgens ALIWEB geen gespreksonderwerp
op het Web, want ook hier is het resultaat 0 treffers.
WWWW
De World Wide Web Worm, kortweg WWWW of W4, wordt volgens opgave
van de maker(s) per maand door 2 miljoen gebruikers geraadpleegd en
levert in die periode 3 miljoen URL's, verwijzingen naar
documenten. Deze documenten zijn gevonden door een spin.
Het interface van de zoekdienst is matig, de respons is ook matig,
en de presentatie van de lijst van treffers is toe aan verbetering.
De gebruiker krijgt niet meer dan de gevonden URL en de URL van de
documenten waarin naar het gevonden document wordt verwezen; W4 is
dus meer een soort citatie-index. Een aanduiding voor relevantie
ontbreekt. Zoekopties zijn: keuze uit velden waarin W4 moet zoeken,
te weten URL-referenties, URL-adres, titels van documenten en
adressen van documenten.
De gebruikte zoek-software is eenvoudig, namelijk het bekende
Unix-programma egrep, maar de resultaten vallen erg mee. De eerste
drie opdrachten en Twin Peaks leveren voldoende documenten op, ook
degene die door Yahoo! en Lycos worden gevonden. Wild Palms blijkt
ook hier een moeilijk geval, want WWWW vindt geen van de eerder
gevonden documenten; wel een verwijzing naar een pagina met
thema-muziekjes van TV-series.
Tabel 3: Eindscore van de beschreven zoekdiensten
(++=goed, +=voldoende, 0=matig, -=onvoldoende, --=slecht)
| Dienst |
Interface |
Respons |
Presentatie |
Testopdrachten |
| Yahoo! |
+ |
+ |
+ |
+ |
| Lycos |
+ |
+ |
+ |
+ |
| Infoseek |
+ |
0 |
0 |
+ |
| Web Index |
+ |
+ |
+ |
+ |
| WebCrawler |
+ |
+ |
0 |
0 |
| Magellan |
+ |
+ |
+ |
0 |
| infoMarket Search |
+ |
0 |
+ |
|
| Galaxy |
0 |
+ |
+ |
0 |
| ALIWEB |
0 |
+ |
0 |
- |
| WWW Worm |
0 |
0 |
0 |
0 |
Samenvatting en conclusie
Mijn eindscore van de hierboven beschreven zoekdiensten is
weergegeven in tabel 3. De eindscore heeft vier onderdelen:
kwaliteit van het interface, res-pons van de server, presentatie
van de treffers (is die overzichtelijk, is die informatief, zijn de
relevantie-scores bruikbaar?), en de resultaten van de
zoekopdrachten. Als ik op basis van het bovenstaande de
zoekdiensten moet rangschikken, komen Yahoo! en Lycos bovenaan, op
de voet gevolgd door Magellan. De keuze tussen Yahoo! en Lycos is
er gedeeltelijk een van persoonlijke voorkeur; die van mij gaat uit
naar Lycos. Infoseek is aardig, maar de presentatie van treffers
kan overzichtelijker en informatiever; bovendien kost deze dienst
geld. Web Index is functioneel en heeft een aardige dekking van het
Internet, maar het interface is minder aantrekkelijk. IBM's
zoekdienst infoMarket Search valt tegen, omdat het niet meer is dan
een schil om een aantal andere in-dexen. WebCrawler is eveneens
teleurstellend en ik begrijp niet helemaal waarom America Online
deze dienst heeft overgenomen. Galaxy is aardig; WWWW en ALIWEB
scoren matig.
Noten
1. Ted Sturgeon, een in 1985 overleden science fiction-schrijver.
2. `Internet lijkt aan succes te bezwijken', Onno L. Gerritse,Computable 29 september 1995
3. `Het visitekaartje van de 21ste eeuw', Herbert Blankesteijn, Intermediair 29 september 1995
4. Internet World sep 95, p. 74 en verder
5. `Finding what people want: experiences with the WebCrawler', Brian Pinkerton, proceedings van de 2e Internationale World Wide Web conferentie (Chicago 1994).
6. `GENLVL and WWWW: tools for taming the Web', Oliver McBryan, proceedings van de 1e Internationale World Wide Web conferentie (Genève 1994), Elsevier Science 1994.
7. `ALIWEB: Archie-like indexing in the Web', Martijn Koster, proceedings van de 1e Internationale World Wide Web conferentie (Genève 1994), Elsevier Science 1994.
8. `The Harvest Information Discovery and Access System', C.Mic Bowman et al., proceedings van de 2e Internationale World Wide Web conferentie (Chicago 1994).
9. `Indexing the Internet', Science 269 (1995) pagina 1354.
10. `OpenText moves into Web server game', Seybold Report on Desktop Publishing 10 (1995), pagina 15.
11. `Search systems: too many choices?', Internet Business Report oktober 1995.
12. Emnet, nieuwsbrief elektronische media, 14 oktober 1995. Samson Bedrijfsinformatie, Alphen a/d Rijn.
Nico Poppelier