next -index- prev

Zoekt en gij zult vinden

Sturgeon's wet: negentig procent van alles is troep

Informatie zoeken op Internet? Een aantal organisaties en bedrijven bieden de helpende hand. Nico Poppelier heeft een vergelijkend onderzoek gehouden onder de diverse `search engines', waarvan hier het resultaat bekend wordt gemaakt.

De kunst is dus die tien procent te vinden. De wet van Sturgeon [1] is zo mogelijk nog beter toepasbaar dan de wet van Murphy, en in het geval van het Internet en in het bijzonder het World Wide Web is het een duidelijk geval van de spijker op de spreekwoordelijke kop slaan! Gelukkig zijn er diensten die een gebruiker kunnen helpen in haar zoektocht naar nuttige informatie. In dit artikel besteed ik aandacht aan zoekdiensten op het Internet, om precies te zijn: zoekdiensten op het World Wide Web (WWW, kortweg Web).
Internet wordt nog steeds door sommigen beschouwd als een `netwerk voor techneuten door techneuten' waar `de hoeveelheid signaal ten opzichte van de ruis lager dan ooit' is [2]. En het is ook waar dat een eigen pagina op het Web voor veel organisaties, maar ook voor steeds meer individuele gebruikers, een soort post-modern visitekaartje is. Zoals iedere hond tegen bomen plast om zijn terrein af te bakenen lijken Internet-gebruikers ook `hun eigen stuk' van het Internet te willen afpalen [3].
Het informatiegehalte van dergelijke pagina's is doorgaans laag, maar ze worden wel steeds talrijker. En t•ch kun je op het Web zinvolle informatie vinden ... als je tenminste weet hoe je moet zoeken. Er zijn daarbij ruwweg drie zoek-strategieën te onderscheiden: bladeren (in vakliteratuur meestal aangeduid als `browsen'), navigeren en `termzoeken' (een niet bestaand woord dat ik in dit artikel gebruik om zoeken in enge zin aan te duiden; zie verderop). In de praktijk zie je dat gebruikers deze zoekstrategieën afwisselen om hun doel te bereiken.
Bladeren of `browsen' is een soort grasduinen door een informatie-verzameling. Je beweegt over het algemeen ongericht en zonder duidelijk vooropgezet plan door de informatie-verzameling en laat je leiden door invallen en toevallige ontdekkingen. In een (niet-digitale) bibliotheek zou dit neerkomen op door de diverse afdelingen lopen, met de vinger langs schappen gaan en af en toe een boek inkijken.
Navigeren is een gerichtere vorm van bewegen door een informatie-verzameling, waarbij je gebruik maakt van gestructureerde aanwijzingen van uiteenlopende aard, bijvoorbeeld kaarten van landen of werelddelen. Navigeren in een bibliotheek zou neerkomen op het volgen van de bordjes naar een bepaalde afdeling, en het gebruiken van de nummers van kasten en boeken om een informatiebron (boek) te vinden.
Zoeken (in enge zin) of wat ik in dit artikel `termzoeken' noem is ook een gerichte vorm van zoeken in algemene zin, omdat je een omschrijving hebt van datgene wat je zoekt, in de vorm van een vraag of een of meer trefwoorden. In een bibliotheek kun je zoeken met behulp van de diverse kaartenbakken (op titel, op auteur, op thema, etc.) al dan niet in digitale vorm.
In dit artikel concentreer ik me op hulpmiddelen voor het termzoeken naar informatie op het World Wide Web. Professioneel opgezette zoekdiensten worden tegenwoordig gezien als goede kandidaten voor commerciële exploitatie. America Online, een Amerikaanse online-dienst die ook Internet-aansluiting biedt, heeft de volgende bedrijven opgekocht: WAIS Inc., dat de commerciële versie van WAIS ontwikkelde en aan klanten verkocht, de door computerboekenuitgever O'Reilly ontwikkelde `gouden gids' voor het Internet Global Network Navigator en WebCrawler [4].
Twee belangrijke begrippen bij het termzoeken in een bepaalde informatieverzameling zijn precision en recall. Recall is een maat voor hoeveel documenten uit de verzameling een zoekactie oplevert; precision is een maat voor hoe relevant de opgeleverde documenten zijn voor de door de gebruiker gestelde zoekvraag. Meestal leveren zoekdiensten voldoende treffers op als resultaat van een zoekopdracht, zeker de zoekdiensten op het Internet; hun recall is dus doorgaans voldoende. Maar de precisie is daarbij meestal bedroevend, want er worden teveel treffers opgeleverd op zoekvragen, de informatie over iedere treffer is niet altijd voldoende om het kaf van het koren te scheiden, en de getalsmatige relevantie-scores zijn niet altijd betrouwbaar.
Voor het World Wide Web zijn de diverse zoekdiensten, aan de hand van de methode waarop ze documenten vergaren, in twee belangrijke categorieën onder te brengen: spinnen [5,6] en Archie-achtigen, oftewel systemen met oogsters en makelaars [7,8].

Spinnen

Spinnen lopen zelf het Web af en volgen links om hun kennis van het Web, een soort `kaart' van het Web, te vergroten. Van iedere Web-locatie, iedere Web-server, worden een of meer documenten opgehaald en ge&ieuml;ndexeerd. Op de diverse manieren waarop je documenten kunt indexeren kom ik later nog terug. Voor de toepassing van spinnen is geen afspraak nodig met beheerders van Web-locaties, maar spinnen kunnen voor veel overlast zorgen door van servers alle documenten op te vragen, zonder rekening te houden met het tijdstip van de dag, de bezettingsgraad van de server in kwestie, of de drukte van de route tussen het `nest' van de spin en de server in kwestie. Voorstanders van het gebruik van spinnen, waaronder natuurlijk hun makers, zeggen dat het extra gebruik van de soms overbezette servers en de verbindingen ertussen goedgemaakt wordt doordat veel gebruikers de index raadplegen en zodoende hun eigen zoektocht verkorten. Tegenstanders van het gebruik van spinnen zijn te vinden onder de beheerders van grote documentverzamelingen, die vinden dat hun server overmatig belast wordt en er alles aan doen om spinnen te weren. Er is een soort gedragscode voor spinnen, ontworpen door Martijn Koster van het Britse Nexor, maar het is niet zeker of alle bouwers van spinnen zich daaraan houden [9].

Oogsters en makelaars

De Archie-achtigen, zoals bijvoorbeeld ALIWEB en Harvest, verzamelen indexen die door de beheerders van Web-servers zelf zijn klaargemaakt. Het nadeel is dat er afspraken moeten worden gemaakt met de beheerders over wanneer, waarvan en hoe ze in-dexen aanmaken en hoe die beschikbaar moeten worden gemaakt. Het voordeel is dat de server in kwestie kan worden gïndexeerd op een gunstig moment en dat de drukke verbindingen in het Internet niet meer worden belast dan nodig om de index te versturen naar de centrale bewaarplaats. Bovendien kan de beheerder vaak beter uitmaken welke documenten relevant zijn en welke minder relevant.
Harvest is eigenlijk geen zoekdienst, maar een kant-en-klaar softwarepakket dat gebruikt kan worden om indexen te oogsten met een oogster (`harvester') en die aan te bieden aan een makelaar (`broker'), die de diverse indexen die hij ontvangt verwerkt tot een geïntegreerde index die hij inbouwt in een zoek-service. Op de home-pagina van Harvest vind je een verwijzing naar een informatiemakelaar die een kleine catalogus heeft van 45.000 Web-documenten; de interface hiervan is echter teleurstellend en het aantal geïndexeerde documenten is natuurlijk niet interessant genoeg.

Indexen raadplegen

De manier waarop indexen worden gebouwd en vervolgens geraadpleegd om een zoekvraag te beantwoorden, verschilt van geval tot geval. Een bekende manier om een documentverzameling te indexeren is file-inversie. Hierbij wordt een lijst aangelegd van alle woorden in alle documenten; eventueel worden frequent voorkomende woorden, zoals lidwoorden, uit een zogeheten `stoplijst', verwijderd. Van ieder woord wordt vastgelegd in welke documenten en op welke posities dit voorkomt.
WebCrawler, een van de bekendste spinnen van dit moment, werkt als volgt: ieder gevangen document wordt opgebroken in een verzameling woorden uit de titel en uit de inhoud van het document. Woorden uit een stoplijst worden vooraf verwijderd. Ieder woord krijgt een gewichtsfactor die het quotiënt is van de frequentie van het woord in het document en de frequentie van het woord in een bepaald kennisdomein. Bij een zoekopdracht gebruikt WebCrawler het systeem dat bekend staat als vector-space query model [5], waarbij zoekvragen en documenten worden gemodelleerd als vectoren in een abstracte informatieruimte. De documenten die dicht bij de zoekvraag liggen, in een bepaalde, wiskundig te definieren betekenis, worden geacht relevant te zijn voor die zoekvraag. Lycos' methode wordt geheim gehouden, maar de relevantie van een document wordt mede bepaald door het aantal keer dat ernaar wordt verwezen vanuit andere documenten. Waarschijnlijk gebruikt men (of gaat men gebruiken) de software van het Canadese bedrijf OpenText, evenals Yahoo! [10,11]. In een aantal gevallen wordt ook gebruik gemaakt van WAIS. In zijn eenvoudigste vorm hakt WAIS de zoekvraag in woorden op een manier die vergelijkbaar is met WebCrawler. Daarna wordt de relevantie-score van een document berekend uit de frequenties van de zoektermen in het document en het aantal woorden in het document.

Evaluatie

De volgende zoekdiensten zijn aan de tand gevoeld in het onderzoekje dat de basis vormt voor dit artikel (zie ook tabel 1): Yahoo!, Lycos, Infoseek, OpenText Web Index, WebCrawler, Magellan, infoMarket Search, Galaxy, ALIWEB en WWWW.
Een aantal andere diensten heb ik met opzet buiten het onderzoek gehouden. JumpStation staat op het punt van verdwijnen omdat de maker geen tijd heeft voor het project. RBSE, een van de eerste spinnen op het Web, heeft een spartaanse interface, biedt geen zoekopties, en moet worden gezien als een prototype in het kader van het Repository Based Software Engineering Project. De Global On-Line Directory was tijdens het onderzoek onbereikbaar; de GNA Meta-Library was moeilijk bereikbaar en is volgens diverse bronnen niet up-to-date. Deze lijst van zoekdiensten is ongetwijfeld onvolledig; raadpleeg http://www.cwi.nlcusi.html en http://cuiwww.unige.ch/meta-index.html voor meer suggesties.

Tabel 1 : Onderzochte zoekdiensten
Naam Host URL
Yahoo! Yahoo http://www.yahoo.com
Lycos Lycos Inc. http://www.lycos.com
Web Index OpenText http://www.opentext.com
Infoseek McKinley http://www.infoseek.co
WebCrawler AOL http://webcrawler.co
Magellan McKinley http://www.mckinley.com
infoMarket Search IBM http://www.infomkt.ibm.com
Galaxy Tradewave http://galaxy.einet.net/www/www.html
ALIWEB Nexor http://www.nexor.co.uk/public/aliweb/aliweb.htm
WWW Worm Univ.Colorado http://www.cs.colorado.edu/home/mcbryan/WWWW.html

Er werd in het onderzoekje gekeken naar het interface, de zoekmogelijkheden, de respons in het algemeen en in het bijzonder het aantal treffers en de relevantie ervan voor de door mij gekozen zoekopdrachten. Als zoekopdrachten (zoektermen) heb ik gekozen: Winsock, Eudora, Elsevier, boeddhisme (eigenlijk het Engelse woord: `buddhism'), Wild Palms en Twin Peaks. WinSock is een pakket waarmee men onder andere Internet-applicaties kan maken die werken onder Microsoft Windows; het doel van deze opdracht is onder meer om uit te vinden waar je de nodige software kunt ophalen of kopen. Eudora is een populair mail-pakket voor de Apple Macintosh en Microsoft Windows; sommige zoekdiensten hebben er moeite mee om de Web-server van Qualcomm, de makers van Eudora te vinden. Elsevier (eigenlijk de wetenschappelijke tak: Elsevier Science) heeft Web-, gopher- en ftp-servers, en is de uitgever van de proceedings van de eerste en tweede Europese WWW-conferenties. Over boeddhisme wordt veel geschreven; een interessante informatiebron is te vinden aan de Australian National University (ANU). Wild Palms en Twin Peaks zijn twee opmerkelijke Amerikaanse TV-series, van respectievelijk Oliver Stone en David Lynch. Over Twin Peaks is veel geschreven op het Web en in News, maar de kunst is de werkelijk relevante Web- en ftp-servers te vinden. Over Wild Palms is weinig te vinden, maar er zijn een paar relevante documenten; helaas slagen weinig zoekdiensten erin deze op te leveren. Mijn beoordeling van de resultaten van de zoekopdrachten heb ik weergegeven in tabel 2.
Het zou mogelijk zijn geweest meer criteria te hanteren of meer dan zes zoekopdrachten, maar met het oog op de beschikbare tijd heb ik dit niet gedaan. Ten aanzien van het interface en de respons nog dit: mijn beoordeling van beide is vanzelfsprekend subjectief. Alle zoekdiensten werden echter steeds geraadpleegd rond hetzelfde tijdstip van de dag, namelijk tussen 12 en 1 uur Nederlandse tijd op werkdagen. In de volgende paragrafen geef ik korte beschrijvingen van de onderzochte zoekdiensten.

Tabel 2: Resultaten van zoekopdrachten
(++=goed, +=voldoende, 0=matig, -=onvoldoende, --=slecht)
Dienst Winsock Eudora Elsevier Buddhism Wild Palms Twin Peaks Totaal
Yahoo! + + + + -- + +
Lycos + + + + + + +
Infoseek + + 0 + + + +
Web Index + + + + + + +
WebCrawler 0 - 0 + - + 0
Magellan + + - + -- + 0
infoMarket Search
Galaxy + 0 0 + 0 0 0
ALIWEB - -- -- + -- -- -
WWW Worm + + + + -- + +

Yahoo!

Yahoo! is `Yet Another Hierarchical Officious Oracle', een gratis te gebruiken index van rond de 150.000 Web-pagina's, gesorteerd in meer dan 10.000 categorieen. Het systeem is in april 1994 opgezet door twee studenten aan de universiteit van Stanford in de Verenigde Staten. Yahoo! gebruikt een speciaal ontworpen database en HTTP-server op een aantal Unix-systemen; hun verbinding met Internet is T3, dat wil zeggen 45 Mbs; dit alles is mogelijk dankzij sponsoring van Netscape Communications en onder andere ook MasterCard International. Met zijn 150.000 geoogste Web-pagina's beslaat Yahoo! slechts een fractie van de totale inhoud van het Web, namelijk tussen de 1 en 3 procent, afhankelijk van de groei van het Web en de groei van Yahoo! Toch wordt het door veel gebruikers als een van de meer volledige gidsen beschouwd; maar lees de volgende paragraaf over de claims van de makers van Lycos. Yahoo! vergaart zijn informatie door (1) aanmelding van pagina's door de eigenaren, (2) door vondsten van de medewerkers van Yahoo! en (3) door met robots te zoeken naar nieuwe aankondigingen.
Het interface is wat je kunt noemen `cool', met name vanwege de aardige grafische vormgeving. Tijdens de test was de respons goed. De treffers worden overzichtelijk weergegeven en met dermate veel informatie per treffer dat het niet al te moeilijk is het kaf van het koren te scheiden. Een andere fraaie voorziening binnen Yahoo is de rubrieken-index, die 14 hoofdrubrieken biedt en daarachter honderden deel-rubrieken. Deze rubrieken-index is even goed als of misschien zelfs wel beter dan die van de Global Network Navigator. Yahoo is daarmee een fraai voorbeeld van een zoekdienst die twee zoekstrategieen aan zijn gebruikers aanbiedt.
Zoekopties zijn: Boolean and of or, zoeken op hele woorden of substrings, wel of niet onderscheid tussen hoofdletters en kleine letter (case sensitivity) en het aantal treffers dat moet worden getoond.
Yahoo! vond over het algemeen relevante tot zeer relevante treffers. Bij `Eudora' werd inderdaad de home-pagina van Qualcomm opgeleverd. Yahoo! vond ook de proceedings van de Web-conferenties, maar helaas niet de weinige Web-documenten over Wild Palms.

Lycos

Lycos begon als een eenvoudige spin-dienst op de universiteit van Carnegie-Mellon in de VS, en is nu in handen van het bedrijf Lycos Inc. De bedoeling is dat deze zoekdienst gratis blijft, doordat inkomsten worden verkregen uit advertenties en het in licentie geven van de onderliggende technieken, waarop de makers patenten hebben aangevraagd. Onder andere Microsoft heeft een niet-exclusieve licentie op deze technieken.
Lycos pakt van ieder document dat het ontdekt de eerste 20% of 20 regels (welke van de twee het kleinst is), de eerste tweehonderd tekens van de header en een groep van 100 woorden die statistisch het meest relevant zijn voor het document. De naam Lycos is afkomstig van de latijnse naam voor de familie van de wolfspinnen, de Lycosa, die 's nachts op jacht gaan naar voedsel. Het Lycos-systeem bestaat namelijk uit een groep spinnen die nu al miljoenen documenten hebben `gevangen' en per dag meer dan 50.000 nieuwe of gewijzigde documenten meebrengen naar hun `nest'. Bovendien hebben gebruikers al meer dan 100.000 pagina's aangemeld.
Lycos biedt momenteel waarschijnlijk de omvangrijkste catalogus voor het Internet. Naar eigen opgave van de makers bevatte de index van Lycos in augustus 1995 meer dan 10 miljoen documenten, waarvan 8 miljoen op het Web en de rest op gopher- of ftp-servers. Als deze getallen betrouwbaar zijn - en ik was niet in staat ze te verifieren - gaat het hier om 90% van het totale Web, en tegen het eind van 1995 ongeveer 98%. Hun naaste concurrent Web Index beslaat `slechts' 13%.
Het interface is iets minder speels, maar zeker niet minder fraai en bruikbaar dan die van Yahoo! Heel fraai is de balk met wisselende advertenties. De res-pons was tijdens de test goed; niet verwonderlijk, want klanten worden verdeeld over een totaal van 12 servers die tegelijkertijd in de lucht zijn! Het resultaat van iedere zoekopdracht wordt weergegeven als een overzichtelijke lijst van treffers, met een bruikbare relevantie-score en een door het systeem zelf gemaakte korte samenvatting van het document - uitstekend om zelf te bepalen met welk document je je zoektocht vervolgt. Zoekopties omvatten: aantal treffers per scherm; zoeken op alle termen tegelijk, of 1, 2, 3, ... termen uit de opdracht; korte, normale of lange uitvoer; en de mate van relevantie van documenten: `loose', `fair', `good', `close' of `strong'.
Ook Lycos presteerde zeer goed bij de zoekopdrachten, maar miste de proceedings van de Web-conferenties. Lycos vond wel de treffers over Wild Palms, tussen veel pagina's over `wild' en `wilderness', en vond ook documenten over Twin Peaks in het Duits en het Fins.

Infoseek

Nieuwe gebruikers kunnen zich aanmelden bij Infoseek (formulier invullen, op een knop drukken) en krijgen dan $14.95 om te besteden aan ‚‚n maand standaard abonnement en zoekopdrachten. Een standaard abonnement kost $9.95 per maand, dus je houdt $5 over om te zoeken.
Infoseek's zoekdienst hanteert een zoektaaltje met een syntax die je even moet bestuderen voor betere resultaten. De dienst biedt een keuze uit twee dozijn informatie-collecties. Ik heb me beperkt tot de catalogus van WWW-pagina's, voor een eerlijke vergelijking met de concurrentie. Je kunt een maximum ouderdom van documenten instellen bij de zoekopties. Het interface is eenvoudig; de presentatie van treffers is eenvoudig en matig informatief. Met name de rangschikking naar relevantie kan beter. De respons van de dienst was redelijk.
De treffers op de zoekopdrachten waren over het algemeen voldoende; bij Elsevier werden echter de WWW-proceedings gemist, en bij Wild Palms werden sommige, maar niet alle relevante documenten gevonden.

Web Index

De Web Index van OpenText bevat rond 1 miljoen Web-pagina's, met 985 miljoen woorden tekst en meer dan 15 miljoen hyperlinks. In de meest recente update werden 74000 nieuwe pagina's toegevoegd en werden 22000 pagina's verwijderd of vervangen door nieuwere.
Het interface van Web Index is eenvoudig. De zoek-opties zijn: eenvoudig zoeken, Booleaans zoeken, Booleaans zoeken met gewichten; in welke velden moeten zoektermen worden gezocht: titel, samenvatting, hele document, URL-tekst. De presentatie van treffers is overzichtelijk en informatief. Als je teveel treffers krijgt, wordt vanzelf de mogelijkheid geboden de opdracht aan te passen (te verfijnen). De treffers op de zoekopdrachten waren over het algemeen voldoende: bij Eudora werd Qualcomm gevonden, bij Elsevier ook de WWW-proceedings en ook Wild Palms vormde geen probleem.

WebCrawler

WebCrawler is een zoeksysteem waarin meer dan 600.000 Web-sites zijn geïndexeerd, en dat wekelijks plusminus 9 miljoen zoekopdrachten krijgt. De spin waaraan het systeem zijn naam ontleent wandelt ook op zijn eigen manier het Web af, wat betekent dat hij steeds meer kennis krijgt over de kaart van het Web. De spin gebruikt hierbij een algoritme dat bekend staat als breadth-first, wat inhoudt dat hij zoveel mogelijk in de breedte werkt, dus zoveel mogelijk Web-servers probeert te vinden; de spin probeert dus niet een server tot in alle uithoeken door te spitten. Het voordeel van deze aanpak is dat de fractie bezochte Web-locaties relatief hoog is, maar het nadeel is dat de enkele documenten die de spin per locatie meeneemt niet altijd even relevant zijn voor de informatie-collectie die op die locatie wordt aangeboden.
Het is de bedoeling ruimte te geven aan adverteerders zodat de dienstverlening aan klanten kosteloos kan blijven. De sponsors zouden zijn: AT&T, American Airlines en Netscape. Net voor de zomer werd WebCrawler overgenomen door America Online (AOL) [12]. Sinds eind september 1995 is de home-pagina echter niet bijgewerkt, en er lijkt nog geen sprake te zijn van advertentieruimte, in tegenstelling tot bijvoorbeeld Lycos.
Het interface is eenvoudig. Zoekopties zijn: alle woorden in opdracht (and) of minstens ‚‚n woord in de opdracht (or). De presentatie van de treffers is beduidend minder informatief dan bij Yahoo! of Lycos; de gebruiker krijgt niet meer dan het tekstdeel van een Web-link en een maat voor de relevantie die niet erg accuraat overkomt (althans niet in de hier uitgevoerde test).
De resultaten van de zoekopdrachten waren matig tot goed: Qualcomm werd niet gevonden, evenmin als de juiste pagina's over Wild Palms (wat WebCrawler als relevant opleverde over deze TV-serie was zelfs volstrekt irrelevant!)

Magellan

Deze relatief onbekende zoekdienst is opgezet door de McKinley Group in Sausalito (Californie, VS). Magellan bevat een catalogus van 80.000 Web-locaties en andere informatiebronnen op het Internet. Van deze locaties hebben 20.000 ‚‚n tot vier sterren, in een classificatie … la Michelin. De toegevoegde waarde van deze zoekdienst bestaat uit een algemene beschrijving van ieder document en natuurlijk de sterren. Dit laatste onderscheidt Magellan van de concurrenten als Lycos en Yahoo! Vier belangrijke criteria bij de toekenning van de sterren zijn: dekking, organisatie, recentheid en navigatie. De zoekdienst wordt bovendien aangevuld met een rubrieken-index, zij het dat deze niet zo diepgaand is als die van Yahoo! Critici zeggen dat de toekenning van sterren inconsistent en aan de hoge kant is. Van de echte Michelin zegt men ook wel dat de sterren inconsistent worden toegekend, maar dat daar de waardering systematisch aan de hoge kant is zul je niet veel mensen horen zeggen.
De gebruikte zoek-software is Personal Library System (net als bij America Online). Het gebruik is gratis; inkomsten komen uit advertenties. Catalogus en zoeksysteem worden ook beschikbaar gesteld aan bijvoorbeeld WorldNet, de Internet-service van AT&T. Yahoo! en Lycos zijn al verder ontwikkeld, maar Magellan is zeker een interessante concurrent.
De vormgeving van de diverse pagina's, zoekpagina, resultaatpagina's, documentatie, is zeer fraai. Je kunt kiezen uit eenvoudig zoeken en geavanceerd zoeken; in het laatste geval kun je kiezen uit diverse opties, zoals gewoon zoeken of conceptueel zoeken (uitleg ontbreekt); gebruik van Booleaanse operatoren en reguliere expressies; minimum aantal sterren; korte, normale of lange beschrijving per treffer; rubrieken waarin documenten mogen voorkomen. Relevantie wordt bepaald uit de frequentie van de zoektermen en de afstand waarop ze in de tekst voorkomen. De eerste treffers die worden opgeleverd komen allemaal uit de Web-locaties die een of meer sterren hebben; als de gebruiker wil, kan Magellan verder zoeken in de niet-geclassificeerde bronnen. De lijsten met treffers zijn informatief en worden overzichtelijk gepresenteerd.
De resultaten van de zoekopdrachten waren goed; Elsevier was echter een moeilijke opdracht want er kwam slechts weinig relevants terug. Over Wild Palms kon Magellan ook niets vinden, maar Twin Peaks was geen probleem.

infoMarket Search

Bij deze door IBM aangeboden zoekdienst, die tot eind 1995 gratis was, is registratie verplicht, net als bij Infoseek. Registratie bestaat uit het invullen van een tamelijk lang formulier, waarop je een login-naam, wachtwoord en allerhande persoonlijke gegevens moet invullen. Bovendien moet je een persoonlijke `frase' opgeven, die gebruikt wordt als je de helpdesk belt met het verzoek je wachtwoord of andere gegevens te wijzigen.
Het interface is eenvoudig en kan best worden verbeterd. Aangeboden wordt: het CIA World Factbook, COMTEX, de database Disclosure SEC, de Open Text Web Index, een index van Usenet News, maar ook Magellan en Yahoo! Een zoekopdracht kan plaatvinden over een of meer van de indexen, naar keuze van de gebruiker. Stopwoorden als `in' of `de' worden uit de opdracht verwijderd. De resultaten worden voorzien van een relevantie-score. De res-pons van infoMarket is redelijk. De presentatie van treffers is maar net iets beter dan die van WebCrawler; ook dit kan zeker beter. Ik heb niet de zes zoekopdrachten uitgeprobeerd, omdat deze zoekdienst geen eigen catalogus aanbiedt, en ik dus treffers zou krijgen van Yahoo!, Open Text Web Index en Magellan.

Galaxy

Deze zoekdienst van Tradewave Corporation, voorheen EINet, makers van Web-clients voor Windows en Macintosh, is gebaseerd op WAIS.
Zoekopties: and of or; korte, normale of lange uitvoer; zoeken in hele tekst, uitsluitend titel of uitsluitend de tekst van URL's. Het interface is eenvoudig en het resultaat van een zoekopdracht bevat informatieve samenvattingen van ieder gevonden document. De relevantie-scores zijn eveneens informatief.
De resultaten van de zoekopdrachten zijn in orde, maar niet schokkend. Bij Elsevier ontbreken de bekende proceedings. Wild Palms levert niets op en Twin Peaks onvoldoende.

ALIWEB

ALIWEB staat voor `Archie-like indexing voor het Web'. Het idee achter ALIWEB is dat beheerders van informatiebronnen beschrijvingen toevoegen aan iedere Web-pagina in een vooraf vastgelegd standaard formaat, waarna ze de pagina's aanmelden bij een of meer ALIWEB-locaties. ALIWEB bouwt uit deze gegevens zelf een index op. Het systeem is min of meer onstaan als reactie op de ontwikkeling en toepassing van spinnen (zoekrobots), nu veruit het populairste systeem voor het verzamelen van Web-pagina's. Voor dit artikel maakte ik gebruik van de dienst zoals die door het Britse bedrijf Nexor wordt aangeboden. Het interface is eenvoudig en biedt de volgende opties: zoeken in delen van het document (`fielded search'), te weten titel van document, omschrijving van document, trefwoorden voor document; wel of niet onderscheid tussen hoofdletters en kleine letters; zoeken op substrings, hele woorden of met reguliere expressies.
De resultaten van de zoekopdrachten zijn teleurstellend: Winsock levert niet het gezochte, Eudora ook niet (Qualcomm is onvindbaar); Elsevier levert geen treffers; in plaats van pagina's over Wild Palms vindt ALIWEB uitsluitend pagina's over `wild' en `wilderness'; Twin Peaks is volgens ALIWEB geen gespreksonderwerp op het Web, want ook hier is het resultaat 0 treffers.

WWWW

De World Wide Web Worm, kortweg WWWW of W4, wordt volgens opgave van de maker(s) per maand door 2 miljoen gebruikers geraadpleegd en levert in die periode 3 miljoen URL's, verwijzingen naar documenten. Deze documenten zijn gevonden door een spin.
Het interface van de zoekdienst is matig, de respons is ook matig, en de presentatie van de lijst van treffers is toe aan verbetering. De gebruiker krijgt niet meer dan de gevonden URL en de URL van de documenten waarin naar het gevonden document wordt verwezen; W4 is dus meer een soort citatie-index. Een aanduiding voor relevantie ontbreekt. Zoekopties zijn: keuze uit velden waarin W4 moet zoeken, te weten URL-referenties, URL-adres, titels van documenten en adressen van documenten.
De gebruikte zoek-software is eenvoudig, namelijk het bekende Unix-programma egrep, maar de resultaten vallen erg mee. De eerste drie opdrachten en Twin Peaks leveren voldoende documenten op, ook degene die door Yahoo! en Lycos worden gevonden. Wild Palms blijkt ook hier een moeilijk geval, want WWWW vindt geen van de eerder gevonden documenten; wel een verwijzing naar een pagina met thema-muziekjes van TV-series.

Tabel 3: Eindscore van de beschreven zoekdiensten
(++=goed, +=voldoende, 0=matig, -=onvoldoende, --=slecht)
Dienst Interface Respons Presentatie Testopdrachten
Yahoo! + + + +
Lycos + + + +
Infoseek + 0 0 +
Web Index + + + +
WebCrawler + + 0 0
Magellan + + + 0
infoMarket Search + 0 +
Galaxy 0 + + 0
ALIWEB 0 + 0 -
WWW Worm 0 0 0 0

Samenvatting en conclusie

Mijn eindscore van de hierboven beschreven zoekdiensten is weergegeven in tabel 3. De eindscore heeft vier onderdelen: kwaliteit van het interface, res-pons van de server, presentatie van de treffers (is die overzichtelijk, is die informatief, zijn de relevantie-scores bruikbaar?), en de resultaten van de zoekopdrachten. Als ik op basis van het bovenstaande de zoekdiensten moet rangschikken, komen Yahoo! en Lycos bovenaan, op de voet gevolgd door Magellan. De keuze tussen Yahoo! en Lycos is er gedeeltelijk een van persoonlijke voorkeur; die van mij gaat uit naar Lycos. Infoseek is aardig, maar de presentatie van treffers kan overzichtelijker en informatiever; bovendien kost deze dienst geld. Web Index is functioneel en heeft een aardige dekking van het Internet, maar het interface is minder aantrekkelijk. IBM's zoekdienst infoMarket Search valt tegen, omdat het niet meer is dan een schil om een aantal andere in-dexen. WebCrawler is eveneens teleurstellend en ik begrijp niet helemaal waarom America Online deze dienst heeft overgenomen. Galaxy is aardig; WWWW en ALIWEB scoren matig.

Noten

  • 1. Ted Sturgeon, een in 1985 overleden science fiction-schrijver.
  • 2. `Internet lijkt aan succes te bezwijken', Onno L. Gerritse,Computable 29 september 1995
  • 3. `Het visitekaartje van de 21ste eeuw', Herbert Blankesteijn, Intermediair 29 september 1995
  • 4. Internet World sep 95, p. 74 en verder
  • 5. `Finding what people want: experiences with the WebCrawler', Brian Pinkerton, proceedings van de 2e Internationale World Wide Web conferentie (Chicago 1994).
  • 6. `GENLVL and WWWW: tools for taming the Web', Oliver McBryan, proceedings van de 1e Internationale World Wide Web conferentie (Genève 1994), Elsevier Science 1994.
  • 7. `ALIWEB: Archie-like indexing in the Web', Martijn Koster, proceedings van de 1e Internationale World Wide Web conferentie (Genève 1994), Elsevier Science 1994.
  • 8. `The Harvest Information Discovery and Access System', C.Mic Bowman et al., proceedings van de 2e Internationale World Wide Web conferentie (Chicago 1994).
  • 9. `Indexing the Internet', Science 269 (1995) pagina 1354.
  • 10. `OpenText moves into Web server game', Seybold Report on Desktop Publishing 10 (1995), pagina 15.
  • 11. `Search systems: too many choices?', Internet Business Report oktober 1995.
  • 12. Emnet, nieuwsbrief elektronische media, 14 oktober 1995. Samson Bedrijfsinformatie, Alphen a/d Rijn.
  • Nico Poppelier