donderdag, juni 17, 2004

Google en flash

Er zijn heel veel dingen die Google niet ziet en indexeert (invisible web). Hoort flash daar ook bij?
Een zoektocht naar het antwoord hierop bracht mij bij het artikel
Fiddling with File Types. By: Notess, Greg R. . Online , Mar/Apr2004,
Vol. 28 Issue 2, p39, 3p. (online beschikbaar via Ebsco )

Er bestaan honderden file-types. Oorspronkelijk werden enkel HTML-pagina's geïndexeerd. Sinds 2001 kwamen daar stelselmatig file-types bij zoals PDF, PostScript, MS Word, ...
Volgens de auteur bieden Google en AllTheWeb het meest file-types aan.
Bijv. Google:
• Adobe Portable Document Format (pdf)
• Adobe PostScript (ps)
• Corel WordPerfect (wpd, wp5, wp6, wp7)
• Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku)
• Lotus WordPro (lwp)
• MacWrite (mw)
• Microsoft Excel (xls)
• Microsoft PowerPoint (ppt)
• Microsoft Word (doc)
• Microsoft Works (wks, wps, wdb)
• Microsoft Write (wri)
• Rich Text Format (rtf)
• Text (ans, txt)
(opm. op dit ogenblik kan je in Google via de geavanceerde zoekopties je zoekactie beperken op volgende file-types: pdf, ps, doc, xls, ppt rtf / beperking op flash kan ook: niet via de geavanceerde zoekopties, maar door filetype:swf toe te voegen in de zoekbalk).

Indexering van niet-HTML documenten creëert een paar nieuwe problemen. Bij HTML kan tekst van opmaak gescheiden worden. Voor bepaalde andere filetypes moet nog een oplossing gevonden worden.
Wat bijvoorbeeld met PDF documenten of Flash?

Uit deze zoekresultaten blijkt dat het niet eenvoudig is voor de zoekmachine om tekst (inhoud) en code (vormgeving) van elkaar te scheiden.

Geen opmerkingen:

Een reactie posten