Google propose un logiciel open source de un logiciel de reconnaissance optique de caractère (OCR) qui était à l'origine produit par HP (Tesseract) en 1985. le but est d'indexer d'autre document à l'instar des livres dont google propose d'ailleurs le téléchanrgement pour ceux tombés dans le domaine public.