24.9.2004 / Guía completa para la digitalización de textos
La biblioteca de este sitio es una de las secciones más visitadas según los datos del log del server. Muchos de los textos que allí se encuentran fueron digitalizados por mí, y otros rescatados de la red P2P y otros rincones de la web.
De por sí, la cantidad de ebooks que circulan hoy en Internet es inmensa; el tema es que hay libros que aún no han sido digitalizados a causa de no tener una difusión masiva en su edición en papel o por no ser tan conocidos. Nunca faltará alguien que diga, “porqué mejor no vas a una librería y te lo compras”; y precisamente por ahí pasa el quid de toda esta cuestión: de darle la posibilidad a los que no pueden acceder a él por razones económicas, o de disponibilidad, o tal vez quieran simplemente ver de qué se trata tal o cual autor sin tener la necesidad de adquirirlo previamente.
Desde mi lugar y en la medida que me fue posible, siempre hice mi aporte al mundo de los libros digitales, difundiendo sobretodo las cosas que me gustan, con la ayuda de un escáner, un software de OCR (Reconocimiento Optico de Caracteres) y un poco de tiempo libre. Digitalizar un libro no es difícil en absoluto; los únicos requisitos indispensables son un poco de paciencia y dedicación, y algunos conocimientos técnicos.
Empleando correctamente el OCR es posible digitalizar un libro entero en un tiempo ínfimo comparado a lo que llevaría hacerlo tipeándolo manualmente (cosa que muy pocos harían en su sano juicio). Así es que me decidí a escribir una detallada guía para tal fin, paso a paso, basada en mi propia experiencia y en varios otros consejos que fui encontrando por ahí. Al principio quizás pueda parecer algo complicado, pero con seguirla atentamente una vez alcanza y sobra. Espero que les sirva.
Herramientas necesarias:
- Scanner
- Software OCR para reconocimiento de textos (esta guía está basada específicamente en el programa “Abbyy Fine Reader versión 7 multilenguaje” (en adelante ‘FR’) por su versatilidad para procesar y reconocer textos escaneados, aunque puedes utilizar cualquier otro -incluso el que ha venido seguramente con tu escáner- salvando las diferencias entre uno y otro)
- Procesador de textos Word 2000
1. Escaneando
El primer paso es acceder a la interfase del scanner desde dentro del FR para luego comenzar a escanear las páginas a 300 dpi en modo “solo texto” (evitando los modos de “escala de grises”, “RGB color”, y cualquier filtro de destramado) con un rango tonal tirando a claro para evitar sombras e imperfecciones. Los 300 dpi son para obtener un tamaño de letra considerable, de modo que sea fácil de reconocer para el OCR.
Lo más recomendable es escanear todo el libro ‘de un tirón’, digitalizando varias imágenes consecutivas (Ctrol+Shift+K). FR comenzará a escanear una imagen detrás de otra -sin preview- haciendo el proceso mucho más rápido que escaneando las páginas una por una manualmente. Pero antes de realizar ese paso, sería conveniente verificar algunas opciones del programa.
A medida que se escanean las diferentes páginas, es imprescindible verificar que la imagen salga con buen contraste entre las letras y el fondo, y con la menor cantidad de imperfecciones posible. Para corregirlos en caso que sea necesario, te puedes valer de la interfaz de escaneo que trae incorporada el FR en lugar de la de tu escáner. Para ello, accede a las Opciones del programa pulsando ‘Ctrol+Shift+O’ y en la solapa de ‘Digitalizar imagen’ marca la opción ‘Usar Interfaz de FR’, y luego pulsa el botón de ‘Configuración del escáner’ para hacer los ajustes necesarios, sobre todo el de ‘Brillo’ (nivel de umbral). Si tu escaner es muy rápido, puedes dejar marcada la opción de ‘Pausa entre páginas’ y especificarle el tiempo que creas adecuado, de manera de tener el tiempo suficiente como para sacar el libro del escaner, pasar de página y volver a introducirlo entre escaneo y escaneo. En la solapa de ‘Digitalizar…’ también asegúrate de marcar las casillas de ‘Convertir imágenes en color o escala de grises a blanco y negro’ y ‘Limpiar imagen’. Haz las pruebas que creas convenientes hasta obtener un buen resultado de imagen y mantener el ritmo adecuado de escaneo.
Si el tamaño del libro lo permite, escanea de dos páginas a la vez en sentido horizontal a la cama del escáner. FR tiene la opción de escanear múltiples páginas, enumerando automáticamente las imágenes. Para lograr esto, accede a las Opciones del programa, y en la solapa “Digitalizar imagen” marca la casilla de ‘Separar páginas dobles’. Marca también la opción de ‘Detectar orientación de imagen’, asegurándote de poner la página de numeración inferior en el ángulo de inicio de escaneo (generalmente es la esquina superior izquierda de la cama del escáner), con el fin de que FR ordene la numeración de las imágenes adecuadamente.

Interfaz de escaneo del Fine Reader
Nota: si el FR encuentra dificultades para reconocer la orientación de las páginas o tu máquina se vuelve muy lenta con esta opción activada, se recomienda hacer lo siguiente luego de escanearlas a todas: utiliza la herramienta de Lote (proceso múltiple de imágenes) para darles un sentido horizontal a todas las imágenes automáticamente. Luego creas otro Lote con la opción de “Separar páginas dobles” para que FR separe todas las imágenes en páginas individuales con un solo click.
2. Controlando la paginación
A medida que se van escaneando las páginas, el FR va mostrando miniaturas (thumbnails) de las páginas escaneadas en la ventana izquierda, asignándole un número que le ha correspondido al pie de la misma. Al finalizar el escaneo, asegúrate de hacer coincidir el número de la primera página con el número de esa página en el libro; luego puedes hacer que el programa reenumere las demás páginas. Por último, verifica que cada página se corresponda con el número de la miniatura correspondiente.
Es indispensable controlar de que no te hayas salteado ninguna página (o que alguna la hayas escaneado, por distracción, dos veces), como así también su correcto orden.
3. Definiendo los bloques del texto a reconocer
Antes de indicarle al programa que reconozca el texto, hay que definir en cada página las áreas o bloques de texto que se deseen reconocer (en caso contrario, el programa no las procesará). Esto puede hacerse manualmente página por página (menú Procesar > Analizar distribución; Ctrol+E), o automáticamente y para todas las páginas (Ctrol+Shift+E).
En el caso del análisis automático, una vez que FR ha definido las áreas de reconocimiento se recomienda:
- eliminar del mismo los números de página, los cabezales y pies de página.
- corregir aquellos errores que FR hubiera interpretado como dibujos o textos.
- corregir los bloques de texto que FR hubiera podido saltearse.
- verificar el orden de los bloques de texto a reconocer.
Para ello, puedes valerte de la barra de herramientas lateral en la ventana de ‘Imagen’ para agregar/corregir/eliminar bloques de texto e imagen.
4. Reconociendo el texto
Para esta altura ya se le puede dar la orden al programa de reconocer (“leer”) todas las imágenes (Ctrol+Shift+R). Opcionalmente, se pueden reconocer páginas individuales (Ctrol+R) o un bloque de texto en particular (Ctrol+Shift+B).
El proceso de cómo funciona es el siguiente: FR reconoce letra a letra según su contorno y cuando se encuentra con un espacio en blanco, determina el final de una palabra. Esa palabra luego es chequeada contra su diccionario; si encuentra un error la reemplaza por la que figura en el diccionario y señala el cambio con un marcador celeste; si la palabra no figura en su diccionario la escribe según el reconocimiento y la señala con el marcador.
Una vez que FR terminó de reconocer todo el texto, es necesario recorrer página por página revisando las marcas celestes. Puede que una palabra marcada con este color esté bien escrita, en ese caso no es necesario hacer nada. Caso contrario, puedes verificar el error viendo la ampliación de imagen que aparece en la ventana superior y corregirlo. Esta etapa es muy importante ya que el FR puede detectar errores que el Word no puede reconocer.

Vista general del Fine Reader: 1. Ventana de miniaturas (thumbnails); 2. Ventana de ampliación de imagen; 3. Imagen completa y definición de bloques de texto e imágenes dentro del documento 4. Texto reconocido
Para realizar la tarea de corrección, conviene ampliar la ventana de la imagen ampliada y el texto reconocido y trabajar con ellas. Para modificar el factor de ampliación, haz click derecho sobre esta ventana y luego seteas la escala.
5. Guardando el texto reconocido
FR tiene varias opciones para guardar el texto. Lo más conveniente es guardarlo en .rtf, o documento de word.
6. Afinando el texto en Word

Diálogo de Búsqueda avanzada en Word: 1. Botón para acceder a las opciones avanzadas de búsqueda; 2. Pulsando el botón ‘Especial’, podrás introducir entidades especiales para su búsqueda.
Para la corrección de ciertos errores puedes utilizar la herramienta de búsqueda de Word (Menú Editar > Buscar), con el fin de detectarlos automáticamente. En la ventana de diálogo de búsqueda, asegúrate de que se muestren las opciones avanzadas pulsando el botón “Más”. En “Especial”, encontrarás una serie de opciones que usarás para corregir algunos errores comunes de reconocimiento de texto.
Párrafos interrumpidos
Debido a que el libro tiene dimensiones diferentes a la de un documento en pantalla y usa diferentes tipografías y tamaños, el texto reconocido y cargado en Word se presentará con párrafos interrumpidos. Para detectarlos rápidamente puedes realizar una búsqueda avanzada. Presiona Ctrol+B para abrir el cuadro de Búsqueda, habilita las opciones avanzadas y pulsando “Especial” seleccionas el item de [cualquier letra] y luego el de [marca de párrafo]. En la línea del buscador, aparecerá lo siguiente:
^$^p
Luego de eso, inicias la búsqueda.
(explicación: ^p indica el salto de párrafo; ^$ cualquier letra. Una vez ubicado el caso a corregir hay que detenerse y corregirlo manualmente.)
También deben buscarse las líneas truncas luego de una coma, punto y coma, y dos puntos, ingresando:
,^p
;^p
:^p
respectivamente.
Saltos de página con corte de palabra.
Los saltos de página con corte de palabra se pueden corregir automáticamente buscando la secuencia “guión + marca de salto de párrafo” (-^p) y reemplazándola por nada. Esto suprimirá todos los guiones y los salto de párrafo dejando las palabras nuevamente unidas.
Diferenciar y jerarquizar los títulos y subtítulos para diferenciarlos del resto del texto
La única manera de chequear esto es recorrer el texto entero. Lo más conveniente es asignarle un estilo a los títulos y otro a los subtítulos, definiendo un estilo diferente (por tipografía y tamaño) al del texto general y al de cualquier otro estilo usado.
Corrección de errores que a veces no son detectados por el corrector automático
En el OCR hay errores comunes que suelen aparecer frecuentemente. Estos son:
- Confusión del nexo coordinante ‘ y ‘ por ‘ v ‘: la solución es Buscar y reemplazar todos los (espacio)v(espacio) por (espacio)y(espacio), ya que en la sintaxis castellana, la v corta no va suelta en ningún caso.
- Reemplazo de letras por dígitos, y comprobación de dígitos en el documento: la solución es realizar una búsqueda avanzada seleccionando [cualquier número]. Conviene hacer esta comprobación porque sucede a menudo que el texto original tiene defectos que hacen que el OCR confunda por ejemplo ‘ él ‘ con ‘61′ o la letra ‘ l ‘ con ‘ 1 ‘, etc.
7. Uso del corrector ortográfico en Word
Dirígete al menú Herramientas > Opciones, y en la solapa de ‘Ortografía y gramática’, setea la opción de Estilo de escritura a ‘Verificación exhaustiva’. Luego inicia la corrección interactiva en Word de todo el documento pulsando ‘F7′. También asegúrate, habiendo previamente seleccionado todo el texto (Ctrol + E), de definir el idioma a español desde el menú Herramientas > Idioma.
Un problema frecuente es que Word muestre los nombres propios como errores, ya que por lo general no se encuentran en su diccionario. Para evitar esto, al llegar a un nombre propio, indicale la opción de ‘Omitir todos’ de manera que no vuelva a preguntar por lo mismo. Aplícalo también con palabras raras o propias del texto.
8. Corrección por lectura
Aún en la actualidad, los programas no tienen la ‘inteligencia’ suficiente como para ‘comprender’ un texto; simplemente se rigen por sus diccionarios. Puede que exista un error pero al detectar que una determinada combinación de letras corresponde a una palabra que figura en su diccionario, sencillamente la interpretará como correcta.
Si el error está en el original impreso en papel (porque sucede que aún en estos casos haya errores de tipeado, párrafos cortados y hasta incluso omisión de páginas), entonces la máquina no podrá ayudarnos. En este sentido es importante hacer una corrección a conciencia, a pesar de que ello implique tiempo y dedicación extra. Por eso es conveniente trabajar con libros ya leídos y que sepamos que no tengan grandes errores en su impresión, por lo que tranquilamente se podrá saltear este paso.
Notas finales
Una vez que tienes listo el texto, guardalo preferentemente en formato .rtf. La ventaja de este tipo de archivos es que conservan el formato del documento original, pudiéndose abrir en prácticamente cualquier procesador de textos, independientemente de su versión e incluso en múltiples plataformas (PC/Mac). También puedes convertirlo a formato .pdf para su publicación, si es que tienes las herramientas necesarias y estás seguro de que el texto no contiene errores, ya que una vez publicado, este formato no admite modificaciones.
Un último consejo: lo mejor es organizarse con otras personas que tengan fines comunes y que cada una se ocupe de una tarea específica. Es decir, que alguien se puede ocupar del escaneo y OCR, mientras que al finalizar algun otro puede hacerse cargo de la etapa de corrección, otro del trabajo en Word, revisión, etc.
Eso es todo. Cualquier duda, ya saben…
Créditos: CK, por la montaña de tips.


25/9/2004 @ 4:45 am
me dicen que aca alguien habia dejado un comment. ayer tuve que restaurar la base de datos, es por eso que se borro.
saludos.
8/11/2004 @ 7:11 pm
Eh! Muy bien esta guía! Ahora mismo no tengo ningún libro que escanear pero cuando lo necesite me vendrán bien algunos de tus trucos. Enhorabuena!
25/12/2004 @ 10:57 pm
buena ésa viejo, se agradece. che, para el día más ocioso te recomiendo Las Partículas Elementales, de Michel Houellebecq, y nunca lo encontré scanneado.
5/4/2005 @ 12:33 am
comunista
24/4/2005 @ 12:21 am
Que buen laburo que hiciste. Se agradece.
G.
9/6/2005 @ 9:47 pm
Para Nicogranada (con las debidas disculpas por usar este sitio para pasarle el dato): el libro de Houellebecq que menciona, sí está disponible en internet para ser bajado, el página de la letra e, http://www.letrae.com.ar/FrameArchivos.htm
Saludos
12/6/2005 @ 1:42 am
Ea!!!!! seguí tu guía completa y he digitalizado un libro!!! Viaje al centro de la tierra, prácticamente idéntico al original. Vale!
21/6/2005 @ 11:01 am
pongan numeros de serie para ABBYY Fine Reader
es nbecesario porque algunos lo necesitamos
vale estare esperando tsus respuestas
29/7/2005 @ 2:07 pm
Muy bueno tu trabajo.
Por favor coloca el número de serie.
9/1/2007 @ 11:18 am
Yo también necesito del número de serie para abby fine reader
9/2/2007 @ 12:04 pm
bajaros aca , http://www.metaftp.com/ el archivo frp7kg.exe ( que es el keygen del abby fine reader 7) ,.para activar el producto, despues de meter el serial que aparece en el keygen, te vas dentro del programa, en ayuda, y a la activacion del programa a traves de fax o telefono, en donde se encuentra el id de identificacion. se le metes al keygen, le das a generate y ya te aparece el codigo de activacion y de formfiller
9/2/2007 @ 8:52 pm
chinaskee tengo un libro de Symns titulado “En busca del asesino”. Es bastante bueno, si alguien se anima a digitalizarlo que chifle.
21/5/2007 @ 4:55 am
Necesitaría saber cuanto se cobra por escanear páginas de un libro. Me han ofertado este trabajo y no se cuanto cobrar por página escaneada y pasado a Word corregida.
gracias
Prem
25/6/2007 @ 6:58 pm
De maravilla, espero ponerlo en practica muy pronto. Gracias.
28/6/2007 @ 8:56 pm
Excelente tutorial, muchas gracias.
29/6/2007 @ 3:22 pm
hola
gracias por el tutorial, pero me queda una duda, que pasa con aquellas paginas cuyo texto e imagen estan mezclado, por ejemplo aparece una imagen y el texto bordea siguiendo la irregularidad del perimetro de la imagen.
gracias
29/6/2007 @ 4:22 pm
el Abby lo tendría que poder reconocer sin dificultad.
13/7/2007 @ 3:49 am
quisiera saber si existe algun escanner`portatil,que pase automaticamente a wor o aun archivo similar
13/7/2007 @ 3:54 am
algien paso el tipler a word o pdf, si es si seria de mucha ayuda
31/7/2007 @ 10:46 am
Amigo me puedes ayudar yo quiero escanear unos libros para fomentarlos en mi universidad pero me dicen que tengo que ver sobre los derechos de autor me puedes decir en que afecta esto gracias
2/9/2007 @ 10:42 pm
Hola, excelentes sugerencias ahora que pienso digitalizar varios libros que no puedo llevar de viaje. Pregunto, algún escaner recomendado con buena relación costo-resultado? gracias!
30/10/2007 @ 2:11 pm
¿Y como solucionamos la curvatura del lomo del libro?, esto dificulta bastante el escaneado
6/12/2007 @ 3:12 pm
[...] Katarsis » Blog Archive » GuÃa completa para la digitalización de textos [...]
7/3/2008 @ 1:56 am
Excelente la guia, ya la puse en favoritos. Sería buenísimo que la gente se anime a digitalizar libros, apenas pueda lo hago.Gracias!
24/6/2008 @ 1:55 am
Hola mcarmy, entré a la pag para bajar el ABBYY pero sale un cuadro de dialogo negándome bajar el archivo; q me recomiendas hacer?, Gracias.
24/6/2008 @ 1:59 am
Alguien q me pueda ayudar a bajar el Abbyy FineReader….? Gracias
29/6/2008 @ 2:06 pm
tengo el abby fine reader 7 pero hace unos dias funcionaba a la perfeccion pero derrepente salio que el escaner ya no esta activo que instale los controladores pero probe con el photoshop mi escaner pero funciona de maravillas me pueden ayudar por favor
7/10/2008 @ 4:05 pm
[...] para la digitalización de textos http://www.katarsis-net.com.ar/archivos/guia-para-la-digitalizacion-de-textos.php#more-133 Tratamiento y ajuste de textos digitalizados [...]
26/12/2008 @ 10:57 pm
Con la guia de este sitio pude lograr bajar el programa ABBYY y hacer las primeras experiencias de digitalización bastante positivas. Ahora al igual que otras/os navegantes, en un día el programa que era libre se vencio y me pide el número de serie. Por favor alguien que lo haya recibido o los autores de la página si pueden hacer ese aporte. Gracias y pronto seremos mas digitalizando libros en la red de redes. Un abrazo a todos, Rubén.
8/7/2009 @ 9:15 am
Hola xfvor quisiera q me ayuden dandome el numero de serie del ABBYY Finereader 9.0…. GRACIAS…
1/9/2009 @ 11:44 am
Hola! Muchas gracias por compartir tu gran trabajo!
por PRUEBA GRATIS del programa, y NUMERO DE SERIE, me paso con Adobe que use la version libre y al querer instalar una copia (el original sale lo mismo que ganaria en 10 años de trabajo) no pude hacerlo, tras intentar todo, tuve que formatear el rigido, esto pasa porque las versiones originales libres de software guardan una copia de la prueba y al terminarse queda un registro en la PC para que no puedas instalar copias, asi que les recomiendo no usar versiones libres, prueben bajando x emule, ares o de amigos, suerte!
14/10/2010 @ 3:16 pm
Gracias voy a hacer la prueba para digitalizar y poder hacer el trabajo bien hecho
16/7/2011 @ 12:42 am
todo esto esta muy bien para digitalizar libros “de texto” (literatura principalmente), pero no puedes tratar así libros donde quieras conservar el formato o imágenes tal cual vienen, o en libros técnicos con fórmulas, libros de idiomas, libros de programación, libros de texto de la escuela, etc.
todos estos tipos de libros hay que digitalizarlos como imagen con OCR oculto, y tu sistema no vale, y además, son los que tienen precios realmente altos en comparación y ofrecen conocimientos mucho más técnicos, específicos, difíciles de encontrar y en definitiva más valiosos que cualquier novela, libro de autoayuda, o libro “de lectura”.
8/1/2012 @ 1:58 am
HOLA COMO ESTAN TODOS YO QUISIERA SABER SI HAY ALGUIEN QUE PUEDA ESCANEAR EL LIBRO DE CONSTRUCCION FILTRO CERAMICO CONDORHUASI 2005 A SIDO DIFICIL DE CONSEGUIR LES AGRADECERIA SI ME ENVIARAN UNA RESPUESTA A MI CORREO MUCHAS GRACIAS…..