Página 1 de 1

Lector OCR específico para tipografía del Spectrum

Publicado: 21 Mar 2016, 22:02
por yombo
Buenas, hace bastante que no posteo por aquí...

Quería enseñaros un programa que he hecho (para navegador web), que sirve para reconocer el texto de listados de código máquina de las MicroHobbys por ejemplo.

El programa admite una imagen como entrada y saca como salida el texto, y/o también el fichero binario. Tiene una fiabilidad del 90%, pero al añadir chequeo del checksum y como permite la edición manual y comprobación de checksum en un click, permite sacar un listado correcto rápidamente.

Es recomendable leer antes el readme en el sitio de Github (donde también están los fuentes), para conocer los requisitos de la imagen de entrada:
https://github.com/yomboprime/YombOCR

El programa lo podéis usar directamente en esta dirección:
http://yombo.org/datos/YombOCR

O bien coger los fuentes y ponerlo en cualquier servidor web (es javascript y HTML5 estático, se hace todo en el ordenador del "cliente")

Si queréis más info, también está el post que he hecho en mi blog:
http://yombo.org/2016/03/yombocr-recono ... navegador/

Saludos

P.S: Ah, sí, no funciona bien en Firefox, lo siento. Probad en Chrome.

Re: Lector OCR específico para tipografía del Spectrum

Publicado: 22 Mar 2016, 01:13
por elfoscuro
Gracias por el curro...

Una alternativa al CUCM para PC:

https://programbytes48k.wordpress.com/2 ... a-para-pc/

Por desgracia, parece que Horace finiquitó su página de speccy.org y ya no está la descarga. Yo usé su programa para los listados de MH de mi página (KyEnter), y funcionaba bastante bien.

El problema de los listados de C.M. de MicroHobby es que el checksum es el mismo para "ABAC" que para "ACAB", por lo que encontrar errores en las típicas "8-B", "0-D" e incluso "6-B" es muy complicado. Muchas veces vale la pena volver a pasar el OCR y el CUCMPC que intentar encontrar un error. Y eso contando con que no hubiera fallos como en el Ogerox, que por más que lo he intentado, no he podido ponerlo en marcha.

Al menos, si este OCR tuyo está "educado" para los listados de C.M. no debería ser complicado hacerle leer los BASIC también.

Un saludo.

Re: Lector OCR específico para tipografía del Spectrum

Publicado: 22 Mar 2016, 01:28
por yombo
Gracias por la sugerencia. El problema para reconocer Basic son los signos de puntuación. Mi algoritmo se basa en que todos los caracteres sean del mismo tamaño.

Re: Lector OCR específico para tipografía del Spectrum

Publicado: 22 Mar 2016, 11:47
por hamham
La verdad es que es impresionante las curradas que os pegais para que dispongamos de herramientas nuevas para nuestros cacharrines. :D
Gracias por compartirlo con nosotros :D
Saludos

Re: Lector OCR específico para tipografía del Spectrum

Publicado: 22 Mar 2016, 19:16
por otivax
yombo escribió:Gracias por la sugerencia. El problema para reconocer Basic son los signos de puntuación. Mi algoritmo se basa en que todos los caracteres sean del mismo tamaño.
Magnifico trabajo y además muy útil. Quién lo hubiera tenido hace tiempo :))
Para el BASIC no acabo de pillar el problema, los signos de puntuación también tendrán un tamaño 8 x 8 pixels, eso si con mucho espacio vacío.
Nada más, muchas gracias y a desempolvar mis MH.

Re: Lector OCR específico para tipografía del Spectrum

Publicado: 22 Mar 2016, 19:48
por yombo
otivax escribió:Para el BASIC no acabo de pillar el problema, los signos de puntuación también tendrán un tamaño 8 x 8 pixels, eso si con mucho espacio vacío.
Nada más, muchas gracias y a desempolvar mis MH.
Ése es el problema: los espacios vacíos. El algoritmo detecta manchas negras, con lo que la parte del reconocedor sólo tiene de input lo que ocupan, digamos por ejemplo, las comillas.

Quizá se pueda hacer algo al respecto, lo investigaré.

Ah sí, y luego están los gráficos udg, que al estar pegados, mi algoritmo no los puede diferenciar.