好几天没更新头条文章了。

每天5-10篇文章,其中《民国列女传》每天5人,《民国老照片》每天5张照片,每天介绍《趣味历史》软件的功能和历史人物分类,以及微头条。

中断了这几天,是因为最近有了点灵感,要写一个新的程序,一个把竖排、繁体、无标点的古籍自动转换为横排、简体、有标点的文字的软件。

1)市面上有成熟的pdf转图片功能,有OCR文字识别服务(支持竖排),有龙泉寺提供的自动加标点的网站,二者相结合,就可以把竖排、繁体、无标点的古籍pdf,自动转换为横排、简体、有标点的文字。注意,是文字版本,而不是之前扫描的图片。

有了文字就可以全文检索。

2)针对于哪些古籍呢?

扫描《资治通鉴》?网上已经有文字版本了,可以用来做准确度测试工具。

不针对于现代人和当代人的著作,会涉及到版权问题。

针对的主要方向,是那些目前网上没有文字版的古籍,比如说历朝历代的文人笔记,各地的县志,里面记载了大量的史料,是正史里面没有的。把这些内容转换成文字,录入到素材库,可以为自媒体人提供更多的写作素材。

目前在解决的几个问题:

1)把多张图片拼接在一起去OCR扫描,能节省成本。看了一下几大厂商各自的OCR价格,量大的话,也是一笔不小的银子,因此怎么能做到拼接尽可能多的图片,而又不失真,导致降低扫描精度,是研究的一个方向。

2)把这些步骤串起来,成为一条龙服务,有可视化操作界面,中间任何一个步骤出错、任何一张图片出错,都有对应的重试和容错机制。

3)扫描后生产的文字段落,进行排版,可以在可视化软件中,手动调整段落的顺序和级别,更正错字。

如果您对我在做的这个事情感兴趣,欢迎可以参与进来。

相关推荐