好几天没更新头条文章了。
每天5-10篇文章,其中《民国列女传》每天5人,《民国老照片》每天5张照片,每天介绍《趣味历史》软件的功能和历史人物分类,以及微头条。
中断了这几天,是因为最近有了点灵感,要写一个新的程序,一个把竖排、繁体、无标点的古籍自动转换为横排、简体、有标点的文字的软件。
1)市面上有成熟的pdf转图片功能,有OCR文字识别服务(支持竖排),有龙泉寺提供的自动加标点的网站,二者相结合,就可以把竖排、繁体、无标点的古籍pdf,自动转换为横排、简体、有标点的文字。注意,是文字版本,而不是之前扫描的图片。
有了文字就可以全文检索。
2)针对于哪些古籍呢?
扫描《资治通鉴》?网上已经有文字版本了,可以用来做准确度测试工具。
不针对于现代人和当代人的著作,会涉及到版权问题。
针对的主要方向,是那些目前网上没有文字版的古籍,比如说历朝历代的文人笔记,各地的县志,里面记载了大量的史料,是正史里面没有的。把这些内容转换成文字,录入到素材库,可以为自媒体人提供更多的写作素材。
目前在解决的几个问题:
1)把多张图片拼接在一起去OCR扫描,能节省成本。看了一下几大厂商各自的OCR价格,量大的话,也是一笔不小的银子,因此怎么能做到拼接尽可能多的图片,而又不失真,导致降低扫描精度,是研究的一个方向。
2)把这些步骤串起来,成为一条龙服务,有可视化操作界面,中间任何一个步骤出错、任何一张图片出错,都有对应的重试和容错机制。
3)扫描后生产的文字段落,进行排版,可以在可视化软件中,手动调整段落的顺序和级别,更正错字。
如果您对我在做的这个事情感兴趣,欢迎可以参与进来。
1.文章《如何设置字体方向,excel怎么设置字体方向》援引自互联网,为网友投稿收集整理,仅供学习和研究使用,内容仅代表作者本人观点,与本网站无关,侵删请点击页脚联系方式。
2.文章《如何设置字体方向,excel怎么设置字体方向》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
相关推荐
- . 现代买票为什么带上携程保险
- . 潮阳怎么去广州南站
- . 湖南马拉河怎么样
- . 烧纸为什么到三岔路口
- . 百色为什么这么热
- . 神州租车怎么样
- . 芜湖方特哪个适合儿童
- . 护肤品保养液是什么类目
- . 早晚的护肤保养有哪些项目
- . 女孩护肤品怎么保养的最好