我是做关务工作,经常会接触到报关单,而对于关务来说,报关单数据非常重要,在以前没有大型关务软件时,报关单的每条数据都是人工输入到EXCEL表里的,其工作量非常大。
一张报关单是这样的:
最终要的得到的数据是这样的:
报关行使用的QP系统可以导出套打版的PDF文件,都是文本字符, 所以思路就是采用第三方PDF TO TXT软件转成TXT文件,然后TXT导入到临时表里,根据规律分割字段,提取字段写入到最终的数据表里。
其中碰到的主要问题时: 找一个合适的PDF TO TXT非常困难,我试过好几十种,才找到了一个合适的。但由于报关单的格式经常变,字符的上下左右位置稍有不同,解析出来的格式经常会不一样,导致后期经常要增加逻辑分析。最近海关改版很大,原先的PDF转换软件彻底乱了,不得不重新找了一款,分析下来,索性直接提去PDF TEXT RAW 数据,自己解析正常有规律的文本,现在基本转化率基本到了100%了,不过这个工具需要收费的。
界面截屏如下:
也支持报关单PDF文件的批量解析导入。
下一步的打算:目前采用SHELL方式调用 第三方程序将PDF 转换成TXT的,后面打算学习API调用的方式。