PDF OCR 识别
最近在读《政治的人生》这本书,之前买的但现在没得卖了,甚是可惜。又想到很多情况下,还是需要对文中只言片语做些搜索的。所以想来用网上的 PDF 文件,并用 OCR 记录一下。
OCR
- 参考 paddlecor
python3 -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
pip3 install paddleocr
- 添加
/Users/xxx/Library/Python/3.9/bin
到你的 PATH paddleocr --image_dir ./xxx.png
即可
代码
from paddleocr import PaddleOCR, draw_ocr
ocr = PaddleOCR(use_angle_cls=False, lang="ch", page_num=0)
img_path = './bijiao.pdf'
result = ocr.ocr(img_path, cls=False)
textResult = []
for idx in range(len(result)):
res = result[idx]
# 空判断
if res == None:
continue
else:
for line in res:
# print(line)
textResult.append(line[1][0])
fo = open("bijiao.txt", "w")
fo.write( '\n'.join(textResult))
# 关闭打开的文件
fo.close()
政治的人生
全文 txt 版本 方便检索
Comments
Leave a comment