PDF OCR 识别

Apr 27, 2024 book

最近在读《政治的人生》这本书，之前买的但现在没得卖了，甚是可惜。又想到很多情况下，还是需要对文中只言片语做些搜索的。所以想来用网上的 PDF 文件，并用 OCR 记录一下。

OCR

参考 paddlecor
python3 -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
pip3 install paddleocr
添加 /Users/xxx/Library/Python/3.9/bin 到你的 PATH
paddleocr --image_dir ./xxx.png 即可

代码

from paddleocr import PaddleOCR, draw_ocr

ocr = PaddleOCR(use_angle_cls=False, lang="ch", page_num=0)
img_path = './202.pdf'

result = ocr.ocr(img_path, cls=False)
textResult = []
for idx in range(len(result)):
    res = result[idx]
    for line in res:
        # print(line)
        textResult.append(line[1][0])

fo = open("202.txt", "w")
fo.write( '\n'.join(textResult))
fo.close()

政治的人生

全文 txt 版本方便检索

Comments

Leave a comment