最近在读《政治的人生》这本书,之前买的但现在没得卖了,甚是可惜。又想到很多情况下,还是需要对文中只言片语做些搜索的。所以想来用网上的 PDF 文件,并用 OCR 记录一下。

OCR

  • 参考 paddlecor
  • python3 -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
  • pip3 install paddleocr
  • 添加 /Users/xxx/Library/Python/3.9/bin 到你的 PATH
  • paddleocr --image_dir ./xxx.png 即可

代码

from paddleocr import PaddleOCR, draw_ocr

ocr = PaddleOCR(use_angle_cls=False, lang="ch", page_num=0)
img_path = './202.pdf'

result = ocr.ocr(img_path, cls=False)
textResult = []
for idx in range(len(result)):
    res = result[idx]
    for line in res:
        # print(line)
        textResult.append(line[1][0])

fo = open("202.txt", "w")
fo.write( '\n'.join(textResult))
fo.close()

政治的人生

全文 txt 版本 方便检索