다양한 데이터 읽기 - PDF/워드(docx) 파일

이해하기 쉽고, 장황하지 않은 자료를 기반으로 강의를 진행합니다.

4. 다양한 데이터 읽기 - PDF/워드(docx) 파일¶

4.1. 다양한 데이터 읽기 - PDF 파일¶

웹 또는 데이터 중 PDF 로 되어 있는 파일에서 데이터 추출하기
- pdfminer.six 라이브러리 활용
  - 현재 유지보수되는 pdfminer 포크 (Python 3 지원)
- 설치
  - pip install pdfminer.six
텍스트가 주로인 PDF 파일에서는 텍스트 파일을 읽을 때와 큰 차이 없이 텍스트 데이터 추출 가능

In [ ]:

from pdfminer.high_level import extract_text
from io import open
from urllib.request import urlopen

# pdfminer.six 고수준 API로 텍스트 추출
# pdf_file = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")  # 웹 PDF도 가능
pdf_file = open("03_data/sample.pdf", "rb")                                      # 로컬 PDF 예시
content = extract_text(pdf_file)
print(content)
pdf_file.close()

4.2. 다양한 데이터 읽기 - docx 파일¶

웹 또는 데이터 중 MS WORD 파일인 docx 형식으로 되어 있는 파일에서 데이터 추출하기
- docx2txt 라이브러리 활용
- 설치
  - pip install docx2txt

In [ ]:

import docx2txt

text = docx2txt.process("03_data/sample.docx")
print(text)