`타불라`로 PDF에서 테이블 데이터 추출하기

2015. 4. 3. 11:59

`타불라`로 PDF에서 테이블 데이터 추출하기

2015. 4. 3. 11:59 in ICT와 AI 정보

타불라는 나이트-모질라(Knight-Mozilla) 오픈뉴스(OpenNews), 뉴욕타임즈( New York Times)와 라 나씨온(La Nación) DATA등 수많은 언론사들이 모여 만든 도구로 오픈 소스이며 PDF 파일 안에 들어 있는 데이터 테이블을 임의로 추출할 수 있습니다.

tabula01

타불라는 사용자의 브라우저를 기반으로 작동하며, 자바 6 또는 7과 호환되는 JRE(Java Runtime Environment)가 설치돼 있어야 되는데 PDF 파일을 불러온 뒤, 스프레드시트 등의 데이터로 변환하려는 테이블 영역을 선택하여 CSV이나 TSV 파일로 저장하거나 클립보드로 복사할 수 있습니다. 또, 데이터를 저장하기 전에 데이터가 어떤 식으로 표현되는지 미리 확인해볼 수 있다.

tabula02

타불라는 편집 가능한 텍스트 형태의 PDF에서만 테이블 데이터를 추출할 수 있는데 OCR 소프트웨어가 아니므로 스캔된 이미지에서는 동작하지 않습니다. 한가지 주의점으로 간단한 형태의 테이블에서 가장 잘 동작하며, 한 셀에 여러 행 또는 열이 존재할 경우에는 제대로 동작하지 않을 수도 있습니다.

'ICT와 AI 정보' 카테고리의 다른 글

지혜로운 개발자가 되기 위한 격언 65가지 (0)	2015.04.17
요즘 개발자들이 선호하는 IT 기술 (0)	2015.04.17
PC에서 안드로이드 앱을 실행하게 해주는 블루 스택(Blue Stacks) (0)	2015.04.08
PC 구글 크롬에서 안드로이드 앱 실행 (0)	2015.04.08
아마존, 우리나라에 클라우드 인프라 구축 (0)	2015.04.03
MS 웹 브라우저 `스파르탄` 프로젝트, '익스플로러' 대신 새 이름으로 (0)	2015.03.26
알뜰폰 가격 비교 '허브사이트' (0)	2015.03.24
오페라 제작자가 새로 만든 웹 브라우저 '비발디(Vivaldi)' (0)	2015.03.12

Posted by 디나미데

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

`타불라`로 PDF에서 테이블 데이터 추출하기

'ICT와 AI 정보' 카테고리의 다른 글

Category

Notice

Archive

Calendar

Recent Article

티스토리툴바