PDF vs 이미지, 두가지 포맷 중 어느 것이 엑셀로 바꾸는데 좋을까?
- 공유 링크 만들기
- X
- 이메일
- 기타 앱
pdf를 엑셀로 바꾸는 방법은 여러가지가 있다.
1. 파이썬 같은 프로그래밍 언어를 사용한다든지
2. 온라인 프로그램을 이용한다든지
3. 요즘 ai 지원하는 내장 프로그램들을 이용하든지(엑셀, pdf 등)
그런데 이 pdf도 pdf 나름이다.
아무리 ocr이라고 해도,
프로그램에서 pdf로 변환 한 것이 아닌,
기기나 사진을 이용한 스캔본은 위 프로그램도 인식을 어려워한다.
이는 ai도 마찬가지다.
우리 눈에는 이미지나 스캔본 pdf나 똑같은데, 기계는 인식자체를 달리한다.
Screenshot Img to TXT, tesseract 정확도 높이는 방법
그래서 나는 종이 스캔본은 당초에 이미지로 바꿔버린다.
온라인을 이용하려 해도 찝찝하고.
아직 내장 ai는 구축하지 않았다.
PDF는 압축과정을 거치며 레이아웃을 만들어 낸다.
그래서 이 장막을 벗겨내기 위해서,일부러 이미지화라는 전처리 과정이 필요하다.
OCR 자체도 이미지화를 한 다음 인식한다.
하지만, 그래봤자 무료의 한계는 분명하다.
내가 별도로 이미지화하여 인식 대상을 단순화시키며,
해상도를 높인다.
AI는 pdf보다는 이미지 학습을 많이 해 왔다.
아무리 광고에서
한컴이 ai를 선두한다고 하고,
마소가 엑셀에 ai를 넣고 한다고 해도,
아직 많이 멀었다.
데이터의 순수성!
엑셀 저장포맷이 csv라면, 작업한 거 다 날라갑니다. | 영덕대게태양광
그게 가장 중요하다.
자체적으로 뭔가 찝찝한 것이 있다면 ai가 분석 후 지적도 해 준다.
요즘 참 일하기 편해졌다.
요즘 아직 vlookup을 사용하는 곳이 있을까?
이미지로 스크린샷 한 다음,
어떻게 데이터 정리 할까 ai에게 물어보면 되는데???
댓글
댓글 쓰기