기본 콘텐츠로 건너뛰기

5월, 2021의 게시물 표시

월리를 찾아라: 문서에서 단어 분류

그림책 속 수많은 사람들 중에서 월리를 찾는 것처럼 문서의 수많은 단어들 중에서 원하는 단어를 찾는 일은 쉬운 일이 아닙니다. 아니 월리를 찾는 것이 더 쉬울지도 모르겠습니다. 요즘 회사들 사이에 Digital Transform(이하 DT)가 유행하고 있습니다. DT는 회사가 가지고 있는 문서들을 디지털 데이터로 변환하는 것을 말합니다. 4차 산업혁명의 핵심 기술인 AI를 활용하기 위해서 말이죠. 수많은 문서들 그리고 같은 의미를 가지는 다른 표현들. DT를 하기 앞서 이러한 단어들의 표준화가 진행되어야 합니다. 용어들의 표준화를 하기 위해 표준 용어 사전집이 필요합니다. 전국 사투리를 수집하고자 한다면 우선 서울 표준어를 정한 뒤 같은 의미를 가지는 사투리를 쭉 나열할 수 있습니다. 경상도/전라도/충청도/강원도/제주 사투리.... 서울 태생인 아내가 같은 의미를 가지는 단어를 하나여야만 한다고 이야기하던 일이 생각납니다. 경상도 출신인 저는 사투리도 중요하다고 반론을 했었습니다. 우리가 계산하고 나갈 때 식당 주인아주머니께서 저희를 보더니 빙긋 웃었습니다. 이렇듯 같은 의미를 가지는 용어들을 표준 용어집을 이용하여 표준 용어로 바꾸어 줍니다. 장치 문서 표준 용어집 위 표준 용어집을 이용하면 아래와 같이 바뀌게 될 것입니다. 이제 표준화된 용어를 분류하여 사전에 정의해둔 분류체계로 변환을 해야 합니다. 분류 체계 분류체계에 맞는 Value와 UOM(단위)를 찾아 채워줘야 합니다. Value와 UOM을 찾아 어떤 분류 체계에 속하는지 자동으로 채워주면 좋겠지만 이것은 대단히 어려운 작업이 될 거라 생각됩니다. 따라서 사용자가 Value와 UOM에 맞는 분류 체계를 선택하도록 합니다. 분류 체계 선택 후에 문서에서 값을 읽어 채워주면 아래와 같이 됩니다. 분류 체계에 맞게 값이 채워진 화면 위 데이터가 사용자가 원하는 최종 데이터입니다. 최종 데이터를 추출할 때 앞서 말한 표준 용어집은 의미가

도쿠위키 이전

현재 GCP(Google cloud platform)에 SCM(gitea), 도쿠위키, 워드프레스가 돌아가고 있습니다. 크레딧으로 거의 일 년 동안 무료로 사용하다가 지난달에 요금이 33,470원이 나왔습니다. 개인이 사용하기에는 부담이 되어서 SCM은 Github로, 도쿠위키는 개인 서버로 이전하기로 마음먹고 어린이날 연휴 동안 작업하였습니다. Github은 가입만 하면 공개, 개인 저장소를 무제한으로 제공하고 가격도 무료입니다. 4달러로 계정을 업그레이드를 하면 다양한 혜택을 누릴 수 있습니다. 향후에 계정을 업그레이드를 해야겠습니다. 도쿠위키는 Bitnami 도쿠위키로 손쉽게 개인 서버에 설치하였습니다. 도쿠위키는 모든 데이터를 파일로 저장하기 때문에 파일을 옮기기만 하면 이전할 수 있습니다. 파일 위치는 환경 설정에서 확인할 수 있습니다. PSCP 명령어로 GCP에서 파일을 다운로드하기가 어려워 data 폴더를 하나의 파일로 압축하여 개인 서버에 운영 중이던 Artifactory에 업로드하였습니다. 리눅스의 curl 명령를 이용하면 Artifactory에 데이타를 업로드할 수 있습니다. zip -r data.zip ./data/* curl -u<id>:<password> -X PUT "<url>" -T "<file path="">" 업로드한 파일을 다운로드해 도쿠위키가 설치된 폴더에 풀어주니 GCP의 도쿠위키 데이타가 모두 복원되었습니다.