pytorch mecab 사용자 정의 사전 추가하기 목차
🕐 colab 준비
🕑 mecab 설치
🕒 mecab-ko, mecab-ko-dic 설치 및 컴파일
🕓 사용자 정의 사전 사용하기 근데 실패함
사용자 사전 추가를 위해 기존에 colab에 mecab 설치한 방식대로 진행했었는데 에러들이 나오고 결국 이 방식으로 실패함 성공한 글은 저 아래에,,
1. colab 에 Mecab 설치하기
: mecab은 보통 window에 설치하기는 어렵고 macOS, Linux에 설치할 수 있다. 하지만 설치 과정에 많은 에러가 나기로 유명하고 나도 에러가 아주 다양하게 터졌지만 어찌저찌 되긴 했다.
2. mecab-ko 설치해서 google cloud로 옮겨 압축 풀기
아래 mecab-ko 홈페이지에서 최신 버젼으로 설치해서 구글 클라우드에 옮겨 colab에서 사용할 예정이다.
1) mecab-ko 다운 홈페이지 👇
https://bitbucket.org/eunjeon/mecab-ko/downloads/
2) 구글 클라우드에 옮기기
3) colab과 구글 클라우드 연동
4) colab에서 mecab 폴더를 올린 위치로 이동
5) 압축 파일일 경우 압출 풀기 / 아닌 경우 바로 폴더 안으로 들어가기
# 압축 풀기
tar xvfz [다운받은 폴더명 그대로]
cd [폴더명]
# 압출 풀리면 폴더 안으로 들어가기
cd [폴더명]
# 컴파일 하기
!./configure
! make
! make check
! sudo make install
3. mecab-ko-dic 설치해서 google cloud로 옮겨 압축 풀기
1) mecab-ko-dic 가장 최신 버젼 설치하기 👇
https://bitbucket.org/eunjeon/mecab-ko-dic/downloads/
2) 구글 클라우드에 옮기기
3) 위와 동일하게 해당 폴더 위치로 가서
# 압축 파일이라면
!tar zxfv [폴더명]
cd [폴더명]
# 일반 파일이라면
cd [폴더명]
# 컴파일
!./configure
!make
!sudo make install
4. 사용자 정의 사전 만들고 사용하기
1) mecab-ko-dic을 압축 해제한 폴더 경로로 간다.
(ex: /content/drive/MyDrive/pytorch/mecab-ko-dic-2.1.1-20180720)
2) 사용자 정의 사전 csv 내용 추가하기
# ls 명령어로 user-dic 폴더있는지 확인 후 입장
ls
cd user-dic
# user-dic 폴더 안에 nnp.csv 파일이 있고 이 파일이 사용자 정의 사전을 추가할 곳이다.
vi nnp.csv ===> 여기서 nnp.csv가 SyntaxError : invalid syntax 라고 에러가 나서 직접 폴더를 열어서 수정했다.
vi 편집 명령어는 안되어서 구글 클라우드에서 해당 csv 파일을 수정해서 다시 업로드하고 cat nnp.csv 로 잘 업로드되었는지 확인했다.
3) 적용하기
폴더 안 tools 폴더에 들어가 add-userdic.sh를 실행시켜 준다. -> 실행하면 user-dic 안에 있던 csv파일들이 mecab-ko-dic폴더 안에 추가가 된다.
cd /content/drive/MyDrive/pytorch/mecab-ko-dic-2.1.1-20180720/tools
!./add-userdic.sh ===> 여기서 Bash: bad interpreter, permission denied 에러가 나왔다.
Bash: bad interpreter, permission denied 에러 해결
# 권한을 살펴보기
ll
# 해당 파일의 권한 변경
!chmod 755 add-userdic.sh
# 다시 시도하기
!./add-userdic.sh
출력 결과 :
generating userdic...
nnp.csv
/content/drive/MyDrive/pytorch/mecab-ko-dic-2.1.1-20180720/tools/../model.def is not a binary model. reopen it as text mode...
dictionary.cpp(171) [property.open(param)]
person.csv
/content/drive/MyDrive/pytorch/mecab-ko-dic-2.1.1-20180720/tools/../model.def is not a binary model. reopen it as text mode...
dictionary.cpp(171) [property.open(param)]
place.csv
/content/drive/MyDrive/pytorch/mecab-ko-dic-2.1.1-20180720/tools/../model.def is not a binary model. reopen it as text mode...
dictionary.cpp(171) [property.open(param)]
make: Nothing to be done for 'clean'.
make: *** No targets specified and no makefile found. Stop.
=> 에러
이것만하고 mecab-ko-dic 폴더 위치에서 새로 추가된 파일들로 컴파일하면 끝인데.....
!make install
이 외에도 다양한 에러들이 나옴.
linux기반이여서 mac에서는 add-userdic.sh의 7번째 줄 else의 readline을 greadline으로 수정하고 coreutils을 brew로 설치해야 한다고 함. => 했지만 여전히 에러가 나옴 ! 결국 다시 처음부터 시작
=> colab mecab 사용자사전 추가 성공한 글
References : https://beausty23.tistory.com/61
'pytorch' 카테고리의 다른 글
[최신] colab mecab 사용자사전 쉽게 추가하고 사용하기 (0) | 2022.10.12 |
---|---|
[colab] konlpy mecab 설치 및 사용하기 on macOSX (0) | 2022.09.30 |
[머신러닝/딥러닝] 도대체 Tensor란 무엇인가!!! (0) | 2022.09.20 |
[머신러닝 vs 딥러닝] 비교 및 차이 알아보기 (0) | 2022.09.20 |
[pytorch vs tensorflow] 머신러닝/딥러닝 pytorch로 시작하는 이유! (0) | 2022.09.20 |