You are viewing a single comment's thread from:
RE: [머신러닝] 스팀잇 글 분류하기 (첫번째 시도)
저는 머신러닝은 관심있는 샘플소스나 튜토리얼을 따라한 것이 전부입니다. 기초도 몰라요.
그래서 머신러닝쪽은 @jacobyu님의 도움이 필요합니다. ㅎㅎ
순서대로 질문에 답변 드릴께요.
- 학습 데이터는
([형태소 분석한 텍스트], 카테고리)
구조로 만들었습니다.분류가 안된 이유는 잘모르겠지만, 카테고리마다 중복되는 형태소가 많아서 분류가 안 되었을 가능성이 크다는 생각이 드네요.ㅎㅎ
- 테스트 방법는 스팀잇 글을 가져와서 형태소 분석하였습니다. 그리고 학습된
NaiveBayesClassifier
분석기의 기준으로 분류했습니다.학습 데이터에서 중복되는 형태소를 뺀다든지 하는 데이터 정제가 필요할 것으로 생각됩니다.
제 생각이지만,NaiveBayesClassifier
로는 많은 분류를 분석하기 힘들다고 판단됩니다. 대부분의 샘플 소스를 보면 긍정/부정, 스팸 필터링 정도로만 사용하고 있어서요.
스팀잇 글 카테고리 분류는 좀 더 연구해보고 다시 도전할 생각입니다.
저도 같이 공부하면서 해보고 싶어요. 저도 고민해볼게요.
네 ㅎㅎ 답변감사합니다.
재밌는 공부거리 인거같아요.
딥러닝/ 머신러닝을 실제 적용해볼 수 있는