재밌는 글 잘봤습니다.
저도 공부해보고 싶어졌습니다. 머신러닝 기초만 좀 배워서요 ㅜㅜ
공부하자공부하자 하는데 잘 안되네요.
질문이 있습니다.
분류기를 학습할때, 학습 데이터가 (형태소, 카테고리)로 한 것이지요?
그러면 각 카테고리마다 중복되는 형태소들이 많아서.. 분류가 안되는게 아닐까 싶어요.
제 짧은 생각으로는, 특히 요리 쪽 카테고리에는 글이 많고, 다른 카테고리의 글들까지 포함하는 형태소들도 많아서
다 요리로 간게 아닌가 싶네요.그러면 실제 테스트를 어떻게 하신건가요?
- 1개 테스트 글의 형태소를 모두 넣어 분류된 결과 리스트에서 제일 많은 수의 카테고리 선정.
- 형태소를 넣어본다?
3.적다보니 생각났는데 저라면 카테고리의 중복되는 형태소들을 먼저 빼고
(고민해봐야하겠어요. - 사람들이 자주 사용하는 것들은 그냥 뺸다? 다른 통계자료의 도움? )
그러면 그 카테고리를 잘 나타내는 형태소들만 남을 것같아요.
남은 형태소들로 다시 한번 분류기를 학습한 다음에
테스트 글을 넣어보면 꽤 잘될거같아요.
shin님의 말씀대로 태그도 명확한게 있긴하지만, jjangjjangman, busy 등은 중복되고
네이버의 태그는 쓸만할 것 같아요. 카테고리와 관련된 태그일 것 같아요.
감사합니다.
저는 머신러닝은 관심있는 샘플소스나 튜토리얼을 따라한 것이 전부입니다. 기초도 몰라요.
그래서 머신러닝쪽은 @jacobyu님의 도움이 필요합니다. ㅎㅎ
순서대로 질문에 답변 드릴께요.
([형태소 분석한 텍스트], 카테고리)
구조로 만들었습니다.NaiveBayesClassifier
분석기의 기준으로 분류했습니다.제 생각이지만,
NaiveBayesClassifier
로는 많은 분류를 분석하기 힘들다고 판단됩니다. 대부분의 샘플 소스를 보면 긍정/부정, 스팸 필터링 정도로만 사용하고 있어서요.스팀잇 글 카테고리 분류는 좀 더 연구해보고 다시 도전할 생각입니다.
저도 같이 공부하면서 해보고 싶어요. 저도 고민해볼게요.
네 ㅎㅎ 답변감사합니다.
재밌는 공부거리 인거같아요.
딥러닝/ 머신러닝을 실제 적용해볼 수 있는