You are viewing a single comment's thread from:

RE: [머신러닝] 스팀잇 글 분류하기 (첫번째 시도)

in #kr6 years ago

재밌는 글 잘봤습니다.
저도 공부해보고 싶어졌습니다. 머신러닝 기초만 좀 배워서요 ㅜㅜ
공부하자공부하자 하는데 잘 안되네요.

질문이 있습니다.

  1. 분류기를 학습할때, 학습 데이터가 (형태소, 카테고리)로 한 것이지요?
    그러면 각 카테고리마다 중복되는 형태소들이 많아서.. 분류가 안되는게 아닐까 싶어요.
    제 짧은 생각으로는, 특히 요리 쪽 카테고리에는 글이 많고, 다른 카테고리의 글들까지 포함하는 형태소들도 많아서
    다 요리로 간게 아닌가 싶네요.

  2. 그러면 실제 테스트를 어떻게 하신건가요?

  • 1개 테스트 글의 형태소를 모두 넣어 분류된 결과 리스트에서 제일 많은 수의 카테고리 선정.
  • 형태소를 넣어본다?

3.적다보니 생각났는데 저라면 카테고리의 중복되는 형태소들을 먼저 빼고
(고민해봐야하겠어요. - 사람들이 자주 사용하는 것들은 그냥 뺸다? 다른 통계자료의 도움? )
그러면 그 카테고리를 잘 나타내는 형태소들만 남을 것같아요.

남은 형태소들로 다시 한번 분류기를 학습한 다음에
테스트 글을 넣어보면 꽤 잘될거같아요.

shin님의 말씀대로 태그도 명확한게 있긴하지만, jjangjjangman, busy 등은 중복되고
네이버의 태그는 쓸만할 것 같아요. 카테고리와 관련된 태그일 것 같아요.

감사합니다.

Sort:  

저는 머신러닝은 관심있는 샘플소스나 튜토리얼을 따라한 것이 전부입니다. 기초도 몰라요.
그래서 머신러닝쪽은 @jacobyu님의 도움이 필요합니다. ㅎㅎ

순서대로 질문에 답변 드릴께요.

  1. 학습 데이터는 ([형태소 분석한 텍스트], 카테고리) 구조로 만들었습니다.

    분류가 안된 이유는 잘모르겠지만, 카테고리마다 중복되는 형태소가 많아서 분류가 안 되었을 가능성이 크다는 생각이 드네요.ㅎㅎ

  2. 테스트 방법는 스팀잇 글을 가져와서 형태소 분석하였습니다. 그리고 학습된 NaiveBayesClassifier 분석기의 기준으로 분류했습니다.

    학습 데이터에서 중복되는 형태소를 뺀다든지 하는 데이터 정제가 필요할 것으로 생각됩니다.

제 생각이지만,NaiveBayesClassifier로는 많은 분류를 분석하기 힘들다고 판단됩니다. 대부분의 샘플 소스를 보면 긍정/부정, 스팸 필터링 정도로만 사용하고 있어서요.
스팀잇 글 카테고리 분류는 좀 더 연구해보고 다시 도전할 생각입니다.

저도 같이 공부하면서 해보고 싶어요. 저도 고민해볼게요.

네 ㅎㅎ 답변감사합니다.

재밌는 공부거리 인거같아요.
딥러닝/ 머신러닝을 실제 적용해볼 수 있는