코인 가격을 예측해보자! - 상관관계 분석을 위한 데이터 크롤링 편

in #kr7 years ago

코인의 가격을 예측할 수는 없을까요?

누구나 미래를 미리 예측해서 오를 때 구매하고 떨어질 때 파는 전략들을 구상하고 있을 겁니다.

지난 글을 통해서 Market의 Capa와 가격은 매우 밀접한 관계가 있음을 확인했었는데요.

https://steemit.com/steemit/@ziqon/7a1imu

아래 오늘 코인 시장 전체의 Capa변화 추이는 아래와 같습니다.

비트코인 및 전체 코인의 가격 변화 추이와 매우 비슷한 모양을 가집니다. 약 하루동안 얼어붙었던 투자 심리가 금세 회복되고 있는 건데요.

이렇게 빠르게 변화하는 코인시장의 데이터들을 상세 분석하고 싶으신 분들은 Follow Follow Follow Me!

Step1. 데이터 크롤링 환경 구축하기

  1. 크롤링할 데이터 선정하기
    크롤링할 데이터를 선정한다는 건 어떤 가설을 세운다는 의미입니다. 즉, 우리가 예측하고 싶어하는 값을 도출하기 위한 Key Factor를 상상의 나래로 정해봅시다.
    먼저 저는 상위 10위에 들어가는 코인 지갑의 코인 보유량이 전체 시장을 움직인다는 가설 아래 그것을 KeyFactor로 보고 해당 데이터를 수집해보겠습니다.

  2. 크롤링할 서버 선정하기
    Mac은 기본적으로 bash shell을 제공하고 있고 Windows10부터도 개발자 모드로 Bash Shell을 설치할 수 있으므로 간편하게 Linux서버를 설치하고 구동할 수 있으나, 상시로 PC를 켜야하고 노트북의 경우 이동성이 필요하므로 Cloud를 활용하는게 좋겠습니다. 1년간 무료로 사용할 수 있는 AWS EC2를 선택합니다.
    AWS의 계정을 만들고 EC2서버를 생성합니다.

  3. 파이썬 환경 구축하기
    선택한 환경에 맞는 파이썬을 설치합니다.
    파이썬은 "점프 투 파이썬"이라는 사이트에서 설치부터 문법까지 자세히 알려주고 있으므로 참고하시면 좋을 것 같습니다.
    https://wikidocs.net/8

  4. 코딩하기
    vi 에디터를 열어 크롤링할 사이트의 특정 데이터를 크롤링하는 로직을 코딩합니다.
    제가 선택한 정보를 가져올 사이트는 https://etherscan.io/입니다.
    https://etherscan.io/tokens로 들어가시면 이더리움 이외에도 각종 토큰들의 Contract, 원장데이터들을 모두 찾아볼 수 있습니다.
    python.png

로직을 해석해보시면 아시겠지만 매우 단순한 전제를 가지고 코딩하였습니다.

이제 크롤링한 데이터를 외부에서도 열어볼 수 있게 Apache서버를 설치하고 php 코딩을 간단히 합니다.

php.png

웹서버로 접근해서 데이터를 가져올 수도 있겠지만 FileZilla도구( ftp)를 이용한 파일 전송을 이용할 수도 있습니다.

이후 크롤링한 데이터 분석은 다음 편에서 진행하겠습니다. ^^

Sort:  

크롤링이라는건 처음 알았네요.
매우 어려운듯한 내용이지만 분석에 유용할것 같습니다.
다음 포스팅 기대합니다

다음편이 기대 됩니다~^^