본문 바로가기

SQL - Mysql & Oracle/SQL 실무에 적용하기

[Bigquery] Big Query로 SQL 마스터 - 2. 공개 데이터셋 소개

반응형

이번 포스팅은 SQL 코딩테스트 연습, 실무 연습 등을 할 때 필요한 환경을 구축하고, 실제로 SQL 코드를 작성해보는데 목적이 있다. 많은 사람들이 SQL은 연습해보고 싶은데, 마땅히 할 환경도 모르고, 코딩테스트로는 한계가 있어서 답답함을 느낀다. 이번에 포스팅에는 Bigquery에서 내가 원하는 데이터와 코드를 마음대로 그리고 무료로 작성할 수 있는 환경을 소개하고자 한다. 

 

 

1. Bigquery Public Dataset (공개 데이터셋) 찾기

 

이 포스팅에 앞서서 Bigquery 프로젝트 설정을 해야 한다. 만약 하지 않았다면, 이전 포스팅을 참고해서 반드시 환경 설정을 해주고 오길 바란다.

 

(1) Bigquery에서 데이터 추가하기

Bigquery에서 데이터 추가하기
Bigquery에서 데이터 추가하기

 

 

  • Bigquery에서 Public Dataset을 찾기
    • 순서 정리: 데이터 추가 → 공개 데이터셋 찾기 → 원하는 데이터 선택하기
      이렇게 하면 원하는 데이터를 언제든지 찾을 수 있다. 다만 공개 데이터셋 리스트가 총 236개나 되기 때문에 어떤 데이터를 선택할지 막막할 수 있다. 

      하단의 내용에 실무에 맞는, 혹은 자신의 실력 수준에 맞는 데이터셋 4~5개를 소개하고자 한다. 끝까지 포스팅을 읽으면 분명히 원하는 데이터를 찾을 수 있을 것이다. 

 


step1. 검색창에 "google"이라고 검색

검색 범위를 모든 프로젝트로 넓히기

 

 
Step2. "검색 범위를 모든 프로젝트로 넓히기"로 클릭
 

Step3. "클릭하여 고정"하기 설정

 

  • Public Dataset 고정하기 - 위 사진 참조
    • 데이터셋은 한 번 찾았다고 자동으로 고정되는 것이 아니다. 만약 고정하지 않으면 매번 찾아서 들어가야 하는 번거로움이 있다. 은근 쉬운 것 같으면서도, 빅쿼리를 처음 접하는 사람에게는 스트레스가 될 수 있어서 내용을 정리한다. 
    • 따라서 이터셋 옆에 보이는 Pin 이모티콘을 클릭하여 원하는 데이터셋을 고정하도록 하자. 

 

 

 

여기까지 왔다면, 이제 원하는 데이터셋만 고르기만 하면 된다. 데이터셋을 추천할 때는 자신의 SQL 실력 + 실무 난이도에 맞게 선택하길 권장한다. 

 

그리고 공개 데이터셋은 위에 말했듯 200개가 넘어가기 때문에 다른 데이터셋을 찾아보는 것도 추천한다. 

 

 

 

반응형

2. 대표 Public Dataset 소개 및 난이도에 맞는 것 찾기

(1) E-commerce 실전 데이터 셋 분석 - Google Analytics Sample Data

  • 데이터셋 난이도: 상
  • E-commerce 웹사이트 주소 - URL
 

Home

Imagine a fully recycled cotton fabric, free of dyes and chemicals, void of microplastics, that uses no water in the fiber production. We know, it sounds too good to be true, but it’s a reality with Everywhere Apparel. Sustainability is truly the fiber o

shop.googlemerchandisestore.com

Google Analytics 웹사이트
Google Analytics E-commerce 웹사이트

  • Dataset의 장단점
    • 장점
      • E-commerce의 100% 실무를 경험해볼 수 있는 데이터셋
      • 데이터 구조, 다양한 Query, 실제 분석 Report 작성 등 모든 데이터 분석 프로세스 경험 가능
    • 단점
      • 난이도가 어려워 처음 접하는 사람들에게는 다소 어려울 수 있음
      • 아무리 검색해도 관련 Query나 자료를 찾기 힘들어 혼자서 모든 문제를 해결해야 함
  • 사람들에게 추천!!
    • Google Analytics, Google Tag Manager에 대해서 사전 지식이 있는 사람
    • UNNEST, Group by 등 SQL 함수에 대해 사전 지식이 있는 사람
    • 이력서에 실전 관련 경험 및 포트폴리오를 구성하고 싶은 사람
    • 혼자보다는 다양한 사람이 모여 스터디할 수 있는 환경에 있는 모임

 

 

(2) 전세계 코로나 데이터 - About COVID-19 Public Datasets

 

  • 데이터 셋 난이도: 중
  • 테이블 이름: covid19_open_data

Covid Open Data
Covid Open Dataset

  • Dataset의 장단점
    • 장점
      • 관련 프로젝트가 넘쳐나서, 데이터 시각화 및 분석 벤치마킹하기 좋은 데이터셋
      • 자료구조가 복잡하지 않아, 원하는 데이터만 정리하면 난이도가 그렇게 어렵지 않음
    • 단점
      • 데이터셋 사이즈가 너무 커서, Query 리소스를 많이 잡아먹는다.
      • 스키마 구조가 깔끔하지 않아, 초기에 이해하는데 어려움이 있다.
  • 사람들에게 추천!!
    • 다양한 데이터 시각화를 연습하고 싶은 사람
    • Python, Google Spreasheet 등 다양한 Tool과 연동 연습하고 싶은 사람
    • SQL 실력을 하 → 중으로 높이고 싶은 사람

 

 

 

 

(3) 구글 트렌드 직접 구현해보자 - Google Trends Datasets

 

  • 데이터 셋 난이도: 중
  • 테이블 이름: google_trends.테이블 이름

Google Trend Public Dataset
구글트렌드 공개 데이터셋

  • Dataset의 장단점
    • 장점
      • 기본적인 시각화를 연습할 수 있는 가장 좋은 데이터셋
      • 스키마 구조가 가장 단순해서 원하는 테이블 하나 잡고 연습할 수 있음
    • 단점
      • 키워드가 관심이 없거나, 이해할 수 없는 것들이 많아서 흥미가 떨어질 수 있다.
      • 데이터 셋 사이즈가 방대한 편이라 Query 리소스 관리를 잘 해야 한다. 
  • 사람들에게 추천!!
    • 데이터 시각화 기본적인 연습해보기
    • 기초적인 SQL 연습하고 싶은 사람

 

(4) 주의 사항 - Query 당 리소스 확인하면서 연습하기

 

✅ 구글 빅쿼리 요금 기본 가이드

Bigquery는 사용한 Query 리소스에 따라 과금하는 형식이다. 구글 공식 가이드 상 1TB 당 5 ~ 6,000원 정도 과금하는 구조이다.

 

프로젝트 초기에는 일정 사용량까지는 무료로 사용 가능하지만, 그 이후에는 과금을 하기 때문에 항상 자기가 얼마나 리소스를 쓰고 있는지, 앞으로 얼마나 쓸 것인지 유념하면서 Query를 구성하여야 한다. 

 

요금 관련하여 더 자세한 사항은 항상 공식 안내 사항을 잘 참고해야 한다. ( URL 주소 )

 

구글 빅쿼리 요금 가이드
구글 빅쿼리 요금 가이드

 

✅ Query 리소스 확인 방법

 

Query 사용 리소스 확인 방법
Query 사용 리소스 확인 방법

 

내가 작성한 Query 리소스를 확인할 수 있는 방법은 위의 이미지와 같이 확인할 수 있다. 그래서 자신이 결제한 요금제 범위에 따라 적절하게 구성하야 할 것이다.

 

Query 리소스 사용량을 절약하거나 효율적으로 사용할 수 있는 방법에 대해서는 다른 포스팅에서 다루고자 한다. 

반응형