이번 포스팅은 SQL 코딩테스트 연습, 실무 연습 등을 할 때 필요한 환경을 구축하고, 실제로 SQL 코드를 작성해보는데 목적이 있다. 많은 사람들이 SQL은 연습해보고 싶은데, 마땅히 할 환경도 모르고, 코딩테스트로는 한계가 있어서 답답함을 느낀다. 이번에 포스팅에는 Bigquery에서 내가 원하는 데이터와 코드를 마음대로 그리고 무료로 작성할 수 있는 환경을 소개하고자 한다.
1. Bigquery Public Dataset (공개 데이터셋) 찾기
이 포스팅에 앞서서 Bigquery 프로젝트 설정을 해야 한다. 만약 하지 않았다면, 이전 포스팅을 참고해서 반드시 환경 설정을 해주고 오길 바란다.
(1) Bigquery에서 데이터 추가하기
- Bigquery에서 Public Dataset을 찾기
- 순서 정리: 데이터 추가 → 공개 데이터셋 찾기 → 원하는 데이터 선택하기
이렇게 하면 원하는 데이터를 언제든지 찾을 수 있다. 다만 공개 데이터셋 리스트가 총 236개나 되기 때문에 어떤 데이터를 선택할지 막막할 수 있다.
하단의 내용에 실무에 맞는, 혹은 자신의 실력 수준에 맞는 데이터셋 4~5개를 소개하고자 한다. 끝까지 포스팅을 읽으면 분명히 원하는 데이터를 찾을 수 있을 것이다.
- 순서 정리: 데이터 추가 → 공개 데이터셋 찾기 → 원하는 데이터 선택하기
step1. 검색창에 "google"이라고 검색 |
Step2. "검색 범위를 모든 프로젝트로 넓히기"로 클릭 |
Step3. "클릭하여 고정"하기 설정 |
- Public Dataset 고정하기 - 위 사진 참조
- 데이터셋은 한 번 찾았다고 자동으로 고정되는 것이 아니다. 만약 고정하지 않으면 매번 찾아서 들어가야 하는 번거로움이 있다. 은근 쉬운 것 같으면서도, 빅쿼리를 처음 접하는 사람에게는 스트레스가 될 수 있어서 내용을 정리한다.
- 따라서 데이터셋 옆에 보이는 Pin 이모티콘을 클릭하여 원하는 데이터셋을 고정하도록 하자.
여기까지 왔다면, 이제 원하는 데이터셋만 고르기만 하면 된다. 데이터셋을 추천할 때는 자신의 SQL 실력 + 실무 난이도에 맞게 선택하길 권장한다.
그리고 공개 데이터셋은 위에 말했듯 200개가 넘어가기 때문에 다른 데이터셋을 찾아보는 것도 추천한다.
2. 대표 Public Dataset 소개 및 난이도에 맞는 것 찾기
(1) E-commerce 실전 데이터 셋 분석 - Google Analytics Sample Data
- 데이터셋 난이도: 상
- E-commerce 웹사이트 주소 - URL
- Dataset의 장단점
- 장점
- E-commerce의 100% 실무를 경험해볼 수 있는 데이터셋
- 데이터 구조, 다양한 Query, 실제 분석 Report 작성 등 모든 데이터 분석 프로세스 경험 가능
- 단점
- 난이도가 어려워 처음 접하는 사람들에게는 다소 어려울 수 있음
- 아무리 검색해도 관련 Query나 자료를 찾기 힘들어 혼자서 모든 문제를 해결해야 함
- 장점
- 사람들에게 추천!!
- Google Analytics, Google Tag Manager에 대해서 사전 지식이 있는 사람
- UNNEST, Group by 등 SQL 함수에 대해 사전 지식이 있는 사람
- 이력서에 실전 관련 경험 및 포트폴리오를 구성하고 싶은 사람
- 혼자보다는 다양한 사람이 모여 스터디할 수 있는 환경에 있는 모임
(2) 전세계 코로나 데이터 - About COVID-19 Public Datasets
- 데이터 셋 난이도: 중
- 테이블 이름: covid19_open_data
- Dataset의 장단점
- 장점
- 관련 프로젝트가 넘쳐나서, 데이터 시각화 및 분석 벤치마킹하기 좋은 데이터셋
- 자료구조가 복잡하지 않아, 원하는 데이터만 정리하면 난이도가 그렇게 어렵지 않음
- 단점
- 데이터셋 사이즈가 너무 커서, Query 리소스를 많이 잡아먹는다.
- 스키마 구조가 깔끔하지 않아, 초기에 이해하는데 어려움이 있다.
- 장점
- 사람들에게 추천!!
- 다양한 데이터 시각화를 연습하고 싶은 사람
- Python, Google Spreasheet 등 다양한 Tool과 연동 연습하고 싶은 사람
- SQL 실력을 하 → 중으로 높이고 싶은 사람
(3) 구글 트렌드 직접 구현해보자 - Google Trends Datasets
- 데이터 셋 난이도: 중
- 테이블 이름: google_trends.테이블 이름
- Dataset의 장단점
- 장점
- 기본적인 시각화를 연습할 수 있는 가장 좋은 데이터셋
- 스키마 구조가 가장 단순해서 원하는 테이블 하나 잡고 연습할 수 있음
- 단점
- 키워드가 관심이 없거나, 이해할 수 없는 것들이 많아서 흥미가 떨어질 수 있다.
- 데이터 셋 사이즈가 방대한 편이라 Query 리소스 관리를 잘 해야 한다.
- 장점
- 사람들에게 추천!!
- 데이터 시각화 기본적인 연습해보기
- 기초적인 SQL 연습하고 싶은 사람
(4) 주의 사항 - Query 당 리소스 확인하면서 연습하기
✅ 구글 빅쿼리 요금 기본 가이드
Bigquery는 사용한 Query 리소스에 따라 과금하는 형식이다. 구글 공식 가이드 상 1TB 당 5 ~ 6,000원 정도 과금하는 구조이다.
프로젝트 초기에는 일정 사용량까지는 무료로 사용 가능하지만, 그 이후에는 과금을 하기 때문에 항상 자기가 얼마나 리소스를 쓰고 있는지, 앞으로 얼마나 쓸 것인지 유념하면서 Query를 구성하여야 한다.
요금 관련하여 더 자세한 사항은 항상 공식 안내 사항을 잘 참고해야 한다. ( URL 주소 )
✅ Query 리소스 확인 방법
내가 작성한 Query 리소스를 확인할 수 있는 방법은 위의 이미지와 같이 확인할 수 있다. 그래서 자신이 결제한 요금제 범위에 따라 적절하게 구성하야 할 것이다.
Query 리소스 사용량을 절약하거나 효율적으로 사용할 수 있는 방법에 대해서는 다른 포스팅에서 다루고자 한다.
'SQL - Mysql & Oracle > SQL 실무에 적용하기' 카테고리의 다른 글
[Bigquery] SQL로 N번째 값 가져오기(feat. 첫번째 및 마지막 값) (0) | 2022.12.03 |
---|---|
[빅쿼리] LEAD와 LAG로 이전값 이후값을 동시에 분석하기 (0) | 2022.11.10 |
[Bigquery] SQL로 Loop과 While 반복문 제어하기(feat. 절차적 코드) (0) | 2022.10.26 |
Python과 Bigquery 1분만에 연동하기 (0) | 2022.10.12 |
[Bigquery] Big Query로 SQL 마스터 - 1. 프로젝트 설정하기 (0) | 2022.06.11 |