Python 19

Tableau Desktop: 대시보드 수정 및 고찰 (Before, After 비교)

지난번에 제작한 대시보드에 대한 피드백을 얻고자 데이터 분석 커뮤니티에 포스트를 공유하였다.(예상 외로) 많은 분들이 피드백을 해주셔서 이를 바탕으로 대시보드를 수정하고 전/후 비교를 통해 공부해보고자 한다. 이번 포스트에서는,피드백을 바탕으로 대시보드 수정하기수정 후 나아진 점 생각해보기 (왜 이렇게 수정해야 했을까?)변경된 대시보드를 보고 함의점 생각해보기 1. Before지난번에 제작한 대시보드 '서울 내 범죄 발생 현황' 은 다음과 같다.해당 대시보드에 대하여 몇 가지 피드백을 받은 후 전체적으로 문제가 있다고 생각이 되어 수정을 하고자 한다. 2. Feedback받은 피드백들을 바탕으로 해결한 것과 해결하지 못한 것에 대해 서술해보고자 한다.1) 유형별 발생건수 정렬가나다순으로 되어 있는 바 차..

Skills/Tableau 2024.05.03

Matplotlib: 라인 차트와 파이 차트 그리기

이번 포스트에서 Python의 기본적인 시각화 라이브러리인 Matplotlib를 이용하여 파이 차트를 그려볼 예정이다. 사용할 예제 데이터는 다음과 같다. 연도별 외식 소비 요일별 외식 소비 두 테이블을 가지고 라인 차트와 파이 차트를 만들어보고자 한다. 1. 라이브러리 실행 작업에 필요한 라이브러리를 실행해준다. 그리고 본격적으로 시작하기 전 필요한 작업들을 수행해준다. (경고 메세지 무시, 한글 깨짐 방지) # 필요한 패키지 실행하기. import pandas as pd import numpy as np import matplotlib import matplotlib.pyplot as plt # 경고 메세지 무시하기. import warnings warnings.filterwarnings('ignor..

Skills/Python 2024.04.06

Matplotlib: 이중 막대 그래프 그리기 (feat. 그래프 위에 값 표시)

이번 포스트에서 Python의 기본적인 시각화 라이브러리인 Matplotlib를 이용하여 이중 막대 그래프를 그려볼 예정이다. 사용할 예제 데이터는 다음과 같다. 여성 이용자의 연령별 카드이용건수가 가장 높은 분야 남성 이용자의 연령별 카드이용건수가 가장 높은 분야 두 테이블을 활용하여 남녀 연령별 카드 이용건수가 가장 높은 분야를 이중 막대그래프로 표현해보고자 한다. 1. 라이브러리 실행 먼저 작업에 필요한 패키지들을 실행해준다. 참고로 코드를 출력할 때마다 경고 메세지가 나오는 것이 신경쓰인다면, 아래와 같이 입력해주면 된다. # 작업에 필요한 라이브러리 실행하기. import pandas as pd import numpy as np import matplotlib import matplotlib.p..

Skills/Python 2024.04.06

신한카드 데이터 분석 4: 데이터 시각화와 회고 with Python, Tableau

이번 포스트에서는, 두 가지 방식으로 테이블 시각화 해보기 1️⃣ Python 2️⃣ Tableau 프로젝트를 진행하면서 부족했던 점을 돌아보며 회고하기 프로젝트 초기에 세 가지 질문을 설정해 두었다. 그러나 3번 질문을 해결하는 과정에서, 설정한 항목 중 백화점, 면세점, 실외골프/스키, 시계/귀금속에 대해서 이용건수가 조회되지 않았음. 과시소비 경향을 확인할 만큼의 표본 수가 존재하지 않기 때문에 판단에 어려움이 있다고 보았음. 그러므로 1번과 2번 결과에 대해서만 시각화를 진행할 예정이다. 시각화는 Python과 Tableau 두 가지 방식으로 시도해보고자 한다. 1. Python을 이용한 데이터 시각화 1) 수도권 지역의 성별 및 연령대별 소비 분야에 어떠한 차이가 있는가? 시작하기에 앞서, 시각..

Toy Projects 2024.04.05

신한카드 데이터 분석 3: 질문에 대한 답을 찾는 과정 with PyCharm

이번 포스트에서는, 프로젝트 초반에 설정햇던 질문에 대한 답 찾아보기 조회된 결과에 대해 나름의 분석과 의미 찾기 프로젝트 초반에 설정해 두었던 질문은 다음과 같다. 성별 및 연령별 소비 분야에 대해 어떠한 차이가 있는가? 요일별 외식 소비에 차이가 있는가? MZ세대의 과시소비(백화점, 골프, 호텔) 경향 확인해보기 질문에 대한 답을 찾기에 앞서, 중간 정리 단계가 필요하다고 생각하였다. 해당 데이터는 서울/경기에 주로 집중되어 있음. (수도권 과밀화로 인한 것으로 추정) 수도권 지역과 지방의 소비 패턴 비교, 국내외 소비 패턴 비교까지 한다면 범위가 방대해질 것으로 보았음. 수도권으로 한정하여 이용자들의 소비 패턴을 분석하고자 함. 설정한 질문들은 모두 개인 소비에 대한 것임. 개인/법인 분류 컬럼을 ..

Toy Projects 2024.04.04

신한카드 데이터 분석 2.2: 전처리 과정을 통해 데이터 파악하기 with DataGrip

이번 포스트에서는, 국내 이용자들에 이어서 국외 이용자들의 집단별 카드이용금액과 카드이용건수 조회 국내외 이용자들의 매출액 테이블과 업종별 분류 코드 테이블 JOIN 더 구체적인 그룹화를 통한 데이터 파악 1. 국외 이용자들의 카드이용건수와 카드이용금액 조회하기 1) 국가별 카드 이용금액과 이용건수 합계 미국의 카드 이용금액과 이용건수가 압도적으로 높은 것을 확인. 일본의 경우 이용금액이 낮은 편이지만 이용건수는 다른 국가들보다 높은 편임을 알 수 있음. # (국외) 국가별 카드이용금액과 카드이용건수 SELECT `국가별(COUNTRY_ENG_NM)`, SUM(`카드이용금액계(AMT_CORR)`) AS '카드이용액', SUM(`카드이용건수(USECT_CORR)`) AS '카드이용건수' FROM sales..

Toy Projects 2024.03.26

신한카드 데이터 분석 0: 준비 단계

프로젝트를 시작하기 전, 지금까지 Python, SQL을 배워보았으니 이 기술들을 활용하여 데이터를 분석하는 경험이 필요하다고 생각 데이터 분석을 통해 몰랐던 부분을 알게 되거나, 이미 예상하고 있었던 경향을 확인함으로써 또 다른 공부를 하기 위해 시작 내가 생각하는 데이터 분석 과정 데이터 수집 데이터 전처리 데이터 분석 분석 결과 도출 데이터 시각화 문제 해결 및 함의점 제공 내가 사용하고자 하는 분석 스킬과 툴 💻 데이터 전처리 및 분석 - MySQL, Python 📊 데이터 시각화 - Tableau 분석 툴은 DateGrip과 Pycharm 사용할 예정 프로젝트 주제 평소 상품 구매 데이터 예제를 가지고 공부했기에 '사람들의 실제 소비 내역을 볼 수 있는' 데이터를 분석하고 싶다는 생각을 했다. ..

Toy Projects 2024.03.15

[학위논문] 데이터 분석 결과가 보여주는 결론 및 함의점

본 시리즈는 제 석사학위논문을 바탕으로 합니다. Python으로 통계 분석을 하고 사후검정을 하는 것도 중요하지만 도출된 결과에서 의미를 찾는 과정 또한 중요하다. 1. 연구의 결론 본 연구는, 인공지능 기술이 다양한 분야로 확산되고 있음을 확인 향후 인간의 인지 과정 즉, 상대방에게 진심을 전달하는 과정에도 인공지능 개입이 일어나는 상황을 고찰해보는 것에서부터 출발 인공지능과 상호작용이 일상화된 사회에서 '인간의 주체성과 책임감을 잃지 않으면서 이용성을 확대할 수 있는 방안'을 찾고자 함 본 연구의 주요 결과는 다음과 같다. ☝🏻 결과물이 실패일 때 참여수준이 높은 집단에서 행위주체감과 내적 귀인이 강하게 형성된다. 결과물이 이용자 의도와 달리 실패한 상황에도 이용자 참여수준이 높으면 행위주체감과 내적..

Skills/Python 2024.03.14

프로그래머스: 노선별 평균 역 사이 거리 조회하기 (MySQL)

1. 문제 2. 문제 풀기 전에, SUBWAY_DISTANCE 👉🏻 노선, 총 누계 거리, 평균 역 사이 거리 조회 1) 노선 별 그룹화 2) 총 누계 거리는 소수 둘째 자리에서, 평균 역 사이 거리는 소수 셋째 자리에서 반올림 3) ‘km’ 단위 붙이기 총 누계 거리 DESC 문자열을 합체 및 연결해 주는 CONCAT 함수 생각하기 3. 테이블 SUBWAY_DISTANCE 4. 풀이 과정 1단계) 총 누계 거리는 역 사이의 거리의 총합을 의미하는데, SUM() 함수를 이용하여 총합을 계산해 준다. 그리고 AVG() 함수를 이용하여 평균 역 사이의 거리를 계산해 준다. 계산한 두 값은 ROUND() 함수를 이용하여 소수 둘째 자리와 소수 셋째 자리에서 반올림 해준다. SELECT ROUTE, ROUND(..

Skills/SQL 2024.03.12

프로그래머스: 연도별 평균 미세먼지 농도 조회하기 (MySQL)

1. 문제 2. 문제 풀기 전 생각해 볼 것 AIR_POLLUTION 👉🏻 연도, 평균 미세먼지 오염도, 초미세먼지 오염도 조회 1) 수원 지역으로 한정하기 2) 연도 별 그룹화하기 3) 평균 미세먼지, 초미세먼지 오염도는 소수 셋째 자리에서 반올림 YEAR ASC 값을 반올림하여 출력해 주는 ROUND 함수의 개념과 작성 방식 생각하기 3. 테이블 AIR_POLLUTION 4. 풀이 과정 1단계) 특정 지역으로 한정해서 조회를 해야 하니 WHERE절을 통해 ‘수원’만 조회하는 조건을 추가해 준다. SELECT FROM AIR_POLLUTION WHERE LOCATION2 = '수원' 2단계) YEAR()함수를 이용하여 컬럼 YM에서 연도만 추출해 준다. 그리고 AVG() 함수를 통해 미세먼지와 초미세먼..

Skills/SQL 2024.03.12