1변량 데이터 하나의 변량(종류)만 있는 데이터를 1변량 데이터라고 합니다. 기본적인 통계량 기본적인 통계용어들을 익히도록 하겠습니다 총합(sum) 평균값(average) 표본분산 - 표본평균을 사용하여 분산을 계산한 값 수식 : \[\sigma^2 =\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2\] 불편분산 - 표본분산의 과소추정 경향을 보정하기 위한 개념, 불편분산 수식 : \[\sigma^2 =\frac{1}{N-1} \sum_{i=1}^N (x_i - \mu)^2 \] 표준편차 표준화 - 데이터의 평균을 0으로, 표준편차(분산)을 1로 하는 변환을 표준화라고합니다. 가량 키의 1cm와 몸무게 1kg간격의 차이는 동일한 것을 의미하지않기때문입니다. 이와 같은 표준화를 하는 이..
전체보기
불편 분산 ? 불편분산은 표본분산이 모분산(모집단의 분산)에 비해 분산을 과소평가하면서 이를 보정하기 위해 나온 개념입니다. 분산을 계산하기위해서는 사전에 평균값을 알고 있어야합니다. 하지만, 표준평균값은 표본에서 구한 값입니다. 다시말해, 모집단의 평균값과는 당연히 그 차이가 발생하게 됩니다. 모평균과 차이가 있는 표본평균을 사용하여 표본분산을 예측하다보니 모분산 추정에 비약이 발생하게 됩니다. 불편 분산 계산식 \[ \sigma^2 =\frac{1}{N-1} \sum_{i=1}^N (x_i - \mu)^2 \] 분모가 n-1이 되어 조금 작아지기때문에 표본분산보다 더 살짝 큰 값을 가지게됩니다. 왜 분산이 과소평가 된다고 하는 걸까요? 과소평가되는 부분은 예시를 통해서 설명하도록 하겠습니다(그래야 이..
주제: Matplotlib stylesheet 종류 및 적용 작성: 2023-02-11 안녕하세요, wscode 루카스입니다. Matplotlib는 파이썬에서 정적, 애니메이션 및 대화형 시각화를 생성하기 위한 포괄적인 라이브러리입니다. 또한, Matplotlib.pyplot은 스크립트 또는 IPython 셸에서 플로팅을 위한 편리한 인터페이스를 제공하는 matplotlib의 하위 라이브러리입니다. 이는 NumPy와 함께 자주 사용되며 배열 및 그림을 그리기 위한 기능을 제공합니다. 예를 들어 matplotlib.pyplot을 사용하여 선 플롯, 산점도, 막대 그래프, 오류 막대, 히스토그램, 막대 차트, 원형 차트, 상자 그림 등을 그릴 수 있습니다. 사용가능한 plt.style 확인하는 방법 impo..
·Info
안녕하세요, WSCODE 루카스입니다. 요즘 가장 핫한 키워드인 ChatGPT에 대해 소개하고자 합니다. 목차 1. 정의 : 대체 ChatGPT가 뭔데 다들 난리야? 2. 적용분야 : 그래서 어떤 분야에 적용할 수 있는데? 3. 사용법 : 오케이.. 그럼 사용하는 방법은? 4. 활용법 : 조금 더 실용적으로 사용하는 방법은 없나? 1. 대체 ChatGPT가 뭔데 다들 난리야? Chat Generative Pretrained Transformer(이하, ChatGPT)는 OpenAI에서 개발한 AI 대화형 언어 모델입니다. 방대한 양의 텍스트 데이터에 대해 학습되어 다양한 질문과 프롬프트에 대해 사람과 유사한 응답을 생성하는 딥러닝 기술이 적용되었습니다. 이는 사용자가 필요한 정보를 찾고 자연어 대화에 참..
·Info
안녕하세요, wscode 루카스입니다. 오늘의 기술은 디지털 트윈입니다. 배경설명 최근, 전 세계적으로 기후변화로 인해 이전과는 전혀 다른 기후패턴을 맞이하고 있습니다. 그 단적인 예로 한국의 경우, 북극의 한파로 인한 극한의 추위 및 폭우가 발생하였습니다. 아울러 인접국가인 중국의 경우에도 1961년 이래 최악의 가뭄과 폭염을 기록과 동시에 같은 해에 기록적인 강수로 풍수해 피해까지 겪고 있습니다. 이와 같은 풍수해와 같은 재해방지를 위해서는 피해빈도가 높은 지역에 관측기구를 설치하여 관측하는 점관측 또는 지점관측방법을 활용하여 실시간으로 모니터링할 수 있습니다. 하지만, 이는 특정 지점에서 관측된 값이다 보니 그 주변지역의 대표한다고 말하기에는 비약이 있습니다. 이해를 돕기 위해 예시를 들어보겠습니다..
주제: Graphviz 설치 오류 작성: 2023-02-07 버전: graphviz : 0.16 Graphviz는 AT&T 랩스 리서치가 시작한 오픈 소스 도구 패키지로, 스크립트로 지정된 그래프를 그리기 위해 만들어졌습니다. 해당 패키쥐는 그래프 서술언어(DOT) 확장자인 gv 또는 dot 파일을 읽어 그래프를 시각화를 지원합니다. 응용 소프트웨어가 도구를 사용할 수 있도록 라이브러리 또한 제공한다. Graphviz는 이클립스 퍼블릭 라이선스에 의해 허가된 자유 소프트웨어이며, 2007년 이전의 마이크로소프트 워드 버전에 사용된 dot 확장자와의 혼동을 피하기 위해 gv 확장자를 주로 사용하고 있습니다 (출처-위키백과). 파이썬에서 라이브러리 설치는 간단합니다. pip install graphviz 다..
주제: 타이타닉 생존자 예측하기 작성: 2023-02-05 활용데이터: https://www.kaggle.com/competitions/titanic/data 안녕하세요, WSCODE 루카스입니다. 사이킷런으로 수행하는 타이타닉 생존자 예측해보도록 하겠습니다. 1. 데이터 다운로드 우선, 데이터확보가 필요합니다. 데이터는 kaggle 제공하는 타이타닉 생존자 데이터를 활용하도록 하겠습니다. 하단의 링크를 클릭하시면, 데이터의 간략한 설명 및 각 레이블이 의미하는 값이 무엇인지 설명되어 있습니다. https://www.kaggle.com/competitions/titanic/data 혹시라도 귀찮으신분들은 데이터파일 참보하였으니 다운로드하셔서 진행하시면 됩니다. 1. 전체 소스코드 우선 전체 소스코드입니다..
주제: 사이킷런으로 시작하는 머신러닝 작성: 2023-02-04 버젼: pandas 1.4.4 / sklearn 1.1.1 활용데이터: 붓꽃 데이터(from sklearn.datasets import load_iris) 안녕하세요, 루카스입니다. 오늘은 파이썬 머신러닝으로 가장 많이 활용되는 라이브러리, 사이킷런(scikit-learn)을 소개합니다. 우선, 머신러닝이란? 학습을 위해서 다양한 피처와 분류결정값인 레이블 데이터를 모델로 학습한 뒤, 별도의 테스트를 통해서 미지의 레이블을 예측 및 분류하는 것 방법입니다. 다시말해, 지도학습은 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식입니다. 머신러닝은 크게 지도학습(supervised Learning)과 비지도학습으로 나눠..
주제 : 데이터 인덱싱 작성 : 2023-02-05 버젼 : pandas 1.4.4 (버젼 확인방법 : pd.__version__ ) 파이썬을 하다보면 데이터셋(Dataset)에서 원하는 데이터값 또는 특정범위의 데이터 추출이 필요할 때가 있습니다. 현재 가능한 인덱싱 방법은 2가지입니다. .loc .iloc .ix (.ix is deprecated) - 현재 .ix는 더이상 지원하지않기때문에, .ix 대신하는 방법으로 .loc 활용하면 됩니다. 그럼, 하나씩 파보도록 하겠습니다. 1. .loc (=location) .loc는 label 또는 boolean으로 인덱싱하는 방법은 라벨값으로 특정 값들을 골라오는 방법입니다. 문법 : df.loc[row index value, col index value] ..
주제: 행과 열 구별하기 작성: 2023-02-02 안녕하세요, WSCODE 루카스입니다. 4x3 행렬이 왼쪽인지 오른쪽인지 아직도 헷갈리신다면, 해당 글을 읽고 나면 더 이상은 헷갈릴 일이 없으실 겁니다. 1. 행과 열 행과 열은 정형화된 데이터의 위치를 수치적으로 표현할 수 있는 가장 좋은 방법입니다. 아울러, 공학적으로 복잡한 연립방정식의 풀이를 간편히 하기위해 간단하게 처리하기위해 행렬을 사용하고 있습니다. 이는 데이터 관련 종사자 외에도 프로그래밍 언어를 사용하는 사람들이라면 피할수 없는 개념입니다. 우선, 필자의 경우, 종종 영문과 한문의 매칭이 잘 안되고있습니다. 이러한 혼란을 막기 위해, 필자는 주로 영문으로만 사용하고 있습니다. 행 : 가로, Row 열 : 세로, Column, Col 2..
주제: 도표 중첩하여 표출 작성: 2023-01-27 활용데이터: KOSIS ➡️ 인구 ➡️ 1. 연령 및 성별인구 - 시군구 (자료갱신일 :2017-08-31) 안녕하세요, WSCODE 루카스입니다. 오늘은 데이터를 시각화는 방법으로 자주 사용되면서 가장 익숙한 방법, 도표 그리기입니다. 1. 소스 코드 전체 소스코드부터 보도록 하겠습니다. # IMPORT RELEVANT LIBRARY AND PACKAGES import pandas as pd import matplotlib.pyplot as plt # THE SOLUTION FOR KOREAN COMPATIBILITY plt.rcParams['font.family'] ='AppleGothic' plt.rcParams['axes.unicode_minu..
·Info
주제: 데이터 시각화 교과서 작성일: 2023.01.25. 버젼: 2020년 2월 20일 초판 1쇄 1. 데이터 시각화 교과서 1.1. 책 특징 데이터를 가지고 해당 데이터의 특성을 파악하는 데이터 분석만큼이나 데이터 시각화도 중요하다고 생각하는 1인입니다. 데이터 시각화로 인해, 발표자의 의도가 더욱 잘 표현되기도하고 또는 그와 반대로 오해를 불러일으키기도 합니다. 그렇기에 데이터시각화는 데이터를 그래픽으로 표출하는 예술가적 특성과 과학적인 특성을 모두 보유하고 있습니다. 해당 도서는 데이터 시각화에 대한 기본적인 개념 및 아이디어를 얻고자하는 분들에게 알맞는 도서라고 생각이 듭니다.하지만, 기존의 시각화 소프트웨어 또는 프로그래밍의 라이브러리를 활용하여 직접 도표를 만드는 방법을 소개하는 도서는 아니..