✔ Python
-
주제: python version 확인 작성: 2023-03-01 안녕하세요, wscode 루카스입니다. 파이썬으로 라이브러리 관리를 하다 보면, 종종 기설치된 파이썬의 어떤 버전인지 확인이 필요할때가 있습니다. 이를 확인하는 방법은 매우 간단하지만, 자주 사용하지않다보니 그 방법을 자주 까먹고 하곤 합니다. 그래서, 버전을 확인하는 방법 2가지를 공유하고자합니다. 1. 명령 프롬프트/터미널에서 확인하는 방법 아래와 같은 명령어만 기입하면 확인이 가능합니다. python --version ## 방법 1-1 python -V ## 방법 1-2 2. Jupyter notebook(주피터노트북)에서 확인하는 방법 sys 활용하여 파이썬 버전 확인 import sys sys.version # 결과값 '3.9.1..
[Python] 설치된 Python 버전 확인하는 2가지 방법주제: python version 확인 작성: 2023-03-01 안녕하세요, wscode 루카스입니다. 파이썬으로 라이브러리 관리를 하다 보면, 종종 기설치된 파이썬의 어떤 버전인지 확인이 필요할때가 있습니다. 이를 확인하는 방법은 매우 간단하지만, 자주 사용하지않다보니 그 방법을 자주 까먹고 하곤 합니다. 그래서, 버전을 확인하는 방법 2가지를 공유하고자합니다. 1. 명령 프롬프트/터미널에서 확인하는 방법 아래와 같은 명령어만 기입하면 확인이 가능합니다. python --version ## 방법 1-1 python -V ## 방법 1-2 2. Jupyter notebook(주피터노트북)에서 확인하는 방법 sys 활용하여 파이썬 버전 확인 import sys sys.version # 결과값 '3.9.1..
2023.03.01 -
샘플사이즈가 커질수록 표본평균이 흩어지는 정도가 작아져서 모평균에 가깝게 모인다. 더불어 샘플사이즈가 커질수록 표본평균의 표준편차가 작아지는 것을 확인 할 수 있음. 죽, 샘풀사이즈를 크게하면 흩어짐이 적은 신뢰할 수 있는 표본평균을 구할수 있다, 표준오차(Standard Error) \[ 표준오차 = \frac{\sigma}{\sqrt{N}} \] 불편분산을 사용하면 편향이 사라진다. 아예 사라지는건 아니지만, 모분산으로 간주해도 좋을 만큼으로 변경된다. 더불어 샘플사이즈가 크면 불편분산은 모분산에 가까워진다. 불편성과 일치성의 개념 불편성 추정량의 기대값이 진짜 모수가 되는 특성 이는 평균을 냈을때도 과대 또는 과소가 되지않는 다는 뜻이며, 이는 곧 편향이 없는 추정량이라는 의미임 일치성 샘플사이즈가..
간단한 통계 개념 정리샘플사이즈가 커질수록 표본평균이 흩어지는 정도가 작아져서 모평균에 가깝게 모인다. 더불어 샘플사이즈가 커질수록 표본평균의 표준편차가 작아지는 것을 확인 할 수 있음. 죽, 샘풀사이즈를 크게하면 흩어짐이 적은 신뢰할 수 있는 표본평균을 구할수 있다, 표준오차(Standard Error) \[ 표준오차 = \frac{\sigma}{\sqrt{N}} \] 불편분산을 사용하면 편향이 사라진다. 아예 사라지는건 아니지만, 모분산으로 간주해도 좋을 만큼으로 변경된다. 더불어 샘플사이즈가 크면 불편분산은 모분산에 가까워진다. 불편성과 일치성의 개념 불편성 추정량의 기대값이 진짜 모수가 되는 특성 이는 평균을 냈을때도 과대 또는 과소가 되지않는 다는 뜻이며, 이는 곧 편향이 없는 추정량이라는 의미임 일치성 샘플사이즈가..
2023.02.14 -
1변량 데이터 하나의 변량(종류)만 있는 데이터를 1변량 데이터라고 합니다. 기본적인 통계량 기본적인 통계용어들을 익히도록 하겠습니다 총합(sum) 평균값(average) 표본분산 - 표본평균을 사용하여 분산을 계산한 값 수식 : \[\sigma^2 =\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2\] 불편분산 - 표본분산의 과소추정 경향을 보정하기 위한 개념, 불편분산 수식 : \[\sigma^2 =\frac{1}{N-1} \sum_{i=1}^N (x_i - \mu)^2 \] 표준편차 표준화 - 데이터의 평균을 0으로, 표준편차(분산)을 1로 하는 변환을 표준화라고합니다. 가량 키의 1cm와 몸무게 1kg간격의 차이는 동일한 것을 의미하지않기때문입니다. 이와 같은 표준화를 하는 이..
1변량 & 다변량 데이터 및 시각화 방안(with python)1변량 데이터 하나의 변량(종류)만 있는 데이터를 1변량 데이터라고 합니다. 기본적인 통계량 기본적인 통계용어들을 익히도록 하겠습니다 총합(sum) 평균값(average) 표본분산 - 표본평균을 사용하여 분산을 계산한 값 수식 : \[\sigma^2 =\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2\] 불편분산 - 표본분산의 과소추정 경향을 보정하기 위한 개념, 불편분산 수식 : \[\sigma^2 =\frac{1}{N-1} \sum_{i=1}^N (x_i - \mu)^2 \] 표준편차 표준화 - 데이터의 평균을 0으로, 표준편차(분산)을 1로 하는 변환을 표준화라고합니다. 가량 키의 1cm와 몸무게 1kg간격의 차이는 동일한 것을 의미하지않기때문입니다. 이와 같은 표준화를 하는 이..
2023.02.13 -
불편 분산 ? 불편분산은 표본분산이 모분산(모집단의 분산)에 비해 분산을 과소평가하면서 이를 보정하기 위해 나온 개념입니다. 분산을 계산하기위해서는 사전에 평균값을 알고 있어야합니다. 하지만, 표준평균값은 표본에서 구한 값입니다. 다시말해, 모집단의 평균값과는 당연히 그 차이가 발생하게 됩니다. 모평균과 차이가 있는 표본평균을 사용하여 표본분산을 예측하다보니 모분산 추정에 비약이 발생하게 됩니다. 불편 분산 계산식 \[ \sigma^2 =\frac{1}{N-1} \sum_{i=1}^N (x_i - \mu)^2 \] 분모가 n-1이 되어 조금 작아지기때문에 표본분산보다 더 살짝 큰 값을 가지게됩니다. 왜 분산이 과소평가 된다고 하는 걸까요? 과소평가되는 부분은 예시를 통해서 설명하도록 하겠습니다(그래야 이..
불편분산은 왜 n-1로 나누지?불편 분산 ? 불편분산은 표본분산이 모분산(모집단의 분산)에 비해 분산을 과소평가하면서 이를 보정하기 위해 나온 개념입니다. 분산을 계산하기위해서는 사전에 평균값을 알고 있어야합니다. 하지만, 표준평균값은 표본에서 구한 값입니다. 다시말해, 모집단의 평균값과는 당연히 그 차이가 발생하게 됩니다. 모평균과 차이가 있는 표본평균을 사용하여 표본분산을 예측하다보니 모분산 추정에 비약이 발생하게 됩니다. 불편 분산 계산식 \[ \sigma^2 =\frac{1}{N-1} \sum_{i=1}^N (x_i - \mu)^2 \] 분모가 n-1이 되어 조금 작아지기때문에 표본분산보다 더 살짝 큰 값을 가지게됩니다. 왜 분산이 과소평가 된다고 하는 걸까요? 과소평가되는 부분은 예시를 통해서 설명하도록 하겠습니다(그래야 이..
2023.02.12 -
주제: Matplotlib stylesheet 종류 및 적용 작성: 2023-02-11 안녕하세요, wscode 루카스입니다. Matplotlib는 파이썬에서 정적, 애니메이션 및 대화형 시각화를 생성하기 위한 포괄적인 라이브러리입니다. 또한, Matplotlib.pyplot은 스크립트 또는 IPython 셸에서 플로팅을 위한 편리한 인터페이스를 제공하는 matplotlib의 하위 라이브러리입니다. 이는 NumPy와 함께 자주 사용되며 배열 및 그림을 그리기 위한 기능을 제공합니다. 예를 들어 matplotlib.pyplot을 사용하여 선 플롯, 산점도, 막대 그래프, 오류 막대, 히스토그램, 막대 차트, 원형 차트, 상자 그림 등을 그릴 수 있습니다. 사용가능한 plt.style 확인하는 방법 impo..
[Python] Matplotlib stylesheet 종류 및 적용주제: Matplotlib stylesheet 종류 및 적용 작성: 2023-02-11 안녕하세요, wscode 루카스입니다. Matplotlib는 파이썬에서 정적, 애니메이션 및 대화형 시각화를 생성하기 위한 포괄적인 라이브러리입니다. 또한, Matplotlib.pyplot은 스크립트 또는 IPython 셸에서 플로팅을 위한 편리한 인터페이스를 제공하는 matplotlib의 하위 라이브러리입니다. 이는 NumPy와 함께 자주 사용되며 배열 및 그림을 그리기 위한 기능을 제공합니다. 예를 들어 matplotlib.pyplot을 사용하여 선 플롯, 산점도, 막대 그래프, 오류 막대, 히스토그램, 막대 차트, 원형 차트, 상자 그림 등을 그릴 수 있습니다. 사용가능한 plt.style 확인하는 방법 impo..
2023.02.11 -
주제: Graphviz 설치 오류 작성: 2023-02-07 버전: graphviz : 0.16 Graphviz는 AT&T 랩스 리서치가 시작한 오픈 소스 도구 패키지로, 스크립트로 지정된 그래프를 그리기 위해 만들어졌습니다. 해당 패키쥐는 그래프 서술언어(DOT) 확장자인 gv 또는 dot 파일을 읽어 그래프를 시각화를 지원합니다. 응용 소프트웨어가 도구를 사용할 수 있도록 라이브러리 또한 제공한다. Graphviz는 이클립스 퍼블릭 라이선스에 의해 허가된 자유 소프트웨어이며, 2007년 이전의 마이크로소프트 워드 버전에 사용된 dot 확장자와의 혼동을 피하기 위해 gv 확장자를 주로 사용하고 있습니다 (출처-위키백과). 파이썬에서 라이브러리 설치는 간단합니다. pip install graphviz 다..
[오류] No module named 'graphviz' in Jupyter Notebook주제: Graphviz 설치 오류 작성: 2023-02-07 버전: graphviz : 0.16 Graphviz는 AT&T 랩스 리서치가 시작한 오픈 소스 도구 패키지로, 스크립트로 지정된 그래프를 그리기 위해 만들어졌습니다. 해당 패키쥐는 그래프 서술언어(DOT) 확장자인 gv 또는 dot 파일을 읽어 그래프를 시각화를 지원합니다. 응용 소프트웨어가 도구를 사용할 수 있도록 라이브러리 또한 제공한다. Graphviz는 이클립스 퍼블릭 라이선스에 의해 허가된 자유 소프트웨어이며, 2007년 이전의 마이크로소프트 워드 버전에 사용된 dot 확장자와의 혼동을 피하기 위해 gv 확장자를 주로 사용하고 있습니다 (출처-위키백과). 파이썬에서 라이브러리 설치는 간단합니다. pip install graphviz 다..
2023.02.07 -
주제: 타이타닉 생존자 예측하기 작성: 2023-02-05 활용데이터: https://www.kaggle.com/competitions/titanic/data 안녕하세요, WSCODE 루카스입니다. 사이킷런으로 수행하는 타이타닉 생존자 예측해보도록 하겠습니다. 1. 데이터 다운로드 우선, 데이터확보가 필요합니다. 데이터는 kaggle 제공하는 타이타닉 생존자 데이터를 활용하도록 하겠습니다. 하단의 링크를 클릭하시면, 데이터의 간략한 설명 및 각 레이블이 의미하는 값이 무엇인지 설명되어 있습니다. https://www.kaggle.com/competitions/titanic/data 혹시라도 귀찮으신분들은 데이터파일 참보하였으니 다운로드하셔서 진행하시면 됩니다. 1. 전체 소스코드 우선 전체 소스코드입니다..
[머신러닝] 타이타닉 생존자 예측하기주제: 타이타닉 생존자 예측하기 작성: 2023-02-05 활용데이터: https://www.kaggle.com/competitions/titanic/data 안녕하세요, WSCODE 루카스입니다. 사이킷런으로 수행하는 타이타닉 생존자 예측해보도록 하겠습니다. 1. 데이터 다운로드 우선, 데이터확보가 필요합니다. 데이터는 kaggle 제공하는 타이타닉 생존자 데이터를 활용하도록 하겠습니다. 하단의 링크를 클릭하시면, 데이터의 간략한 설명 및 각 레이블이 의미하는 값이 무엇인지 설명되어 있습니다. https://www.kaggle.com/competitions/titanic/data 혹시라도 귀찮으신분들은 데이터파일 참보하였으니 다운로드하셔서 진행하시면 됩니다. 1. 전체 소스코드 우선 전체 소스코드입니다..
2023.02.06 -
주제: 사이킷런으로 시작하는 머신러닝 작성: 2023-02-04 버젼: pandas 1.4.4 / sklearn 1.1.1 활용데이터: 붓꽃 데이터(from sklearn.datasets import load_iris) 안녕하세요, 루카스입니다. 오늘은 파이썬 머신러닝으로 가장 많이 활용되는 라이브러리, 사이킷런(scikit-learn)을 소개합니다. 우선, 머신러닝이란? 학습을 위해서 다양한 피처와 분류결정값인 레이블 데이터를 모델로 학습한 뒤, 별도의 테스트를 통해서 미지의 레이블을 예측 및 분류하는 것 방법입니다. 다시말해, 지도학습은 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식입니다. 머신러닝은 크게 지도학습(supervised Learning)과 비지도학습으로 나눠..
[머신러닝] 사이킷런으로 시작하는 머신러닝주제: 사이킷런으로 시작하는 머신러닝 작성: 2023-02-04 버젼: pandas 1.4.4 / sklearn 1.1.1 활용데이터: 붓꽃 데이터(from sklearn.datasets import load_iris) 안녕하세요, 루카스입니다. 오늘은 파이썬 머신러닝으로 가장 많이 활용되는 라이브러리, 사이킷런(scikit-learn)을 소개합니다. 우선, 머신러닝이란? 학습을 위해서 다양한 피처와 분류결정값인 레이블 데이터를 모델로 학습한 뒤, 별도의 테스트를 통해서 미지의 레이블을 예측 및 분류하는 것 방법입니다. 다시말해, 지도학습은 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식입니다. 머신러닝은 크게 지도학습(supervised Learning)과 비지도학습으로 나눠..
2023.02.06 -
주제 : 데이터 인덱싱 작성 : 2023-02-05 버젼 : pandas 1.4.4 (버젼 확인방법 : pd.__version__ ) 파이썬을 하다보면 데이터셋(Dataset)에서 원하는 데이터값 또는 특정범위의 데이터 추출이 필요할 때가 있습니다. 현재 가능한 인덱싱 방법은 2가지입니다. .loc .iloc .ix (.ix is deprecated) - 현재 .ix는 더이상 지원하지않기때문에, .ix 대신하는 방법으로 .loc 활용하면 됩니다. 그럼, 하나씩 파보도록 하겠습니다. 1. .loc (=location) .loc는 label 또는 boolean으로 인덱싱하는 방법은 라벨값으로 특정 값들을 골라오는 방법입니다. 문법 : df.loc[row index value, col index value] ..
[Python] 데이터 인덱싱_.ix/.loc/.iloc주제 : 데이터 인덱싱 작성 : 2023-02-05 버젼 : pandas 1.4.4 (버젼 확인방법 : pd.__version__ ) 파이썬을 하다보면 데이터셋(Dataset)에서 원하는 데이터값 또는 특정범위의 데이터 추출이 필요할 때가 있습니다. 현재 가능한 인덱싱 방법은 2가지입니다. .loc .iloc .ix (.ix is deprecated) - 현재 .ix는 더이상 지원하지않기때문에, .ix 대신하는 방법으로 .loc 활용하면 됩니다. 그럼, 하나씩 파보도록 하겠습니다. 1. .loc (=location) .loc는 label 또는 boolean으로 인덱싱하는 방법은 라벨값으로 특정 값들을 골라오는 방법입니다. 문법 : df.loc[row index value, col index value] ..
2023.02.05 -
주제: 행과 열 구별하기 작성: 2023-02-02 안녕하세요, WSCODE 루카스입니다. 4x3 행렬이 왼쪽인지 오른쪽인지 아직도 헷갈리신다면, 해당 글을 읽고 나면 더 이상은 헷갈릴 일이 없으실 겁니다. 1. 행과 열 행과 열은 정형화된 데이터의 위치를 수치적으로 표현할 수 있는 가장 좋은 방법입니다. 아울러, 공학적으로 복잡한 연립방정식의 풀이를 간편히 하기위해 간단하게 처리하기위해 행렬을 사용하고 있습니다. 이는 데이터 관련 종사자 외에도 프로그래밍 언어를 사용하는 사람들이라면 피할수 없는 개념입니다. 우선, 필자의 경우, 종종 영문과 한문의 매칭이 잘 안되고있습니다. 이러한 혼란을 막기 위해, 필자는 주로 영문으로만 사용하고 있습니다. 행 : 가로, Row 열 : 세로, Column, Col 2..
[Python] 행과 열주제: 행과 열 구별하기 작성: 2023-02-02 안녕하세요, WSCODE 루카스입니다. 4x3 행렬이 왼쪽인지 오른쪽인지 아직도 헷갈리신다면, 해당 글을 읽고 나면 더 이상은 헷갈릴 일이 없으실 겁니다. 1. 행과 열 행과 열은 정형화된 데이터의 위치를 수치적으로 표현할 수 있는 가장 좋은 방법입니다. 아울러, 공학적으로 복잡한 연립방정식의 풀이를 간편히 하기위해 간단하게 처리하기위해 행렬을 사용하고 있습니다. 이는 데이터 관련 종사자 외에도 프로그래밍 언어를 사용하는 사람들이라면 피할수 없는 개념입니다. 우선, 필자의 경우, 종종 영문과 한문의 매칭이 잘 안되고있습니다. 이러한 혼란을 막기 위해, 필자는 주로 영문으로만 사용하고 있습니다. 행 : 가로, Row 열 : 세로, Column, Col 2..
2023.02.02 -
주제: 도표 중첩하여 표출 작성: 2023-01-27 활용데이터: KOSIS ➡️ 인구 ➡️ 1. 연령 및 성별인구 - 시군구 (자료갱신일 :2017-08-31) 안녕하세요, WSCODE 루카스입니다. 오늘은 데이터를 시각화는 방법으로 자주 사용되면서 가장 익숙한 방법, 도표 그리기입니다. 1. 소스 코드 전체 소스코드부터 보도록 하겠습니다. # IMPORT RELEVANT LIBRARY AND PACKAGES import pandas as pd import matplotlib.pyplot as plt # THE SOLUTION FOR KOREAN COMPATIBILITY plt.rcParams['font.family'] ='AppleGothic' plt.rcParams['axes.unicode_minu..
[Python] 도표 중첩주제: 도표 중첩하여 표출 작성: 2023-01-27 활용데이터: KOSIS ➡️ 인구 ➡️ 1. 연령 및 성별인구 - 시군구 (자료갱신일 :2017-08-31) 안녕하세요, WSCODE 루카스입니다. 오늘은 데이터를 시각화는 방법으로 자주 사용되면서 가장 익숙한 방법, 도표 그리기입니다. 1. 소스 코드 전체 소스코드부터 보도록 하겠습니다. # IMPORT RELEVANT LIBRARY AND PACKAGES import pandas as pd import matplotlib.pyplot as plt # THE SOLUTION FOR KOREAN COMPATIBILITY plt.rcParams['font.family'] ='AppleGothic' plt.rcParams['axes.unicode_minu..
2023.01.27 -
주제: 점프 투 파이썬 작성: 17th January, 2023 안녕하세요, wscode 루카스입니다. 근 3년 만에 파이썬을 다시 시작하게 되어 파이썬 기초부터 훑고 있습니다. 이에 '점프 투 파이썬' 독학하면서 잊고 있던 개념들 또는 알고 있으면 편리한 내용들을 정리해 봤습니다. 1. 파이썬 독학자료 선택 1.1. 점프 투 파이썬(https://wikidocs.net/742) 머신러닝과 인공지능의 화도가 됨에 따라 '파이썬'의 인기도 급상승하고 있습니다. 더불어, 다양한 파이썬 공부자료들이 웹상에 존재합니다. 다만, 기초를 쌓는 과정에 중구난방으로 한 사이트에서 공부를 하다가 다른 사이트가 좋아 보인다고 넘어가다 보면 그 기초체계 잡는데 소요시간이 길어지게됩니다. 그렇기 때문에 파이썬을 처음 접하는 ..
[Python] 점프투파이썬(기초) 정리주제: 점프 투 파이썬 작성: 17th January, 2023 안녕하세요, wscode 루카스입니다. 근 3년 만에 파이썬을 다시 시작하게 되어 파이썬 기초부터 훑고 있습니다. 이에 '점프 투 파이썬' 독학하면서 잊고 있던 개념들 또는 알고 있으면 편리한 내용들을 정리해 봤습니다. 1. 파이썬 독학자료 선택 1.1. 점프 투 파이썬(https://wikidocs.net/742) 머신러닝과 인공지능의 화도가 됨에 따라 '파이썬'의 인기도 급상승하고 있습니다. 더불어, 다양한 파이썬 공부자료들이 웹상에 존재합니다. 다만, 기초를 쌓는 과정에 중구난방으로 한 사이트에서 공부를 하다가 다른 사이트가 좋아 보인다고 넘어가다 보면 그 기초체계 잡는데 소요시간이 길어지게됩니다. 그렇기 때문에 파이썬을 처음 접하는 ..
2023.01.16