주제: Ubuntu booting USB로 우분투 설치하기 작성: 2023-04-22 Part 1 - 맥북 또는 윈도우에서 진행 우분투 다운로드 우분투 부팅 usb 준비 Etcher 설치 및 실행 Part 2 - 서버 또는 고사양 PC에서 진행 파티션 분할 우분투 부팅 usb 연결 및 부팅하고 부팅되는 도중에 F12을 통해서 BIOS 진입 우분투 설치 해당 과정은 Part 2으로, 본인이 부팅USB로 우분투를 설치하고자하는 서버 및 PC에서 작업을 진행해야합니다. Part 1 - 2023.04.22 - [✔ Python/Dev] - Etcher로 쉽게 우분투 Ubuntu 부팅 USB 만들기 Etcher로 쉽게 우분투 Ubuntu 부팅 USB 만들기 주제: 우분투 부팅 USB 만들기 작성: 2023-04-..
주제: 우분투 부팅 USB 만들기 작성: 2023-04-22 난생처음으로 우분트 부팅 USB 만들고 멀티부팅 설정하느라 1시간 이상 걸린 거 같지만, 막상 한번 해보니까 별거 없다는 생각이 듭니다. 기록으로 남길 겸 한번 해본 사람으로서, 시간을 최소화하면서 우분투 부팅 USB 만드는 방법 공유하도록 하겠습니다. Part 1 - 맥북 또는 윈도우에서 진행 우분투 다운로드 우분투 부팅 usb 준비 Etcher 설치 및 실행 Part 2 - 서버 또는 고사양 PC에서 진행 파티션 분할 우분투 부팅 usb 연결 및 부팅하고 부팅되는 도중에 F12을 통해서 BIOS 진입 우분투 설치 해당 과정은 Part 1으로, 현재 본인이 사용하는 맥북 또는 윈도우에서 작업을 진행해야합니다. 1. 우분투 다운로드 본인이 서버..
주제: 맥북으로 QGIS 다운로드 및 설치하는 방법작성: 2023-04-21맥북사양: 맥북프로14 [M1 max] QGIS 버젼: 3.30.1-'s-Hertogenbosch1. QGIS - Quantum Geographic Information SystemQGIS는 FOSS - Free and Open Source Software를 기반으로 만든 전문 GIS 응용 프로그램입니다. 가장 큰 장점은 리눅스, 유닉스, 맥 OS, 윈도우, 안드로이드 등 다양한 운영체제에서 동작하며, 수많은 벡터, 래스터, 데이터베이스 포맥 및 기능을 지원하며 무료라는 점입니다. QGIS는 지리정보 데이터를 손쉽게 볼 수 있는 툴입니다.2. QGIS 다운로드그렇다면, 설치에 앞서 QGIS 설치파일을 다운받도록 하겠습니다.설치파일..
주제: 리스트 값 데이터 합치기 작성: 2023-03-11 만약 3과목(언어, 수학, 영어)시험결과를 과목별로 4명의 학생(A,B,C,D) 순서대로 값을 가지고 있는 리스트가 있다고 해봅시다. 하지만, 과목의 평균이 아닌, 학생별 평균이 궁금해서 데이터셋을 변경하려고 한다면 어떻게 할 수 있을까요? 값이 많지않으니 단순하게 직접 값을 이동해서 평균을 구해볼 수 있을 수 있습니다. 하지만, 학생수가 4명이 아니라 100명이라면, 또는 과목이 3개 아닌 더 많은 과목이라면 여러분은 이를 쉽게 계산할 수 있을까요? 의도 위에서 언급한 내용들을 도식화해보도록 하겠습니다. 현재, 필자가 가지고 있는 데이터는 좌측(왼쪽) 그림과 같습니다. 과목별로 4명의 학생(A,B,C,D) 순서대로 값을 가지고 있습니다. 하지만..
주제: 랜덤포레스트 작성: 2023-03-04 버젼: ① python : 3. 9.13 ② pandas : 1. 4. 4 ③ sklearn : 1. 1. 1 데이터: Pima Indians Diabetes Database 앙상블의 학습법은 Voting(보팅), Bagging(배깅), Boosting(부스팅), 스태킹(Stacking) 등의 방식이 있습니다. 이 중 보팅과 배깅은 여러 개의 분류리를 통해 투표를 하고 최종 예측 결과를 결정하는 방식입니다. 다만, 보팅은 각각의 분류기에서 서로 다른 알고리즘으로 결합하지만, 배깅은 데이터 샘플링만 다르게 가져가서 같은 알고리즘 분류기를 통해서 학습하는 방식입니다. 후자인 배깅방식으로 활용하는 대표적인 알고리즘은 랜덤포레스트입니다. 이번 포스팅에서는 랜덤포레스..
주제: 결정트리 실습 작성: 2023-03-03 데이터: Pima Indians Diabetes Database 버젼: ① python : 3. 9.13 ② pandas : 1. 4. 4 ③ sklearn : 1. 1. 1 안녕하세요, wscode 루카스입니다. 본 포스팅은 「파이썬 머신러닝 완벽가이드」 의 독학한 내용을 기반으로 하고 있습니다. 사용하게 될 Pima Indians Diabetes Database 데이터는 로지스틱 회귀알고리즘을 적용 시, 더 높은 정확도가 나오나, 결정트리의 사용법을 익히기 위해 해당 알고리즘을 사용함을 사전에 알려드립니다. 1. 데이터 준비 Pima Indians Diabetes Database 데이터는 측정을 기반으로 환자의 당뇨병 여부를 진단하기위한 데이터입니다. ..
주제: 파이썬 자료형 변환 작성: 2023-03-03 안녕하세요, wscode 루카스입니다. 파이썬의 자료형 변환은 자주 사용하는 기술입니다. 주로 변환하는 형태는 5가지입니다. int float str chr bool 1. int( ) - 정수형 정수를 의미하는 integer의 앞의 3글자만 따온 것으로, 실수형(float) 및 불리언(bool) 자료형으로 변환 가능합니다. data = 15.0 int(data) ## 결과값 : 15 int(False) ## 결과값 : 0 int(True) ## 결과값 : 1 2. float( ) - 실수형 실수를 의미하는 float로, 정수형(int) 및 불리언(bool) 자료형으로 변환 가능합니다. data = 14.5 float(data) ## 결과값 : 14 f..
주제: TypeError : 'int' object is not callable 작성: 2023-03-02 코드 예시 시험결과의 값을 input으로 받아 시험점수의 최댓값과 총합계를 구하는 경우 score = input() my_score = list(map(int, score.split())) max = max(my_score) # 오류발생 sum = sum(my_score) # 오류발생 위의 코드를 돌리는 경우, TypeError가 발생합니다. 그 이유는 max 및 sum이라는 변수명은 파이썬의 예약어로 중복되기 때문입니다. 이런 경우에는 아래와 같이 다른 변수명으로 변경하면 코드가 문제없이 돌아가게 됩니다. score = input() my_score = list(map(int, score.spli..
주제: python version 확인작성: 2023-03-01 (2024-06-28)안녕하세요, 개발자 루카스입니다.파이썬으로 라이브러리 관리를 하다 보면, 종종 기 설치된 파이썬의 어떤 버전인지 확인이 필요할 때가 있습니다.이를 확인하는 방법은 매우 간단하지만, 자주 사용하지 않다 보니 그 방법을 자주 까먹고 하곤 합니다.그래서, 버전을 확인하는 방법 2가지를 공유하고자합니다.1. 명령 프롬프트/터미널에서 확인하는 방법아래와 같은 명령어만 기입하면 확인이 가능합니다.python --version ## 방법 1-1python -V ## 방법 1-2 2. Jupyter notebook(주피터노트북)에서 확인하는 방법sys 활용하여 파이썬 버전 확인import syssys.version ..
샘플사이즈가 커질수록 표본평균이 흩어지는 정도가 작아져서 모평균에 가깝게 모인다. 더불어 샘플사이즈가 커질수록 표본평균의 표준편차가 작아지는 것을 확인 할 수 있음. 죽, 샘풀사이즈를 크게하면 흩어짐이 적은 신뢰할 수 있는 표본평균을 구할수 있다, 표준오차(Standard Error) \[ 표준오차 = \frac{\sigma}{\sqrt{N}} \] 불편분산을 사용하면 편향이 사라진다. 아예 사라지는건 아니지만, 모분산으로 간주해도 좋을 만큼으로 변경된다. 더불어 샘플사이즈가 크면 불편분산은 모분산에 가까워진다. 불편성과 일치성의 개념 불편성 추정량의 기대값이 진짜 모수가 되는 특성 이는 평균을 냈을때도 과대 또는 과소가 되지않는 다는 뜻이며, 이는 곧 편향이 없는 추정량이라는 의미임 일치성 샘플사이즈가..
1변량 데이터 하나의 변량(종류)만 있는 데이터를 1변량 데이터라고 합니다. 기본적인 통계량 기본적인 통계용어들을 익히도록 하겠습니다 총합(sum) 평균값(average) 표본분산 - 표본평균을 사용하여 분산을 계산한 값 수식 : \[\sigma^2 =\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2\] 불편분산 - 표본분산의 과소추정 경향을 보정하기 위한 개념, 불편분산 수식 : \[\sigma^2 =\frac{1}{N-1} \sum_{i=1}^N (x_i - \mu)^2 \] 표준편차 표준화 - 데이터의 평균을 0으로, 표준편차(분산)을 1로 하는 변환을 표준화라고합니다. 가량 키의 1cm와 몸무게 1kg간격의 차이는 동일한 것을 의미하지않기때문입니다. 이와 같은 표준화를 하는 이..
불편 분산 ? 불편분산은 표본분산이 모분산(모집단의 분산)에 비해 분산을 과소평가하면서 이를 보정하기 위해 나온 개념입니다. 분산을 계산하기위해서는 사전에 평균값을 알고 있어야합니다. 하지만, 표준평균값은 표본에서 구한 값입니다. 다시말해, 모집단의 평균값과는 당연히 그 차이가 발생하게 됩니다. 모평균과 차이가 있는 표본평균을 사용하여 표본분산을 예측하다보니 모분산 추정에 비약이 발생하게 됩니다. 불편 분산 계산식 \[ \sigma^2 =\frac{1}{N-1} \sum_{i=1}^N (x_i - \mu)^2 \] 분모가 n-1이 되어 조금 작아지기때문에 표본분산보다 더 살짝 큰 값을 가지게됩니다. 왜 분산이 과소평가 된다고 하는 걸까요? 과소평가되는 부분은 예시를 통해서 설명하도록 하겠습니다(그래야 이..