일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 농촌진흥청
- join
- 딥러닝
- 유사도
- Python
- report lab
- group by
- 주식가격
- minmaxscaling
- solvesql
- psycopg
- 데이터
- SQL
- 평가지표
- postgres sql
- 데이터분석
- 스마트팜
- 생육
- MAPE
- 스마트팜코리아
- Programmers
- DTW
- netron
- 농정원
- ML
- 숫자 짝꿍
- 농림수산식품교육문화정보원
- Algorithm
- Pivot Table
- rmse
- Today
- Total
목록ML (4)
Positive-Influence-Data

❗ 본 포스팅은 AI-Tech Interview의 질문을 바탕으로 공부한 내용을 정리한 것입니다. Q. 정규화를 왜 해야 할까요? 정규화의 방법은 무엇이 있나요? ▷ 정규화(Nomalization) 각 변수를 동일하게 스케일링하는 것을 의미한다. □ Min-Max Scaling 대표적인 방법으로 최대, 최소를 기준으로 0~1 사이로 값을 고정하는 방법(Min-Max Scaling)이 있다. 데이터의 분포는 바뀌지 않고 스케일만 0~1로 바뀌기 때문에 이상치가 있다면 그것의 영향을 받게 된다. 위를 보면 분포는 같은데 X축의 스케일만 달라진 것을 확인 할 수 있다. □ Robust Scaling 이상치의 영향을 덜 받는 Robust Scaling이 있다. 이것은 4분 위수 IQR로 ..

Q.딥러닝을 배우면 모델 설계를 하게 되는데 이걸 직관적으로 표현하는 방법은 무엇?보통 이런 의문이 든다.필자가 딥러닝이라는 것을 배울때는 아래와 같이 텐서플로, 케라스의 모델 시각화(plot_model)기능으로 시각화를 했었다. 간단하고 직관적으로 표현되었다는 느낌이 들었고 학부생 과제를 할 때 유용하게 사용했다.처음에 들어가는 데이터가 어떤 Shape이어야하는지를 파악할 때 편했고 각 레이어를 통과하면서 어떤 Shape으로 변화하는지 잘 알 수 있었다. 하지만 필자는 회사를 다니게 되면서 조금더 윗 분들은 복잡한 내용보다는 조금더 직관적이고 이쁘고 알기 쉽게 시각화하기를 원하는 경우가 많았고 이를 위해 더 많은 자료를 찾던중 Netron이라는 것을 발견하게 되었다. Q. Netron은 무엇인가? 그리..
❗ Ray를 활용해서 데이터프레임을 분산/병렬처리 해보자. 대용량의 데이터를 다루다보면 데이터 처리하는 시간이 많이 걸릴 때가 있다. 필자 역시 일을 하면서 경험했었고 실제로 “병렬로 데이터를 처리하면 훨씬 빠르게 처리 할 수 있지 않을까?” 라는 생각을 했던적이 있다. 특히, 가용가능한 CPU와 GPU가 있는데 이것들의 사용량을 보면 제대로 활용하지 못하고 있다는 생각이 들었다. 그래서 한정된 자원에서 최대한 효율을 내려고 병렬처리를 할 수 있는 Python 라이브러리를 찾아보는 계기가 되었다. Python에서는 주로 Multiprocessing을 많이 사용하고 그 다음으로 Ray를 많이 사용하는 것으로 파악된다. 필자는 ML/DL환경에서도 쉽게 사용할 수 있는 Ray를 사용하기로 했다. Ray는 py..

❗ 본 포스팅은 AI-Tech Interview의 질문을 바탕으로 공부한 내용을 정리한 것입니다. Q. 알고 있는 metric에 대해 설명해주세요. ex) RMSE, MAE, recall, precision ... Metric은 크게 회귀(Regression)과 분류(Classification)으로 나누어서 이야기 할 수 있습니다. 이번에 공부한 내용은 회귀에 관한 metric이다. 회귀(Regression)에 대해 알아보자. 회귀는 간단하게 어떤 데이터가 위의 그림처럼 퍼져있으면 그 데이터를 적절하게 설명하는 선을 찾는 것을 이야기한다. 저기 위에 있는 주황색 포인트가 실제값들이고 예측값이라고 되어있는 선이 회귀선이다. 그리고 회귀선과 실제값들의 차이를 오차라고 한다. 그렇다면 우리가 해야하는 머신러닝..