서 언
우리나라 전체 화훼류 재배면적은 4,213ha이며, 이 중 절화류는 1,208ha에 이른다. 이 가운데 절화용 국화의 면적은 296ha로 화훼류 전체의 7%, 절화류의 24%를 차지하는 대표적인 화훼 품목이다(MAFRA 2024). 절화용 국화의 주요 시장 등급 지표는 절화의 길이(초장)이며, 주요 품질 요소는 주당 개화수이다(Kim et al. 2012). 시장 요구에 부합하는 절화용 국화를 생산하기 위해서는 재배시설의 내·외부 환경 변수와 작물 간 상호작용을 파악하고 영양생장과 생식생장의 균형을 고려한 생육관리가 중요하다.
최근 인공지능, 빅데이터 등 첨단 기술과 기존 산업 기술 간의 융복합을 통해 새로운 부가가치를 창출하고 있으며, 특히 기계학습(machine learning, 머신러닝)은 빅데이터와 함께 데이터 집약적 프로세스를 이해하는 핵심 기술로 인정받고 있다(Konstantinos et al. 2018). 농업 분야에서도 이미지 데이터를 이용한 작물의 병해충 예찰과 화훼 품질 분류 연구, 농산물 수확량 및 수급 예측 모델 개발 등 다양한 영역에서 머신러닝 기술이 활용되고 있다(Choi et al. 2023).
시설원예 분야에서는 작물의 재배 환경 및 생육 데이터를 활용하여 초장, 꽃수, 착과수와 같이 생산성과 직결되는 직·간접적인 요소들을 예측하는데 머신러닝 기법이 많이 이용되면서, 다양한 모델들이 함께 개발되고 있다. 월별 더미 변수(dummy variable)와 다중회귀분석, Random Forest, CatBoost 모델을 통해 계절 특성이 반영된 고추 초장 자동 예측의 가능성이 확인되었고(Cho et al. 2024), 기상 데이터를 다양한 머신러닝 모델에 적용하여 수증기압차(vapor pressure deficit, VPD)를 예측함으로써 내부에 별도의 환경 측정센서 설치 없이 온실 환경을 추정할 수 있음을 입증하였다(Ha et al. 2025). 더불어 순환 신경망 기반 딥러닝 모델을 활용한 토마토 수확량과 LAI 예측 성능 비교를 통해 최적 모델도 제안되었다(Noh et al. 2025).
본 연구에서는 국화 스마트팜 데이터를 활용하여 환경 요인에 따른 국화 생장 예측에 최적화된 모델을 도출하고자 하였다. 절화용 국화의 품질 평가에서 가장 중요한 요소는 개화수이지만, 농가에서 주로 만개 전에 출하하는 현실적 제약을 고려하여, 수집 가능한 초장과 분지수를 평가 요소로 설정하였다(Jeon 2019). 분석에 사용된 알고리즘은 단일 모델 8종과 앙상블 모델 5종으로 각 모델의 성능을 비교하였다.
재료 및 방법
실험 재료
본 연구는 2019년부터 2024년까지 경기도 안성, 이천, 파주지역의 6개 스마트팜 농가에서 재배된 절화용 국화를 대상으로 진행되었다. 대표성을 높이기 위해 표본은 온실 가장자리를 제외한 공간을 세 개의 그룹으로 나눈 후, 최소 6개체에서 최대 9개체를 선정하여 교차 배치하였다. 생육 데이터는 정식 2주차부터 작기 종료일까지 매주 1회 수집하였다. 국화는 하늘 방향으로 곧게 자라며 줄기가 가는 특성이 있으므로, 초장은 본 줄기의 지표면에서부터 생장점까지의 수직 거리를 소수 첫째 자리까지, 분지수는 지표로부터 30cm 이상에서 형성된 측지의 개수를 정수 자리로 측정하였다. 환경 데이터는 시설 내부의 온도, 상대습도(Relative Humidity, RH), 내부 투입 일사량 등으로 스마트팜 농가에 설치된 센서에서 1~15분 단위로 수집되었다.
데이터 처리
머신러닝 모델 학습을 위해서는 입력변수(feature)와 출력변수(target)의 개수가 일치해야 한다. 이를 위해 결측치 비율이 50% 이상인 환경 데이터를 생육 조사일 기준으로 주간 단위로 가공하여 생육 데이터와 결합하였다. 주차 별로 시설 내부 평균온도, RH, 투입 일사량을 계산하고, 주차 간의 값을 누적하여 누적 온도와 누적 일사량을 산정하였다. 또한 주간 평균 온도와 RH를 바탕으로 VPD 변수로 가공하였다. 월별 환경 변화를 반영하기 위해 매월에 해당하는 값을 참(true)으로 설정하고, 나머지는 거짓(false)으로 설정하여 월간 더미 변수를 생성하였다. 마지막으로, 결측치 비율이 50% 이상인 변수들을 제외하고, 입력 변수 간의 값 차이를 보정하기 위해 최소ㆍ최댓값을 기준으로 0과 1 사이의 값으로 치환하는 Min-Max 정규화를 적용하였다.
기계학습 모델
국화 생장 예측을 위한 최적 모델 선정을 위해, 단일 모델 8종과 앙상블 모델 5종을 포함한 13가지 모델을 사용하였다. 단일 모델로는 통계적 기법인 Linear Regression, Ridge Regression, Lasso Regression, ElasticNet Regression 모델(Friedman et al. 2010;Zou et al. 2005), 거리 기반의 K-Nearest Neighbors (KNN) 모델(Cover et al. 1967), 비선형 회귀 모델인 Support Vector Regression (SVR) (Drucker et al. 1997), 신경망 기반의 Neural Network(Hornik et al. 1989), 트리(Tree) 기반의 Decision Tree(Quinlan 1986)를 사용하였다. 앙상블 모델로는 트리와 배깅(Bagging) 기반의 Random Forest(Breiman 2001), 트리와 부스팅(Boosting) 기반의 XGBoost, AdaBoost, CatBoost(Choi et al. 2023), 다양한 모델을 혼합하는 Stacking 모델을 활용하였다. Stacking 모델에서는 Random Forest, XGBoost, CatBoost를 기본학 습자로 선택하고, 이들의 예측값을 메타 모델에서 결합하였다. 또한 전체 모델의 성능 최적화를 위해 Optuna 함수를 활용하여 하이퍼파라미터 튜닝을 수행하였다.
데이터 구성 및 지표 설정
모델 학습은 학습 데이터셋, 검증 데이터셋, 시험 데이터셋을 이용하여 진행되었으며, 데이터셋의 분할은 전체 데이터셋의 80%를 학습용으로, 20%를 시험용으로 사용하였다. 이때 사용된 시험 데이터셋은 외부 데이터가 아니라 동일한 실험환경에서 수집된 데이터 중 일부를 분할한 것으로, 모델의 재현성능을 평가하는 데 활용되었다. 또한, 학습 데이터를 k-fold cross-validation(k=5)을 통해 내부 검증을 실시하였다. 모델 성능평가는 모델의 설명력을 나타내는 R2, 평균 절대 오차(Mean Squared Error, MAE), 평균 제곱근 오차(Root Mean Squared Error, RMSE)를 사용하였다(Willmott & Matsuura. 2005;Chai et al. 2014).
결과 및 고찰
생육 및 환경 데이터 특성
수집된 28,143개의 원시 데이터는 1~15분 간격의 환경 데이터와 1주일 간격의 생육 데이터로 구성되어 있으며, 일부 농가에서는 일사량 센서 설치 시점이 달라 누락된 값이 존재하였다. 따라서 생육 정보가 존재하고 주요 환경 변수들이 누락 없이 수집된 구간만을 선별한 후, 생육과 환경 데이터를 정확히 매칭하기 위해 환경 데이터를 주차 단위로 평균 처리하였다. 이러한 전처리 과정을 통해 최종적으로 1,167개의 학습 데이터 셋을 구축하였으며, 이후 기술통계 분석을 통해 생육 및 환경 변수의 특성을 확인하였다(Table 1). 초장의 평균은 60.8cm, 최대 106.0cm, 최소 7.2cm였으며, 분지수는 평균 12.2개, 최대 110개, 최소 0개로 큰 분산을 보였다. 이는 국화의 생장 과정에 따른 정상적인 생리적 변화가 반영된 결과로 해석된다(Sun et al., 2022). 내부 온도는 평균 24.1℃, 표준편차 3.9℃로 일정한 범위 내에서 변동이 있었고, RH는 평균 81.8%, 표준편차 10.0%로 안정적인 값을 보였다. 반면, 내부 일사량은 평균 105.6W/㎡, 표준편차 70.3W/㎡로 큰 변동성을 보였다. 누적 내부 온도와 누적 내부 일사량은 각각 평균 169.8℃, 697.9W/㎡로, 누적된 환경 요인이 반영된 것을 확인할 수 있었다. VPD는 평균 562.4Pa, 최대 1440.9Pa로, 값이 큰 Pa 단위를 사용할 경우 모델이 변수의 세밀한 변화를 보다 잘 반영할 수 있어, 모델 민감도를 유지하기 위해 kPa 환산하지 않은 결과가 확인되었다. 월별 더미 변수를 만들기 위한 월간 변수의 평균은 6.7월, 중간값은 7월로, 국화의 주요 생육 시기인 여름철에 데이터가 집중된 것으로 나타났다.
생육-환경 상관성 기반 환경 변수 선정
초장, 분지수, 환경 변수 간의 상관관계를 분석하였다(Fig. 1). Fig. 1A는 각 변수 간의 피어슨 상관계수를 히트맵 형태로, Fig. 1B는 변수 간 산점도와 히스토그램, 피어슨 상관계수를 결합한 시각화 자료이다. 누적 내부 온도는 초장과 분지수와의 상관계수(R)가 각각 0.58, 0.35로 비교적 높은 양의 상관 관계를 보였다. 누적 내부 일사량도 초장과의 상관계수도 0.57로 높았으나, 내부 온도와 내부 일사량의 초장과의 상관계수는 각각 0.23, 0.072로 상대적으로 낮았다. 내부 RH는 초장과 분지수와의 상관계수는 각각 -0.033, -0.031, VPD의 경우 -0.051, -0.016으로 전반적으로 낮은 음의 상관관계를 보였다. 또한 산점도에서도 변수 간의 뚜렷한 선형성이 보이지 않는 분포가 관찰되어(Fig. 1B), 생육이 단기적인 환경 변화보다 누적된 요인에 더 영향을 받는다는 것을 확인하였다. 이러한 수치는 통계적으로 유의하지 않은 수준이지만, 반응의 방향성을 이해하는 데 참고하였다. 누적 내부 온도와 누적 내부 일사량은 생육 변수들과 양의 선형적 경향(Fig. 1B)과 높은 상관관계(Fig. 1A)를 보였으나, 다중공선성을 피하기 위해 온도와 RH의 상호작용을 반영한 VPD를 추가하였다. 이를 통해 누적 내부 온도, 누적 내부 일사량, VPD가 월간 더미변수와 함께 사용할 최종 변수로 선정되었다.
모델 성능 비교
단일 모델과 앙상블 모델을 사용하여 국화의 초장, 분지수, 초장과 분지수를 동시에 예측하는 모델을 학습하고 결과를 비교하였다(Table 2, Fig. 2). 초장이 분지수보다 상대적으로 높은 설명력(R2)을 보였으나, MAE, RMSE 오차에서도 큰 값을 나타냈다. 다중 출력 모델은 계산 복잡성이 높음에도 불구하고 두 단일 출력 모델의 상호 보완적인 성능이 확인되었다. 모델 유형별 비교 결과, 앙상블 모델 대부분이 단일 모델보다 높은 성능을 보이는 것으로 확인되었다. 단일 모델에서는 Decision Tree가 설명력(R2) 0.90~0.91로 가장 높았고, MAE, RSME 모두 낮았다. Neural Network는 설명력(R2) 0.14~0.33으로 가장 낮았으며, MAE도 10.32~17.72로 저조한 성능을 보였다. 이는 생육과 환경 간의 정합성을 위해 전처리 과정에서 학습에 활용된 데이터의 양과 다양성이 상대적으로 제한되었기 때문으로 판단된다. 그 결과, 일반화 학습이 충분히 이루어지지 않아 복잡한 모델에서 오히려 과적합이 발생하였을 가능성이 있다. 이와 같은 결과는 데이터의 특성이나 학습 데이터 양에 따라 복잡한 모델이 항상 우수한 결과를 보장하지 않으며, 경우에 따라 단순한 모델이 더 적합할 수 있음을 시사한다. 선형 계열 모델인 Linear Regression, Ridge Regression, Lasso Regression, ElasticNet Regression은 전반적으로 RMSE와 MAE가 크고 설명력(R2)이 낮아, 국화 생장의 비선형성을 반영하는데 한계가 있음을 확인하였다. 앙상블 모델에서는 CatBoost의 설명력(R2)이 0.90~0.92로 가장 높았고, Random Forest, XGBoost도 0.90~0.91로 높은 성능이 보였다.
가장 높은 설명력을 보인 CatBoost의 실측값과 예측값을 비교한 결과(Fig. 3), 초장과 분지수 모두 선을 중심으로 퍼져 있었다. 초장은 분지수보다 고르게 분포하지만, 상대적으로 넓게 분산된 반면, 분지수는 높은 값 구간에서 예측값들이 다소 산발적으로 나타나 불일치하는 경향을 보였다. 이는 분지수가 높은 값에 해당하는 데이터가 부족하여 모델이 해당 영역을 충분히 학습하지 못한 결과로 판단된다.
결론적으로, 본 연구에서는 트리 기반의 앙상블 모델이 화 생장 예측에서 가장 적합한 모델로 도출되었으며, 그 중 CatBoost모델이 다른 모델들에 비해 가장 우수한 예측 성능을 보였다. 특히, CatBoost모델은 높은 설명력과 함께 예측 오차를 최소화하며 안정적인 성능을 나타냈다. 트리 기반 앙상블 모델의 장점 중 하나는 변수 중요도 분석이 가능하다는 점이다. 본 연구에서는 다양한 모델 간의 성능 비교 및 최적 예측 모델 도출에 중점을 두었기 때문에 변수 중요도에 대한 구체적인 분석을 수행하지는 않았다. 다만 앞으로 해당 모델을 활용하여 변수 중요도 분석이 이루어진다면, 국화 생장에 영향을 미치는 주요 환경 변수들을 정량적으로 파악할 수 있을 것으로 기대된다. 따라서, 향후 연구에서는 트리 기반 앙상블 모델을 더욱 발전시켜 다양한 환경 조건과 실시간 데이터를 반영한 예측 모델을 구축할 필요가 있다. 또한, 농가 현장에서 모델을 실용적으로 적용하기 위한 시스템화 및 자동화 방안에 대한 추가 연구가 요구된다.










