Journal Search Engine
Download PDF Export Citation PMC Previewer
ISSN : 1225-5009(Print)
ISSN : 2287-772X(Online)
Flower Research Journal Vol.33 No.2 pp.105-112
DOI : https://doi.org/10.11623/frj.2025.33.2.07

Comparative Analysis of Machine Learning Models for Chrysanthemum Growth
머신러닝 기반 국화 생장 예측 모델의 비교 분석

Mi Hui Oh1,2, Hye Hyeong Kim2, Gee Young Lee2, Nam Won Park2, Wan Soon Kim1,3*
1Graduate School of Science and Technolgy, University of Seoul, Seoul 02504, Korea
2Horticultural Research Division, Gyeonggido Agricultural Research & Extension Services, Hwaseong 18388, Korea
3Department of Environmental Horticulture, University of Seoul, Seoul 02504, Korea

오미희1,2, 김혜형2, 이지영2, 박남원2, 김완순1,3*
1서울시립대학교 과학기술대학원 환경원예학과
2경기도농업기술원
3서울시립대학교 환경원예학과
Correspondence to Wan Soon Kim Tel: +82-2-6490-5613 E-mail: wskim2@uos.ac.kr ORCID: https://orcid.org/0000-0003-4078-3903
17/04/2025 20/06/2025

Abstract


This study aimed to develop an optimal model for predicting chrysanthemum growth based on environmental factors. Linear Regression, Lasso Regression, Ridge Regression, ElasticNet Regression, K-Nearest Neighbors (KNN), Support Vector Regression (SVR), Neural Network, Decision Tree, Random Forest, XGBoost, AdaBoost, CatBoost, and Stacking, was compared using R², MAE, and RMSE as evaluation metrics. Among the individual models, the Decision Tree showed the best performance, with R2 values of 0.90–0.91. Among ensemble models, CatBoost achieved the highest performance, with R² values of 0.90–0.92. Random forest and XGBoost also demonstrated similarly strong results. Overall, tree-based ensemble models were found to be particularly effective for predicting chrysanthemum growth.




본 연구는 환경 요인을 바탕으로 절화용 국화 생장 예측을 위한 최적의 모델을 개발하는 것을 목표로 하였다. 이를 위해 13개의 모델(Linear Regression, Lasso Regression, Ridge Regression, ElasticNet Regression, K-Nearest Neighbors (KNN), Support Vector Regression (SVR), Neural Network, Decision Tree, Random Forest, XGBoost, AdaBoost, CatBoost, Stacking)의 성능을 R2, MAE, RMSE를 평가 지표로 비교하였다. 단일 모델 중에서는 Decision Tree가 가장 우수한 성능을 보였으며, R2값은 0.90에서 0.91 사이였다. 앙상블 모델 중에서는 CatBoost가 가장 높은 성능을 보였으며(R2=0.90~0.92) Random Forest와 XGBoost 또한 유사한 성능을 보였다. 전체적으로 트리 기반 앙상블 모델이 국화 생장 예측에 적합한 모델로 나타났다.



초록


    서 언

    우리나라 전체 화훼류 재배면적은 4,213ha이며, 이 중 절화류는 1,208ha에 이른다. 이 가운데 절화용 국화의 면적은 296ha로 화훼류 전체의 7%, 절화류의 24%를 차지하는 대표적인 화훼 품목이다(MAFRA 2024). 절화용 국화의 주요 시장 등급 지표는 절화의 길이(초장)이며, 주요 품질 요소는 주당 개화수이다(Kim et al. 2012). 시장 요구에 부합하는 절화용 국화를 생산하기 위해서는 재배시설의 내·외부 환경 변수와 작물 간 상호작용을 파악하고 영양생장과 생식생장의 균형을 고려한 생육관리가 중요하다.

    최근 인공지능, 빅데이터 등 첨단 기술과 기존 산업 기술 간의 융복합을 통해 새로운 부가가치를 창출하고 있으며, 특히 기계학습(machine learning, 머신러닝)은 빅데이터와 함께 데이터 집약적 프로세스를 이해하는 핵심 기술로 인정받고 있다(Konstantinos et al. 2018). 농업 분야에서도 이미지 데이터를 이용한 작물의 병해충 예찰과 화훼 품질 분류 연구, 농산물 수확량 및 수급 예측 모델 개발 등 다양한 영역에서 머신러닝 기술이 활용되고 있다(Choi et al. 2023).

    시설원예 분야에서는 작물의 재배 환경 및 생육 데이터를 활용하여 초장, 꽃수, 착과수와 같이 생산성과 직결되는 직·간접적인 요소들을 예측하는데 머신러닝 기법이 많이 이용되면서, 다양한 모델들이 함께 개발되고 있다. 월별 더미 변수(dummy variable)와 다중회귀분석, Random Forest, CatBoost 모델을 통해 계절 특성이 반영된 고추 초장 자동 예측의 가능성이 확인되었고(Cho et al. 2024), 기상 데이터를 다양한 머신러닝 모델에 적용하여 수증기압차(vapor pressure deficit, VPD)를 예측함으로써 내부에 별도의 환경 측정센서 설치 없이 온실 환경을 추정할 수 있음을 입증하였다(Ha et al. 2025). 더불어 순환 신경망 기반 딥러닝 모델을 활용한 토마토 수확량과 LAI 예측 성능 비교를 통해 최적 모델도 제안되었다(Noh et al. 2025).

    본 연구에서는 국화 스마트팜 데이터를 활용하여 환경 요인에 따른 국화 생장 예측에 최적화된 모델을 도출하고자 하였다. 절화용 국화의 품질 평가에서 가장 중요한 요소는 개화수이지만, 농가에서 주로 만개 전에 출하하는 현실적 제약을 고려하여, 수집 가능한 초장과 분지수를 평가 요소로 설정하였다(Jeon 2019). 분석에 사용된 알고리즘은 단일 모델 8종과 앙상블 모델 5종으로 각 모델의 성능을 비교하였다.

    재료 및 방법

    실험 재료

    본 연구는 2019년부터 2024년까지 경기도 안성, 이천, 파주지역의 6개 스마트팜 농가에서 재배된 절화용 국화를 대상으로 진행되었다. 대표성을 높이기 위해 표본은 온실 가장자리를 제외한 공간을 세 개의 그룹으로 나눈 후, 최소 6개체에서 최대 9개체를 선정하여 교차 배치하였다. 생육 데이터는 정식 2주차부터 작기 종료일까지 매주 1회 수집하였다. 국화는 하늘 방향으로 곧게 자라며 줄기가 가는 특성이 있으므로, 초장은 본 줄기의 지표면에서부터 생장점까지의 수직 거리를 소수 첫째 자리까지, 분지수는 지표로부터 30cm 이상에서 형성된 측지의 개수를 정수 자리로 측정하였다. 환경 데이터는 시설 내부의 온도, 상대습도(Relative Humidity, RH), 내부 투입 일사량 등으로 스마트팜 농가에 설치된 센서에서 1~15분 단위로 수집되었다.

    데이터 처리

    머신러닝 모델 학습을 위해서는 입력변수(feature)와 출력변수(target)의 개수가 일치해야 한다. 이를 위해 결측치 비율이 50% 이상인 환경 데이터를 생육 조사일 기준으로 주간 단위로 가공하여 생육 데이터와 결합하였다. 주차 별로 시설 내부 평균온도, RH, 투입 일사량을 계산하고, 주차 간의 값을 누적하여 누적 온도와 누적 일사량을 산정하였다. 또한 주간 평균 온도와 RH를 바탕으로 VPD 변수로 가공하였다. 월별 환경 변화를 반영하기 위해 매월에 해당하는 값을 참(true)으로 설정하고, 나머지는 거짓(false)으로 설정하여 월간 더미 변수를 생성하였다. 마지막으로, 결측치 비율이 50% 이상인 변수들을 제외하고, 입력 변수 간의 값 차이를 보정하기 위해 최소ㆍ최댓값을 기준으로 0과 1 사이의 값으로 치환하는 Min-Max 정규화를 적용하였다.

    기계학습 모델

    국화 생장 예측을 위한 최적 모델 선정을 위해, 단일 모델 8종과 앙상블 모델 5종을 포함한 13가지 모델을 사용하였다. 단일 모델로는 통계적 기법인 Linear Regression, Ridge Regression, Lasso Regression, ElasticNet Regression 모델(Friedman et al. 2010;Zou et al. 2005), 거리 기반의 K-Nearest Neighbors (KNN) 모델(Cover et al. 1967), 비선형 회귀 모델인 Support Vector Regression (SVR) (Drucker et al. 1997), 신경망 기반의 Neural Network(Hornik et al. 1989), 트리(Tree) 기반의 Decision Tree(Quinlan 1986)를 사용하였다. 앙상블 모델로는 트리와 배깅(Bagging) 기반의 Random Forest(Breiman 2001), 트리와 부스팅(Boosting) 기반의 XGBoost, AdaBoost, CatBoost(Choi et al. 2023), 다양한 모델을 혼합하는 Stacking 모델을 활용하였다. Stacking 모델에서는 Random Forest, XGBoost, CatBoost를 기본학 습자로 선택하고, 이들의 예측값을 메타 모델에서 결합하였다. 또한 전체 모델의 성능 최적화를 위해 Optuna 함수를 활용하여 하이퍼파라미터 튜닝을 수행하였다.

    데이터 구성 및 지표 설정

    모델 학습은 학습 데이터셋, 검증 데이터셋, 시험 데이터셋을 이용하여 진행되었으며, 데이터셋의 분할은 전체 데이터셋의 80%를 학습용으로, 20%를 시험용으로 사용하였다. 이때 사용된 시험 데이터셋은 외부 데이터가 아니라 동일한 실험환경에서 수집된 데이터 중 일부를 분할한 것으로, 모델의 재현성능을 평가하는 데 활용되었다. 또한, 학습 데이터를 k-fold cross-validation(k=5)을 통해 내부 검증을 실시하였다. 모델 성능평가는 모델의 설명력을 나타내는 R2, 평균 절대 오차(Mean Squared Error, MAE), 평균 제곱근 오차(Root Mean Squared Error, RMSE)를 사용하였다(Willmott & Matsuura. 2005;Chai et al. 2014).

    결과 및 고찰

    생육 및 환경 데이터 특성

    수집된 28,143개의 원시 데이터는 1~15분 간격의 환경 데이터와 1주일 간격의 생육 데이터로 구성되어 있으며, 일부 농가에서는 일사량 센서 설치 시점이 달라 누락된 값이 존재하였다. 따라서 생육 정보가 존재하고 주요 환경 변수들이 누락 없이 수집된 구간만을 선별한 후, 생육과 환경 데이터를 정확히 매칭하기 위해 환경 데이터를 주차 단위로 평균 처리하였다. 이러한 전처리 과정을 통해 최종적으로 1,167개의 학습 데이터 셋을 구축하였으며, 이후 기술통계 분석을 통해 생육 및 환경 변수의 특성을 확인하였다(Table 1). 초장의 평균은 60.8cm, 최대 106.0cm, 최소 7.2cm였으며, 분지수는 평균 12.2개, 최대 110개, 최소 0개로 큰 분산을 보였다. 이는 국화의 생장 과정에 따른 정상적인 생리적 변화가 반영된 결과로 해석된다(Sun et al., 2022). 내부 온도는 평균 24.1℃, 표준편차 3.9℃로 일정한 범위 내에서 변동이 있었고, RH는 평균 81.8%, 표준편차 10.0%로 안정적인 값을 보였다. 반면, 내부 일사량은 평균 105.6W/㎡, 표준편차 70.3W/㎡로 큰 변동성을 보였다. 누적 내부 온도와 누적 내부 일사량은 각각 평균 169.8℃, 697.9W/㎡로, 누적된 환경 요인이 반영된 것을 확인할 수 있었다. VPD는 평균 562.4Pa, 최대 1440.9Pa로, 값이 큰 Pa 단위를 사용할 경우 모델이 변수의 세밀한 변화를 보다 잘 반영할 수 있어, 모델 민감도를 유지하기 위해 kPa 환산하지 않은 결과가 확인되었다. 월별 더미 변수를 만들기 위한 월간 변수의 평균은 6.7월, 중간값은 7월로, 국화의 주요 생육 시기인 여름철에 데이터가 집중된 것으로 나타났다.

    생육-환경 상관성 기반 환경 변수 선정

    초장, 분지수, 환경 변수 간의 상관관계를 분석하였다(Fig. 1). Fig. 1A는 각 변수 간의 피어슨 상관계수를 히트맵 형태로, Fig. 1B는 변수 간 산점도와 히스토그램, 피어슨 상관계수를 결합한 시각화 자료이다. 누적 내부 온도는 초장과 분지수와의 상관계수(R)가 각각 0.58, 0.35로 비교적 높은 양의 상관 관계를 보였다. 누적 내부 일사량도 초장과의 상관계수도 0.57로 높았으나, 내부 온도와 내부 일사량의 초장과의 상관계수는 각각 0.23, 0.072로 상대적으로 낮았다. 내부 RH는 초장과 분지수와의 상관계수는 각각 -0.033, -0.031, VPD의 경우 -0.051, -0.016으로 전반적으로 낮은 음의 상관관계를 보였다. 또한 산점도에서도 변수 간의 뚜렷한 선형성이 보이지 않는 분포가 관찰되어(Fig. 1B), 생육이 단기적인 환경 변화보다 누적된 요인에 더 영향을 받는다는 것을 확인하였다. 이러한 수치는 통계적으로 유의하지 않은 수준이지만, 반응의 방향성을 이해하는 데 참고하였다. 누적 내부 온도와 누적 내부 일사량은 생육 변수들과 양의 선형적 경향(Fig. 1B)과 높은 상관관계(Fig. 1A)를 보였으나, 다중공선성을 피하기 위해 온도와 RH의 상호작용을 반영한 VPD를 추가하였다. 이를 통해 누적 내부 온도, 누적 내부 일사량, VPD가 월간 더미변수와 함께 사용할 최종 변수로 선정되었다.

    모델 성능 비교

    단일 모델과 앙상블 모델을 사용하여 국화의 초장, 분지수, 초장과 분지수를 동시에 예측하는 모델을 학습하고 결과를 비교하였다(Table 2, Fig. 2). 초장이 분지수보다 상대적으로 높은 설명력(R2)을 보였으나, MAE, RMSE 오차에서도 큰 값을 나타냈다. 다중 출력 모델은 계산 복잡성이 높음에도 불구하고 두 단일 출력 모델의 상호 보완적인 성능이 확인되었다. 모델 유형별 비교 결과, 앙상블 모델 대부분이 단일 모델보다 높은 성능을 보이는 것으로 확인되었다. 단일 모델에서는 Decision Tree가 설명력(R2) 0.90~0.91로 가장 높았고, MAE, RSME 모두 낮았다. Neural Network는 설명력(R2) 0.14~0.33으로 가장 낮았으며, MAE도 10.32~17.72로 저조한 성능을 보였다. 이는 생육과 환경 간의 정합성을 위해 전처리 과정에서 학습에 활용된 데이터의 양과 다양성이 상대적으로 제한되었기 때문으로 판단된다. 그 결과, 일반화 학습이 충분히 이루어지지 않아 복잡한 모델에서 오히려 과적합이 발생하였을 가능성이 있다. 이와 같은 결과는 데이터의 특성이나 학습 데이터 양에 따라 복잡한 모델이 항상 우수한 결과를 보장하지 않으며, 경우에 따라 단순한 모델이 더 적합할 수 있음을 시사한다. 선형 계열 모델인 Linear Regression, Ridge Regression, Lasso Regression, ElasticNet Regression은 전반적으로 RMSE와 MAE가 크고 설명력(R2)이 낮아, 국화 생장의 비선형성을 반영하는데 한계가 있음을 확인하였다. 앙상블 모델에서는 CatBoost의 설명력(R2)이 0.90~0.92로 가장 높았고, Random Forest, XGBoost도 0.90~0.91로 높은 성능이 보였다.

    가장 높은 설명력을 보인 CatBoost의 실측값과 예측값을 비교한 결과(Fig. 3), 초장과 분지수 모두 선을 중심으로 퍼져 있었다. 초장은 분지수보다 고르게 분포하지만, 상대적으로 넓게 분산된 반면, 분지수는 높은 값 구간에서 예측값들이 다소 산발적으로 나타나 불일치하는 경향을 보였다. 이는 분지수가 높은 값에 해당하는 데이터가 부족하여 모델이 해당 영역을 충분히 학습하지 못한 결과로 판단된다.

    결론적으로, 본 연구에서는 트리 기반의 앙상블 모델이 화 생장 예측에서 가장 적합한 모델로 도출되었으며, 그 중 CatBoost모델이 다른 모델들에 비해 가장 우수한 예측 성능을 보였다. 특히, CatBoost모델은 높은 설명력과 함께 예측 오차를 최소화하며 안정적인 성능을 나타냈다. 트리 기반 앙상블 모델의 장점 중 하나는 변수 중요도 분석이 가능하다는 점이다. 본 연구에서는 다양한 모델 간의 성능 비교 및 최적 예측 모델 도출에 중점을 두었기 때문에 변수 중요도에 대한 구체적인 분석을 수행하지는 않았다. 다만 앞으로 해당 모델을 활용하여 변수 중요도 분석이 이루어진다면, 국화 생장에 영향을 미치는 주요 환경 변수들을 정량적으로 파악할 수 있을 것으로 기대된다. 따라서, 향후 연구에서는 트리 기반 앙상블 모델을 더욱 발전시켜 다양한 환경 조건과 실시간 데이터를 반영한 예측 모델을 구축할 필요가 있다. 또한, 농가 현장에서 모델을 실용적으로 적용하기 위한 시스템화 및 자동화 방안에 대한 추가 연구가 요구된다.

    Figure

    FRJ-33-2-105_F1.gif

    Correlation and distribution of growth and environmental variables. A: heatmap showing Pearson correlation coefficients based on pairwise complete observations. B: pairplot including histograms (diagonal), scatter plots (lower triangle), and correlation coefficients (upper triangle) for each variable pair. Variables include plant height (length), number of branches (branch), cumulative internal temperature (cumulative_in_tem), cumulative internal light (cumulative_in_light), VPD (vapor pressure deficit), internal temperature (in_tem), internal humidity (in_hum), and internal light (in_light).

    FRJ-33-2-105_F2.gif

    Performance comparison of chrysanthemum growth prediction models by target. A: plant height (length) prediction model, B: number of branches (branch) prediction model, C: simultaneous prediction of both length and branch. Each panel presents RMSE, MAE, and R² for validation (top row) and test (bottom row).

    FRJ-33-2-105_F3.gif

    Performance of the CatBoost model in predicting plant height (length) and number of branches (branch) in chrysanthemum growth. The x-axis and y-axis represent the true and predicted values. Blue dots represent plant height, and orange dots represent number of branches, predicted simultaneously using a multi-output regression model. The red dashed line indicates the ideal 1:1 reference line.

    Table

    Statistics of environmental and chrysanthemum growth data.

    zRH: Relative humidity.
    yVPD: Vapor pressure deficit.
    xMonth refers to the month number from transplanting (1 = January, 2 = February, etc.).

    Performance comparison of chrysanthemum growth prediction model by target.

    zMAE: Mean absolute error.

    Reference

    1. BreimanL ( 2001) Random forests. Mach Learn 45:5-32
    2. ChaiT,DraxlerRR ( 2014) Root mean square error (RMSE) or mean absolute error (MAE)? -Arguments against avoiding RMSE. Geosci Model Dev 7:1247-1250
    3. ChoYJ,JangSW,KimHG,ChoYS ( 2024) Comparison of growth prediction models for pepper seedling production using monthly dummy variables. J Bio-Environ Control 33:427-435
    4. ChoiJ,KimH,LeeD ( 2023) Comparative analysis of ensemble learning methods: XGBoost, AdaBoost, and CatBoost for structured data classification. J Big Data Anal 8:45-58
    5. ChoiJK,KimSY,KwonKD,ChoSB,ChoEA,KimGW,ChoBK ( 2023) Trend of artificial intelligence techniques for monitoring field-crop productivity. J Agric Life Sci 57:1-11
    6. CoverT,HartP ( 1967) Nearest neighbor pattern classification. IEEE Trans Inf Theory 13:21-27
    7. DruckerH,BurgesCJC,KaufmanL,SmolaA,VapnikV ( 1997) Support vector regression machines. Adv Neural Inf Process Syst 9:155-161
    8. FriedmanJ,HastieT,TibshiraniR ( 2010) Regularization paths for generalized linear models via coordinate descent. J Stat Softw 33:1-22
    9. HaSU,LeeYJ,LeeKY,KimYG,ParkJS ( 2025) Weather factor prediction using machine learning for estimating reference crop evapotranspiration with the Penman- Monteith equation. J Bio-Environ Control 34:69-80
    10. HornikK,StinchcombeM,WhiteH ( 1989) Multilayer feedforward networks are universal approximators. Neural Network 2:359-366
    11. JeonMH ( 2019) A Model study on the management of plantation environment in smart farms. Gyeonggi-do Agricultural Research & Extension Services, Research Report, pp 864-870.
    12. KimSJ,LeeSK,KimKS ( 2012) Current research trend of postharvest technology for chrysanthemum. Korean J Plant Res 25:156-168
    13. KonstantinosGL,PatriziaB,DimitriosM,SimonP,DionysisB ( 2018) Machine learning in agriculture: A review. J Sens 18:1-29
    14. Ministry of Agriculture, Food and Rural Affairs (MAFRA) ( 2024) status of flower production.
    15. NohHM,JangKS,LeeJH ( 2025) A comparative study on the performance of RNN-based deep learning models for tomato yield and LAI prediction. J Korea Inst Inf Technol 23:21-29
    16. QuinlanJR ( 1986) Induction of decision trees. Mach Learn 1:81-106
    17. SunD,ZhangL,SuJ,YuQ,ZhangJ,FangW,WangH,GuanZ,ChenF,SongA ( 2022) Genetic diversity and genome-wide association study of architectural traits of spray cut chrysanthemum varieties. Horticulturae 8(5):458
    18. WillmottCJ,MatsuuraK ( 2005) Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) in assessing average model performance. Clim Res 30:79-82
    19. ZouH,HastieT ( 2005) Regularization and variable selection via the elastic net. J R Stat Soc Series B Stat Methodol 67:301-320
    
    1. SEARCH
    2. Journal Abbreviation : 'Flower Res. J.'
      Frequency : Quarterly
      Doi Prefix : 10.11623/frj.
      ISSN : 1225-5009 (Print) / 2287-772X (Online)
      Year of Launching : 1991
      Publisher : The Korean Society for Floricultural Science
      Indexed/Tracked/Covered By :

    3. Online Submission

      submission.ijfs.org

    4. Template DOWNLOAD

      Original Research
      Articles
      국문 영문
      Review Articles 리뷰
      ★NEWTechnical Reports단보
      New Cultivar
      Introduction
      품종
    5. 논문유사도검사

    6. KSFS

      Korean Society for
      Floricultural Science

    7. Contact Us
      Flower Research Journal

      - Tel: +82-54-820-5472
      - E-mail: kafid@hanmail.net