Introduction
토마토(Solanum lycopersicum)는 영양학적으로 가치가 알려지면서 세계적으로 많은 수요되고 있는 과채류이다(RDA, 2012). 국내 토마토 생산량은 최근 5년간 약 34만 톤 이상을 유지하고 있으며, 2020년 기준 토마토 생산량은 전체 과채류 생산량의 약 19%를 차지한다(KOSIS, 2021). 한편, 국내의 토마토 소비 및 유통은 대부분 생과로 이루어지고 있으나, 토마토는 수확 후에도 호흡하는 후숙 과일이기 때문에 저장·유통 과정에서 품질 변화가 발생한다(Park et al., 2004). 이로 인하여 토마토의 수확시기 판정을 위한 기술이 요구되어지고 있다. 또한, 농업인구 감소 및 고령화, COVID-19로 인한 고용노동력 감소 등의 문제로 토마토 생산에 어려움을 겪고 있으며, 이를 위해 토마토의 재배 및 수확을 위한 자동화 기술이 요구되고 있는 실정이다.
이러한 이유로, 토마토 재배 및 수확을 위한 로봇 기술 연구가 활발히 수행되고 있다. 작물 생산 로봇화를 위해서는 우선적으로 작물의 품질 또는 성숙도 등을 모니터링할 수 있는 기술이 필요하다. 이에 토마토의 생식생장을 모니터링할 수 있는 기술 개발연구가 증가하고 있다. Goel과 Sehgal (2015)은 RGB 영상과 기계학습을 이용하여 토마토의 성숙도를 6단계로 분류하였으며, 개발한 Fuzzy Rule 기반의 모델은 94.3%의 분류 정확도를 달성하였다고 보고하였다. Seo 등(2021a)은 스마트 온실에서 재배되는 토마토의 성숙도를 자동으로 분류할 수 있는 모니터링 로봇 시스템을 개발하였으며, HSV 색공간을 이용하여 토마토의 성숙도를 6단계로 분류하였다.
한편, RGB 영상보다 초분광 영상이 농산물의 품질 및 성숙도 예측에 더 적합하다고 알려져 있으며(Polder et al., 2000), 이러한 이유로 초분광 영상을 이용하여 바나나(Rajkumar et al., 2012), 블루베리(Yang et al., 2014), 감(Wei et al., 2014), 딸기(Guo et al., 2016), 배(Khodabakhshian and Emadi, 2017), 키위(Benelli et al., 2021) 등 다양한 농산물의 성숙도를 분류 및 예측하기 위한 연구가 많이 수행되었다. 그러나, 초분광 영상은 인접한 수백 개의 밴드를 가지고 있기 때문에 근접한 밴드 간의 높은 상관관계와 방대한 정보로 인하여 데이터 처리 및 분석에 다양한 문제가 발생한다. 이러한 이유로, 초분광 데이터의 차원을 줄이고, 유의한 밴드를 추출하여 분석 비용 및 시간을 줄이기 위해 주성분 분석(principal component analysis, PCA), 최저잡음비율(minimum noise fraction, MNF) 방법 등이 이용되고 있다(Jensen, 2016). 이러한 방법으로 선택된 유의한 밴드 대역을 바탕으로 다중분광 카메라를 적용할 경우 빠른 처리속도 등의 장점으로 인하여 작물의 실시간 모니터링에 더 적합하다(Yang et al., 2014).
기계학습(machine learning, ML)은 경험적 학습을 통해 데이터 내의 패턴을 식별하고, 이러한 패턴을 사용하여 데이터의 예측 및 분류를 수행한다. 특히, 농산물의 품질 및 성숙도 예측을 위해 SVM (support vector machine), KNN (K-nearest neighbors), DT (decision tree) 등의 모델들이 많이 이용되고 있다.
따라서, 본 연구에서는 토마토 성숙도 분류를 위해 초분광 영상의 적용 가능성을 검토하기 위한 기초실험을 수행하였으며, 이를 통해 수확 및 모니터링 로봇에 탑재 가능한 소형 및 저가 다중분광 센서 개발에 필요한 기초자료를 제공하고자 하였다.
Materials and Methods
실험재료
본 연구에서는 데프니스(Dafnis) 품종의 토마토를 실험재료로 사용하였으며, 토마토는 국립농업과학원(Wanju, Korea)의 스마트 온실에서 수경방식으로 재배되었다. 토마토의 성숙도 등급은 USDA의 경우 총 6단계로 분류하고 있으나(Seo et al., 2021a), 본 연구에서는 국내 토마토 농가의 의견을 수렴하여 수확시기에 포함되지 않는 Turning 전 단계인 Green 단계를 고려하지 않는 성숙도 등급 5단계로 설정하였다(Table 1). 또한, 현재 농가에서 숙성도 분류는 육안으로만 이루어지고 있으나, 본 연구에서는 주관적 판단에 의한 오차를 줄이기 위해 a* 값을 기준으로 토마토의 숙성도를 분류하였다(Hobson et al., 1983). 토마토의 a* 값은 색채색차계(CR-20, Konica Minolta, Tokyo, Japan)를 이용하여 측정하였으며, 각 단계별 a* 값은 Table 1에 나타내었다. 초분광 영상은 당일 수확한 토마토를 대상으로 취득하였으며, 토마토는 2021년 8월과 11월에 수확되었다. 본 연구에서는 총 57개 과실의 초분광 영상을 취득하였으며, 1단계에서 5단계까지 샘플 수는 각각 12, 11, 12, 12, 10개이었다.
Table 1. Maturity stages of tomato fruits. |
a* value expresses the red/green scale, and ranges from -127 to 127 (positive is red, negative is green). |
초분광 데이터 취득 및 처리
Fig. 1은 토마토 초분광 영상 촬영을 위해 본 연구에서 사용된 초분광 영상 취득 시스템이다. 초분광 영상센서로는 400 - 1,000 nm 파장영역의 2 nm 분광해상도를 가진 초분광카메라(FX10e, Specim Spectral imaging Ltd., Oulu, Finland)를 이용하였다. 광원으로는 텅스텐 할로겐 램프(650 W)를 사용하였으며, 시료에 광을 고르게 조사하기 위해 시료와 같은 높이에 45° 각도로 양쪽 측면에 1 세트씩 설치하였다. 또한, 광의 변화를 정규화하기 위해 52%의 반사율을 가진 보정판을 사용하였으며, 보정판은 샘플 뒤에 설치하여 샘플과 함께 초분광 영상을 촬영하였다. 촬영 시작 전, 카메라 자체의 열에 의해 발생되는 암 전류 노이즈를 제거하기 위해 dark current image를 취득하였다.
취득된 영상은 ENVI (Ver. 4.8, Exelis Visual Information Solutions, Boulder, USA) 프로그램을 이용하여 암 전류 보정과 광 보정을 수행하였다. 암 전류 및 광 보정을 거친 초분광 영상은 식 1에 나타낸 GNDVI (green normalized difference vegetation index)를 적용하여 과실과 배경을 분리하였으며, 본 연구에서 Green과 NIR의 파장은 각각 550 nm 및 800 nm로 하였다.
(1)
그 후, 초분광 영상에서 배경을 제외한 토마토 샘플의 ROI (region of interest)를 지정하고, ROI로부터 반사값을 추출하였다(Fig. 2). 전술한 바와 같이, 추출된 초분광 데이터는 2 nm FWHM (Full width at half maximum)으로 제공되나, 본 연구에서는 FWHM에 따른 영향을 분석하기 위해 25 nm 및 50 nm FWHM으로 평준화하였다(Kang et al., 2018).
한편, 초분광 데이터는 대상물의 화학적 및 물리적 특성, 장비, 조명, 환경 등의 요인에 기인하는 노이즈를 포함할 수 있다(Amigo and Santos, 2020). 따라서, 본 연구에서는 이러한 광산란의 영향을 줄이고 스펙트럼의 노이즈를 제거하기 위해 SNV (standard normal variate)와 SG (Savitzky-Golay) 기법을 복합으로 적용하여 평준화된 초분광 데이터의 전처리를 수행하였다(Rahman et al., 2018). SNV는 각 개별 스펙트럼을 전체 스펙트럼의 표준편차로 정규화하여 산란의 영향을 제거하는 방법이다(Suh et al., 2011). SG는 평활화 기법으로 원본 데이터를 유지하는 것에 우선순위를 두어 파장 높이 및 폭과 같은 분광 특징의 손상을 최소화한다. 이 방법은 다항식의 k 차수와 평활화할 스펙트럼을 중심으로 양쪽에 이웃하는 n개의 스펙트럼을 포함한 2n + 1 크기의 창(window)을 선정하여 평활화 정도를 설정한다. 이에 따라 선정된 차수의 다항식을 이용하여 창 크기의 집합 데이터를 최소제곱법에 의해 계산하여 평활화된다. 본 연구에서는 11 크기의 창(window)과 2차수의 다항식을 선택하여 실행하였다(Savitzky and Golay, 1964; Ruffin and King, 1999).
데이터 분석
본 연구에서는 고차원의 초분광 데이터로부터 토마토 성숙도와 밀접한 관련이 있는 데이터를 선정하기 위해 PCA 방법을 사용하였으며, SVM 모델을 이용하여 토마토 성숙도 분류 모델을 개발하였다.
PCA는 서로 연관 가능성이 있는 고차원의 데이터들을 선형 연관성이 없는 저차원 데이터로 변환하여 원본 정보를 보존하면서 차원을 줄이는데 효과적이다. 주성분은 분산의 최대비율을 설명하는 1차 주성분과 잔여 분산의 최대비율을 나타내는 일련의 직교성분의 조합으로 구성되어 있으며, 본 연구에서는 상위 2개의 주성분을 선정하여 분석을 수행하였다(Jensen, 2016; Seo et al., 2021b).
SVM은 패턴 인식, 자료 분석을 위한 지도 학습 모델로서, 선형 및 비선형 데이터를 모두 효율적으로 처리하는 우수한 능력을 갖춘 기계학습 모델이다. 본 연구에서는 SVM의 학습을 위해 비선형의 RBF (radial basis function) 커널을 적용하였다. 또한, SVM의 hyperparameter인 C와 gamma에 따른 분류 성능을 평가 및 비교하였다(Guo et al., 2016). 최적의 hyperparameter 선정을 위해 Grid search 방법을 적용하였으며, 그 결과 모든 FWHM 조건에서 C와 gamma는 각각 5, 1로 설정하여 SVM 모델을 학습하였다.
본 연구에서는 총 57개의 토마토 초분광 데이터가 사용되었으며, 학습 데이터(training data, 80%)와 검증 데이터(testing data, 20%)를 무작위로 나누어 모델의 성능평가를 수행하였다. 또한, 학습 데이터의 학습 중 과적합 등의 문제를 방지하기 위해 본 연구에서는 Leave-one-out cross-validation 방법을 적용하여 분류 모델의 튜닝 및 검증을 수행하였으며, 이를 통해 개발된 모델은 검증 데이터를 이용해 각 모델의 분류 정확도(accuracy)로 비교 및 평가하였다. 분류 정확도는 식 2를 통해 산출하였으며, 여기서 TP (true positive) 및 TN (true negative)은 예측이 맞은 경우를 의미하고, FP (false positive) 및 FN (false negative)는 예측이 틀린 경우를 의미한다.
(2)
Results and Discussion
스펙트럼 분석
Fig. 3에는 성숙도 등급에 따른 토마토의 스펙트럼 데이터를 비교하여 나타내었다. Fig. 3A에서 확인할 수 있듯이, 700 - 900 nm 밴드 대역의 반사값은 8월에 재배된 토마토가 11월에 재배된 토마토 보다 높은 것으로 나타났으나, SNV + SG 복합 방법을 이용할 경우 재배 시기에 따른 반사값 차이가 나타나지 않았다(Fig. 3B). 한편, 토마토의 성숙도 등급에 따른 스펙트럼의 경향은 재배 시기와 관계없이 유사하였다. 토마토의 반사값은 재배 시기와 관계없이 성숙이 진행될수록 Green 대역인 500 - 550 nm에서 감소하였으며, 엽록소 흡수영역인 650 - 700 nm에서는 증가하는 경향을 나타내었다. 이는 성숙이 진행됨에 따라, 550 nm에서 반사율이 감소하고, 640 nm에서 반사율이 증가한다는 결과와 유사하였으며, 이러한 결과는 토마토의 성숙이 진행되면서 녹색을 나타내는 엽록소 함량은 감소하고, 붉은색을 나타내는 라이코펜은 증가하기 때문이라고 판단된다(Kim et al., 2012).
Table 2에는 FWHM에 따른 PCA 결과를 나타내었다. 전처리된 2 nm FWHM의 PCA 결과, PC1과 PC2는 각각 92.71, 5.13%로 전체 분산의 약 97.84%를 설명하는 것으로 나타났다. 평준화된 25 nm 및 50 nm FWHM 데이터의 PCA 결과, PC1과 PC2는 모두 94.34, 3.72%로 전체 분산의 98.06%를 설명하는 것으로 나타나, Fig. 4에서 나타낸 바와 같이 모든 FWHM 조건에서 토마토의 성숙도 단계별로 주성분이 명확하게 분리되는 것을 확인할 수 있었다.
분류 모델
앞에서 언급한 바와 같이, Grid search 결과에 따라 모든 SVM 모델은 C와 gamma를 각각 1, 5로 고정하여 학습되었다. 그 결과, 2 nm FWHM의 경우 학습 및 검증 데이터에서 분류 정확도는 각각 100, 95.77%로 나타났다. 25 nm 및 50 nm FWHM는 모두 학습 데이터에서 98.79%, 검증 데이터의 경우 95.77%의 분류 정확도를 나타내어, 분류 정확도는 FWHM 조건과 관계없이 모두 95% 이상으로 나타났다. 이는 토마토 성숙도 분류를 위해 50 nm FWHM 분광 데이터가 사용될 수 있음 시사하며, 이를 바탕으로 다중분광 센서를 개발할 경우 데이터 분석을 위한 시간 절약 및 경제적인 효과를 기대할 수 있을 것이라고 판단된다. 한편, 향후에 보다 포괄적인 분류 정확도를 달성하기 위해서는 지속적인 데이터 수집을 통한 모델 개선이 필요하며, 이를 위해 추가적인 실험을 수행할 계획이다.
Conclusion
본 연구에서는 토마토 성숙도 분류를 위해 초분광 영상의 적용 가능성을 확인하고자 하였다. 이를 위해, 2021년 8월과 11월에 수확한 토마토의 초분광 영상을 취득하였으며, 토마토의 성숙도는 5단계로 분류하여 수확하였다. 취득된 초분광 영상은 몇 가지 전처리를 통해 샘플과 배경을 분리하였으며, 토마토 샘플로부터 초분광 데이터를 추출하였다. 추출된 초분광 데이터는 향후 모니터링 및 수확용 로봇에 적용하기 위한 다중분광 센서 개발을 고려하여 2, 25 및 50 nm FWHM으로 평준화하였다. 그 후, 초분광 데이터의 노이즈와 광산란 영향을 줄이기 위해 SNV와 SG의 복합 기법으로 전처리를 수행하였다. 또한, PCA를 통해 전체 분산의 약 97%를 설명하는 2개의 주성분을 선정하고, SVM을 이용하여 토마토 성숙도 분류 모델을 개발하였다. 그 결과, FWHM 조건과 관계없이 모든 모델에서 분류 정확도는 95.77% 이상으로 나타나, 토마토 성숙도 분류를 위해 50 nm FWHM이 적용될 수 있음을 확인하였다. 또한, 이를 바탕으로 다중분광 센서를 개발할 경우, 모니터링 및 수확용 로봇 개발을 위해 경제적인 효과를 기대할 수 있을 것이라고 판단된다. 그럼에도 불구하고, 향후 보다 포괄적인 성숙도 분류를 달성하기 위해서는 지속적인 데이터 수집을 통해 모델을 개선할 필요가 있으며, 수분함량, 당도 등의 품질 요인과 초분광 데이터 사이의 관계분석을 통해 토마토 성숙도 분류 모델의 고도화 연구가 필요하다고 사료된다.