Introduction
송이(Tricholoma matsutake)는 담자균류 주름버섯목 송이과의 식용버섯으로 다량의 영양분과 무기성분을 함유하고 있으며, 가을철 특유의 맛과 향을 가진 영양식품으로 각광을 받고 있는 임산물이다(Yun et al., 1997; Amend et al., 2010). 송이는 세계적으로 2,000 - 4,000톤이 생산되어 연간 4천억 - 8천억 원의 시장규모를 차지하고 있으며, 농˙산촌 주민들의 농외 소득으로 지역경제 활성화에도 크게 기여하고 있다.
하지만, 송이는 국내외적 수요량 증가와 고소득 임산물임에도 불구하고 기후변화, 산림병해충 등의 영향으로 생산량은 지속적으로 감소 추세에 있으며(Ogawa and Ito, 1989; Iwase, 1997; van Gevelt, 2014; Wang et al., 2017), 송이를 가장 많이 소비하는 국가인 일본에서도 소나무 숲의 관리 부재와 소나무재선충병으로 인해 생산량이 급감하고 있다(Iwase, 1997; Yamanaka et al., 2020).
최근 들어 온라인상의 텍스트 자료 이용이 증가하면서 방대한 양의 비정형화된 텍스트 자료로부터 알려지지 않았던 새로운 정보를 발견하는 텍스트 마이닝(text mining) 기법이 다양한 분야에 적용되고 있다(Rajman and Besançon, 1998; Mahgoub et al., 2008; Hassani et al., 2016; Salloum et al., 2018). 텍스트 마이닝 기법을 통해 잠재적으로 유용한 정보를 추출할 수 있으며, 사회문제 해결을 위한 새로운 모델과 방안을 제시할 수 있다. 또한, 이러한 정보를 기반으로 연구자들은 새로운 연구 방향을 도출하고 결정하는데 중요한 자료로 이용할 수 있다(Neff and Corley, 2009; Ko and Eo, 2017).
최근 텍스트 마이닝 기법을 이용한 연구 동향 분석은 인문과학, 자연과학, 농학 등의 분야에서 활용되어 지고 있으며, 국내에선 이 기법을 이용하여 국외 우제목 연구 동향과 국내 조류학 연구 동향 분석을 수행한 바 있다(Jin and Eo, 2018; Lee et al., 2019). 또한 산림분야에서는 지진 유발 산지토사재해 관련 국외 연구 동향을 분석하여 새로운 연구방향을 제시하는 기초자료로 활용되어 지고 있다(Lee et al., 2017).
따라서 국제적으로 산림생명유전자원으로서 중요한 가치를 지닌 송이를 보존하고 고부가 가치를 창출할 수 있는 송이의 인공재배법 및 신약용 물질 개발 등 미래의 연구방향을 분석하고 주도하기 위해서는 국내외 송이의 연구 동향을 파악할 필요가 있다. 본 연구는 텍스트 마이닝 기법을 이용하여 국내·외 송이 연구 동향을 분석하고 나아가야 할 연구방향을 제시하고자 한다.
Materials and Methods
데이터 수집
모든 데이터는 2020년 5월 28일 WoS (Web of Science)를 기반으로 수집하였다. WoS 내 KCI database는 연구기관 및 학술지 데이터의 추출이 불가능하여, 해당 데이터는 국내·외 모두 WoS의 Core collection을 기반으로 추출하였다. 검색 시 “Tricholoma matsutake”를 주제어로 결정하였으며, 기간은 1992 - 2020년으로 설정하였다. 또한 중복된 연구논문을 제외하고 연구기관, 학술지 정보를 csv 파일로 추출하였다.
핵심어 분석 시 최대한 많은 연구논문을 추출하기 위해 국내의 경우 KCI 급 연구논문을 포함한 KCI database를 이용하였으며, 국외의 경우 SCI 급 논문만을 포함한 Core collection을 기반으로 데이터를 수집하였다. KCI database에서 송이 연구논문을 검색 시, “Tricholoma matsutake” 또는 “송이버섯”을 주제어로 결정하였다. KCI database의 국문 주제어는 ‘송이’를 주제어로 설정할 경우 포도송이, (법적) 소송이, 송이 가지, 밤송이 등 연구 주제에 벗어난 논문이 대량으로 수집되어, ‘송이버섯’을 주제어로 결정하였다. 그러나 이 경우에도 ‘송이버섯’으로 끝나는 다른 종들이 대량으로 검색되기 때문에 “새송이”, “꽃송이”, “버들송이”, “양송이”, “이슬송이”, “해송이”를 제외어로 설정하였다. Core collection에서 송이 관련 연구 논문을 검색 시 “Tricholoma matsutake”를 주제어로 결정하여 데이터를 추출하였다. 국내·외 모두 기간은 1992 - 2020년으로 설정하였으며, 중복된 연구논문을 제외하고 논문 제목, 핵심어, 초록, 출간 연도를 csv 파일로 추출하였다.
텍스트 마이닝을 통한 핵심어분석
분석도구 R
송이 연구의 핵심어 분석을 위해 R을 데이터 분석 도구로 사용하였다. R (version 4.0.2, Team, R. Core, Vienna, Austria, https://cran.r-project.org/bin/windows/base/old/4.0.2/) 은 통계분석과 자료의 시각화를 위한 공개용 소프트웨어이며 전통적인 통계분야뿐만 아니라, 개방성을 통해 다양한 패키지들을 제공하여, 바이오 및 생물학 분야에서는 표준 분석 도구로 사용되고 있다(Yang and Kim, 2011). 본 연구에서는 R의 기본(base) 패키지와 tm (text mining) 패키지를 이용하여 텍스트 마이닝을 통한 핵심어 분석을 진행하였다. 또한 추출한 핵심어는 Ian Fellows가 개발한 Wordcloud 패키지(version 2.6, Ian Fellows, https://cran.r-project.org/web/packages/wordcloud/index.html)로 시각화하였다(Fellows et al., 2018).
Core collection에서 수집한 데이터 중 핵심어가 비어 있는 송이 연구논문은 논문명, 초록에서 명사구를 추출하였으며, 초록이 없는 경우 논문명에서 명사구를 추출하였다(Kim, 2016). 의미 있는 단어를 추출하기 위해 R의 tm_map 함수를 이용하여 공백 제거, 소문자로 변환, 불용어 제거, 줄기 단어를 공통 어근으로 변환, 숫자 제거, 구두점 제거와 같은 과정을 수행하였다. tm_map의 함수인 tm_map (docs, stemDocument)를 사용하여 어간이 같고 어미가 다른 단어들의 줄기 단어를 공통 어근으로 추출하였으며, 이로 인해 단어의 전체 철자는 제시되지 않았다. 또한 핵심어를 시각화하기 위해 문서-단어 행렬을 구축한 후, 워드 클라우드를 실행하였다. 한국, 중국, 일본 핵심어 중, 워드 클라우드 중앙부에 나타나는 무의미한 핵심어인 "Tricholoma", "Mushroom", "Matsutake", "Matsutak", "Mushrooms", "Pine", "Pinus", "Densiflora"는 연관분석을 위해 삭제하였다. 또한 빈도가 5 이상인 단어들이 나타나도록 워드 클라우드를 다시 구현하였다.
한국, 중국, 일본 데이터에서 10건 이상 출현한 핵심어를 대상으로 연관관계를 분석하기 위해, R의 findAssocs 함수를 이용하여 대상 핵심어와 상관이 60% 이상인 핵심어들을 추출하였다(Na, 2017). findAssocs 함수는 다양한 연구에서 핵심어 간의 연관성을 분석할 때 사용되고 있으며(Kim, 2018; Meacham et al., 2018), 상관관계를 나타내는 결과값은 두 핵심어가 항상 같이 등장하면 1에 가까운 값을 가지고, 같이 등장하지 않으면 0에 가까운 값을 가진다(Awati, 2015).
Results
송이 연구의 양적 성장
송이 연구의 연도별 성장
국내 송이 연구논문은 KCI database를 통해 중복을 제외하고 총 101편이 추출되었다. 연도별로 국내 송이 연구논문의 양적 성장을 보았을 때 연구논문의 수는 증가와 감소를 반복하여, 일정한 양상이 나타나지 않았다. 또한 국내에서는 2002년에 와서야 KCI 급 연구가 출판하였으며, 2007, 2008년에 13편씩 가장 많은 송이 연구논문이 출판하였다. 국외 송이 연구 논문은 Core collection을 통해 중복을 제외하고, 총 261편의 국외 송이 연구논문이 추출되었다. 연도별로 국외 송이 연구논문의 양적 성장을 보았을 때 국내와 달리 연평균 0.7편씩 증가하는 양적 성장을 보이며, 2018년에 22편으로 가장 많은 송이 연구논문을 출판하여 국내에 비해 최근에 가장 많은 송이 연구논문을 보고하였다(Fig. 1).
송이 연구 국가
300편의 송이 연구논문에서 국가의 참여 횟수는 총 372회로 나타났다. 372회 중 10회 이상의 송이 연구논문에 참여한 국가는 일본, 중국, 한국, 미국, 핀란드, 프랑스, 캐나다이며, 이 중 일본은 29%로 가장 많은 송이 연구를 수행하다. 다음으로 중국 27%, 한국 11%, 미국 6%, 핀란드 4%, 프랑스 3%, 캐나다 3% 순으로 송이 연구를 수행하였다(Fig. 2).
송이 소속 연구기관 및 출판 학술지
300편의 송이 연구논문에서 연구기관의 참여 횟수는 총 680회로 나타났다. 연구기관을 대학교와 비대학연구기관으로 분류한 결과, 680회 중 59%가 대학교로 41%가 비대학기관으로 나타나 송이 연구는 비대학기관보다 대학기관이 더 활발히 수행하는 것으로 나타났다(Fig. 3A). 그러나 전체 기관에서 송이 연구논문을 가장 많이 발표한 기관은 비대학연구기관인 일본의 Forestry and Forest Products Research Institute (FFPRI)으로 전체 연구의 6%에 해당되는 연구 실적을 발표하였다. 다음으로 신슈대학교(일본) 4%, 중국과학원 3%, 도쿄대학교(일본) 3%, 중앙대학교(한국) 2%, 경북대학교(한국) 2%, 윈난성 농업과학원(중국) 2%, 이화여자대학교(한국) 2%, 지린대학교(중국) 2%, 시가산림연구센터(일본) 2%의 송이 연구 실적을 발표하였다. 기타 연구기관은 2% 미만인 기관으로 분류되었으며 84%를 차지하였다. 일본에서는 국가기관인 FFPRI가 가장 많은 송이 연구 논문을 발표하였으며, 중국에서는 중국과학원에서 가장 많은 송이 연구를 수행한 것으로 나타났다. 반면 국내에서는 대학에서 가장 많은 송이 연구를 수행하였다.
송이 관련 연구를 발표한 학술지 종류는 총 150개로 나타났다. 300편의 송이 연구논문 중 가장 많이 논문을 출간한 학술지는 ‘MYCORRHIZA’으로 10%의 송이 연구논문을 출간하였다. 다음으로 ‘MYCOSCIENCE’ 7%, ‘BIOSCIENCE BIOTECHNOLOGY AND BIOCHEMISTRY’ 5%, ‘FOOD CHEMISTRY’ 3% 순이었다. 3% 미만인 학술지는 기타로 분류하였으며, 약 75%를 차지하는 것으로 나타났다(Fig. 3B). 미국은 전체 송이 연구의 6%를 수행하는 것으로 나타났으나(Fig. 2), 미국의 국제 학술지인 ‘MYCORRHIZA’에서 최대 10%의 송이 연구논문 발표하는 것으로 나타났다(Fig. 3B).
텍스트 마이닝을 통한 핵심어 분석
한, 중, 일 핵심어 분석
국내에서는 1995년부터 송이 연구논문을 출간해, 1995년부터 데이터 추출 시점까지 총 658건의 핵심어가 추출되었다. 이 중 ‘growth’가 8건 나타나 가장 많이 출현하였으며, 5순위 내로 ‘speci’ 7건, ‘analysis’ 6건, ‘communiti’ 5건, ‘ring’ 5건 순으로 나타났다(Table 1). 그러나 중국, 일본에 비해 상대적으로 적은 수의 핵심어가 추출되었으며, 핵심어의 빈도 또한 모두 10건 미만으로 출현하였다.
중국에서는 2003년부터 송이 연구논문을 출간하여, 2003년부터 데이터 추출 시점까지 총 1,869건의 핵심어가 추출되었다. 이 중 ‘activ’가 15건으로 가장 많이 출현하였으며, 5순위 내로 ‘analysi’ 12건, ‘studi’ 12건, ‘speci’ 11건, ‘genet’ 11건, 순으로 나타났다(Table 1).
일본에서는 1992년부터 데이터 추출 시점까지 총 1,134건의 핵심어가 추출되었으며, 이 중 ‘ectomycorrhiz’가 31건으로 가장 많이 출현하였다. 또한 5순위 내로 ‘fungi’ 19건, ‘edible’ 14건, ‘genet’ 11건, ‘mycorrhiz’ 7건 순으로 나타났다(Table 1).
한국, 중국, 일본의 전체 기간 동안 출현한 핵심어는 이해하기 쉽도록 wordcloud로 다음과 같이 시각화하였다(Fig. 4).
핵심어 연관관계 분석
핵심어 분석 결과 나타난 핵심어 중 10회 이상 출현한 핵심어를 대상으로 findAssocs 함수를 실행하였다. 일본은 ‘ectomycorrhiz’, ‘fungi’, ‘genet’이 상관된 핵심어를 가진 것으로 나타났다. 그러나 ‘ectomycorrhiz’와 ‘fungi’는 상관도 0.64로 오직 서로 상관하였으며, ‘genet’의 경우 다음과 같은 연관관계를 나타냈다(Table 2). ‘genet’과 상관을 가지는 핵심어는 총 5개로 가장 큰 상관을 가지는 핵심어는 ‘microsatellit’로 0.81의 상관을 가진 것으로 나타났다.
중국은 findAssocs 함수 실행 시 ‘activ’, ‘analysi’, ‘studi’, ‘speci’, ‘genet’, ‘gene’, ‘result’이 상관 핵심어를 가진 것으로 나타났다. 그러나 ‘analysi’, ‘speci’, ‘studi’, ‘result’는 분석에 무의미한 핵심어이기 때문에 상관분석에서 제외하였다. ‘gene’의 경우 상관도 0.62로 오직 ‘flow’와 상관하였으며, ‘activ’, ‘genet’의 경우 다음과 같은 연관관계를 나타냈다(Table 2). ‘activ’와 상관을 가지는 핵심어는 총 12개로 가장 큰 상관을 가지는 핵심어는 ‘suggest’로 0.66의 상관을 가진 것으로 나타났다. ‘genet’과 상관을 가지는 핵심어는 총 16개로 가장 큰 상관을 가지는 핵심어는 ‘flow’로 0.74의 상관을 가졌다.
한국은 10회 이상 출현한 핵심어가 나타나지 않아 빈도 1순위 핵심어인 ‘growth’의 상관분석을 실행하였다. 그 결과 ‘growth’는 상관도 0.67로 오직 ‘promot’와 상관이 있는 것으로 나타났다.
Discussion
송이 연구는 국외에서 꾸준히 증가하였으나, 국내에서는 감소하는 경향을 보인다(Fig. 1). 이와 같은 현상은 송이를 연구하는 기관과 관련지을 수 있는데, 일본과 중국의 송이 연구는 각각 FFPRI와 중국과학원과 같은 국가 연구기관이 연구를 주도하였다. 충분한 인프라와 재정적 지원을 받는 국가 연구기관을 통해 송이의 연구 개발 활동이 장려되었으며, 이는 곧 송이 연구의 양적 성장으로 이어졌다. 반면 국내의 경우 대학기관이 송이 연구를 주도하며, 국가 연구기관은 뚜렷한 비율을 차지하지 못하였다. 국내에서 국가기관이 송이 연구를 주도하지 못하였으나, 국가기관인 국립산림과학원에서는 송이의 인공재배를 연달아 성공시키는 중요한 연구성과를 보였다(Ka et al., 2018). 이를 토대로, 국내 송이 연구에 대한 국제적 연구개발 역량과 경쟁우위를 확보하기 위해서는 우수한 연구 인프라를 가진 국가 연구기관이 송이 연구를 주도해야 한다고 판단된다. 또한 일본은 최근에도 송이 연구에 관한 리뷰 논문을 출판하여, 이를 통해 송이 관련 연구를 체계적으로 정리하고 향후 송이 연구가 나아갈 방향을 제시할 수 있었다(Yamanaka et al., 2020). 반면 국내의 경우 송이 연구 관련 리뷰 논문을 출판하지 않았으며, 이로 인해 국내 송이 연구의 체계적인 정리 및 연구 방향성 제시가 불가하였다. 이런 상황 속에서 국내 송이 연구가 양적으로 성장하지 못한 것으로 판단된다.
또한 미국은 전체 송이 연구의 6%를 수행하는 것으로 나타났으나(Fig. 2), 미국의 국제 학술지인 “MYCORRHIZA”에서 최대 10%의 송이 연구논문 발표하는 것으로 나타났다(Fig. 3B). 이는 국제적으로 송이 연구의 관심과 결과 발표가 꾸준히 증가하고 있는 추세에서(Fig. 1), 송이 연구의 67%를 차지하는 중국, 일본, 한국의 송이 관련 전문 학술지가 필요한 것으로 사료된다(Fig. 2).
송이 연구를 선도하는 국가인 한국, 중국, 일본의 송이 연구 동향을 핵심어로 분석한 결과, 국내에서 ‘growth’, ‘communiti’, ‘ring’과 같은 핵심어가 높은 빈도로 나타났다(Table 1). 이와 같은 핵심어들은 송이 균사체의 성장, 미생물 군집, 균환과 관련된 연구논문에서 출현하였다. 국내 송이 핵심어 간의 유의미한 연관관계 분석은 불가능하였으나, 높은 빈도로 출현한 핵심어를 통해 국내 송이 연구는 송이 미생물 군집과 같은 생리적 특성에 관한 연구를 주로 수행한 것으로 판단된다.
국내와 달리 중국과 일본의 핵심어는 상관도가 0.6이상인 핵심어들이 출현하여, 연관관계 분석이 가능하였다. 핵심어 간의 상관도가 1에 가까울수록 서로 동시출현하였다는 의미이며, 이를 통해 주요 핵심어의 의미를 파악할 수 있다. 중국에서는 ‘activ’, ‘genet’, ‘gene’과 같은 핵심어가 높은 빈도로 나타났으며, 특히 ‘activ’의 경우 ‘liver’, ‘pharamacolog’와 같은 간, 약리학 관련 핵심어들과 함께 60% 이상의 상관도로 동시출현하였다(Table 2). ‘genet’의 경우 일배체형을 의미하는 ‘haplotyp’과 60% 이상의 상관도로 동시출현하였으며, 이는 송이의 분자생물학적 실험을 중점으로 수행한 논문들에서 주로 출현하였다. 이를 토대로 중국에서 송이 성분을 기반으로 한 약리학적 연구를 다수 수행하였으며, 또한 송이 관련 분자생물학적 분석 연구를 주로 수행한 것으로 판단된다.
일본에서는 ‘ectomycorrhiz’, ‘fungi’, ‘genet’이 높은 빈도로 출현하였는데, ‘ectomycorrhiz’와 ‘fungi’는 상관도 0.64로 동시출현하여, 송이의 외생균근 관련 연구를 주로 수행하는 것을 확인할 수 있었다. 또한 ‘genet’의 경우 ‘microsatellit’, ‘diversity’와 같은 송이 미세부수체 및 유전적다양성 관련 핵심어들과 0.7 이상의 높은 상관도로 동시출현하였다. 이를 통해 일본의 송이 연구는 송이의 유전적 다양성과 종 보존을 목적으로 하는 생태적 연구를 주로 수행한 것으로 판단된다(Table 2).
핵심어 분석에서 특히 중국, 일본 핵심어에서는 ‘genet’, ‘gene’, ‘pcr’과 같은 분자생물학적 핵심어들이 상위빈도에 출현한 반면, 국내의 상위빈도에 해당 핵심어들이 전혀 출현하지 못하는 뚜렷한 차이를 보였다. 텍스트 마이닝 기법을 통한 핵심어 분석을 토대로, 국제적으로 송이 연구에 대한 연구개발 역량과 경쟁우위를 확보하기 위해서는 분자생물학적 기술을 기반으로 송이 성분에 대한 약리학적 연구와 함께 유전적 다양성 및 종 보존에 대한 연구가 필요할 것으로 사료된다.