가중

블로그

Oct 17, 2023

가중

Scientific Reports 13권, 기사 번호: 14061(2023) 이 기사 인용 측정항목 세부정보 오늘날의 데이터 중심 디지털 문화에서는 본질적으로 다음과 같은 최적화된 솔루션에 대한 중요한 요구가 있습니다.

Scientific Reports 13권, 기사 번호: 14061(2023) 이 기사 인용

측정항목 세부정보

오늘날의 데이터 중심 디지털 문화에서는 생산성을 높이면서 본질적으로 운영 비용을 줄이는 최적화된 솔루션에 대한 수요가 매우 높습니다. 막대한 양의 데이터를 처리하는 데 사용할 수 있는 메모리 양과 처리 시간에는 여러 가지 제한이 있습니다. 데이터 세트에 중복되고 흥미롭지 않은 정보가 포함되어 있다면 이는 의심할 여지 없이 더 큰 문제가 될 것입니다. 예를 들어, 많은 데이터 세트에는 주어진 분류 알고리즘을 주로 속이는 많은 비정보 기능이 포함되어 있습니다. 이 문제를 해결하기 위해 연구자들은 원시 데이터 세트에서 불필요한 정보를 기계 학습(ML) 알고리즘 앞에 배치하기 전에 제거하는 것을 목표로 하는 다양한 특징 선택(FS) 기술을 개발해 왔습니다. 메타 휴리스틱 최적화 알고리즘은 FS와 같은 NP 하드 문제를 해결하기 위한 확실한 선택인 경우가 많습니다. 본 연구에서는 메타휴리스틱의 일종인 SSA(Sparrow Search Algorithm) 기반의 래퍼 FS 기법을 제시한다. SSA는 빠른 수렴과 향상된 안정성이 돋보이는 군집지능(SI) 방식이다. SSA에는 대부분의 SI 알고리즘과 마찬가지로 낮은 군집 다양성과 늦은 반복에서의 약한 탐색 능력과 같은 몇 가지 단점이 있습니다. 따라서 10개의 혼돈 지도를 사용하여 우리는 세 가지 방법으로 SSA를 개선하려고 합니다: (i) 초기 떼 생성; (ii) SSA에서 두 개의 무작위 변수 대체; (iii) 수색 범위를 가로지르는 참새를 잡는다. 결과적으로 우리는 SSA의 혼란스러운 형태인 CSSA를 얻게 됩니다. 광범위한 비교를 통해 CSSA는 IEEE(Institute of Electrical and Electronics Engineers) CEC(Congress on Evolutionary Computation) 벤치마크 세트의 다양한 대표 기능을 해결하는 데 있어서 군집 다양성 및 수렴 속도 측면에서 우수하다는 것을 보여줍니다. 또한 University of California Irvine(UCI) 데이터 저장소의 18개 학제간, 다중 규모 ML 데이터 세트와 3개의 고차원 마이크로어레이 데이터 세트에 대한 CSSA의 실험적 분석은 CSSA가 12개의 최첨단 알고리즘보다 성능이 우수하다는 것을 보여줍니다. FS 규율을 기반으로 한 분류 작업에서. 마지막으로 Wilcoxon의 부호 순위 테스트, Friedman의 순위 테스트 및 Nemenyi 테스트를 기반으로 한 5% 유의 수준 통계 사후 분석을 통해 전반적인 적합도, 분류 정확도, 선택한 특징 크기, 계산 시간, 수렴 추적 측면에서 CSSA의 유의성을 확인했습니다. , 안정성.

21세기는 데이터의 시대가 되어 삶의 모든 측면에서 데이터 분석과 활용이 가시화되고 있으며, 이러한 데이터는 고차원적인 성격을 띠는 경우가 많습니다1,2,3,4,5. 그러나 이 데이터에는 상당 수의 중복되고 관련 없는 특성이 포함되어 기존 기계 학습(ML) 알고리즘으로 처리할 때 계산 오버헤드와 과적합 위험이 증가하는 것은 불가피합니다6,7,8. 결과적으로 데이터를 더 잘 활용하려면 쓸모없는 기능을 처리할 수 있는 기능 선택(FS)과 같은 효율적인 절차를 개발해야 합니다9,10,11. 래퍼, 필터 및 임베디드 FS 기술은 일반적으로 기능 하위 집합에 대한 평가를 기반으로 차별화하는 데 사용됩니다. 래퍼 기반 접근 방식은 더 높은 분류 정확도를 얻기 위해 미리 정의된 ML 알고리즘에 의존하지만 ML 알고리즘을 여러 번 실행해야 하기 때문에 계산 비용이 매우 많이 듭니다13. 반대로, 기능 하위 집합을 평가하는 동안 필터 기반 접근 방식은 ML 알고리즘을 사용하지 않으므로 컴퓨팅 비용은 절감되지만 분류 정확도는 낮아질 수 있습니다14. 임베디드 기술은 FS를 모델 학습에 통합하여 계산 가중치를 낮추면서 알고리즘 모델의 영향을 설명합니다. 그러나 이러한 방법은 일반화 능력이 낮고 계산이 상당히 복잡합니다.

기능 하위 집합의 수는 데이터 차원으로 인해 기하학적으로 다양하기 때문에 특히 고차원 데이터 작업 시 전통적인 방법을 사용하여 적절한 결과를 생성하기가 어렵습니다. 차원의 저주로 인한 높은 계산 비용을 줄이기 위해 견고성과 조정 가능성으로 인해 래퍼 SI(군집 지능) 알고리즘을 기반으로 새로운 기능 하위 집합 선택 접근 방식을 개발할 수 있습니다. SI 알고리즘에는 유연성, 자기 조직화, 탄력성이라는 세 가지 필수 특성이 있습니다. 이러한 알고리즘은 채집, 포식 방지, 이주와 같은 자연의 집단 행동에서 영감을 얻은 경우가 많습니다19. 일반적인 SI 알고리즘으로는 ACO(개미 군집 최적화)20, PSO(입자 떼 최적화)21, GWO(회색 늑대 최적화)22, ABC(인공 꿀벌 군집)23, WOA(고래 최적화 알고리즘)24, GOA(메뚜기 최적화 알고리즘)가 있습니다. 25, HHO(해리스 호크스 최적화)26 및 BSA(새 떼 알고리즘)27. 다른 최적화 알고리즘에는 BA(배트 알고리즘)28, ASO(원자 검색 최적화)29 및 HGSO(헨리 가스 용해도 최적화)30이 포함됩니다. 일반적으로 메타 휴리스틱 알고리즘은 FS 문제를 효과적으로 처리하여 계산 복잡성을 낮추면서 분류 정확도를 높일 수 있으므로 SI 접근 방식은 FS 문제에 일관되게 적용되었습니다. 예를 들어, Hussain et al.35은 HHO의 탐색 및 활용 기능의 균형을 맞추기 위해 사인-코사인 알고리즘(SCA)을 HHO에 통합했으며, 여러 수치 최적화 및 FS 문제에 대한 실험 결과는 제안된 알고리즘의 경쟁 우위를 보여주었습니다. 다른 SI 알고리즘. Neggaz et al.36은 FS 문제를 해결하기 위해 처음으로 HGSO를 적용했습니다. 다양한 기능 크기(13~15009)를 가진 데이터 세트에 대한 실험 결과에 따르면 HGSO는 특히 고차원 데이터에서 기능 크기를 최소화하는 동시에 최대 분류 정확도를 유지하는 데 효과적이라는 것을 보여주었습니다.

N/2\) indicates that scroungers need to fly elsewhere to get food; otherwise, scroungers get food form around producers./p>f({\mathbf{g}}_{best}^{t})\) indicates that the sparrow is at risk of predation and needs to change its location according to the current best individual, whereas when \(f({\textbf{x}}_i^{t})=f({\mathbf{g}}_{best}^{t})\), a sparrow needs to strategically move closer to other safe individuals to improve its safety index./p>