Phân cụm mờ trọng số địa lý
Nguyễn Thị Thu Hoàn
Trường Đại học Công nghệ
Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 01 04
Người hướng dẫn: PGS.TS. Nguyễn Đình Hóa, TS. Lê Hồng Sơn
Năm bảo vệ: 2014
Keywords. Hệ thống thông tin; Lôgic mờ; Phân cụm mờ; Dữ liệu địa lý
Content
Ngày nay, các cơng cụ tính tốn mềm đang dần trở nên phổ biến trong các lĩnh vực của
khoa học tính tốn, do tính hữu hiệu của nó trong việc giải quyết các bài tốn thực tế hiện tại của
kinh tế - xã hội mà các công cụ phân tích cổ điển như các mơ hình thống kê và lớp các phương
pháp giải chính xác khơng thực hiện được [13]. Một trong những hướng được quan tâm hiện nay
trong tính tốn mềm là ứng dụng các phương pháp này vào các bài tốn thực tế có tham chiếu
không gian và các phương pháp như vậy được gọi là lớp các phương pháp tính tốn mềm ảnh
hưởng bởi đặc trưng địa lý trong các mơ hình tương tác khơng gian.
Trong lớp các phương pháp tính tốn mềm ảnh hưởng bởi đặc trưng địa lý trong các mơ
hình tương tác không gian, phương pháp phân cụm mờ trọng số địa lý là một phương pháp đã
được ứng dụng cho nhiều bài toán quan trọng của kinh tế - xã hội. Phương pháp này ra đời bắt
nguồn từ nhu cầu của bài toán phân cụm dữ liệu địa lý, được định nghĩa theo Sleight (1993) [19]
là sự phân chia dữ liệu có đặc trưng khơng gian vào các nhóm khác nhau theo một số tiêu chí
nhất định để từ đó đưa ra các chính sách hợp lý nhằm phân phối sản phẩm và dịch vụ cho các
vùng miền. Kết quả của phân cụm dữ liệu địa lý thường được thể hiện dưới dạng bản đồ phân bố
của các đặc trưng.
Cho đến nay, thuật toán phân cụm mờ trọng số địa lý tốt nhất cho bài toán này là thuật
toán MIPFGWC [10]. Thuật toán này được xây dựng dựa trên các lý thuyết về tập mờ trực cảm,
phân cụm mờ xác suất và mơ hình SIM2 và đã được kiểm chứng về chất lượng phân cụm khi so
sánh với một số thuật toán khác như NE [24], FGWC [12] và IPFGWC [8]. Mục tiêu và động cơ
nghiên cứu của luận văn là cải tiến thuật toán MIPFGWC sử dụng ý tưởng về lý thuyết hàm nhân
[23] nhằm nâng cao chất lượng phân cụm của thuật toán. Thuật toán thu được sẽ được kiểm
chứng so sánh đánh giá với MIPFGWC và một số thuật toán khác về chất lượng phân cụm.
Bố cục của luận văn bao gồm 3 chương:
Chương 1: Trình bày các kiến thức cơ bản về bài toán phân cụm dữ liệu địa lý, bao
gồm các định nghĩa, độ đo và ứng dụng của nó trong các lĩnh vực ý tế, an ninh, xã
hội, .v.v. đồng thời trình bày sơ lược về các thuật toán phân cụm mờ trọng số địa lý
FCM, NE, FGWC, CFGWC, CFGWC2, IPFGWC, MIPFGWC cùng các ưu nhược
điểm của chúng, từ đó đề xuất thuật toán KMIPFGWC.
Chương 2: Trình bày thuật tốn phân cụm mờ trọng số địa lý KMIPFGWC, với hàm
mục tiêu sử dụng độ đo khoảng cách là hàm nhân Gaussian thay vì sử dụng hàm
Euclidean truyền thống và sử dụng mơ hình SIM2 để nâng cao chất lượng phân cụm
cho bài toán.
Chương 3: Trình bày một số kết quả thực nghiệm thuật toán KMIPFGWC trên bộ dữ
liệu thực tế là bộ dữ liệu địa lý về kinh tế - xã hội từ tổ chức Liên Hợp Quốc – UNO
và so sánh nó với các thuật tốn MIPFGWC, FGWC để đánh giá hiệu quả của thuật
toán đề xuất.
References
Tiếng Anh:
[1]. Ahmed, M. N., Yamany, S. M., Mohamed, N., Farag, A. A., Moriarty, T., 2002. A modified
fuzzy c-means algorithm for bias field estimation and segmentation of MRI data. IEEE Trans.
Med. Imaging 21,193–199.
[2]. Atanassov, K. T. (1986). Intuitionistic fuzzy sets. Fuzzy sets and Systems,20(1), 87-96.
[3]. Bezdek, J.C., R. Ehrlich, et al. (1984), "FCM: the fuzzy c-means clustering algorithm",
Computers and Geosciences, 10, pp.191-203.
[4]. Chen, S. C., Zhang, D. Q., 2004. Robust image segmentation using FCM with spatial
constrains based on new kernel-induced distance measure. IEEE Trans. Systems Man Cybernet.
Part B 34, 1907–1916.
[5]. Feng, Z. and Flowerdew, R. (1998), Fuzzy Geodemographics: a contribution from fuzzy
clustering methods, In: Carver, S. (Ed.) Innovations in GIS 5, Taylor & Francis, London, pp.119127.
[6]. Harrison, N., Hatt, S. (2010), “„Disadvantaged Learners‟: Who Are We Targeting?
Understanding the Targeting of Widening Participation Activity in the United Kingdom Using
Geo-Demographic Data From Southwest England”, Higher Education Quarterly, Vol. 64, No. 1,
pp. 65-88.
[7]. Keogh, E., Ratanamahatana, C. A., 2005. Exact indexing of dynamic time warping.
Knowledge and information systems 7(3), 358-386.
[8]. Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Nguyen Tho Thong (2012), “A Novel
Intuitionistic Fuzzy Clustering Method for Geo-Demographic Analysis”, Expert Systems with
Applications, Vol. 39, No. 10, pp. 9848–9859.
[9]. Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Hoang Anh Hung (2012), "Data Mining
in GIS: A Novel Context-Based Fuzzy Geographically Weighted Clustering Algorithm",
International Journal of Machine Learning and Computing, 2(3), 235-238.
[10]. Le Hoang Son, Bui Cong Cuong, Hoang Viet Long (2013), “Spatial interaction –
modification model and applications to geo-demographic analysis”, Knowledge-Based Systems,
Vol. 49, pp. 152–170.
[11]. Le Hoang Son (2014), “Enhancing Clustering Quality of Geo-Demographic Analysis Using
Context Fuzzy Clustering Type-2 and Particle Swarm Optimization”, Applied Soft Computing,
Vol. 22, pp. 566 - 584.
[12]. Mason, G. A. and Jacobson, R. D., 2007. Fuzzy Geographically Weighted Clustering.
Proceedings of the 9th International Conference on GeoComputation, Maynooth, Eire, Ireland,
(electronic proceedings on CD-ROM).
[13]. Masoud, N., Zadeh, L. A., and Aminzadeh, F. (2003), Soft computing and intelligent data
analysis in oil exploration, Vol. 51, Elsevier Science, Amsterdam.
[14]. Mendel, J. M. (2007). Type-2 fuzzy sets and systems: an overview.Computational
Intelligence Magazine, IEEE, 2(1), 20-29.
[15]. Morris, P., Thrall, G. (2010), “Using Geospatial Techniques to Address Institutional
Objectives: St. Petersburg College Geo-Demographic Analysis”, IR Applications, Vol. 27,
Association for Institutional Research.
[16]. Páez, A., M. Trépanier, C. Morency (2011), “Geodemographic analysis and the
identification of potential business partnerships enabled by transit smart cards”, Transportation
Research Part A, Vol. 45, pp. 640–652.
[17]. Pedrycz, W. (1996), "Conditional fuzzy C-mean", Pattern Recognition Letter, 17, pp.625632.
[18]. Shelton, N., Birkin, M. and Dorling, D. (2006), “Where not to live: a geo-demographic
classification of mortality for England and Wales, 1981- 2000”, Health and Place, Vol. 12, No. 4,
pp. 557-569.
[19]. Sleight, P. (1993), Targeting Customers: How to use geodemographics and lifestyle data in
your business, NTC Publication, Henley-on-Thames.
[20]. Thakur, P., Lingam, C., 2013. Generalized Spatial Kernel based Fuzzy C-Means Clustering
Algorithm for Image Segmentation. International Journal of Science and Research 2(5), 165 169.
[21].
UNSD
Statistical
Databases,
2011.
Demographic
Yearbook.
[accessed 14 July 2012].
[22]. Wu Z., Xie, W. X., Yu J. P., 2003. Fuzzy C-means Clustering Algorithm Based on Kernel
Method. Proceedings of Fifth International Conference on Computational Intelligence and
Multimedia Applications, pp. 49-56.
[23]. Yang, M. S., Tsai, H. S. (2008), “A Gaussian kernel-based fuzzy c-means algorithm with a
spatial bias correction”, Pattern Recognition Letters, Vol. 29, No. 12, pp. 1713-1725..
[24]. Zadeh, L. A. (1965). Fuzzy sets. Information and control, 8(3), 338-353.