利用机器学习技术分析城市光污染的监测与影响(作者:周若鑫 学校:上海市川沙中学)

来源于:知识就是力量
发布时间:2026-03-23 16:02:56
    小字号

利用机器学习技术分析城市光污染的监测与影响
作者:周若鑫   学校:上海市川沙中学
摘要:随着城市化进程的不断加快,光污染问题日益严重,尤其在大城市中,过度的人工照明不仅影响了人们的生活质量,还对生态环境、健康和天文观测等方面造成了负面影响。为有效监测和预测光污染,本文结合机器学习技术,采用BP神经网络模型对城市光污染进行预测。通过对上海市不同区域光污染数据进行分析,研究构建了一个基于BP神经网络的光污染预测模型,并与传统的支持向量机(SVM)和深度学习算法(如LSTM)进行对比。实验结果表明,BP神经网络能有效捕捉光污染数据中的非线性规律,预测精度优于其他算法,模型在均方误差(MSE)、平均绝对误差(MAE)和决定系数(R²)等指标上表现良好。研究表明,机器学习模型,尤其是BP神经网络,在城市光污染监测与治理中具有重要的应用前景,为城市管理者提供了有力的数据支持。
关键词:光污染;BP神经网络;机器学习;预测模型;城市环境;支持向量机;LSTM  

        随着现代城市化的不断推进,城市的夜晚变得越来越明亮。街道灯光、广告牌、建筑照明等人工光源几乎覆盖了整个城市的夜空,造成了日益严重的光污染。光污染不仅影响了人们的生活质量,也对生态环境、天文观测等方面造成了很大的负面影响。作为一名高中生,我在日常生活中逐渐意识到光污染给城市带来的困扰。尤其是晚上,当城市的灯光遮掩了星空,我们难以再看到美丽的星辰,甚至无法感受到夜空的宁静与神秘。这让我对光污染产生了的浓厚兴趣,想通过科学的方式去了解和解决这一问题。
        光污染对生态环境的影响令人关注。例如,一些夜行性动物,如昆虫、鸟类等,依赖自然光来导航和寻找食物。过度的人工照明让它们迷失方向,甚至无法正常繁殖,严重破坏了生态平衡。同时,光污染对人类健康也有潜在威胁,长期暴露在过多的人工光源下,可能导致生物钟紊乱,影响睡眠质量,从而引发一系列健康问题。
        在传统的光污染监测中,往往依靠人工测量和光度计等工具,这些方法虽有效,但操作繁琐、耗时且难以全面反映整个城市的光污染状况。随着计算机技术和机器学习的飞速发展,我意识到利用机器学习技术可更高效、精准地分析和预测光污染的分布情况。这不仅可以提升光污染监测的效率,还能为解决光污染问题提供科学依据。
        因此,我决定将机器学习与光污染结合,进行深入的研究。通过收集不同区域的光污染数据,利用机器学习模型分析光污染的分布规律,以及影响光污染的主要因素,从而为减少光污染、改善环境质量提供可行的建议。这项研究不仅具有较强的学术价值,也对社会、环保、生态保护等方面有着积极的影响。作为一名高中生,能够将所学的科学知识应用于实际问题,解决现实生活中的环境难题,既是一次难得的学习机会,也让我对科学研究产生更深的兴趣和热情。
        1. 实验设计
        1.1. 数据集划分
        在构建机器学习模型时,数据集的划分是一个至关重要的步骤,合理的划分可有效评估模型的性能并防止过拟合。为了保证模型训练的有效性和准确性,通常将数据集分为三个部分:训练集、验证集和测试集。常见的划分比例为8:2,即将80%的数据用于训练模型,剩余的20%用于测试模型的性能。
        训练集:用于训练模型,它包含了模型学习所需的输入数据和对应的输出结果。在光污染预测模型中,训练集包括各类与光污染相关的特征(如时间、地理位置、天气、历史光污染数据等)及其对应的光污染强度。通过使用训练集,模型会根据输入数据调整其内部参数(如权重和偏差),以学习数据的潜在规律。
        测试集:用于评估训练好的模型的性能,它不参与训练过程,只用于检查模型的泛化能力。测试集包含与训练集相同类型的特征数据,但其输出结果(即光污染强度)未被模型看过。通过将模型应用于测试集,可以衡量模型在未见过的数据上的表现,评估其预测准确性。
        通常,数据划分有以下几种常见的方法:
        随机划分:数据可以随机地分配到训练集和测试集中。这样可以确保训练集和测试集的分布尽可能一致,有助于模型的泛化能力。常见的划分比例为8:2或 7:3,即80%或70%的数据用于训练,剩余20%或30%用于测试。
        交叉验证:为了进一步提高模型的可靠性,可以采用交叉验证的方法,特别是K折交叉验证。交叉验证通过将数据集分成K个子集,轮流将一个子集作为验证集,其他K-1个子集作为训练集,从而多次评估模型的性能。虽然这种方法相对复杂,但它可以充分利用数据,降低过拟合的风险。

数据集的划分

        1.2. 实验环境
        在本研究中,实验环境使用了MATLAB作为主要的开发平台。MATLAB具有强大的数值计算和数据处理能力,特别适用于机器学习和信号处理任务。它提供了丰富的内置函数和工具箱,能有效支持光污染预测模型的构建、训练和评估。
        硬件环境方面,实验使用了一台配备高性能CPU和较大内存的计算机。具体配置包括至少16GB的内存和多核处理器,这些资源确保了在处理大规模光污染数据集时,能够快速进行数据加载、预处理和模型训练。由于BP神经网络训练需要进行大量的计算,因此高效的硬件支持对于实验的顺利进行至关重要。
        在软件环境中,MATLAB是数据分析和模型构建的主要工具。通过MATLAB的神经网络工具箱,我们可以轻松地构建、训练和评估BP神经网络模型。此外,MATLAB提供的其他工具箱,如统计和机器学习工具箱以及优化工具箱,也为数据预处理、特征选择、模型优化和评估提供了丰富的功能。
        在数据管理方面,所有的光污染数据集被存储在MATLAB支持的格式中(如.mat文件)。这些数据格式可以高效地存储大规模的数值数据,且便于在MATLAB环境中加载和处理。数据清洗、归一化和标准化等预处理操作均在MATLAB中完成,使用MATLAB自带的函数和脚本进行数据转换和清理,以确保数据质量。
        为了可视化分析结果,我们利用MATLAB的绘图功能生成了各种类型的图表,包括光污染分布图、预测结果与实际数据的对比图以及评估指标的可视化图形。MATLAB的图形工具和可视化功能非常强大,能帮助我们直观展示模型的性能,并深入分析不同区域和时间段的光污染情况。
        1.3. 实验步骤
        1)数据采集与准备
        在实验的第一步,我们从公共数据源收集与光污染相关的数据,这些数据包括城市的光污染强度、时间、地理位置、气象条件等。数据被导入MATLAB中,存储为MATLAB支持的格式(如.mat文件或.csv文件)。在此过程中,我们确保数据完整性,并清除任何缺失值或异常值,保证数据的质量。
        2)数据预处理
        数据预处理是实验中的关键步骤。首先,我们使用MATLAB内置的函数对数据进行清洗,去除缺失值和异常值。接着,对数据进行归一化或标准化处理,使用normalize函数确保所有特征具有相同的尺度。然后,进行特征工程,提取影响光污染强度的最相关特征,减少冗余特征,优化数据输入。
        3)模型构建与训练
        在数据预处理完成后,我们使用MATLAB的神经网络工具箱构建BP神经网络模型。通过newff函数创建一个前馈神经网络,并根据数据特点选择合适的网络结构(如输入层、隐藏层和输出层的节点数)。模型使用误差反向传播算法进行训练,采用交叉验证来优化模型性能。在训练过程中,调整学习率和其他超参数,以确保模型高效学习数据中的规律。
        4)模型评估与测试
        训练完成后,使用MATLAB的sim函数将训练好的模型应用于测试集,进行光污染强度的预测。通过计算评估指标,如均方误差(MSE)、平均绝对误差(MAE)和决定系数(R²),评估模型的预测准确性。同时,使用MATLAB的可视化工具绘制实际值与预测值的对比图,帮助我们直观地分析模型的表现。如果模型结果不理想,可能会进一步优化,如调整神经网络结构、选择不同的特征或优化超参数。

 GA-BP算法流程图

        1.4. 实验参数设置
        1)遗传算法(GA)参数设置
        遗传算法是一种基于自然选择和遗传机制的全局优化算法,其参数设置对GA的优化效果有重要影响。以下是本研究中使用的遗传算法的具体参数设置:

        2) BP神经网络参数设置
        BP神经网络通过反向传播算法调整网络权重来最小化预测误差。本文中使用的BP神经网络参数经过实验调优,以提升模型的预测精度。以下是具体的参数设置:

        2. 结果与讨论
        2.1. 实验结果
        在本实验中,我们使用BP神经网络对光污染进行了预测,并获得了具体的实验结果。以下是基于测试集的详细评估指标和结果,包括实际数据与预测数据的对比、误差分析及模型性能评估。
        1)评估指标

        2)实验结果
        以下为GA-BP算法基于实验测试集的评估指标结果:

        为了全面评估光污染预测模型的效果,我们还对比了四种常见的算法:GA-BP、普通BP、支持向量机(SVM)和长短期记忆网络(LSTM)。以下是各算法在预测光污染强度方面的表现:

        4)结果分析
        本次实验中,我们使用了四种算法——GA-BP、普通BP、SVM和LSTM——对光污染进行了预测。实验结果显示,GA-BP算法在所有评估指标上表现最优。具体来说,GA-BP模型的均方误差(MSE)为0.0221,平均绝对误差(MAE)为0.1243,决定系数(R²)为0.872。这表明,GA-BP算法不仅具有较小的预测误差,且能更好地拟合光污染数据中的复杂非线性关系。
        遗传算法的引入优化了BP神经网络的初始权重,避免了局部最优问题,提高了模型的全局搜索能力,并提升了预测精度。相比之下,普通BP、SVM和LSTM的预测误差较大,尤其是在一些关键时段,GA-BP算法的表现显著优于其他算法。
        通过对比实际光污染强度与不同算法预测值的对比结果,可以发现,GA-BP的预测值与实际值最为接近,误差最小,表现出最高的预测精度。相比之下,普通BP、SVM和LSTM的预测结果在一些时段偏离实际值较大,特别是在高光污染区域,其他算法的表现逊色于GA-BP。
        图表展示了不同算法在预测光污染强度时的误差分布,图中的数据表明,GA-BP算法的预测值大部分都与实际值相符,且误差较小。其他算法如普通BP和SVM在某些时间段存在较大误差,特别是在高光污染时段。
        综上所述,GA-BP算法在光污染预测中具有明显的优势,能够提供更准确的预测结果,对城市的光污染治理和监控具有重要意义。通过进一步优化算法和扩展数据集,预计能进一步提升模型的精度和适用性。
参考文献
[1]. 张晖, 李峰. (2019). 环境污染监测中的机器学习应用研究综述. 环境科学与技术, 42(7), 35-41.
[2]. 王小明, 张敏. (2020). 城市光污染监测与评估方法研究. 环境保护与科学, 23(5), 55-63.
[3]. 周伟, 黄浩. (2017). 基于BP神经网络的环境污染预测研究. 环境保护, 28(3), 120-127.
[4]. 刘春雨, 赵刚. (2018). 基于大数据的光污染监测与预警系统研究. 计算机与应用化学, 35(12), 15-22. 

责任编辑:李银慧