摘要
历史空间感知是人与历史环境要素相互作用和影响后形成的整体感受与认知,是从人本视角研究历史遗产的重要方向。虽然在当前的历史遗产保护研究与实践中已形成较为完善的物质空间保护框架,但是针对人与历史空间交互关系的研究较少。而传统研究方法受成本高、样本量少、偏差较大的限制,很难对大规模或大尺度的历史空间感知进行高精度测度。基于此,文章融合历史空间互联网评价的多源数据,利用时空数据计算、自然语言处理和计算机视觉等机器学习技术方法构建历史空间感知测度技术框架,从空间结构分布、空间类型聚类、典型意见抽取、情感倾向判断、图像内容识别和历史意象归纳6个维度对历史空间感知进行测度研究,并以舟山为实证案例,分析其历史空间的感知特征与核心问题,以期为舟山历史文化名城保护规划的编制提供方法支撑。
[关键词] 机器学习;历史空间;感知测度;历史文化名城;舟山
[文章编号] 1006-0022(2021)23-0067-07
[中图分类号] TU984.11+3
[文献标识码] B
[引文格式] 曹越皓,杨培峰,庄凯月.基于机器学习的历史空间感知测度研究[J].规划师,2021(23):67-73.
1 研究背景
1.1 城市历史遗产保护与利用的矛盾突出
随着经济的高速增长,我国的城镇化进程不断加快,城市历史遗产保护与利用的矛盾日益突出。一方面,城市的盲目扩张与野蛮拆迁导致历史遗产屡遭破坏,历史地段新旧杂糅,历史文化街区逐渐碎片化;另一方面,对历史遗产的僵化保护也使城市陷入发展空间不足、文化价值未得到有效利用等现实困境,阻碍了城市的可持续发展。因此,如何协调城市历史遗产保护与发展的重要关系、更新历史遗产保护的科学理念、实现历史城镇的可持续发展成为当前迫切需要解决的问题。
1.2 高质量发展对城市历史文化保护工作提出新要求
2017年,习近平总书记提出“文化自信”,要求提升中华传统文化认同感;2018年发布的《历史文化名城保护规划标准》对历史文化名城的保护内容与技术体系提出了全新的要求;2019年至今,国家出台了《中共中央 国务院关于建立国土空间规划体系并监督实施的若干意见》《关于在国土空间规划编制和实施中加强历史文化遗产保护管理的指导意见》《关于在城乡建设中加强历史文化保护传承的意见》等一系列文件,对国土空间规划体系下的城市历史文化保护工作提出了更高、更严的要求。
1.3 新数据和新技术在历史遗产保护中的应用
随着以物联网、大数据和人工智能为代表的新基建、新数据、新方法的迅猛发展,一系列具有颠覆性的理念和方法正深刻地影响与改变着城市,以及人们看待城市的视角,为城市研究带来了变革的可能。在历史遗产保护领域中应用的新技术主要有三维激光扫描技术、虚拟现实技术、增强现实技术、GIS地理信息平台等,目前主要应用场景集中在历史遗产数字化保护、历史遗产数字化展示和历史遗产信息管理平台等领域,对历史遗产保护相关的规划编制支撑还较少,应用范围有待扩大。
2 研究综述
在一系列理念、政策与规范的变革背景下,虽然在历史遗产保护研究与实践中已形成较为完善的物质空间保护框架,但是仍存在保护理念不足、技术体系不完善、历史空间活化不佳等现实问题。特别是在坚持以人为本理念的当下,现有方法体系中针对人与历史空间交互关系的研究较少,存在“只见物、不见人”的短板,故深入研究历史空间感知,关注人与历史空间的互动关系,对构建历史场景、挖掘历史遗产当下的价值、提升传统文化认同感尤为重要。
历史空间感知是人与历史环境要素相互作用和影响后形成的整体感受与认知,具体而言就是人作为外部主体介入历史空间之后,促使原有的历史空间向“社会—历史”空间转变,从而形成主客体相互作用的复杂能动关系。感知测度是研究人与历史空间互动关系的基本方法和直接途径。立足于感知视角,可以更好地回应城市历史研究的基本问题—人如何理解和使用历史空间,历史空间又以何种方式影响人的行为。目前,关于历史空间感知的研究主要基于建筑学、地理学和社会学等角度,应用要素分解和叙事归纳两种方法,从历史空间的物质本体特征与人的主观感受两方面展开测度。
要素分解是目前感知测度方法中最普遍的一种方法,其从认识论的角度拆分历史要素或分解空间属性,以此作为感知测度的基本依据,并通过问卷调查、专家打分等方法获得基础数据,进而使用IPA分析、方差分析、聚类分析和结构方程模型等数理统计方法获得感知测度结果。刘祎绯等人利用认知地图总结了拉萨5种城市意象类型的空间特征,提出了综合的历史空间意象结构;杨俊将南京历史文化景观分解为设计、遗址、建筑和复合4种类型,从时间脉络和空间格局两个方面梳理了南京历史空间的演变;李晓丽等人采用认知地图并辅以调查问卷跟踪调查学生对北京城市空间的感知情况,发现学生对历史空间具有较强的感知偏好 。
叙事归纳是田野调查中以叙事文本、解释及归纳其意义为主要手段的研究方法,一般借助参与性观察、深度访谈、焦点小组等方法获取被调查者的空间体验数据,研究者通过经验判断对获得的叙事内容进行分析归纳,形成感知测度结果。张天洁等人通过对网络评论文本进行统计分析,发现女性游客在历史空间感知上更偏好建筑、小品和植物等元素;肖扬等人根据武汉历史文化街区的网络游记分析了游客对历史空间的感知,并从地点空间、形象特征及情感态度3个维度辨析了感知结果;张振龙等人通过田野调查和深度访谈研究了苏州陆巷古村居民对村落空间的感知 。
上述研究普遍运用专家打分、问卷调查和行为注记等方法,易受到较多因素的限制,存在耗时费力、数据规模小、样本覆盖不够全面、数据真实性与可靠性不高等缺点,在一定程度上限制了相关研究的进一步深入。
近年来涌现了以机器学习、虚拟现实、生理传感器等为代表的新技术和以POI、手机信令、社交网络等为代表的新数据,为现有研究范式的革新提供了可能。新技术与新数据在历史空间感知中的应用集中于历史空间更新和古城活力的复兴与提升方面,多以空间句法与GIS平台等为技术手段。杨晨等人介绍了澳大利亚巴拉瑞特利用互联网与数据库技术实现城市历史景观数字化的实践经验,以唤醒和增强市民对历史空间的感知;Kim Y等人使用Flickr上近10年的地理照片社交数据研究游客在东南亚国家联盟遗址公园中的时空活动,分析游客对不同历史空间的感知情况和游览兴趣;Selmanovi E等人利用VR技术让游客身临其境地感知非物质文化遗产的历史空间,以增强游客对历史文化的认同与兴趣。
虽然新技术与新数据的应用在一定程度上弥补了传统研究方法的短板,但是多数研究仍局限在人与研究对象的时空关系测度上,未能进一步了解人与历史空间互动感知的具体内容及感知反馈,无法全面、综合地测度历史空间感知,亦无法深入地分析人与历史空间的相互作用关系。因此,本研究以空间感知理论为基础,结合互联网开放数据及机器学习技术,以浙江舟山为研究对象,探讨历史空间感知测度的新方法。
3 基于机器学习的历史空间感知测度方法
本研究认为人对历史空间的感知包含空间、内容和情感3个层级,对应“格局—过程—反馈”的核心范式,是从客观到主观、从具象到抽象、从简单到复杂的递进关系。其中,空间感知作为时空基础,反映了人对历史空间的触及关系;内容感知作为物质基础,代表人对历史空间的关注重点;情感感知作为情绪基础,表征人对历史空间的综合评价。只有构建融合上述3种感知类型的测度方法,才能全面刻画人与历史空间的互动关系,并在历史遗产保护与活化利用中更好地贯彻以人为本的思想。
3.1 技术框架
本研究构建的历史空间感知测度技术框架,内容包括数据获取、数据库构建、关键技术、分析方法和规划响应5个部分,其中数据获取与数据库构建部分是通过Python采集程序获取互联网开放数据,并通过数据清洗与筛选构建感知测度数据库;关键技术和分析方法部分以3条技术路径及6项感知维度为核心展开研究,包括利用时空数据计算识别空间结构分布和空间类型聚类特征,利用计算机视觉识别图像内容和归纳历史意象,利用自然语义处理分析关键词频和判断情感倾向;规划响应部分是基于上述分析得出的历史空间感知测度结果,总结历史文化遗产的现状问题,提出历史空间结构优化、历史廊道梳理构建和历史资源创新活化等规划策略,以实现以人为本的历史遗产保护与利用(图1)。
3.2 测度内容
3.2.1 测度范围
舟山位于浙江东部,是我国唯一的群岛型历史文化名城,自古以来都是海防重镇和军事要塞,更是海上丝绸之路的贸易枢纽和开放门户。舟山拥有“岛链串珠、山海一体”的自然山水格局,佛教文化深厚,享有“海天佛国”的美誉;历史文化遗存丰富,海洋民俗文化源远流长。本研究的测度范围为舟山全域,面积达2.2万平方公里;重点研究区域为定海古城,面积为90.4hm2。
3.2.2 数据获取
携程网作为我国最大的旅行类网站,具有数据规模庞大、更新时效迅速及数据内容可靠等优点,其拥有国内外大量景点的信息及游客评价数据,这些评价数据体现了游客最真实的感知体验。本研究利用Python采集程序获取携程网上有关舟山所有旅游景点的信息及相关评价数据,包括每个景点的名称、地址、坐标、评价数量、综合评分、评价文字和评价照片共计7项数据,可将这些数据归纳为时空数据、照片数据和文本数据3种类型。本研究获取了截止到2020年4月30日舟山578个旅游景点的数据(图2),其中包含21905条文字评价及35701张照片。经过数据清洗和人工核对,筛选出与历史文化遗产相关的景点375个,其中包含18380条文字评价及30357张照片,并以此作为本研究的数据基础。
3.2.3 研究方法
(1)空间感知测度:时空数据计算。
本研究在空间感知测度方面采用时空数据计算方法,即使用ArcGIS软件平台,首先对景点数据进行空间化,其次结合缓冲区分析、叠加分析、核密度计算等多种地理统计手段识别历史文化景点的空间结构及聚类特征,并与历史空间分布进行对比,实现对历史空间感知度的评价。
(2)内容感知测度:计算机视觉。
本研究在内容感知测度方面采用计算机视觉方法,即使用腾讯AI开放平台提供的图片识别机器学习算法,包含图像内容识别和历史意象归纳。首先,通过计算机视觉可以准确识别图片的内容信息并生成相应的文字标签,通过对标签内容的统计分析可以表征游客在历史空间感知中的关注重点,进一步总结出最具舟山特色的历史要素;其次,按照图像标签组合类型及比例的差异,建立图片标签与历史意象的对应关系,即可得到图像所表征的舟山历史意象类型,包括自然景观、历史古迹、宗教场所和民俗风情4种类型。
(3)情感感知测度:自然语言处理。
本研究在情感感知测度方面采用自然语言处理方法,即使用百度AI开放平台提供的自然语义机器学习算法进行测度,包含典型意见抽取和情感倾向判断。典型意见抽取可以通过关键词频的统计及聚类,实现对游客主观感受的识别;情感倾向判断可以通过分析特定场景下文字的词性与语法,判别所表达的情感极性类别,并给出相应的置信度,其中情感极性可以分为积极、消极和中性3种。
4 舟山历史空间感知测度分析
4.1 空间结构分布
本研究利用ArcGIS平台将景点数据空间化,并利用核密度工具生成历史空间分布热力图(图3)。结果显示,舟山历史空间分布存在典型的海岛簇群式特征,形成了6个主要的岛链组团,分别是定海古城、普陀山、朱家尖、桃花岛、东极岛和嵊泗列岛,组团之间存在明显的地理隔离。6个组团内共有262处景点,占舟山总景点规模的69.87%。其中,普陀山景点最多,共有89处,占23.73%;定海古城景点最少,共有23处,占6.13%。
同时,本研究将以历史景点为圆心、以1km为半径的覆盖范围作为游客的重点感知区域,并将该区域与舟山222处历史建筑、古文化遗迹、海防遗址、特色村落等历史空间进行叠加分析。结果显示,位于重点感知区域的历史空间有119处,占53.60%;位于重点感知区域外的历史空间有103处,占46.40%,表明有近一半的历史空间未能被游客有效感知(图4)。未能感知的历史空间主要分布于舟山本岛(舟山主城区所在岛屿)西部及岱山中部,包括金塘、里钓山、烟墩山、马岙、海丰码头和岱山中部等片区;未能感知的历史空间中包含了国家级文物保护单位6处、省级文物保护单位2处、历史文化名村2处、国家级传统村落1处、省级传统村落2处和市级传统村落3处,以古文化遗迹和海防遗址为主。
4.2 空间类型聚类
参照《旅游景区分类》(T/CTAA 0001—2019),本研究将历史空间分为综合吸引类、自然景观类、人文景观类、乡村田园类、现代娱乐类5种类型(图5)。可以发现,舟山的历史空间以人文景观类和自然景观类为主。人文景观类历史空间较为集中,共有156处,占景观整体规模的41.60%,主要集中在普陀山与舟山本岛,其中以宗教文化和古迹遗址为主,如法雨寺、慧济寺和东沙古镇等;自然景观类历史空间分布较为均衡,共有133处,占景观整体规模的35.47%,在市域的海岛上均有分布,以海洋型和山岳型为主,如朱家尖、六井潭和大青山等;现代娱乐类历史空间有68处,占景观整体规模的18.13%,主要集中在普陀山、朱家尖、舟山本岛和岱山,以文化演艺和文化场馆为主,如《印象普陀》演出、舟山博物馆和中国灯塔博物馆等;综合吸引类历史空间有12处,占景观整体规模的3.2%,主要是综合型历史景区,如南洞艺谷、黄杨尖景区和马岙旅游区等;乡村田园类历史空间有6处,占景观整体规模的1.6%,主要是具有舟山特色的海岛渔村,如东海渔村、筲箕湾渔村和金鸡山渔村等。
4.3 典型意见抽取
本研究通过调用百度自然语言处理API对6个历史空间聚集组团中的16598条文字评价数据进行词频分析,提取和归纳高频词汇与高频观点,了解游客关注的重点内容与评价倾向。结果显示,舟山整体高频词汇包括佛教、观音、沙滩、海鲜、码头、古城、历史、大街等,正面观点包括方便、悠久、新鲜等,负面观点包括贵、老、旧等(表1)。
从高频词汇来看,普陀山以观音、佛教等宗教文化为主,定海古城以古城、大街等为主,朱家尖以沙滩、海鲜和沙雕等为主,桃花岛以风景、射雕和金庸等为主,东极岛和嵊泗列岛以日出、大海、沙滩等为主。从高频观点来看,游客认为普陀山交通方便、香火旺盛,但价格贵;定海古城历史悠久、古香古色,但建筑老旧;朱家尖海鲜新鲜、沙滩白细,但价格贵;桃花岛风景不错、值得游玩,但价格贵、位置偏远;东极岛和嵊泗列岛大海蓝、海鲜新鲜,但价格贵、位置偏远。
4.4 情感倾向判断
本研究利用百度自然语义处理API中的情感倾向分析对18380条文字评价进行情感探测,得到每条评价的积极指数、消极指数和置信度,其中积极指数与消极指数相加为1,置信度为情感判断结果的可靠程度。本研究设定情感指数为积极指数与置信度之积,并以此数值表征评价游客真实表达的情感倾向,该指数数值区间为[0,1],具体公式如下:
公式(1)
其中,Ei为情感指数,Pi为积极指数,(1-αi)为置信度,i为评价编号。
根据人工数据抽样检查,本研究划定情感评价区间,当0≤Ei<0.5时,为消极情感;当0.5≤Ei≤0.8时,为中性情感;当0.8<Ei≤1时,为积极情感。
从整体情感倾向来看,研究区域情感指数的平均值为0.83,标准差为0.31,表明游客对舟山历史文化空间的整体感知呈现积极正面的倾向。从评价情感极性的正面和负面分布趋势来看,正面评价有14509条,占比为78.94%;中性评价有1179条,占比为6.41%;负面评价有2692条,占14.65%。
将情感指数与1km×1km的空间网格进行连接,得到舟山历史空间情感地图(图6)。从地图反映的情感倾向空间分布来看,普陀山、定海古城、临城、嵊泗列岛和东极岛都是以正向情感为主,桃花岛、朱家尖和岱山等区域的正面评价与中性评价均等分布,沈家门、东极岛和六横岛存在集中的负面评价区域。
4.5 图像内容识别
本研究通过调用腾讯AI开放平台多标签识别API对30375张照片进行图像识别,共识别出154类内容、136113个标签,平均每张照片有4.48个标签。在此基础上,从中筛选出最能代表舟山的8个标签,分别是天空、树木、大海、山体、岩石、建筑、沙滩和雕像,这些特色标签的有机组合则形成了最具舟山特色的景观场景(表2)。
根据空间分布的差异,6个主要组团在景观特色上存在一定差异。其中,定海古城的特色标签为天空、建筑,以街巷空间为主,如中大街、东大街;普陀山的特色标签为天空、树木、山体、岩石、建筑、雕像,以寺庙建筑、佛教雕像为主,如法雨寺、南海观音像;桃花岛的特色标签为天空、树木、建筑,以自然景观为主;朱家尖、东极岛和嵊泗列岛较为相似,特色标签为天空、树木、大海、山体、沙滩,以海岛景观为主,如南沙、东沙和大青山(图7)。
4.6 历史意象归纳
本研究将舟山历史意象划分为自然景观、佛教文化、城市风光和民俗特色4种类型,并与图像内容标签建立对应规则(表3)。从舟山历史意象类型的整体构成来看,在30375张照片中识别出历史意象的有27723张,其中与自然景观相关的有18965张,占68.41%;与佛教文化相关的有4544张,占16.39%;与城市风光相关的有2221张,占8.01%;与民俗特色相关的有1993张,占7.19%。
结果显示,舟山的主导历史意象为自然景观,其次为佛教文化、城市风光和民俗特色;舟山的历史意象极化特征明显,海岛特色的自然景观是游客感知舟山最为重要的部分,悠久的佛教文化及其庙宇楼阁也是舟山历史文化的标签;城市风光与民俗特色的意象感知较弱,表明舟山城市中的历史遗产资源及民俗文化还有待挖掘与提升。
4.7 测度结果分析
目前,舟山历史文化遗产保护体系完善,拥有1个历史城区、4片历史文化街区、2个历史地段、149处文物保护单位、70处文物保护点、139处历史建筑、368项非物质文化遗产。此外,舟山市域范围内还拥有2处历史文化名镇、3处历史文化名村、4处风景名胜保护区、11处传统村落、22处历史文化村落和众多古文化遗址群等。综合来看,虽然舟山历史文化遗产存在自然基底良好、历史遗存丰富和佛教文化突出等优势,但是仍存在历史空间与游客感知错位、利用不均衡、联系不紧密等问题。
舟山游客感知类型比较单一,存在历史空间分布与游客感知结构错位的问题。从测度结果可以发现,舟山历史空间感知以佛教文化与海岛休闲为主,高度依赖普陀山及海域岛链,而舟山大量分布在以定海古城为核心的本岛区域的历史空间未能被有效感知。
舟山历史空间未能在全域全要素的视角下进行有效统筹,存在空间、类型、质量上利用不均衡的问题。在空间上,未被有效感知的历史空间主要集中在普陀山、朱家尖、东极岛和嵊泗列岛等区域,定海古城、岱山及市域古村落等资源要素利用不足;在类型上,佛教文化与海岛特色突出,鸦片战争文化、古城文化、海防文化及海上丝绸之路文化等资源尚未得到很好利用;在质量上,历史文化遗产与自然景观、物质遗产与非物质遗产的相互融合度不高。
舟山的群岛型地貌特征导致地理空间的隔离,同时由于行政分割、投资主体分散等,舟山的历史空间联系不够紧密。在地理空间上,岛屿间交通瓶颈突出,不同历史空间之间缺乏联系,呈现空间破碎化特征。而各类历史空间又属于不同部门管理,部门联动欠顺畅、管理制度尚未配套,导致无法进行“一盘棋”统筹,未能成体系、成片区、成规模地进行保护与发展。
5 结语
本研究结合游客互联网点评数据,利用时空数据计算、自然语言处理和计算机视觉等机器学习技术方法构建历史空间感知测度技术框架,从空间结构分布、空间类型聚类、典型意见抽取、情感倾向判断、图像内容识别和历史意象归纳6个维度对舟山的历史空间感知进行分析。结果显示,舟山的历史空间虽然具有自然基底良好、文化遗存丰富和佛教文化突出等优势,但是仍存在资源利用不均衡、建筑风格不协调、基础设施不完善等问题。这一结果验证了该方法的可行性,补充了对历史空间感知测度的技术方法,并为舟山历史文化名城保护规划的编制提供了方法支撑。
由于数据来源与分析能力的限制,以及理论和实践经验的不足,本研究仍存在诸多不足与局限。在数据方面,覆盖人群有限,新兴数据与传统数据未能很好结合;在技术方法方面,本研究采用多种机器学习分析方法,但各种方法间较为孤立,技术体系集成度及结果融合度仍有待提升。