不会过时的数据存储
文章

不会过时的数据存储

大点云的文件和数据库存储方法

点云数据集已被证明对从工程设计到资产管理的许多应用程序都很有用。随着点云的密度越来越大,精度越来越高,新的软件允许这些数据集的用户群越来越广泛。然而,由于点云的规模和对专业工具的依赖,点云的数据管理仍然很复杂。数据管理器的一个主要考虑因素是点云存储格式的选择,因为有几种不同的格式可供选择。

点云数据可以通过多种方式收集,激光扫描是最常见的方法。在数据管理方面,区分动态和静态采集是有用的。动态采集的例子有机载和移动激光雷达,静态采集可以通过地面激光扫描实现。静态数据集导致“有组织的点云”,这意味着后续点之间的间隔是恒定的。这一知识可以通过将扫描数据存储在光栅中,其中每个单元对应一个激光返回。栅格可以有效地存储和查询,从而简化了点云存储问题。地面扫描仪的制造商已经引进了他们自己的以这种方式存储点的格式。然而,这种存储方法在注册多点云或使用动态采集数据时不再适用。相反,每个点的真实3D坐标需要单独保存。正是这种类型的数据在存储大小和性能方面带来了最大的挑战。

文件或数据库

在传统的矢量GIS数据世界中,已经出现了从基于文件的存储到数据库的转变。这还不是点云数据的情况;数据集通常以文件集的形式存储在本地驱动器或共享的网络位置上。目前市场上的两个主要空间数据库,Oracle spatial和PostGIS,确实提供了点云支持,但它们的功能仍然有限,还不能很好地适应数据大小。数据库提供商正在积极地改进点云支持。在这种支持足够可靠之前,建议使用基于文件的存储。因此,在实践中,组织将它们的点云存储为用tile或strip细分成的文件。

图1,工厂内部的地面扫描图。每个像素代表一个激光返回。

数据模型

在GIS领域,通常将数据的语义与实际存储分离,这也是点云的一个相关考虑。点云的几何部分是清晰的:每个点由一组3个坐标定义。此外,每个点可以通过点颜色或强度等属性来丰富。对于点云没有官方的语义定义,但是LAS文件标准隐式地定义了一个数据模型。LAS文件格式由美国摄影测量与遥感学会(ASPRS)于2003年定义,并已发展成为实际的标准。该文件格式的规范定义了每个点可以存储哪些属性,这些属性包括类代码、颜色、时间、飞行线和脉冲计数。

标准

存储点云的简单方法是生成一个常规文本文件,每行提供一个点,坐标由预定义的字符分隔。这是一种方便的格式,可以很容易地被许多应用程序读取。但是,生成的文件将很大,并且由于对文件中字段的含义的误解,数据交换可能无法预测。因此,各种组织都试图有效地标准化点云的存储。上述LAS格式是由机载激光雷达社区的用户开发的,从而产生了针对此类数据集的良好文件格式。随着时间的推移,文件格式也发现它的使用移动激光雷达,地面激光扫描和点云从摄影测量密集匹配。由于LAS是一种二进制格式,它的文件大小比简单的ASCII存储更小。

另一个用于交换和归档点云数据的开放标准是E57格式。E57的开发是由一组数据用户、扫描仪制造商和科学家发起的,他们发现需要一种通用点云存储格式。E57文件用XML编写,并嵌入二进制数据,以便有效地存储大量数据,比如点云。虽然LAS格式起源于机载激光雷达,E57格式旨在成为扫描系统类型的通用格式。除了点云,该格式还支持其他元数据和相关的2D图像。它还支持为每个点存储多种属性。E57的真正优势在于它的通用性:它可以用于存储基于栅格的地面扫描,也可以用于存储来自机载或移动系统的无序点云。然而,在实践中,E57的软件支持非常有限。许多应用程序更喜欢特定于域或特定于制造商的文件格式,这样可以提供更好的性能。

压缩激光雷达数据

LAS和E57文件格式都使用二进制数据存储,与普通ASCII文件相比,可以大大减少存储大小。该公司的Martin Isenburg引入了LAZ文件格式,从而实现了进一步的压缩rapidlasso.他的方法是基于熵编码。其原则是将文件中的点分成50,000个点的块。对于每个块,存储第一个点,以及预测的与下一个点的差异。然后,对于接下来的每个点,只有预测差异中的错误被写入文件。由于激光雷达点云的性质是相当规则的,预测的差异将是准确的。这意味着只需要将非常小的错误值写入文件,并且存储小的值比存储大的值占用更少的空间。这个原则应用于坐标和文件中的所有属性。在实践中,压缩到原始LAS文件大小的10%,如果点在文件中排序。

图2,数百万个点代表鹿特丹市的一部分。

索引和优化

通过压缩来减少点云数据的大小已经成为游戏规则的改变者。它大大简化了数据的传送和处理。然而,快速查询和显示点还需要另一个特性:索引。索引是软件在从文件中查询点时使用的。它告诉软件在哪里找到文件中的点。由于有了索引,软件不必读取文件中的每个点,而是可以直接跳到所需的位置。索引点云数据有很多不同的方法,索引的选择对查询时间和软件的速度有很大的影响。

查询速度的进一步优化可以通过重新排序文件中的点来实现。这是基于这样一个事实:查询硬盘上彼此靠近的一组点会更快。因此,通过将可能立即被查询的所有点存储在一起,查询速度将得到提高。

特定于供应商的格式

由于优化可以通过索引和上面描述的重新排序点来实现,软件供应商经常在尝试提高软件性能时探索这些选项。这导致了一些专有的供应商特定的文件格式,如蜥蜴科技的MrSID MG4,宾利的POD和Euclideon的无限细节。这个列表最近增加了Esri的zLAS格式。这种格式是Esri在2014年初引入的,它是点云数据的首选存储格式。该文件的数据模型基于标准LAS格式。但是,当点存储在zLAS中时,它们会被选择性地重组和索引,从而提高查询和显示时间。

图3,在代尔夫特市的移动地图扫描。

对于最终用户来说,多种文件格式的存在使决定使用哪种文件格式变得复杂。由于文件非常大,将它们转换为另一种格式是不可取的。如果用户完全依赖于单一的软件堆栈,选择相关的特定于供应商的格式是一个明智的选择,前提是转换到LAS是可行的。如果一个用户依赖于多个应用程序(就像现在经常发生的情况一样),那么坚持开放LAZ格式可能会更有好处,这种格式可以被大多数软件读取,并且可以很容易地转换为LAS,从而使其适应未来的需求。如果点云只用于可视化而不用于分析或矢量映射,可以考虑使用专用的可视化文件格式,如POD、Euclideon或zLAS,因为这将提供更好的性能。

未来的发展

标准化一直是geomatics领域允许软件包和组织之间有效交换数据的关键。因为点云采集软件和系统仍在快速发展,我们使用的格式在未来几年将不断变化。这反过来又会使它难以达到一个服务于所有应用程序的统一标准。与此同时,数据库提供商正致力于改进其系统中点云的存储。新的数据库范例,如NoSQL或列存储数据库,也将发挥作用。

最终,文件格式对最终用户不重要:点应该简单地从任何源流到用户应用程序。类似于GIS矢量数据的OGC Web功能服务,可能需要一个Web点云服务。这是一个由荷兰代尔夫特大学领导的财团正在进行的研究课题。

确认

感谢Esri的产品经理Peter Becker对本文的反馈和改进。

让你的收件箱更有趣。添加一些地理。

紧跟资讯、发展及资讯科技的进步。

免费注册

跟上地理空间产业的发展

我们鼓励你订阅我们的每周通讯。订户还可以收到我们双月刊杂志的电子版。

最新文章

Baidu