从 pandas 数据框列中查找相交或最近的地理坐标

2022-04-09 00:00:00 python pandas geospatial

问题描述

我在 pandas 数据帧中有经度、经度和地址。用户输入一个地址,我想根据最后的Long从 pandas 数据框中查找相关的详细信息。以下是我的代码:

import pandas as pd

df_geo = pd.DataFrame({'Address': ['Addr1','Addr2','Addr3'],
                       'Value': [100, 101, 103],
                       'Lat': [33.515226, 33.51529, 33.515230],
                       'Long': [-112.094456, -112.094459, -112.094464]})

我使用API对地址进行了地理编码,并获得了LATH、LONG列表。

[33.515227, -112.094457]
如何在Pandas DataFrame和PullAddressValue字段中找到交点或最近的坐标?我们有地理编码API。 pandas DataFrame可能会相当大,因此如果可能的话,请使用其中一个python geo库来寻找高效的解决方案。


解决方案

使用BallTree来自sklearn

import pandas as pd
import numpy as np
from sklearn.neighbors import BallTree

df_geo = pd.DataFrame({'Address': ['Addr1','Addr2','Addr3'],
                       'Value': [100, 101, 103],
                       'Lat': [33.515226, 33.51529, 33.515230],
                       'Long': [-112.094456, -112.094459, -112.094464]})

coords = [33.515227, -112.094457]

X = np.deg2rad(df_geo[['Lat', 'Long']].values)
y = np.deg2rad(np.array([coords]))

tree = BallTree(X, leaf_size=2)
dist, ind = tree.query(y)

输出:

>>> df_geo[['Address', 'Value']].iloc[ind[0][0]].tolist()
['Addr1', 100]

>>> dist
array([[2.46826831e-08]])

>>> ind
array([[0]])

相关文章