【Iter-X】 52/100days

Day5️⃣2️⃣

今天开了个线上会议讨论了数据清洗的逻辑，采集的POI的还是很大规模的，完整的POI包括基础信息：名字、描述、地址、经纬度等，还会包括一些增值信息：建议游玩时长，评分等。这里面一部分是可以通过公开数据集大规模采集的，其余部分是需要通过一定的手段去补充：

1️⃣ 数据过多我们首先排除人工（不可否认这也是一种方法，尤其放到全量用户的维度来看，用户就可以当人工，也是很多成熟平台的方式，用户维护的数据才是最接近真实情况的）；

2️⃣ 常规手段是爬虫，去抓去各个数据源，有一些平台有这类数据；

3️⃣ 现在其实很多可以通过LLMs去做，我们估算了补充一个POI消耗的Token很粗的在1000Token的水平，那几十万的POI的费用也是非常之低的

这里面其实有很多门道，只是目前我们会更多关注MVP，MVP后可以继续去优化。

今天总算吧Agent、Tool和Prompt都整合到DB里去了，这样方便多版本的管理和切换，后面上个简易的后台页面，可以非常方便的去管理和调优Prompt，并且还需要一个针对Agent调用链的可视化界面（可以叫Trajectory Visualization），会更加方便跟踪调试

汇总目前情况：

如果你认为你符合以下条件，欢迎来聊：

Enjoy Reading This Article?