微软开源全自动数据可视化工具 LIDA

2023-08-26 08:08:47
528
lida

我们利用他提供的 demo 看一下,都有哪些功能。

 

1. 上传文件。

目前支持csv,json 格式

lida upload

 

2. 生成数据概要。 会生成全部变量的摘要,包括变量的行数、最小值、最大值、标准差。

lida data summary

 

3. 自动生成分析目标。 demo 里默认生成5个,可以在代码里改目标数量。

lida goal exploration

 

4. 生成可视化图表。 同步会生成 python 代码。

lida visualization generation

 

5. 微调图表。 可以在对话框里微调图表,例如更改图表标题,颜色,图例位置等。

lida modify chart

 

6. 解释图表。会生成结构化的文字解释图表内容。

lida explain the chart

 

7. 对图表进行评分;生成其他推荐的图表。数据问题,未生成。

lida evaluate the chart

 

8. 其他设置。

可以选择可视化的包,默认 seaborn,有Altair,Matplotlib,GGPlot 可选。

lida select visualization library

 

可以选择底层大模型服务,有 openai,google,cohere,huggingface 的模型可选。

lida select model

但当前版本有一个问题,其实也是当前各种开源的自动可视化工具都有的,就是生成的图表不支持中文字体,这是 python 的底层可视化包 matplotlib 导致的问题,如果是本地运行的代码,加一个字体设置就行了,但很多在线的服务难以更改。还有一个跟字体有关的问题,就是当前导入的含有中文的数据,也处理不了。 不过既然已经开源了,能折腾的大佬可以自己来改造了。

github 地址: https://github.com/microsoft/lida。