數據集查看器 Mcp 伺服器
概覽
什麼是數據集查看器?
數據集查看器是一個強大的工具,旨在促進數據集的探索和可視化。它允許用戶輕鬆瀏覽大型數據集,提供一個用戶友好的界面,增強數據的可訪問性和理解能力。這個工具對於研究人員、數據科學家以及任何對分析數據感興趣的人來說,特別有用,而無需廣泛的編程知識。
數據集查看器的特點
- 用戶友好的界面:數據集查看器提供直觀的設計,簡化了數據探索的過程。
- 數據可視化:用戶可以以多種格式可視化數據,使識別趨勢和模式變得更容易。
- 支持多種數據格式:該工具支持各種數據格式,允許用戶處理CSV、JSON等。
- 互動式數據探索:用戶可以直接與數據互動,快速過濾和排序以找到特定信息。
- 與Hugging Face的集成:數據集查看器與Hugging Face集成,提供對各種機器學習和AI項目數據集的訪問。
如何使用數據集查看器
- 訪問工具:在GitHub或通過Hugging Face平台導航到數據集查看器。
- 上傳您的數據集:您可以上傳支持格式的數據集或從工具中選擇現有數據集。
- 探索數據:使用互動功能過濾、排序和可視化數據。
- 分析結果:利用可視化工具分析數據集中的趨勢和見解。
- 導出您的發現:完成分析後,您可以導出結果以供進一步使用或報告。
常見問題解答
我可以使用哪些類型的數據集與數據集查看器?
您可以使用各種類型的數據集,包括CSV、JSON和其他常見格式。該工具設計用於高效處理大型數據集。
使用數據集查看器是否需要付費?
不,數據集查看器是一個公共工具,免費提供。您可以無需訂閱或付款即可訪問。
我可以與其他人合作使用數據集查看器嗎?
可以,數據集查看器允許協作功能,使多個用戶能夠一起探索和分析數據集。
我如何報告數據集查看器的問題或請求功能?
您可以通過訪問數據集查看器的GitHub存儲庫,在問題部分提交問題或請求新功能。
是否有數據集查看器的文檔可用?
是的,GitHub存儲庫上提供了全面的文檔,提供如何有效使用該工具的指導。
詳細
Dataset Viewer MCP Server
An MCP server for interacting with the Hugging Face Dataset Viewer API, providing capabilities to browse and analyze datasets hosted on the Hugging Face Hub.
Features
Resources
- Uses
dataset://
URI scheme for accessing Hugging Face datasets - Supports dataset configurations and splits
- Provides paginated access to dataset contents
- Handles authentication for private datasets
- Supports searching and filtering dataset contents
- Provides dataset statistics and analysis
Tools
The server provides the following tools:
-
validate
- Check if a dataset exists and is accessible
- Parameters:
dataset
: Dataset identifier (e.g. 'stanfordnlp/imdb')auth_token
(optional): For private datasets
-
get_info
- Get detailed information about a dataset
- Parameters:
dataset
: Dataset identifierauth_token
(optional): For private datasets
-
get_rows
- Get paginated contents of a dataset
- Parameters:
dataset
: Dataset identifierconfig
: Configuration namesplit
: Split namepage
(optional): Page number (0-based)auth_token
(optional): For private datasets
-
get_first_rows
- Get first rows from a dataset split
- Parameters:
dataset
: Dataset identifierconfig
: Configuration namesplit
: Split nameauth_token
(optional): For private datasets
-
get_statistics
- Get statistics about a dataset split
- Parameters:
dataset
: Dataset identifierconfig
: Configuration namesplit
: Split nameauth_token
(optional): For private datasets
-
search_dataset
- Search for text within a dataset
- Parameters:
dataset
: Dataset identifierconfig
: Configuration namesplit
: Split namequery
: Text to search forauth_token
(optional): For private datasets
-
filter
- Filter rows using SQL-like conditions
- Parameters:
dataset
: Dataset identifierconfig
: Configuration namesplit
: Split namewhere
: SQL WHERE clause (e.g. "score > 0.5")orderby
(optional): SQL ORDER BY clausepage
(optional): Page number (0-based)auth_token
(optional): For private datasets
-
get_parquet
- Download entire dataset in Parquet format
- Parameters:
dataset
: Dataset identifierauth_token
(optional): For private datasets
Installation
Prerequisites
- Python 3.12 or higher
- uv - Fast Python package installer and resolver
Setup
- Clone the repository:
git clone https://github.com/privetin/dataset-viewer.git
cd dataset-viewer
- Create a virtual environment and install:
### Create virtual environment
uv venv
### Activate virtual environment
### On Unix:
source .venv/bin/activate
### On Windows:
.venv\Scripts\activate
### Install in development mode
uv add -e .
Configuration
Environment Variables
HUGGINGFACE_TOKEN
: Your Hugging Face API token for accessing private datasets
Claude Desktop Integration
Add the following to your Claude Desktop config file:
On Windows: %APPDATA%\Claude\claude_desktop_config.json
On MacOS: ~/Library/Application Support/Claude/claude_desktop_config.json
{
"mcpServers": {
"dataset-viewer": {
"command": "uv",
"args": [
"--directory",
"parent_to_repo/dataset-viewer",
"run",
"dataset-viewer"
]
}
}
}
License
MIT License - see LICENSE for details
伺服器配置
{
"mcpServers": {
"dataset-viewer": {
"command": "docker",
"args": [
"run",
"-i",
"--rm",
"ghcr.io/metorial/mcp-container--privetin--dataset-viewer--dataset-viewer",
"dataset-viewer"
],
"env": {}
}
}
}