Просмотр набора данных Mcp Server
MCP сервер для просмотра наборов данных Hugging Face
Обзор
Что такое Dataset Viewer?
Dataset Viewer — это мощный инструмент, разработанный для упрощения исследования и визуализации наборов данных. Он позволяет пользователям легко перемещаться по большим наборам данных, предоставляя удобный интерфейс, который улучшает доступность и понимание данных. Этот инструмент особенно полезен для исследователей, специалистов по данным и всех, кто заинтересован в анализе данных без необходимости в обширных знаниях программирования.
Особенности Dataset Viewer
- Удобный интерфейс: Dataset Viewer предлагает интуитивно понятный дизайн, который упрощает процесс исследования данных.
- Визуализация данных: Пользователи могут визуализировать данные в различных форматах, что облегчает выявление тенденций и закономерностей.
- Поддержка нескольких форматов данных: Инструмент поддерживает различные форматы данных, позволяя пользователям работать с CSV, JSON и другими.
- Интерактивное исследование данных: Пользователи могут взаимодействовать с данными напрямую, фильтруя и сортируя для быстрого нахождения конкретной информации.
- Интеграция с Hugging Face: Dataset Viewer интегрирован с Hugging Face, предоставляя доступ к широкому спектру наборов данных для проектов в области машинного обучения и ИИ.
Как использовать Dataset Viewer
- Доступ к инструменту: Перейдите к Dataset Viewer на GitHub или через платформу Hugging Face.
- Загрузите свой набор данных: Вы можете загрузить свой набор данных в поддерживаемом формате или выбрать из существующих наборов данных, доступных в инструменте.
- Исследуйте данные: Используйте интерактивные функции для фильтрации, сортировки и визуализации данных по мере необходимости.
- Анализируйте результаты: Воспользуйтесь инструментами визуализации для анализа тенденций и инсайтов из вашего набора данных.
- Экспортируйте свои выводы: После завершения анализа вы можете экспортировать результаты для дальнейшего использования или отчетности.
Часто задаваемые вопросы
Какие типы наборов данных я могу использовать с Dataset Viewer?
Вы можете использовать различные типы наборов данных, включая CSV, JSON и другие распространенные форматы. Инструмент разработан для эффективной работы с большими наборами данных.
Есть ли стоимость использования Dataset Viewer?
Нет, Dataset Viewer — это публичный инструмент, доступный бесплатно. Вы можете получить к нему доступ без подписки или оплаты.
Могу ли я сотрудничать с другими, используя Dataset Viewer?
Да, Dataset Viewer позволяет использовать функции совместной работы, позволяя нескольким пользователям исследовать и анализировать наборы данных вместе.
Как я могу сообщить о проблемах или запросить функции для Dataset Viewer?
Вы можете сообщить о проблемах или запросить новые функции, посетив репозиторий GitHub для Dataset Viewer и подав заявку в разделе Issues.
Доступна ли документация для Dataset Viewer?
Да, полная документация доступна в репозитории GitHub, предоставляя рекомендации по эффективному использованию инструмента.
Деталь
Dataset Viewer MCP Server
An MCP server for interacting with the Hugging Face Dataset Viewer API, providing capabilities to browse and analyze datasets hosted on the Hugging Face Hub.
Features
Resources
- Uses
dataset://
URI scheme for accessing Hugging Face datasets - Supports dataset configurations and splits
- Provides paginated access to dataset contents
- Handles authentication for private datasets
- Supports searching and filtering dataset contents
- Provides dataset statistics and analysis
Tools
The server provides the following tools:
-
validate
- Check if a dataset exists and is accessible
- Parameters:
dataset
: Dataset identifier (e.g. 'stanfordnlp/imdb')auth_token
(optional): For private datasets
-
get_info
- Get detailed information about a dataset
- Parameters:
dataset
: Dataset identifierauth_token
(optional): For private datasets
-
get_rows
- Get paginated contents of a dataset
- Parameters:
dataset
: Dataset identifierconfig
: Configuration namesplit
: Split namepage
(optional): Page number (0-based)auth_token
(optional): For private datasets
-
get_first_rows
- Get first rows from a dataset split
- Parameters:
dataset
: Dataset identifierconfig
: Configuration namesplit
: Split nameauth_token
(optional): For private datasets
-
get_statistics
- Get statistics about a dataset split
- Parameters:
dataset
: Dataset identifierconfig
: Configuration namesplit
: Split nameauth_token
(optional): For private datasets
-
search_dataset
- Search for text within a dataset
- Parameters:
dataset
: Dataset identifierconfig
: Configuration namesplit
: Split namequery
: Text to search forauth_token
(optional): For private datasets
-
filter
- Filter rows using SQL-like conditions
- Parameters:
dataset
: Dataset identifierconfig
: Configuration namesplit
: Split namewhere
: SQL WHERE clause (e.g. "score > 0.5")orderby
(optional): SQL ORDER BY clausepage
(optional): Page number (0-based)auth_token
(optional): For private datasets
-
get_parquet
- Download entire dataset in Parquet format
- Parameters:
dataset
: Dataset identifierauth_token
(optional): For private datasets
Installation
Prerequisites
- Python 3.12 or higher
- uv - Fast Python package installer and resolver
Setup
- Clone the repository:
git clone https://github.com/privetin/dataset-viewer.git
cd dataset-viewer
- Create a virtual environment and install:
### Create virtual environment
uv venv
### Activate virtual environment
### On Unix:
source .venv/bin/activate
### On Windows:
.venv\Scripts\activate
### Install in development mode
uv add -e .
Configuration
Environment Variables
HUGGINGFACE_TOKEN
: Your Hugging Face API token for accessing private datasets
Claude Desktop Integration
Add the following to your Claude Desktop config file:
On Windows: %APPDATA%\Claude\claude_desktop_config.json
On MacOS: ~/Library/Application Support/Claude/claude_desktop_config.json
{
"mcpServers": {
"dataset-viewer": {
"command": "uv",
"args": [
"--directory",
"parent_to_repo/dataset-viewer",
"run",
"dataset-viewer"
]
}
}
}
License
MIT License - see LICENSE for details
Конфигурация сервера
{
"mcpServers": {
"dataset-viewer": {
"command": "docker",
"args": [
"run",
"-i",
"--rm",
"ghcr.io/metorial/mcp-container--privetin--dataset-viewer--dataset-viewer",
"dataset-viewer"
],
"env": {}
}
}
}