Datensatzbetrachter Mcp-Server
MCP-Server für den Hugging Face-Datensatzbetrachter
Übersicht
Was ist der Dataset Viewer?
Der ### Dataset Viewer ist ein leistungsstarkes Werkzeug, das entwickelt wurde, um die Erkundung und Visualisierung von Datensätzen zu erleichtern. Es ermöglicht Benutzern, einfach durch große Datensätze zu navigieren und bietet eine benutzerfreundliche Oberfläche, die den Zugang zu Daten und das Verständnis verbessert. Dieses Tool ist besonders nützlich für Forscher, Datenwissenschaftler und alle, die an der Analyse von Daten interessiert sind, ohne umfangreiche Programmierkenntnisse zu benötigen.
Funktionen des Dataset Viewers
- Benutzerfreundliche Oberfläche: Der Dataset Viewer bietet ein intuitives Design, das den Prozess der Datenerkundung vereinfacht.
- Datenvisualisierung: Benutzer können Daten in verschiedenen Formaten visualisieren, was es einfacher macht, Trends und Muster zu erkennen.
- Unterstützung für mehrere Datenformate: Das Tool unterstützt verschiedene Datenformate, sodass Benutzer mit CSV, JSON und mehr arbeiten können.
- Interaktive Datenerkundung: Benutzer können direkt mit den Daten interagieren, filtern und sortieren, um spezifische Informationen schnell zu finden.
- Integration mit Hugging Face: Der Dataset Viewer ist mit Hugging Face integriert und bietet Zugang zu einer Vielzahl von Datensätzen für maschinelles Lernen und KI-Projekte.
So verwenden Sie den Dataset Viewer
- Zugriff auf das Tool: Navigieren Sie zum Dataset Viewer auf GitHub oder über die Hugging Face-Plattform.
- Laden Sie Ihren Datensatz hoch: Sie können Ihren Datensatz in einem unterstützten Format hochladen oder aus vorhandenen Datensätzen im Tool auswählen.
- Erkunden Sie die Daten: Nutzen Sie die interaktiven Funktionen, um die Daten nach Bedarf zu filtern, zu sortieren und zu visualisieren.
- Analysieren Sie die Ergebnisse: Nutzen Sie die Visualisierungstools, um Trends und Erkenntnisse aus Ihrem Datensatz zu analysieren.
- Exportieren Sie Ihre Ergebnisse: Sobald Sie Ihre Analyse abgeschlossen haben, können Sie die Ergebnisse für die weitere Verwendung oder Berichterstattung exportieren.
Häufig gestellte Fragen
Welche Arten von Datensätzen kann ich mit dem Dataset Viewer verwenden?
Sie können verschiedene Arten von Datensätzen verwenden, einschließlich CSV, JSON und anderen gängigen Formaten. Das Tool ist darauf ausgelegt, große Datensätze effizient zu verarbeiten.
Gibt es Kosten für die Nutzung des Dataset Viewers?
Nein, der Dataset Viewer ist ein öffentliches Tool, das kostenlos verfügbar ist. Sie können darauf zugreifen, ohne ein Abonnement oder eine Zahlung.
Kann ich mit anderen im Dataset Viewer zusammenarbeiten?
Ja, der Dataset Viewer ermöglicht kollaborative Funktionen, die es mehreren Benutzern ermöglichen, gemeinsam Datensätze zu erkunden und zu analysieren.
Wie melde ich Probleme oder fordere Funktionen für den Dataset Viewer an?
Sie können Probleme melden oder neue Funktionen anfordern, indem Sie das GitHub-Repository für den Dataset Viewer besuchen und ein Problem im Abschnitt "Issues" einreichen.
Gibt es eine Dokumentation für den Dataset Viewer?
Ja, umfassende Dokumentation ist im GitHub-Repository verfügbar und bietet Anleitungen zur effektiven Nutzung des Tools.
Detail
Dataset Viewer MCP Server
An MCP server for interacting with the Hugging Face Dataset Viewer API, providing capabilities to browse and analyze datasets hosted on the Hugging Face Hub.
Features
Resources
- Uses
dataset://
URI scheme for accessing Hugging Face datasets - Supports dataset configurations and splits
- Provides paginated access to dataset contents
- Handles authentication for private datasets
- Supports searching and filtering dataset contents
- Provides dataset statistics and analysis
Tools
The server provides the following tools:
-
validate
- Check if a dataset exists and is accessible
- Parameters:
dataset
: Dataset identifier (e.g. 'stanfordnlp/imdb')auth_token
(optional): For private datasets
-
get_info
- Get detailed information about a dataset
- Parameters:
dataset
: Dataset identifierauth_token
(optional): For private datasets
-
get_rows
- Get paginated contents of a dataset
- Parameters:
dataset
: Dataset identifierconfig
: Configuration namesplit
: Split namepage
(optional): Page number (0-based)auth_token
(optional): For private datasets
-
get_first_rows
- Get first rows from a dataset split
- Parameters:
dataset
: Dataset identifierconfig
: Configuration namesplit
: Split nameauth_token
(optional): For private datasets
-
get_statistics
- Get statistics about a dataset split
- Parameters:
dataset
: Dataset identifierconfig
: Configuration namesplit
: Split nameauth_token
(optional): For private datasets
-
search_dataset
- Search for text within a dataset
- Parameters:
dataset
: Dataset identifierconfig
: Configuration namesplit
: Split namequery
: Text to search forauth_token
(optional): For private datasets
-
filter
- Filter rows using SQL-like conditions
- Parameters:
dataset
: Dataset identifierconfig
: Configuration namesplit
: Split namewhere
: SQL WHERE clause (e.g. "score > 0.5")orderby
(optional): SQL ORDER BY clausepage
(optional): Page number (0-based)auth_token
(optional): For private datasets
-
get_parquet
- Download entire dataset in Parquet format
- Parameters:
dataset
: Dataset identifierauth_token
(optional): For private datasets
Installation
Prerequisites
- Python 3.12 or higher
- uv - Fast Python package installer and resolver
Setup
- Clone the repository:
git clone https://github.com/privetin/dataset-viewer.git
cd dataset-viewer
- Create a virtual environment and install:
### Create virtual environment
uv venv
### Activate virtual environment
### On Unix:
source .venv/bin/activate
### On Windows:
.venv\Scripts\activate
### Install in development mode
uv add -e .
Configuration
Environment Variables
HUGGINGFACE_TOKEN
: Your Hugging Face API token for accessing private datasets
Claude Desktop Integration
Add the following to your Claude Desktop config file:
On Windows: %APPDATA%\Claude\claude_desktop_config.json
On MacOS: ~/Library/Application Support/Claude/claude_desktop_config.json
{
"mcpServers": {
"dataset-viewer": {
"command": "uv",
"args": [
"--directory",
"parent_to_repo/dataset-viewer",
"run",
"dataset-viewer"
]
}
}
}
License
MIT License - see LICENSE for details
Serverkonfiguration
{
"mcpServers": {
"dataset-viewer": {
"command": "docker",
"args": [
"run",
"-i",
"--rm",
"ghcr.io/metorial/mcp-container--privetin--dataset-viewer--dataset-viewer",
"dataset-viewer"
],
"env": {}
}
}
}