Search Results - RepositoryStats

2.5k

31.5k

agpl-3.0

156

A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。

ocr pdf parser python ai4science pdf-parser extract-data pdf-converter layout-analysis document-analysis pdf-extractor-llm pdf-extractor-rag pdf-extractor-pretrain

Created 2024-02-29

2,720 commits to master branch, last one 4 days ago

PyMuPDF pymupdf

590

7.0k

agpl-3.0

66

PyMuPDF is a high performance Python library for data extraction, analysis, conversion & manipulation of PDF (and other) documents.

ocr pdf xps epub font mupdf python pymupdf tesseract data-science extract-data text-shaping pdf-documents text-processing table-extraction

Created 2012-10-06

2,845 commits to main branch, last one 4 days ago

node-crawler bda-research

879

6.8k

mit

254

Web Crawler/Spider for NodeJS + server-side jQuery ;-)

jquery nodejs spider cheerio crawler javascript extract-data

Created 2010-11-25

592 commits to master branch, last one 4 months ago

meltano meltano

175

2.0k

mit

12

Meltano: the declarative code-first data integration engine that powers your wildest data and ML-powered product ideas. Say goodbye to writing, maintaining, and scaling your own API integrations.

Created 2021-06-21

11,874 commits to main branch, last one 5 days ago

documind DocumindHQ

45

1.3k

other

11

Open-source platform for extracting structured data from documents using AI.

ai ocr pdf llms parser open-source extract-data pdf-converter pdf-extractor developer-tools document-analysis pdf-extractor-llm document-extraction

Created 2024-11-17

61 commits to main branch, last one about a month ago

crawly elixir-crawly

117

1.0k

apache-2.0

19

Crawly, a high-level web crawling & scraping framework for Elixir.

elixir erlang spider crawler scraper crawling scraping extract-data scraping-websites

Created 2019-03-09

320 commits to master branch, last one 7 months ago

dataflowkit slotix

80

682

bsd-3-clause

23

Extract structured data from web sites. Web sites scraping.

go cdp golang scraper crawling headless scraping extract-data chrome-fetcher golang-library scraping-websites

Created 2017-02-09

885 commits to master branch, last one 4 years ago

ResumeParser OmkarPathak

171

300

mit

15

A simple resume parser used for extracting information from resumes

gui parser python python3 extract-data resume-parser

Created 2018-12-11

52 commits to master branch, last one 4 years ago

llm-reader m92vyas

14

162

unknown

2

Turn Webpage to LLM friendly input text. Similar to Firecrawl and Jina Reader API. Makes RAG, AI web scraping, image & webpage links extraction easy.

llm rag jinaai scraper scraping ai-agents firecrawl llm-agent webscraping extract-data ai-agent-tools ai-web-scraper scraping-websites

Created 2024-07-27

24 commits to main branch, last one 5 days ago

smapr ropensci

25

85

unknown

12

An R package for acquisition and processing of NASA SMAP data

r nasa raster rstats r-package smap-data acquisition extract-data soil-mapping peer-reviewed soil-moisture soil-moisture-sensor

Created 2016-05-11

304 commits to master branch, last one 2 years ago

html2data msoap

3

69

mit

3

Library and cli for extracting data from HTML via CSS selectors

cli html golang parser library homebrew scrapping css-selector extract-data

Created 2016-01-10

214 commits to master branch, last one 6 months ago

fb_scraper isaacmg

21

64

apache-2.0

7

FBLYZE is a Facebook scraping system and analysis system.

flink kafka spark tf-idf extract-data facebook-scraper

Created 2016-12-21

233 commits to master branch, last one 6 years ago

PyLyrics-Extractor Techcatchers

18

57

mit

2

Get Lyrics for any songs by just passing in the song name (spelled or misspelled) in less than 2 seconds using this awesome Python Library.

extract-data lyrics-fetcher python-library search-algorithm

Created 2019-01-14

20 commits to master branch, last one 4 years ago

web-data-extractor fivesmallq

19

54

apache-2.0

6

Extracting and parsing structured data with jQuery Selector, XPath or JsonPath from common web format like HTML, XML and JSON.

xpath spider jsonpath extract-data jquery-selector

Created 2015-12-25

198 commits to master branch, last one 2 years ago

Insider-Trading asad70

15

53

mit

2

This program extracts insider trading data from the sec website and stores it in excel file for the specified time frame.

tickers trading insiders algotrading data-science extract-data insider-trading trading-strategies

Created 2021-01-08

11 commits to master branch, last one 2 years ago

bluebird labteral

14

43

gpl-3.0

2

Unofficial Python client for Twitter

tweets crawler scraper twitter crawling scraping twitter-api twitter-bot extract-data social-media scraper-engine twitter-client twitter-search twitter-stream twitter-scraper twitter-scraping twitter-streaming-api

This repository has been archived (exclude archived)

Created 2019-10-14

39 commits to master branch, last one 4 years ago