Trending repositories for topic chinese-nlp

Last 3 days (new repositories)

no newly created repositories trending in the last 3 days

Last 3 days (absolute gain)

lyogavin/airllm

AirLLM 70B inference with single 4GB GPU

5,500 (+4)

apache-2.0

brightmart/nlp_chinese_corpus

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

9,552 (+4)

mit

pwxcoo/chinese-xinhua

:orange_book: 中华新华字典数据库。包括歇后语，成语，词语，汉字。

11,007 (+4)

mit

LianjiaTech/BELLE

BELLE: Be Everyone's Large Language model Engine（开源中文对话大模型）

8,010 (+3)

apache-2.0

esbatmop/MNBVC

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化，也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

3,621 (+2)

mit

IDEA-CCNL/Fengshenbang-LM

Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系，成为中文AIGC和认知智能的基础设施。

4,062 (+2)

apache-2.0

DreamerGPT/DreamerGPT

🌱 梦想家(DreamerGPT)：中文大语言模型指令精调

50 (+1)

apache-2.0

crownpku/Awesome-Chinese-NLP

A curated list of resources for Chinese NLP 中文自然语言处理相关资料

7,836 (+1)

apache-2.0

Last 3 days (relative gain)

DreamerGPT/DreamerGPT

🌱 梦想家(DreamerGPT)：中文大语言模型指令精调

50 (+2%)

apache-2.0

lyogavin/airllm

AirLLM 70B inference with single 4GB GPU

5,500 (+0.1%)

apache-2.0

esbatmop/MNBVC

3,621 (+0.1%)

mit

IDEA-CCNL/Fengshenbang-LM

Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系，成为中文AIGC和认知智能的基础设施。

4,062 (+0.0%)

apache-2.0

brightmart/nlp_chinese_corpus

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

9,552 (+0.0%)

mit

LianjiaTech/BELLE

BELLE: Be Everyone's Large Language model Engine（开源中文对话大模型）

8,010 (+0.0%)

apache-2.0

pwxcoo/chinese-xinhua

:orange_book: 中华新华字典数据库。包括歇后语，成语，词语，汉字。

11,007 (+0.0%)

mit

crownpku/Awesome-Chinese-NLP

A curated list of resources for Chinese NLP 中文自然语言处理相关资料

7,836 (+0.0%)

apache-2.0

Last week (new repositories)

no newly created repositories trending in the last week

Last week (absolute gain)

lyogavin/airllm

AirLLM 70B inference with single 4GB GPU

5,500 (+37)

apache-2.0

esbatmop/MNBVC

3,621 (+20)

mit

LianjiaTech/BELLE

BELLE: Be Everyone's Large Language model Engine（开源中文对话大模型）

8,010 (+14)

apache-2.0

brightmart/nlp_chinese_corpus

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

9,552 (+11)

mit

pwxcoo/chinese-xinhua

:orange_book: 中华新华字典数据库。包括歇后语，成语，词语，汉字。

11,007 (+8)

mit

HIT-SCIR/ltp

Language Technology Platform

5,008 (+6)

IDEA-CCNL/Fengshenbang-LM

Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系，成为中文AIGC和认知智能的基础设施。

4,062 (+5)

apache-2.0

crownpku/Awesome-Chinese-NLP

A curated list of resources for Chinese NLP 中文自然语言处理相关资料

7,836 (+4)

apache-2.0

crazywhalecc/idiom-database

成语数据库，成语接龙数据库，拥有30000+个成语，可直接使用首拼音和尾拼音编写自己的成语接龙

83 (+2)

mit

DreamerGPT/DreamerGPT

🌱 梦想家(DreamerGPT)：中文大语言模型指令精调

50 (+1)

apache-2.0

rime/rime-cantonese

Rime Cantonese input schema | 粵語拼音輸入方案

559 (+1)

cc-by-4.0

Last week (relative gain)

crazywhalecc/idiom-database

成语数据库，成语接龙数据库，拥有30000+个成语，可直接使用首拼音和尾拼音编写自己的成语接龙

83 (+2%)

mit

DreamerGPT/DreamerGPT

🌱 梦想家(DreamerGPT)：中文大语言模型指令精调

50 (+2%)

apache-2.0

lyogavin/airllm

AirLLM 70B inference with single 4GB GPU

5,500 (+0.7%)

apache-2.0

esbatmop/MNBVC

3,621 (+0.6%)

mit

rime/rime-cantonese

Rime Cantonese input schema | 粵語拼音輸入方案

559 (+0.2%)

cc-by-4.0

LianjiaTech/BELLE

BELLE: Be Everyone's Large Language model Engine（开源中文对话大模型）

8,010 (+0.2%)

apache-2.0

IDEA-CCNL/Fengshenbang-LM

Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系，成为中文AIGC和认知智能的基础设施。

4,062 (+0.1%)

apache-2.0

HIT-SCIR/ltp

Language Technology Platform

5,008 (+0.1%)

brightmart/nlp_chinese_corpus

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

9,552 (+0.1%)

mit

pwxcoo/chinese-xinhua

:orange_book: 中华新华字典数据库。包括歇后语，成语，词语，汉字。

11,007 (+0.1%)

mit

crownpku/Awesome-Chinese-NLP

A curated list of resources for Chinese NLP 中文自然语言处理相关资料

7,836 (+0.1%)

apache-2.0

Last month (new repositories)

no newly created repositories trending in the last month

Last month (absolute gain)

lyogavin/airllm

AirLLM 70B inference with single 4GB GPU

5,500 (+117)

apache-2.0

esbatmop/MNBVC

3,621 (+62)

mit

LianjiaTech/BELLE

BELLE: Be Everyone's Large Language model Engine（开源中文对话大模型）

8,010 (+60)

apache-2.0

pwxcoo/chinese-xinhua

:orange_book: 中华新华字典数据库。包括歇后语，成语，词语，汉字。

11,007 (+39)

mit

brightmart/nlp_chinese_corpus

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

9,552 (+37)

mit

HIT-SCIR/ltp

Language Technology Platform

5,008 (+27)

IDEA-CCNL/Fengshenbang-LM

Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系，成为中文AIGC和认知智能的基础设施。

4,062 (+23)

apache-2.0

crownpku/Awesome-Chinese-NLP

A curated list of resources for Chinese NLP 中文自然语言处理相关资料

7,836 (+18)

apache-2.0

ECNU-ICALK/EduChat

An open-source educational chat model from ICALK, East China Normal University. 开源中英教育对话大模型。(通用基座模型，GPU部署，数据清理) 致敬: LLaMA, MOSS, BELLE, Ziya, vLLM

736 (+13)

ydli-ai/CSL

[COLING 2022] CSL: A Large-scale Chinese Scientific Literature Dataset 中文科学文献数据集

585 (+11)

rime/rime-cantonese

Rime Cantonese input schema | 粵語拼音輸入方案

559 (+8)

cc-by-4.0

OYE93/Chinese-NLP-Corpus

Collections of Chinese NLP corpus

886 (+7)

modelscope/AdaSeq

AdaSeq: An All-in-One Library for Developing State-of-the-Art Sequence Understanding Models

428 (+6)

apache-2.0

CVI-SZU/Linly

Chinese-LLaMA 1&2、Chinese-Falcon 基础模型；ChatFlow中文对话模型；中文OpenLLaMA模型；NLP预训练/指令微调数据集

3,039 (+6)

fastnlp/fastNLP

fastNLP: A Modularized and Extensible NLP Framework. Currently still in incubation.

3,079 (+6)

apache-2.0

baidu/lac

百度NLP：分词，词性标注，命名实体识别，词重要性

3,896 (+6)

apache-2.0

crownpku/Information-Extraction-Chinese

Chinese Named Entity Recognition with IDCNN/biLSTM+CRF, and Relation Extraction with biGRU+2ATT 中文实体识别与关系提取

2,237 (+5)

didi/ChineseNLP

Datasets, SOTA results of every fields of Chinese NLP

1,799 (+4)

crazywhalecc/idiom-database

成语数据库，成语接龙数据库，拥有30000+个成语，可直接使用首拼音和尾拼音编写自己的成语接龙

83 (+3)

mit

guhhhhaa/wula-scifi

chinese NLP corpus of chinese science fiction, chinese science fiction corpus: Archive of the Ark Plan of Ula Science Fiction Website 乌拉科幻小说网方舟计划存档，中文科幻小说自然语言处理语料库，中文科幻小说文本语料库，中文科幻小说文本数据库，科幻小说语料

99 (+2)

Last month (relative gain)

crazywhalecc/idiom-database

成语数据库，成语接龙数据库，拥有30000+个成语，可直接使用首拼音和尾拼音编写自己的成语接龙

83 (+4%)

mit

LindiaC/ChatGLM2-With-Rua-Tutorial

无需预算，使用你的个人数据克隆自己——赛博飞升！Clone yourself by tuning a LLM using your own data.

31 (+3%)

lyogavin/airllm

AirLLM 70B inference with single 4GB GPU

5,500 (+2%)

apache-2.0

guhhhhaa/wula-scifi

99 (+2%)

DreamerGPT/DreamerGPT

🌱 梦想家(DreamerGPT)：中文大语言模型指令精调

50 (+2%)

apache-2.0

ydli-ai/CSL

[COLING 2022] CSL: A Large-scale Chinese Scientific Literature Dataset 中文科学文献数据集

585 (+2%)

ECNU-ICALK/EduChat

736 (+2%)

esbatmop/MNBVC

3,621 (+2%)

mit

aplmikex/deduplication_mnbvc

文本去重

67 (+2%)

mit

abner-wong/textrank

keyword extraction and summarization for Chinese text by TextRank

68 (+1%)

rime/rime-cantonese

Rime Cantonese input schema | 粵語拼音輸入方案

559 (+1%)

cc-by-4.0

modelscope/AdaSeq

AdaSeq: An All-in-One Library for Developing State-of-the-Art Sequence Understanding Models

428 (+1%)

apache-2.0

old-wang-95/easy-bert

easy-bert是一个中文NLP工具，提供诸多bert变体调用和调参方法，极速上手；清晰的设计和代码注释，也很适合学习

74 (+1%)

mit

iflytek/cino

CINO: Pre-trained Language Models for Chinese Minority (少数民族语言预训练模型)

221 (+0.9%)

apache-2.0

OYE93/Chinese-NLP-Corpus

Collections of Chinese NLP corpus

886 (+0.8%)

LianjiaTech/BELLE

BELLE: Be Everyone's Large Language model Engine（开源中文对话大模型）

8,010 (+0.8%)

apache-2.0

IDEA-CCNL/Fengshenbang-LM

Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系，成为中文AIGC和认知智能的基础设施。

4,062 (+0.6%)

apache-2.0

HIT-SCIR/ltp

Language Technology Platform

5,008 (+0.5%)

guhhhhaa/4675-scifi

chinese NLP corpus of chinese science fiction,chinese science fiction corpus : About 4675 Chinese science fiction novels 大约有4675本科幻小说，中文科幻小说自然语言处理语料库，中文科幻小说文本语料库，中文科幻小说文本数据库，科幻小说语料

373 (+0.5%)

brightmart/nlp_chinese_corpus

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

9,552 (+0.4%)

mit

Last 12-months (new repositories)

no newly created repositories trending in the last 12 months

Last 12-months (absolute gain)

lyogavin/airllm

AirLLM 70B inference with single 4GB GPU

5,500 (+3,147)

apache-2.0

esbatmop/MNBVC

3,621 (+1,145)

mit

LianjiaTech/BELLE

BELLE: Be Everyone's Large Language model Engine（开源中文对话大模型）

8,010 (+895)

apache-2.0

brightmart/nlp_chinese_corpus

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

9,552 (+649)

mit

pwxcoo/chinese-xinhua

:orange_book: 中华新华字典数据库。包括歇后语，成语，词语，汉字。

11,007 (+574)

mit

IDEA-CCNL/Fengshenbang-LM

Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系，成为中文AIGC和认知智能的基础设施。

4,062 (+378)

apache-2.0

HIT-SCIR/ltp

Language Technology Platform

5,008 (+338)

crownpku/Awesome-Chinese-NLP

A curated list of resources for Chinese NLP 中文自然语言处理相关资料

7,836 (+308)

apache-2.0

baidu/lac

百度NLP：分词，词性标注，命名实体识别，词重要性

3,896 (+251)

apache-2.0

ECNU-ICALK/EduChat

736 (+250)

CVI-SZU/Linly

Chinese-LLaMA 1&2、Chinese-Falcon 基础模型；ChatFlow中文对话模型；中文OpenLLaMA模型；NLP预训练/指令微调数据集

3,039 (+152)

ydli-ai/CSL

[COLING 2022] CSL: A Large-scale Chinese Scientific Literature Dataset 中文科学文献数据集

585 (+121)

thunlp/THULAC-Python

An Efficient Lexical Analyzer for Chinese

2,033 (+111)

mit

modelscope/AdaSeq

AdaSeq: An All-in-One Library for Developing State-of-the-Art Sequence Understanding Models

428 (+105)

apache-2.0

amutu/zhparser

zhparser is a PostgreSQL extension for full-text search of Chinese language

721 (+99)

rime/rime-cantonese

Rime Cantonese input schema | 粵語拼音輸入方案

559 (+85)

cc-by-4.0

guhhhhaa/4675-scifi

373 (+84)

crownpku/Information-Extraction-Chinese

Chinese Named Entity Recognition with IDCNN/biLSTM+CRF, and Relation Extraction with biGRU+2ATT 中文实体识别与关系提取

2,237 (+73)

Doragd/Chinese-Chatbot-PyTorch-Implementation

:four_leaf_clover: Another Chinese chatbot implemented in PyTorch, which is the sub-module of intelligent work order processing robot. 👩‍🔧

883 (+59)

apache-2.0

fastnlp/fastNLP

fastNLP: A Modularized and Extensible NLP Framework. Currently still in incubation.

3,079 (+59)

apache-2.0

Last 12-months (relative gain)

LindiaC/ChatGLM2-With-Rua-Tutorial

无需预算，使用你的个人数据克隆自己——赛博飞升！Clone yourself by tuning a LLM using your own data.

31 (+138%)

lyogavin/airllm

AirLLM 70B inference with single 4GB GPU

5,500 (+134%)

apache-2.0

crazywhalecc/idiom-database

成语数据库，成语接龙数据库，拥有30000+个成语，可直接使用首拼音和尾拼音编写自己的成语接龙

83 (+113%)

mit

ECNU-ICALK/EduChat

736 (+51%)

dongrixinyu/jiojio

A convenient Chinese word segmentation tool 简便中文分词器

46 (+48%)

gpl-3.0

esbatmop/MNBVC

3,621 (+46%)

mit

old-wang-95/easy-bert

easy-bert是一个中文NLP工具，提供诸多bert变体调用和调参方法，极速上手；清晰的设计和代码注释，也很适合学习

74 (+37%)

mit

ksOAn6g5/TaiSu

TaiSu（太素）--a large-scale Chinese multimodal dataset（亿级大规模中文视觉语言预训练数据集）

176 (+33%)

modelscope/AdaSeq

AdaSeq: An All-in-One Library for Developing State-of-the-Art Sequence Understanding Models

428 (+33%)

apache-2.0

aplmikex/deduplication_mnbvc

文本去重

67 (+31%)

mit

taishan1994/pytorch_bert_event_extraction

基于pytorch+bert的中文事件抽取

68 (+31%)

celtics1863/envtext

中文环境领域文本分析包，纯神经网络架构，支持EnvBert,LSTM,RNN,word2vec等模型，支持自定义模型，下游任务包括分类，回归，多选，情感分析，命名实体识别等，专题包括气候变化文本分析，环境知识图谱等。针对领域研究进行了接口的优化，一键使用模型。

30 (+30%)

apache-2.0

guhhhhaa/wula-scifi

99 (+30%)

guhhhhaa/4675-scifi

373 (+29%)

yaoxiaoyuan/mimix

Mimix: A Text Generation Tool and Pretrained Chinese Models

154 (+26%)

apache-2.0

ydli-ai/CSL

[COLING 2022] CSL: A Large-scale Chinese Scientific Literature Dataset 中文科学文献数据集

585 (+26%)

iflytek/cino

CINO: Pre-trained Language Models for Chinese Minority (少数民族语言预训练模型)

221 (+26%)

apache-2.0

cingtiye/Awesome-Open-domain-Dialogue-Models

Awesome Open-domain Dialogue Models，高质量开放域对话模型集合

33 (+22%)

apache-2.0

rime/rime-cantonese

Rime Cantonese input schema | 粵語拼音輸入方案

559 (+18%)

cc-by-4.0

linonetwo/segmentit

任何 JS 环境可用的中文分词包，fork from leizongmin/node-segment

274 (+16%)

mit