Permalink
Please sign in to comment.
Browse files
Use NLTK stopwords, update README (#15)
- Resolve #14 - Partially address #13 - Resolve #17 - Update notebooks to use NLTK stopwords - Add NLTK stopwords
- Loading branch information...
Showing
with
4,979 additions
and 34 deletions.
- +0 −3 Dockerfile
- +24 −14 README.md
- +9 −12 auk-notebook-example.ipynb
- +4 −5 auk-notebook.ipynb
- BIN nltk_data/corpora/stopwords.zip
- +32 −0 nltk_data/corpora/stopwords/README
- +248 −0 nltk_data/corpora/stopwords/arabic
- +165 −0 nltk_data/corpora/stopwords/azerbaijani
- +94 −0 nltk_data/corpora/stopwords/danish
- +101 −0 nltk_data/corpora/stopwords/dutch
- +179 −0 nltk_data/corpora/stopwords/english
- +235 −0 nltk_data/corpora/stopwords/finnish
- +155 −0 nltk_data/corpora/stopwords/french
- +231 −0 nltk_data/corpora/stopwords/german
- +265 −0 nltk_data/corpora/stopwords/greek
- +199 −0 nltk_data/corpora/stopwords/hungarian
- +758 −0 nltk_data/corpora/stopwords/indonesian
- +279 −0 nltk_data/corpora/stopwords/italian
- +380 −0 nltk_data/corpora/stopwords/kazakh
- +255 −0 nltk_data/corpora/stopwords/nepali
- +176 −0 nltk_data/corpora/stopwords/norwegian
- +203 −0 nltk_data/corpora/stopwords/portuguese
- +356 −0 nltk_data/corpora/stopwords/romanian
- +151 −0 nltk_data/corpora/stopwords/russian
- +313 −0 nltk_data/corpora/stopwords/spanish
- +114 −0 nltk_data/corpora/stopwords/swedish
- +53 −0 nltk_data/corpora/stopwords/turkish
Binary file not shown.
@@ -0,0 +1,32 @@ | |||
Stopwords Corpus | |||
|
|||
This corpus contains lists of stop words for several languages. These | |||
are high-frequency grammatical words which are usually ignored in text | |||
retrieval applications. | |||
|
|||
They were obtained from: | |||
http://anoncvs.postgresql.org/cvsweb.cgi/pgsql/src/backend/snowball/stopwords/ | |||
|
|||
The stop words for the Romanian language were obtained from: | |||
http://arlc.ro/resources/ | |||
|
|||
The English list has been augmented | |||
https://github.com/nltk/nltk_data/issues/22 | |||
|
|||
The German list has been corrected | |||
https://github.com/nltk/nltk_data/pull/49 | |||
|
|||
A Kazakh list has been added | |||
https://github.com/nltk/nltk_data/pull/52 | |||
|
|||
A Nepali list has been added | |||
https://github.com/nltk/nltk_data/pull/83 | |||
|
|||
An Azerbaijani list has been added | |||
https://github.com/nltk/nltk_data/pull/100 | |||
|
|||
A Greek list has been added | |||
https://github.com/nltk/nltk_data/pull/103 | |||
|
|||
An Indonesian list has been added | |||
https://github.com/nltk/nltk_data/pull/112 |
@@ -0,0 +1,248 @@ | |||
إذ | |||
إذا | |||
إذما | |||
إذن | |||
أف | |||
أقل | |||
أكثر | |||
ألا | |||
إلا | |||
التي | |||
الذي | |||
الذين | |||
اللاتي | |||
اللائي | |||
اللتان | |||
اللتيا | |||
اللتين | |||
اللذان | |||
اللذين | |||
اللواتي | |||
إلى | |||
إليك | |||
إليكم | |||
إليكما | |||
إليكن | |||
أم | |||
أما | |||
أما | |||
إما | |||
أن | |||
إن | |||
إنا | |||
أنا | |||
أنت | |||
أنتم | |||
أنتما | |||
أنتن | |||
إنما | |||
إنه | |||
أنى | |||
أنى | |||
آه | |||
آها | |||
أو | |||
أولاء | |||
أولئك | |||
أوه | |||
آي | |||
أي | |||
أيها | |||
إي | |||
أين | |||
أين | |||
أينما | |||
إيه | |||
بخ | |||
بس | |||
بعد | |||
بعض | |||
بك | |||
بكم | |||
بكم | |||
بكما | |||
بكن | |||
بل | |||
بلى | |||
بما | |||
بماذا | |||
بمن | |||
بنا | |||
به | |||
بها | |||
بهم | |||
بهما | |||
بهن | |||
بي | |||
بين | |||
بيد | |||
تلك | |||
تلكم | |||
تلكما | |||
ته | |||
تي | |||
تين | |||
تينك | |||
ثم | |||
ثمة | |||
حاشا | |||
حبذا | |||
حتى | |||
حيث | |||
حيثما | |||
حين | |||
خلا | |||
دون | |||
ذا | |||
ذات | |||
ذاك | |||
ذان | |||
ذانك | |||
ذلك | |||
ذلكم | |||
ذلكما | |||
ذلكن | |||
ذه | |||
ذو | |||
ذوا | |||
ذواتا | |||
ذواتي | |||
ذي | |||
ذين | |||
ذينك | |||
ريث | |||
سوف | |||
سوى | |||
شتان | |||
عدا | |||
عسى | |||
عل | |||
على | |||
عليك | |||
عليه | |||
عما | |||
عن | |||
عند | |||
غير | |||
فإذا | |||
فإن | |||
فلا | |||
فمن | |||
في | |||
فيم | |||
فيما | |||
فيه | |||
فيها | |||
قد | |||
كأن | |||
كأنما | |||
كأي | |||
كأين | |||
كذا | |||
كذلك | |||
كل | |||
كلا | |||
كلاهما | |||
كلتا | |||
كلما | |||
كليكما | |||
كليهما | |||
كم | |||
كم | |||
كما | |||
كي | |||
كيت | |||
كيف | |||
كيفما | |||
لا | |||
لاسيما | |||
لدى | |||
لست | |||
لستم | |||
لستما | |||
لستن | |||
لسن | |||
لسنا | |||
لعل | |||
لك | |||
لكم | |||
لكما | |||
لكن | |||
لكنما | |||
لكي | |||
لكيلا | |||
لم | |||
لما | |||
لن | |||
لنا | |||
له | |||
لها | |||
لهم | |||
لهما | |||
لهن | |||
لو | |||
لولا | |||
لوما | |||
لي | |||
لئن | |||
ليت | |||
ليس | |||
ليسا | |||
ليست | |||
ليستا | |||
ليسوا | |||
ما | |||
ماذا | |||
متى | |||
مذ | |||
مع | |||
مما | |||
ممن | |||
من | |||
منه | |||
منها | |||
منذ | |||
مه | |||
مهما | |||
نحن | |||
نحو | |||
نعم | |||
ها | |||
هاتان | |||
هاته | |||
هاتي | |||
هاتين | |||
هاك | |||
هاهنا | |||
هذا | |||
هذان | |||
هذه | |||
هذي | |||
هذين | |||
هكذا | |||
هل | |||
هلا | |||
هم | |||
هما | |||
هن | |||
هنا | |||
هناك | |||
هنالك | |||
هو | |||
هؤلاء | |||
هي | |||
هيا | |||
هيت | |||
هيهات | |||
والذي | |||
والذين | |||
وإذ | |||
وإذا | |||
وإن | |||
ولا | |||
ولكن | |||
ولو | |||
وما | |||
ومن | |||
وهو | |||
يا |
Oops, something went wrong.
0 comments on commit
d1088fa