Apache OpenNLP
Apache OpenNLP
| ||||
Ontwikkelaar | Apache Software Foundation | |||
Uitgebracht | 2004 | |||
Status | Actief | |||
Besturingssysteem | Unix, BSD, Linux, macOS, Windows | |||
Geschreven in | Java | |||
Categorie | Machinaal leren | |||
Licentie | Apache License 2.0 | |||
Website | (en) Officiële website | |||
|
Apache OpenNLP is een toolkit die Machinaal leren gebruikt voor Natural language processing. Het ondersteunt de meest voorkomende taken in NLP, zoals taaldetectie, tokenisatie, zinssegmentatie, Part-of-speech tagging, named entity extractie, chunking, parsing en coreferentie resolutie. Dit soort taken zijn meestal nodig om meer geavanceerde tekstverwerkingsdiensten te ontwikkelen.
De bibliotheek is geschreven in Java en kan gemakkelijk geïntegreerd worden in Java-projecten of projecten die gebruik maken van de Java Virtual Machine (JVM).[1].
Details[bewerken]
- Taalidentificatie: de 'LanguageDetector' vereist een getraind model. OpenNLP zelf biedt het volledig getrainde model langdetect-183.bin aan als download. Dit kan 103 talen identificeren.[2].
- Zinherkenning: De 'SentenceDetector' herkent of een punt het einde van een zin markeert of dat het een andere betekenis heeft. Ook hier is de specificatie van een getraind sjabloon vereist. OpenNLP biedt sjablonen voor verschillende talen, bijvoorbeeld opennlp-nl-ud-alpino-sentence-1.2-2.5.0.bin voor het herkennen van zinnen in Italiaanse teksten.[3].
- Tokenisatie: de tokenizer verdeelt een tekenreeks in tokens. Tokens zijn meestal woorden, leestekens, getallen, enz.
- Part-of-speech labelling: OpenNLP heeft een selectie van voorgetrainde sjablonen voor 32 talen (Duits, Engels, Spaans, Portugees, Deens, enz.). Deze sjablonen kunnen gebruikt worden om een tekstcorpus automatisch in één van deze talen te labelen.[4]
- Extractie van naamentiteiten: De 'TokenNameFinder' kan genoemde entiteiten en getallen in tekst herkennen. Er is een sjabloon nodig om entiteiten te herkennen. Het model is afhankelijk van de taal en het type entiteit waarvoor het getraind is. Het OpenNLP-project biedt een reeks vooraf getrainde modellen die zijn getraind op verschillende vrij beschikbare corpora. Deze kunnen gedownload worden van de template downloadpagina.
Zie ook[bewerken]
Externe link[bewerken]
- (en) Officiële website
Bronnen, noten en/of referenties
|
Dit artikel "Apache OpenNLP" is uit Wikipedia. De lijst van zijn auteurs is te zien in zijn historische en/of op de pagina Edithistory:Apache OpenNLP.