India employs AI to capture data from its 121 languages

Villagers in Karnataka contribute to building India's first AI-based chatbot for tuberculosis by reading sentences in their native Kannada.

[{"selector":"#anim-ce43542f-9e9c-469f-b065-35a496053ca3","keyframes":{"transform":["translate3d(-119.59459%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-ca00a8be-35ff-42fd-8dd1-fc359cbef3e5","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-e0309054-af3c-44b9-b6af-e645a99bc8fc","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

Limited coverage of regional languages in AI poses challenges, excluding millions from information access and economic opportunities.

[{"selector":"#anim-bfcb8732-66a4-4f9a-aec8-79129f6c925d","keyframes":{"transform":["translate3d(-122.97297%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-9be3e3bc-81c7-4c2f-b8c5-c552412da855","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-75b9430d-8bf4-4e6e-8d0b-bbdea407c933","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

Crowdsourcing aids tech firm Karya in collecting diverse speech data for Microsoft and Google, while the Indian government uses Bhashini for language datasets.

[{"selector":"#anim-979f8491-2fd7-46c4-abb1-afaa5aa01b22","keyframes":{"transform":["translate3d(-119.34426%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-707666ac-dd25-4dc2-8b6e-c3bba73a554d","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-6ecd9c3b-77c5-4bb3-8533-87b3e23cc5ba","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

Challenges in data collection for Indian languages include an oral tradition, scarcity of electronic records, and code mixing.

[{"selector":"#anim-da64b5b8-e0f0-4304-aa2c-f1061898396a","keyframes":{"transform":["translate3d(-126.00732%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-b229fc01-4b52-448e-aef0-5cf24efe40d8","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-ab0f1182-ed3f-40cc-af91-adf84c9b3c4a","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

Inclusive economic models, such as Karya's, pay workers below the poverty line for generating data, providing potential for community-driven AI products in healthcare and farming.

[{"selector":"#anim-af43cf1a-5e5d-48de-8104-922d03a489c7","keyframes":{"transform":["translate3d(-123.38983%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-14aef8db-5331-4be1-b94a-a9c71652415c","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-a39a1bd7-5213-4367-a4e6-b75f4156a811","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

India employs AI to capture data from its 121 languages

Villagers in Karnataka contribute to building India's first AI-based chatbot for tuberculosis by reading sentences in their native Kannada.

Limited coverage of regional languages in AI poses challenges, excluding millions from information access and economic opportunities.

Crowdsourcing aids tech firm Karya in collecting diverse speech data for Microsoft and Google, while the Indian government uses Bhashini for language datasets.

Challenges in data collection for Indian languages include an oral tradition, scarcity of electronic records, and code mixing.

Inclusive economic models, such as Karya's, pay workers below the poverty line for generating data, providing potential for community-driven AI products in healthcare and farming.

Read more stories.