15 ago 20229 Min. de lectura

Áreas de aplicación de la IA

Hola, mi estimado lector. Espero que te encuentres bien, tanto en el ámbito personal como en el profesional.

Como lo prometido es deuda, hoy te hago llegar a tercera y última parte del artículo sobre la Inteligencia Artificial.

Una vez tratados sus conceptos fundamentales, nos centraremos ahora en sus aplicaciones en el mundo real, el que probablemente te resulte mucho más interesante y práctico que los anteriores; aunque, sin los cuales, no podrías llegar a apreciar todos los avances tecnológicos sobre los cuales se sustenta esta poderosa herramienta

Espero que te agrade su lectura y, como siempre, te espero al final de la misma para hacerte llegar mis reflexiones.

Aquí podes encontrar los artículos anteriores: Definiciones y Ciencia de Datos.

Ciencia de Datos (Parte III)

Áreas de aplicación de la IA

Hay muchos campos diferentes en los que funciona la IA. Pero si tuviera que agrupar en un nivel muy alto algunas de las principales áreas en las que se aplica la inteligencia artificial, me gustaría empezar con el lenguaje natural.

Porque el lenguaje natural es, diría yo, el dato más complejo con el que puede trabajar el aprendizaje automático.

Si ves todo tipo de datos, ya sea una secuencia al genoma, ya sea audio, ya sea imágenes.

Hay algún tipo de patrón discernible. Hay algún tipo de sí, así es como suena un coche o así es como suena la voz humana.

Pero el lenguaje natural es fundamentalmente una tarea muy humana. Es una fuente de datos muy humana. Nosotros, como humanos, lo inventamos para que los humanos lo entendieran.

En primer lugar, los humanos no vemos el lenguaje natural literalmente. Lo vemos conceptualmente. Si escribiera un tres en lugar de una E, lo entenderías porque no nos referimos al tres en un sentido literal. Nos referimos a eso en un sentido simbólico para representar el concepto de E y usted puede contextualizar ese tres para darse cuenta de que; "Sí. Significa una E"; y no un tres real.

Estas son cosas que los ordenadores no son capaces de hacer, así que los lenguajes naturales son el campo que más interesa cuando se trata de aprendizaje automático.

En segundo lugar, diría que el más popular sería el visual. La comprensión de datos visuales, la visión por ordenador. Porque nos permite hacer muchas cosas.

Como humanos, nuestro principal sentido es la visión. De hecho, la mayor parte de la capacidad de procesamiento de nuestro cerebro en un momento dado se destina a entender lo que estamos viendo. Ya sea la cara de una persona, un ordenador, unos textos, o cualquier cosa de ese tipo.

En tercer lugar, los datos basados en el audio. Así que la conversión de texto a voz, de voz a texto, es muy compleja. La razón por la que es complejo es porque combina muchos retos en uno.

Hay que admitir muchos idiomas; no se puede limitar a dar soporte al inglés y darlo por terminado. Hay que dar soporte a otros grupos demográficos.

Otro reto es que, incluso dentro de los idiomas, hay un número absolutamente infinito de formas en que cualquier humano puede representarlos. Todo el mundo va a tener un acento diferente. Todo el mundo va a tener una forma diferente de pronunciar ciertas palabras. No existe una forma estandarizada de que todos los humanos pronuncien "ice cube" exactamente igual que "ice cube". Eso no existe.

Otro desafío importante es que los datos de audio son fundamentalmente muy difíciles de trabajar, porque estos datos de audio existen en el mundo natural.

¿Qué es el audio? Son vibraciones de las moléculas de aire, y estas vibraciones son rápidas. El audio se graba a una velocidad excesiva, 44 kilohercios y eso implica 44.000 puntos de datos por segundo. Como referencia, 44.00 puntos corresponden a una imagen individual de baja resolución.

Pero empresas como IBM, Google o Microsoft han trabajado para superar estos retos y están trabajando en la creación de diferentes servicios que faciliten el trabajo a los desarrolladores.

Así que, resumiendo, ya existen la comprensión del lenguaje natural, la visión por ordenador, los datos de audio y, por supuesto, la comprensión de datos tabulares.

Ello equivale a decir que ya existe la comprensión de datos estructurados.

Procesamiento del lenguaje natural, habla y visión por ordenador

Algunas de las áreas de aplicación más comunes de la IA son el procesamiento del lenguaje natural, el habla y la visión por ordenador.

Con respecto al procesamiento del lenguaje natural, lo primero es saber que los humanos lo tienen ya como el método más avanzado de comunicación.

Mientras que los ellos pueden utilizar los ordenadores para enviarse mensajes de voz y de texto, los ordenadores no saben de forma innata cómo procesar el lenguaje natural.

El procesamiento del lenguaje natural es un subconjunto de la inteligencia artificial que permite a los ordenadores entender el significado del lenguaje humano. Utiliza algoritmos de aprendizaje automático y profundo para discernir el significado semántico de una palabra.

Para ello, deconstruye las frases desde el punto de vista gramatical, relacional y estructural, y comprende el contexto de uso. Por ejemplo, basándose en el contexto de una conversación, la PNL puede determinar si la palabra "Nube" se refiere a la computación en nube o a la masa de vapor de agua condensado que flota en el cielo.

Los sistemas de PNL también pueden entender la intención y la emoción, por ejemplo, si se está haciendo una pregunta por frustración, confusión o irritación.

La PNL infiere mediante una amplia gama de modelos lingüísticos y algoritmos; y el proceso se divide en muchas subcategorías con las tareas auditivas y visuales.

Para que los ordenadores se comuniquen en lenguaje natural, tienen que ser capaces de convertir el habla en texto y que la comunicación sea más natural y fácil de procesar. También tienen que ser capaces de convertir el texto en voz, para que los usuarios interactúen con los ordenadores sin tener que mirar fijamente a una pantalla.

Las iteraciones más antiguas de la tecnología de conversión de voz en texto requieren que los programadores pasen por el tedioso proceso de descubrir y codificar las reglas de clasificación y conversión de las muestras de voz en texto.

Con las redes neuronales, en lugar de codificar las reglas, se proporcionan muestras de voz y su correspondiente texto.

La red neuronal encuentra los patrones comunes entre la pronunciación de las palabras y luego aprende a asignar nuevas grabaciones de voz a sus textos correspondientes.

Estos avances en la tecnología de voz a texto son la razón por la que tenemos transcripción en tiempo real. Google utiliza la tecnología de conversión de voz a texto con IA en su función de pantalla de llamada para gestionar las llamadas fraudulentas y mostrar el texto de la persona que habla en tiempo real. YouTube lo utiliza para ofrecer subtítulos automáticos.

La otra cara de la conversión de voz en texto es la conversión de texto en voz, también conocida como síntesis de voz. Antes, la creación de un modelo de voz requería cientos de horas de codificación. Ahora, con la ayuda de las redes neuronales, es posible sintetizar la voz humana.

En primer lugar, una red neuronal ingiere numerosas muestras de la voz de una persona hasta que puede decir si una nueva muestra de voz pertenece a la misma persona.

A continuación, una segunda red neuronal genera datos de audio y los pasa por la primera red para ver si los valida como pertenecientes al sujeto.

Si no lo hace, el generador corrige su muestra y la vuelve a pasar por el clasificador.

Las dos redes repiten el proceso hasta generar muestras que suenen naturales.

Las empresas utilizan la síntesis de voz impulsada por la IA para mejorar la experiencia del cliente y dar a sus marcas su voz única.

En el campo de la medicina, esta tecnología está ayudando a los pacientes con esclerosis lateral amiotrófica a recuperar su verdadera voz en lugar de utilizar una voz computarizada.

El campo de la visión por ordenador se centra en replicar partes de la complejidad del sistema visual humano y permitir a los ordenadores identificar y procesar objetos en imágenes y vídeos, de la misma manera que lo hacen los humanos.

La visión por ordenador es una de las tecnologías que permite al mundo digital interactuar con el mundo físico.

Este campo ha dado grandes saltos en los últimos años y supera a los humanos en tareas relacionadas con la detección y etiquetado de objetos, gracias a los avances en el aprendizaje profundo y las redes neuronales.

Esta tecnología permite a los coches autoconducidos dar sentido a su entorno y desempeña un papel vital en las aplicaciones de reconocimiento facial, que permiten a los ordenadores hacer coincidir las imágenes de los rostros de las personas con sus identidades.

También desempeña un papel crucial en la realidad aumentada y mixta.

La tecnología que permite a los dispositivos informáticos, como los teléfonos inteligentes, las tabletas y las gafas inteligentes, superponer e incrustar objetos virtuales en imágenes del mundo real

Las bibliotecas fotográficas en línea, como Google Photos, utilizan la visión por ordenador para detectar objetos y clasificar las imágenes por el tipo de contenido que contienen.

Coches de autoconducción

En los últimos años se ha estado trabajando intensamente en este campo, el que ha explotado, obviamente, en interés desde las primeras competiciones en 2005.

Uno de los principales campos de investigación ha sido la detección de objetos en 3D, la que sigue siendo una tarea difícil para los algoritmos que se realizan de forma automática. Hay que identificar cada vehículo, cada peatón, cada señal que hay en un entorno de conducción para que el vehículo pueda tomar las decisiones correctas sobre cómo debe moverse e interactuar con ellos.

Se trabajó en la toma de datos láser, de visión y de radar; y luego se fusionaron en una visión completa del mundo que rodea al vehículo.

Es difícil prestar atención cuando se conduce por la carretera, ya que no se puede estar mirando el smartphone y la carretera al mismo tiempo. Y, por supuesto, a veces también es difícil predecir lo que la gente va a hacer en la calle, cuando la quieren cruzar a pie, con su bicicleta, su monopatín, o lo que sea.

Es fundamental contar con algún tipo de cámara o sensor que ayude a detectar estas situaciones y prevenir accidentes.

Una de las limitaciones de la visión humana es la atención visual.

No se puede atender a todo lo que hay alrededor del campo visual del conductor, como sí podrían hacerlo una cámara o la visión por ordenador.

Estas últimas ayudan a prestar atención a todo el mundo que rodea al conductor, sin que este tenga que mirar a su alrededor.

Eso es lo que ocurre en los coches autoconducidos, que son un ejemplo de cómo la IA y la visión por ordenador dan forma a la industria de la conducción y el transporte.

Hoy hay un enorme interés en los vehículos de autoconducción debido a su potencial para cambiar realmente la forma en que nuestra sociedad funciona y opera.

Ellos representan un paso adelante realmente importante, pero aún queda mucho por hacer; muchos retos interesantes que resolver antes de tener coches realmente robustos y seguros que sean capaces de conducir por sí mismos el 100% del tiempo de forma autónoma en nuestras carreteras.

Resumen

- El procesamiento del lenguaje natural (PLN) es un subconjunto de la inteligencia artificial que permite a los ordenadores comprender el significado del lenguaje humano, incluyendo la intención y el contexto de uso.

- La conversión de voz a texto permite a las máquinas convertir el habla en texto, identificando patrones comunes en las diferentes pronunciaciones de una palabra, asignando nuevas muestras de voz a las palabras correspondientes.

- La síntesis del habla permite a las máquinas crear modelos de voz que suenen naturales de sonido natural, incluida la voz de determinadas personas.

- La visión por ordenador permite a las máquinas identificar y diferenciar objetos en objetos en las imágenes de la misma manera que lo hacen los humanos.

- Los coches auto conducidos son una aplicación de la IA que puede utilizar la PNL, el habla y, sobre todo, la visión por ordenador.

Hola, te estaba esperando para compartir mis reflexiones.

En este capítulo vimos como las áreas de aplicación de la “Ciencia de Datos” son, virtualmente, infinitas; y como recién estamos presenciando los inicios de su espectacular evolución.

Sabemos que los medios de comunicarnos mediante aplicaciones informáticas con estas entidades ya plantean hoy un gran reto, pero al mismo tiempo, ofrecen una inmensa oportunidad para quienes se decidan a incursionar en este campo.

Nuestra intención, de ahora en más, es poner al alcance de esta población de jóvenes y otros que no lo son tanto, todo el material al que podamos acceder en internet, bibliografía, cursos, etc, para facilitarles su carrera.

Esperemos que te puedas sumar a nuestra causa, convirtiéndote en un miembro activo de Trazando Surcos y al mismo tiempo, un asiduo lector de nuestros artículos.

Creemos que así podremos dejar nuestras huellas para quienes nos sucedan e integren nuestra querida sociedad tan postergada y vulnerable.

¡Ahora me gustaría conocer tu honesta opinión con respecto a este artículo!

La próxima semana podrás encontrar el siguiente artículo relacionado a la IA.

Áreas de aplicación de la IA

Ciencia de Datos (Parte III)

Commentaires

¿Te gustaría recibir el newsletter/boletín informativo de Trazando Surcos?

Contactanos a melisa@trazandosurcos.com