Proyecto Oxford: Microsoft ofrece API para aplicaciones inteligentes

Microsoft anunció la primavera pasada el Proyecto Oxford, un conjunto de SDK y API que permiten a los desarrolladores crear aplicaciones “inteligentes” sin tener que aprender a aprender a usar máquinas. Con las API de rostro, voz y visión de Oxford, los desarrolladores pueden crear aplicaciones que reconocen rasgos faciales, analizan imágenes o realizan traducciones de voz a texto o de texto a voz.

En una entrevista con el editor en Large Paul Krill, Ryan Galgon de Microsoft, gerente senior de programas responsable de la plataforma y las tecnologías del Proyecto Oxford, habló sobre los objetivos detrás de Oxford, enfatizando su potencial en la Internet de las cosas.

: ¿Quién está creando aplicaciones de Oxford? ¿Para quién es Oxford?

Galgon: Mucha gente ha venido y se ha registrado para los servicios de API. Los números exactos [no son] algo en lo que pueda entrar, pero hemos creado muchas cuentas de Azure, muchas suscripciones a través de nuestro Microsoft Azure Marketplace. La gente está pateando los neumáticos por los servicios, además de hacer un mayor uso de los servicios. En este momento, todos se ofrecen mensualmente como un nivel gratuito limitado, y estamos trabajando para abrirlo a medida que recibimos comentarios sobre los cambios que los desarrolladores quieren que se realicen en las API y los modelos.

Todo es multiplataforma, en el sentido de que es un conjunto de servicios web a los que se accede principalmente a través de una interfaz API REST. Cualquier persona que pueda contactar un sitio web puede llamar a estos servicios de back-end. Proporcionamos un conjunto de SDK, que envuelven esas llamadas REST y las hacen más fáciles de usar en clientes como Android, Windows e iOS. Cualquier cosa que pueda realizar una llamada web HTTP puede llamar a los servicios.

: ¿Prevé que Oxford se utilice principalmente en dispositivos móviles o en escritorios con Windows?

Galgon:  Será principalmente una combinación de probablemente dispositivos móviles e IoT. En el sentido de que cuando la gente usa computadoras de escritorio, la gran mayoría de los usos que veo, estás sentado allí, tienes el teclado y el mouse y ese tipo de entrada. Pero cuando tienes un teléfono móvil, estás capturando fotos, video y audio. Es mucho más fácil y natural capturar eso con un dispositivo pequeño. [Se utilizará la tecnología del Proyecto Oxford] donde el caso de entrada dominante será un dato natural, no solo números sino algún tipo de tipo de datos visuales o de audio.

: Cuéntenos más sobre estas API. ¿Cuáles son algunas de las cosas que pueden hacer los desarrolladores?

Galgon: Como queremos llegar a la mayor cantidad de desarrolladores posible, hemos trabajado mucho para hacerlos muy fáciles de usar, [para] cosas como detección de rostros o visión por computadora, categorización de imágenes. Esas cosas están capacitadas y modeladas, creadas por personas con años de profunda experiencia en investigación en esos lugares y no queremos que los desarrolladores tengan que convertirse en expertos en visión por computadora. Realmente hemos intentado decir: "Mira, vamos a crear el mejor modelo que podamos crear y ponerlo a tu disposición y hacerlo accesible en tres líneas de código para ti".

No puedo hablar sobre cómo los socios externos están considerando hacer uso de las API de Oxford, pero las principales en las que Microsoft ha trabajado, que tal vez hayas visto, el primero fue el sitio How-old.net para predecir edades. y géneros. Luego tuvimos TwinsorNot.net, y se le dieron dos fotos, ¿qué tan similares son estas personas? Ambos fueron buenos ejemplos de las API de Face. El último, que utilizó Face API y algunas Speech API, fue un proyecto de Windows 10 IoT sobre el que se escribieron algunas publicaciones de blog sobre las que podía abrir una puerta con la cara y conversar con la puerta, o la cerradura, en ese caso. Creo que esos son tres ejemplos en los que Microsoft ha trabajado para mostrarles que aquí hay un tipo de aplicación que se puede construir y compartir con otras personas.

: Bajo estas API REST, ¿qué hace que Oxford funcione?

Galgon: El núcleo son los modelos de aprendizaje automático que creamos para cosas como la conversión de voz a texto. Ya sea que acceda a él a través de una API REST, o con voz a texto, también puede acceder a él a través de una conexión de enchufe web, la magia o lo poderoso es este modelo que puede tomar audio de alguien que habla y un idioma en el que está y traducirlo a formato de texto. Eso es lo principal que hace que Oxford funcione como un todo.

: ¿Por qué Project Oxford es independiente del proyecto Azure Machine Learning?

Galgon:  en Azure Machine Learning, uno de los componentes principales es Azure Machine Learning Studio, donde las personas pueden ingresar con sus datos, crear un experimento, entrenar su propio modelo y luego hospedar ese modelo. Con Oxford, este es un modelo prediseñado que tiene Microsoft, un modelo que vamos a seguir mejorando en el futuro y permitimos que la gente use ese modelo sobre estas interfaces REST.

: ¿Qué tipo de uso empresarial considera para Project Oxford? ¿Cuál es el caso de negocio para las aplicaciones de Oxford?

Galgon:No hay socios específicos de los que realmente pueda hablar en este momento, pero creo que uno de los casos en los que hemos visto mucho interés, donde personalmente veo muchos casos de uso, es cuando se trata de Internet de las cosas. dispositivos conectados. Cuando miro la forma en que las personas ven la construcción de dispositivos de IoT, no tienes un teclado y un mouse y, a menudo, incluso un monitor real asociado con todos estos dispositivos, pero es fácil colocar un micrófono allí y es bastante fácil. para pegar una cámara allí también. Si combina algo como las API de voz y LUIS (Language Understanding Intelligent Service), entonces un dispositivo que solo tiene un micrófono y ninguna otra forma de entrada, ahora puede hablar con él, decirle lo que quiere hacer, traducir eso a un conjunto de acciones estructuradas y hacer uso de eso en el back-end.Ahí es donde creo que veremos muchos casos de uso de las API de Oxford.

: Mencionaste iOS y Android. ¿Cuál ha sido la aceptación en esas plataformas?

Galgon: Al hacer que las API sean RESTful y proporcionarles estos contenedores, definitivamente hemos visto a personas que descargan esos contenedores y los utilizan. Pero al final del día, resulta ser, "Aquí hay una envoltura de lenguaje Java alrededor de una llamada web", "Aquí hay una envoltura de Objective-C en una llamada web". No tenemos mucha información sobre cuál es el dispositivo exacto que está haciendo la llamada.

: ¿Oxford será de código abierto?

Galgon: No planeamos abrir los modelos centrales, y no tengo nada que compartir sobre eso porque seguimos actualizando los modelos con el tiempo. Los SDK que proporcionamos, ya que son envoltorios de esas llamadas REST, ese código fuente está ahí y está disponible para descargar para cualquier persona hoy desde el sitio web. Pero, de nuevo, eso es un envoltorio oculto de las cosas y, de hecho, hemos visto personas en los foros de MSDN que han estado proporcionando fragmentos de código en diferentes idiomas.

: ¿Cómo planea Microsoft ganar dinero con Oxford?

Galgon: Las API en Marketplace son todas gratuitas hoy para un uso limitado, por lo que obtiene 5,000 transacciones de API al mes. Ese es el único plan que tenemos disponible ahora. En el futuro, implementaremos planes pagos basados ​​en el uso de las API.

: ¿Qué sigue para Oxford?

Galgon: A donde vamos desde aquí son realmente tres áreas. La primera área trata de actualizar y mejorar los modelos existentes. Recibimos comentarios de los desarrolladores [sobre cómo] una de las API podría no funcionar bien con ciertos tipos de imágenes. Mejoraremos el modelo central allí.

Una de las otras cosas que haremos es que seguiremos ampliando la cantidad de funciones devueltas de los modelos. Hoy en día, Face API le brinda la edad y el género pronosticados. Hemos visto muchas solicitudes para poder reconocer otro contenido dentro de las imágenes.

La tercera área es que ampliaremos la cartera de API que tenemos. Tenemos cuatro hoy, pero definitivamente no hemos terminado. No creemos que todo el espacio que queremos brindar o las herramientas que queremos brindar esté completo todavía. Seguiremos agregando nuevas API que pueden manejar diferentes tipos de datos o pueden proporcionar tipos muy diferentes de comprensión de datos naturales que los que brindamos hoy.